排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
平均每秒输出的 Token 数,越高越好。
| 排名 | Provider | 模型 | 输出速度 | 平均首字延迟 | 次数 |
|---|---|---|---|---|---|
| 1 | nvidia/nemotron-3-super-120b-a12b | 141869.96 t/s 最佳: 192828.02最差: 69462.38 | 29.75s | 5 | |
| 2 | claude-sonnet-4-6 | 27433.35 t/s 最佳: 35880.34最差: 16028.38 | 3.78s | 5 | |
| 3 |
| gemini-3-flash |
18164.29 t/s 最佳: 20964.26最差: 15845.12 |
2.61s |
| 5 |
| 4 | anthropic/claude-sonnet-4.6 | 17475.88 t/s 最佳: 19734.29最差: 16106.50 | 2.59s | 5 |
| 5 | MiniMax/MiniMax-M2.5 | 16758.57 t/s 最佳: 44887.94最差: 37.55 | 20.81s | 5 |
| 6 | google/gemini-3-flash | 16435.04 t/s 最佳: 18022.56最差: 14408.37 | 2.62s | 5 |
| 7 | [超低价]claude-opus-4.6 | 3038.71 t/s 最佳: 6317.46最差: 72.42 | 25.31s | 10 |
| 8 | [无缓]claude-opus-4-6 | 2393.57 t/s 最佳: 4816.37最差: 120.42 | 15.69s | 5 |
| 9 | llama3.1-8b | 2286.66 t/s 最佳: 3110.22最差: 1557.57 | 0.58s | 10 |
| 10 | deepseek-chat | 1483.58 t/s 最佳: 2652.21最差: 934.40 | 8.75s | 10 |
| 11 | kimi-k2.5 | 1231.67 t/s 最佳: 1946.34最差: 793.17 | 1.29s | 5 |
| 12 | qwen-3-235b-a22b-instruct-2507 | 910.42 t/s 最佳: 1437.04最差: 558.03 | 0.63s | 5 |
| 13 | Translation | 378.97 t/s 最佳: 700.15最差: 152.75 | 2.56s | 5 |
| 14 | PaddlePaddle/PaddleOCR-VL-1.5 | 313.91 t/s 最佳: 492.21最差: 76.83 | 3.03s | 5 |
| 15 | gpt-5-nano | 263.38 t/s 最佳: 756.35最差: 110.70 | 14.07s | 5 |
| 16 | grok-4.20-0309-reasoning | 225.06 t/s 最佳: 251.82最差: 189.16 | 3.13s | 5 |
| 17 | openai/gpt-oss-120b | 212.52 t/s 最佳: 268.03最差: 104.91 | 0.46s | 5 |
| 18 | gpt-5.1-codex-mini | 205.07 t/s 最佳: 461.52最差: 84.84 | 13.94s | 5 |
| 19 | minimax-m-2-5 | 165.10 t/s 最佳: 1337.43最差: 30.80 | 10.60s | 15 |
| 20 | askcodi/gemini-3-flash | 157.78 t/s 最佳: 240.29最差: 83.05 | 6.18s | 15 |
| 21 | qwen3.5-flash | 150.45 t/s 最佳: 204.23最差: 115.87 | 7.34s | 10 |
| 22 | gemma4:e2b | 141.48 t/s 最佳: 185.39最差: 24.09 | 6.97s | 20 |
| 23 | gpt-5-nano-2025-08-07 | 139.84 t/s 最佳: 178.87最差: 86.33 | 10.26s | 5 |
| 24 | Qwen/Qwen3.5-9B | 136.59 t/s 最佳: 156.10最差: 123.56 | 7.99s | 5 |
| 25 | Qwen/Qwen3.5-9B | 136.59 t/s 最佳: 156.10最差: 123.56 | 7.99s | 5 |
| 26 | claude-opus-4-6 | 112.88 t/s 最佳: 140.74最差: 83.67 | 2.19s | 5 |
| 27 | British-Shorthair | 111.75 t/s 最佳: 167.50最差: 96.22 | 4.52s | 5 |
| 28 | mimo-v2-flash | 110.54 t/s 最佳: 138.72最差: 72.96 | 0.83s | 5 |
| 29 | inclusionAI/Ring-flash-2.0 | 108.49 t/s 最佳: 116.22最差: 95.76 | 6.43s | 5 |
| 30 | qwen/qwen3-next-80b-a3b-thinking | 106.61 t/s 最佳: 124.07最差: 89.48 | 12.14s | 5 |
| 31 | Qwen/Qwen2.5-7B-Instruct | 106.01 t/s 最佳: 130.23最差: 86.08 | 0.61s | 5 |
| 32 | zhipu/glm-4.6v-flash | 104.39 t/s 最佳: 201.11最差: 51.39 | 10.30s | 15 |
| 33 | 酒馆-Flash-New | 101.00 t/s 最佳: 142.72最差: 69.31 | 2.38s | 5 |
| 34 | qwen-vl-plus-2025-05-07 | 99.19 t/s 最佳: 101.15最差: 97.68 | 0.88s | 5 |
| 35 | gpt-4o-mini-2024-07-18 | 93.87 t/s 最佳: 106.51最差: 66.28 | 13.37s | 5 |
| 36 | zhipu/glm-4.1v-thinking-flash | 93.82 t/s 最佳: 125.35最差: 15.13 | 7.04s | 15 |
| 37 | gpt-5.2-codex | 90.69 t/s 最佳: 144.35最差: 40.06 | 1.76s | 5 |
| 38 | THUDM/GLM-4-9B-0414 | 89.85 t/s 最佳: 99.65最差: 82.88 | 0.28s | 5 |
| 39 | minimax-m2.5 | 89.77 t/s 最佳: 833.76最差: 25.24 | 11.58s | 15 |
| 40 | gpt-5.4 | 89.49 t/s 最佳: 217.80最差: 51.67 | 5.48s | 5 |
| 41 | model-router | 88.42 t/s 最佳: 137.73最差: 61.52 | 11.51s | 5 |
| 42 | gpt-5.4 | 88.14 t/s 最佳: 160.51最差: 57.97 | 4.56s | 5 |
| 43 | qwen/qwen2.5-7b | 87.73 t/s 最佳: 155.40最差: 17.55 | 0.94s | 40 |
| 44 | claude-sonnet-4-6 | 85.69 t/s 最佳: 147.23最差: 37.05 | 1.83s | 10 |
| 45 | MiniMax-M2.5 | 85.29 t/s 最佳: 99.26最差: 63.10 | 17.74s | 5 |
| 46 | Pro/MiniMaxAI/MiniMax-M2.5 | 85.17 t/s 最佳: 111.29最差: 62.78 | 10.57s | 10 |
| 47 | Qwen/QwQ-32B | 84.50 t/s 最佳: 107.79最差: 56.52 | 9.00s | 5 |
| 48 | stepfun-ai/Step-3.5-Flash | 84.22 t/s 最佳: 91.73最差: 75.16 | 3.37s | 5 |
| 49 | gemma-4-26B-A4B-it-UD-IQ4_NL.gguf | 83.64 t/s 最佳: 87.19最差: 80.18 | 10.52s | 5 |
| 50 | gemma-4-26B-A4B-it-UD-IQ4_NL.gguf | 83.64 t/s 最佳: 87.19最差: 80.18 | 10.52s | 5 |