排行榜
基于模型测速结果的性能排行榜,对比不同 Provider 和端点的模型表现。
平均每秒输出的 Token 数,越高越好。
| 排名 | Provider | 模型 | 输出速度 | 平均首字延迟 | 次数 |
|---|---|---|---|---|---|
| 1 | gemini-2.5-flash | 104600.84 t/s 最佳: 115213.03最差: 81275.31 | 19.21s | 5 | |
| 2 | jimmy | 101506.95 t/s 最佳: 145658.50最差: 13204.57 | 0.59s | 5 | |
| 3 |
| jimmy |
86213.91 t/s 最佳: 138352.88最差: 42053.25 |
0.58s |
| 10 |
| 4 | translate-model | 31767.17 t/s 最佳: 48227.39最差: 13109.67 | 1.06s | 5 |
| 5 | gemini-3-pro | 14970.09 t/s 最佳: 17228.53最差: 9361.83 | 3.36s | 5 |
| 6 | echo | 6152.15 t/s 最佳: 22934.12最差: 506.54 | 0.75s | 15 |
| 7 | grok-imagine-1.0-fast | 4998.02 t/s 最佳: 7933.91最差: 1462.69 | 4.80s | 15 |
| 8 | mercury-2 | 1653.71 t/s 最佳: 6228.40最差: 371.89 | 2.50s | 5 |
| 9 | mercury-2 | 1653.71 t/s 最佳: 6228.40最差: 371.89 | 2.50s | 5 |
| 10 | llama3.1-8B | 1421.44 t/s 最佳: 2829.11最差: 100.62 | 0.94s | 10 |
| 11 | 快速/llama3.1-8B | 1258.69 t/s 最佳: 2172.93最差: 595.62 | 1.24s | 15 |
| 12 | llama3.1-8b | 731.95 t/s 最佳: 1144.52最差: 67.76 | 1.17s | 15 |
| 13 | inception/mercury | 386.10 t/s 最佳: 525.30最差: 123.95 | 1.26s | 15 |
| 14 | nvidia/nemotron-3-nano-30b-a3b | 246.87 t/s 最佳: 299.20最差: 195.73 | 1.15s | 5 |
| 15 | gcli-gemini-2.5-flash | 202.50 t/s 最佳: 249.46最差: 145.06 | 9.33s | 5 |
| 16 | meta/llama-3.1-8b-instruct | 200.27 t/s 最佳: 209.02最差: 192.35 | 0.42s | 15 |
| 17 | gemini-2.5-flash | 186.47 t/s 最佳: 322.42最差: 123.16 | 9.77s | 10 |
| 18 | gemini-2.5-flash | 185.65 t/s 最佳: 241.24最差: 145.00 | 10.41s | 5 |
| 19 | gemini-2.5-flash | 177.77 t/s 最佳: 222.97最差: 134.50 | 17.34s | 5 |
| 20 | translate-model | 169.06 t/s 最佳: 282.13最差: 69.51 | 1.17s | 5 |
| 21 | qwen3-coder-next | 132.13 t/s 最佳: 186.52最差: 101.86 | 4.36s | 5 |
| 22 | qwen3-coder-next | 132.13 t/s 最佳: 186.52最差: 101.86 | 4.36s | 5 |
| 23 | stepfun/step-3.5-flash:free | 126.56 t/s 最佳: 184.37最差: 98.47 | 9.46s | 5 |
| 24 | claude-sonnet-4-5-20250929 | 125.92 t/s 最佳: 181.38最差: 93.14 | 1.27s | 5 |
| 25 | grok-4 | 125.14 t/s 最佳: 185.94最差: 80.98 | 3.54s | 5 |
| 26 | gemini-3-pro-poe | 103.53 t/s 最佳: 115.29最差: 85.06 | 13.75s | 5 |
| 27 | auto-translator | 103.35 t/s 最佳: 214.60最差: 63.64 | 0.70s | 10 |
| 28 | grok-4.1-fast | 99.38 t/s 最佳: 128.20最差: 82.86 | 1.37s | 5 |
| 29 | zhipu/glm-4.6v-flash | 95.24 t/s 最佳: 172.17最差: 0.00 | 6.38s | 5 |
| 30 | ibm/granite-guardian-3.0-8b | 93.66 t/s 最佳: 133.93最差: 55.74 | 0.61s | 10 |
| 31 | qwen/qwen2.5-7b | 90.28 t/s 最佳: 110.81最差: 36.90 | 0.92s | 5 |
| 32 | Pro/MiniMaxAI/MiniMax-M2.5 | 85.18 t/s 最佳: 89.25最差: 72.91 | 6.00s | 5 |
| 33 | qwen3.5-plus | 73.24 t/s 最佳: 95.82最差: 56.44 | 12.66s | 10 |
| 34 | qwen3.5-plus | 73.24 t/s 最佳: 95.82最差: 56.44 | 12.66s | 10 |
| 35 | grok-4.1-mini | 73.19 t/s 最佳: 102.55最差: 53.30 | 7.00s | 5 |
| 36 | MiniMax-M2.5 | 72.72 t/s 最佳: 112.99最差: 40.63 | 18.43s | 10 |
| 37 | MiniMax-M2.5 | 72.72 t/s 最佳: 112.99最差: 40.63 | 18.43s | 10 |
| 38 | Qwen/Qwen3-VL-32B-Thinking | 60.96 t/s 最佳: 81.95最差: 42.79 | 22.31s | 5 |
| 39 | gpt-5.2 | 57.02 t/s 最佳: 93.80最差: 34.64 | 4.60s | 5 |
| 40 | qwen-3.5-plus | 55.05 t/s 最佳: 65.34最差: 42.13 | 3.10s | 5 |
| 41 | zhipu/glm-4v-flash | 54.32 t/s 最佳: 62.73最差: 44.56 | 0.53s | 5 |
| 42 | zhipu/glm-4.7-flash | 53.60 t/s 最佳: 93.91最差: 0.00 | 25.49s | 25 |
| 43 | google/gemma-3-27b | 53.59 t/s 最佳: 54.87最差: 52.53 | 1.23s | 5 |
| 44 | zhipu/glm-4-9b | 52.73 t/s 最佳: 57.98最差: 41.24 | 0.64s | 5 |
| 45 | google/gemma-3-27b | 52.12 t/s 最佳: 56.48最差: 47.60 | 4.29s | 10 |
| 46 | claude-sonnet-4-6 | 48.66 t/s 最佳: 68.32最差: 37.12 | 1.94s | 5 |
| 47 | Pro/deepseek-ai/DeepSeek-V3.2 | 47.80 t/s 最佳: 57.78最差: 36.04 | 32.32s | 5 |
| 48 | claude-sonnet-4-6 | 46.71 t/s 最佳: 65.13最差: 32.60 | 1.07s | 5 |
| 49 | Mimo-v2-Flash | 46.11 t/s 最佳: 170.56最差: 0.00 | 1.21s | 75 |
| 50 | GPT-5.3 Codex Spark | 45.83 t/s 最佳: 54.82最差: 37.09 | 1.67s | 5 |