排行榜
基于模型测速结果的性能排行榜,对比不同 Provider 和端点的模型表现。
生成首个 Token 的平均时间,越低越好。
| 排名 | Provider | 模型 | 首字延迟 | 平均输出速度 | 次数 |
|---|---|---|---|---|---|
| 1 | meta/llama-3.1-8b-instruct | 0.42 s 最佳: 0.39最差: 0.45 | 200.27t/s | 15 | |
| 2 | zhipu/glm-4v-flash | 0.53 s 最佳: 0.33最差: 0.99 | 54.32t/s | 5 | |
| 3 |
| jimmy |
0.58 s 最佳: 0.42最差: 1.18 |
86213.91t/s |
| 10 |
| 4 | google/gemma-7b | 0.59 s 最佳: 0.47最差: 0.99 | 45.13t/s | 5 |
| 5 | jimmy | 0.59 s 最佳: 0.46最差: 1.07 | 101506.95t/s | 5 |
| 6 | ibm/granite-guardian-3.0-8b | 0.61 s 最佳: 0.54最差: 1.15 | 93.66t/s | 10 |
| 7 | zhipu/glm-4-9b | 0.64 s 最佳: 0.46最差: 0.80 | 52.73t/s | 5 |
| 8 | auto-translator | 0.70 s 最佳: 0.49最差: 1.19 | 103.35t/s | 10 |
| 9 | qwen/qwen3.5-397b-a17b | 0.71 s 最佳: 0.35最差: 1.36 | 23.36t/s | 5 |
| 10 | echo | 0.75 s 最佳: 0.55最差: 1.49 | 6152.15t/s | 15 |
| 11 | deepseek-ai/DeepSeek-V3.2 | 0.80 s 最佳: 0.41最差: 1.40 | 21.76t/s | 10 |
| 12 | zhipu/glm-4-flash | 0.82 s 最佳: 0.58最差: 1.23 | 27.94t/s | 5 |
| 13 | qwen/qwen2.5-7b | 0.92 s 最佳: 0.38最差: 2.17 | 90.28t/s | 5 |
| 14 | DeepSeek-V3.2 | 0.94 s 最佳: 0.59最差: 2.00 | 0.00t/s | 5 |
| 15 | llama3.1-8B | 0.94 s 最佳: 0.73最差: 1.32 | 1421.44t/s | 10 |
| 16 | zhipu/glm-4-flash | 1.04 s 最佳: 0.45最差: 10.56 | 30.09t/s | 405 |
| 17 | grok-4.1-expert | 1.05 s 最佳: 0.74最差: 1.53 | 33.09t/s | 5 |
| 18 | translate-model | 1.06 s 最佳: 0.97最差: 1.17 | 31767.17t/s | 5 |
| 19 | claude-sonnet-4-6 | 1.07 s 最佳: 0.86最差: 1.74 | 46.71t/s | 5 |
| 20 | nvidia/nemotron-3-nano-30b-a3b | 1.15 s 最佳: 0.66最差: 2.81 | 246.87t/s | 5 |
| 21 | translate-model | 1.17 s 最佳: 0.91最差: 1.39 | 169.06t/s | 5 |
| 22 | llama3.1-8b | 1.17 s 最佳: 0.56最差: 3.95 | 731.95t/s | 15 |
| 23 | Mimo-v2-Flash | 1.21 s 最佳: 0.32最差: 18.38 | 46.11t/s | 75 |
| 24 | google/gemma-3-27b | 1.23 s 最佳: 0.85最差: 1.78 | 53.59t/s | 5 |
| 25 | 快速/llama3.1-8B | 1.24 s 最佳: 0.73最差: 2.23 | 1258.69t/s | 15 |
| 26 | GPT-5.3 Codex | 1.25 s 最佳: 0.85最差: 1.60 | 43.66t/s | 5 |
| 27 | inception/mercury | 1.26 s 最佳: 0.69最差: 1.88 | 386.10t/s | 15 |
| 28 | claude-sonnet-4-5-20250929 | 1.27 s 最佳: 1.15最差: 1.68 | 125.92t/s | 5 |
| 29 | grok-4.1-fast | 1.37 s 最佳: 1.13最差: 1.59 | 99.38t/s | 5 |
| 30 | qwen/qwen3.5-397b-a17b | 1.56 s 最佳: 0.59最差: 4.76 | 43.19t/s | 5 |
| 31 | Step-3.5-Flash | 1.57 s 最佳: 0.26最差: 10.42 | 45.74t/s | 20 |
| 32 | GPT-5.3 Codex Spark | 1.67 s 最佳: 1.47最差: 2.11 | 45.83t/s | 5 |
| 33 | qwen3-max-2026-01-23 | 1.69 s 最佳: 0.92最差: 2.67 | 33.19t/s | 5 |
| 34 | qwen3-max-2026-01-23 | 1.69 s 最佳: 0.92最差: 2.67 | 33.19t/s | 5 |
| 35 | Kimi-K2.5 | 1.88 s 最佳: 1.02最差: 4.81 | 19.85t/s | 5 |
| 36 | claude-sonnet-4-6 | 1.94 s 最佳: 1.51最差: 2.42 | 48.66t/s | 5 |
| 37 | GPT-5.2 | 1.95 s 最佳: 1.12最差: 5.05 | 45.37t/s | 5 |
| 38 | MiniMax-M2.5 | 2.19 s 最佳: 1.47最差: 2.97 | 42.92t/s | 5 |
| 39 | kimi-k2.5 | 2.32 s 最佳: 0.91最差: 7.17 | 24.44t/s | 5 |
| 40 | kimi-k2.5 | 2.32 s 最佳: 0.91最差: 7.17 | 24.44t/s | 5 |
| 41 | mercury-2 | 2.50 s 最佳: 1.07最差: 4.62 | 1653.71t/s | 5 |
| 42 | mercury-2 | 2.50 s 最佳: 1.07最差: 4.62 | 1653.71t/s | 5 |
| 43 | claude-opus-4-6 | 2.54 s 最佳: 1.26最差: 4.06 | 43.21t/s | 25 |
| 44 | claude-sonnet-4-6 | 3.07 s 最佳: 2.47最差: 4.35 | 37.66t/s | 5 |
| 45 | qwen-3.5-plus | 3.10 s 最佳: 2.54最差: 3.91 | 55.05t/s | 5 |
| 46 | gemini-3-pro | 3.36 s 最佳: 2.06最差: 5.04 | 14970.09t/s | 5 |
| 47 | grok-4 | 3.54 s 最佳: 1.73最差: 7.71 | 125.14t/s | 5 |
| 48 | deepseek-v3.2 | 3.56 s 最佳: 1.60最差: 6.78 | 25.48t/s | 5 |
| 49 | Claude-Opus-4-6 | 3.65 s 最佳: 3.18最差: 4.31 | 39.01t/s | 5 |
| 50 | google/gemma-3-27b | 4.29 s 最佳: 0.81最差: 31.01 | 52.12t/s | 10 |