排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
生成首个 Token 的平均时间,越低越好。
| 排名 | Provider | 模型 | 首字延迟 | 平均输出速度 | 次数 |
|---|---|---|---|---|---|
| 1 | google/gemma-2-27b-it | 0.22 s 最佳: 0.19最差: 0.35 | 43.48t/s | 5 | |
| 2 | deepseek-v3.1 | 0.30 s 最佳: 0.27最差: 0.34 | 57.51t/s | 5 | |
| 3 |
| llama3.1-8b |
0.35 s 最佳: 0.30最差: 0.47 |
2191.20t/s |
| 10 |
| 4 | qwen-3-coder-480b | 0.35 s 最佳: 0.33最差: 0.38 | 894.38t/s | 5 |
| 5 | llama-4-scout-17b-16e-instruct | 0.36 s 最佳: 0.31最差: 0.46 | 1372.80t/s | 5 |
| 6 | qwen3-235b-a22b-instruct | 0.39 s 最佳: 0.36最差: 0.45 | 24.36t/s | 10 |
| 7 | DeepSeek-V3-Fast | 0.39 s 最佳: 0.29最差: 0.55 | 86.92t/s | 5 |
| 8 | qwen-3-32b | 0.40 s 最佳: 0.34最差: 0.43 | 705.04t/s | 5 |
| 9 | DeepSeek-V3.1-Fast | 0.40 s 最佳: 0.28最差: 0.70 | 146.54t/s | 15 |
| 10 | llama-4-maverick-17b-128e-instruct | 0.41 s 最佳: 0.37最差: 0.52 | 1052.78t/s | 5 |
| 11 | qwen-3-235b-a22b-thinking-2507 | 0.44 s 最佳: 0.37最差: 0.57 | 579.82t/s | 5 |
| 12 | DeepSeek-R1-Distill-Qwen-32B-AWQ | 0.44 s 最佳: 0.30最差: 0.83 | 40.05t/s | 10 |
| 13 | DeepSeek-R1-Distill-Qwen-32B-AWQ | 0.44 s 最佳: 0.30最差: 0.83 | 40.05t/s | 10 |
| 14 | DeepSeek-R1-Distill-Qwen-32B-AWQ | 0.44 s 最佳: 0.30最差: 0.83 | 40.05t/s | 10 |
| 15 | google/gemini-2.0-flash-exp | 0.45 s 最佳: -最差: 2.89 | 28.22t/s | 30 |
| 16 | qwen3-next-80b-a3b-instruct | 0.45 s 最佳: 0.30最差: 0.86 | 164.04t/s | 5 |
| 17 | qwen-3-235b-a22b-instruct-2507 | 0.45 s 最佳: 0.32最差: 0.85 | 754.92t/s | 5 |
| 18 | Qwen3-8B | 0.47 s 最佳: 0.26最差: 1.32 | 55.80t/s | 10 |
| 19 | Qwen3-8B | 0.47 s 最佳: 0.26最差: 1.32 | 55.80t/s | 10 |
| 20 | Qwen3-8B | 0.47 s 最佳: 0.26最差: 1.32 | 55.80t/s | 10 |
| 21 | deepseek-v3.1 | 0.48 s 最佳: 0.40最差: 0.56 | 25.60t/s | 5 |
| 22 | moonshotai/kimi-k2-instruct | 0.49 s 最佳: 0.38最差: 0.59 | 149.26t/s | 5 |
| 23 | zhipu/glm-4v-flash | 0.49 s 最佳: 0.31最差: 0.82 | 51.60t/s | 5 |
| 24 | Qwen2.5-7B-Instruct | 0.50 s 最佳: 0.29最差: 0.82 | 44.65t/s | 5 |
| 25 | Qwen2.5-7B-Instruct | 0.50 s 最佳: 0.29最差: 0.82 | 44.65t/s | 5 |
| 26 | Qwen2.5-7B-Instruct | 0.50 s 最佳: 0.29最差: 0.82 | 44.65t/s | 5 |
| 27 | grok-4-fast-non-reasoning | 0.51 s 最佳: 0.48最差: 0.54 | 151.11t/s | 5 |
| 28 | tencent/Hunyuan-MT-7B | 0.51 s 最佳: 0.48最差: 0.54 | 88.25t/s | 5 |
| 29 | llama-3.3-70b | 0.51 s 最佳: 0.37最差: 0.89 | 1062.69t/s | 5 |
| 30 | deepseek-ai/DeepSeek-V3.1-Terminus | 0.54 s 最佳: 0.43最差: 0.78 | 60.47t/s | 5 |
| 31 | DeepSeek-V3.1 | 0.55 s 最佳: 0.47最差: 0.84 | 257.63t/s | 5 |
| 32 | models/gemini-2.5-flash-preview-09-2025 | 0.57 s 最佳: 0.54最差: 0.62 | 175.68t/s | 5 |
| 33 | gemini-2.0-flash | 0.59 s 最佳: 0.48最差: 0.82 | 163.32t/s | 5 |
| 34 | moonshotai/kimi-k2-instruct | 0.59 s 最佳: 0.41最差: 0.79 | 62.37t/s | 10 |
| 35 | qwen-3-235b-a22b-instruct-2507 | 0.60 s 最佳: 0.36最差: 1.15 | 724.96t/s | 5 |
| 36 | Qwen/Qwen3-Next-80B-A3B-Instruct | 0.62 s 最佳: 0.60最差: 0.67 | 105.32t/s | 5 |
| 37 | accounts/fireworks/models/qwen3-235b-a22b-instruct-2507 | 0.62 s 最佳: 0.48最差: 0.93 | 78.64t/s | 5 |
| 38 | Qwen/Qwen2.5-72B-Instruct | 0.66 s 最佳: 0.55最差: 0.91 | 33.41t/s | 15 |
| 39 | qwen/qwen3-next-80b-a3b-instruct | 0.67 s 最佳: 0.38最差: 1.32 | 79.54t/s | 5 |
| 40 | gpt-oss-120b | 0.70 s 最佳: 0.55最差: 1.01 | 846.32t/s | 5 |
| 41 | moonshotai/kimi-k2-instruct-0905 | 0.72 s 最佳: 0.43最差: 1.27 | 47.28t/s | 5 |
| 42 | moonshotai/kimi-k2 | 0.73 s 最佳: -最差: 5.45 | 14.56t/s | 35 |
| 43 | ai.dev/gemini-2.5-flash-lite | 0.78 s 最佳: 0.65最差: 1.21 | 405.65t/s | 5 |
| 44 | deepseek-ai/DeepSeek-V3-0324 | 0.85 s 最佳: 0.39最差: 1.81 | 35.64t/s | 5 |
| 45 | tencent/Hunyuan-MT-7B | 0.85 s 最佳: 0.70最差: 0.97 | 83.16t/s | 5 |
| 46 | DeepSeek-V3-Fast | 0.89 s 最佳: 0.70最差: 1.54 | 79.64t/s | 5 |
| 47 | deepseek-v3-0324 | 0.89 s 最佳: 0.65最差: 1.04 | 23.29t/s | 5 |
| 48 | accounts/fireworks/models/deepseek-v3p1-terminus | 0.89 s 最佳: 0.51最差: 2.04 | 112.67t/s | 5 |
| 49 | zhipu/glm-4-flash | 0.89 s 最佳: 0.38最差: 5.29 | 32.59t/s | 1010 |
| 50 | grok-4-fast-non-reasoning | 0.90 s 最佳: 0.86最差: 0.94 | 167.62t/s | 5 |