排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
生成首个 Token 的平均时间,越低越好。
| 排名 | Provider | 模型 | 首字延迟 | 平均输出速度 | 次数 |
|---|---|---|---|---|---|
| 1 | glm-4-flash-250414 | 0.27 s 最佳: 0.21最差: 0.38 | 49.81t/s | 5 | |
| 2 | glm-4-flashx | 0.29 s 最佳: 0.27最差: 0.30 | 71.64t/s | 5 | |
| 3 |
| glm-4-air |
0.33 s 最佳: 0.30最差: 0.38 |
65.96t/s |
| 5 |
| 4 | glm-4-flash | 0.43 s 最佳: 0.34最差: 1.10 | 40.94t/s | 10 |
| 5 | llama3.1-8b | 0.45 s 最佳: 0.40最差: 0.52 | 1096.01t/s | 10 |
| 6 | qwen-3-32b | 0.47 s 最佳: 0.45最差: 0.51 | 733.22t/s | 5 |
| 7 | DeepSeek-R1-0528 | 0.47 s 最佳: 0.45最差: 0.50 | 48.24t/s | 5 |
| 8 | llama-4-109b | 0.48 s 最佳: 0.44最差: 0.58 | 969.99t/s | 15 |
| 9 | llama-3.3-70b | 0.52 s 最佳: 0.46最差: 0.70 | 970.00t/s | 10 |
| 10 | glm-4-flash | 0.55 s 最佳: 0.40最差: 0.77 | 39.25t/s | 5 |
| 11 | deepseek-r1:32b | 0.56 s 最佳: 0.47最差: 0.84 | 42.91t/s | 5 |
| 12 | deepseek-r1:32b | 0.56 s 最佳: 0.47最差: 0.84 | 42.91t/s | 5 |
| 13 | Pro/THUDM/glm-4-9b-chat | 0.56 s 最佳: 0.51最差: 0.61 | 75.87t/s | 5 |
| 14 | Pro/Qwen/Qwen2-7B-Instruct | 0.56 s 最佳: 0.52最差: 0.61 | 71.29t/s | 5 |
| 15 | gpt-4o-mini | 0.57 s 最佳: 0.49最差: 0.65 | 63.02t/s | 5 |
| 16 | DeepSeek-V3-Fast | 0.60 s 最佳: 0.54最差: 0.62 | 102.13t/s | 5 |
| 17 | qwen3:30b-a3b | 0.60 s 最佳: 0.43最差: 1.01 | 44.22t/s | 5 |
| 18 | qwen3:30b-a3b | 0.60 s 最佳: 0.43最差: 1.01 | 44.22t/s | 5 |
| 19 | Qwen/Qwen2-7B-Instruct | 0.61 s 最佳: 0.59最差: 0.62 | 85.82t/s | 5 |
| 20 | deepseek/deepseek-r1-0528 | 0.71 s 最佳: 0.52最差: 1.17 | 60.77t/s | 10 |
| 21 | Qwen/Qwen2.5-7B-Instruct | 0.71 s 最佳: 0.62最差: 0.80 | 16.79t/s | 5 |
| 22 | gpt-4.1-mini | 0.73 s 最佳: 0.56最差: 1.21 | 156.81t/s | 50 |
| 23 | qwen3-30b-a3b | 0.74 s 最佳: 0.69最差: 0.77 | 62.84t/s | 5 |
| 24 | qwen3-30b-a3b | 0.74 s 最佳: 0.69最差: 0.77 | 62.84t/s | 5 |
| 25 | qwen3-30b-a3b | 0.74 s 最佳: 0.69最差: 0.77 | 62.84t/s | 5 |
| 26 | zhipu/glm-4v-flash | 0.74 s 最佳: 0.46最差: 1.03 | 58.80t/s | 5 |
| 27 | gemini-2.0-flash | 0.74 s 最佳: 0.68最差: 0.84 | 149.12t/s | 5 |
| 28 | qwen2.5-coder-0.5b-instruct | 0.75 s 最佳: 0.71最差: 0.82 | 60.38t/s | 5 |
| 29 | yi-lightning | 0.79 s 最佳: 0.66最差: 1.28 | 43.78t/s | 5 |
| 30 | gpt-4.1 | 0.80 s 最佳: 0.61最差: 1.02 | 154.62t/s | 25 |
| 31 | qwen3:0.6b | 0.89 s 最佳: 0.48最差: 2.98 | 63.46t/s | 10 |
| 32 | qwen-coder-plus-latest | 0.96 s 最佳: 0.67最差: 1.96 | 53.02t/s | 5 |
| 33 | qwen-turbo-latest | 0.96 s 最佳: 0.63最差: 1.94 | 49.84t/s | 5 |
| 34 | qwen2.5-72b-instruct | 0.97 s 最佳: 0.73最差: 1.85 | 28.17t/s | 5 |
| 35 | zhipu/glm-4-flash | 0.99 s 最佳: 0.40最差: 3.53 | 37.51t/s | 115 |
| 36 | deepseekv3 | 1.00 s 最佳: 0.63最差: 2.97 | 8.54t/s | 30 |
| 37 | deepseekv3 | 1.00 s 最佳: 0.63最差: 2.97 | 8.54t/s | 30 |
| 38 | qwen2.5-coder-3b-instruct | 1.00 s 最佳: 0.72最差: 1.89 | 38.45t/s | 5 |
| 39 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | 1.00 s 最佳: 0.32最差: 3.66 | 194.01t/s | 5 |
| 40 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | 1.00 s 最佳: 0.32最差: 3.66 | 194.01t/s | 5 |
| 41 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | 1.00 s 最佳: 0.32最差: 3.66 | 194.01t/s | 5 |
| 42 | 沉浸式翻译 | 1.01 s 最佳: 0.79最差: 1.27 | 72.24t/s | 5 |
| 43 | qwen-turbo-latest | 1.02 s 最佳: 0.66最差: 1.92 | 39.71t/s | 10 |
| 44 | gpt-4.1-nano | 1.05 s 最佳: 0.90最差: 1.22 | 152.73t/s | 5 |
| 45 | gpt-4.1-nano | 1.05 s 最佳: 0.81最差: 1.57 | 137.68t/s | 10 |
| 46 | hunyuan-turbos-latest | 1.29 s 最佳: 1.03最差: 1.58 | 36.99t/s | 5 |
| 47 | gpt-4o-mini | 1.29 s 最佳: 0.59最差: 2.00 | 77.53t/s | 5 |
| 48 | deepseekv3 | 1.34 s 最佳: 0.73最差: 1.97 | 8.32t/s | 5 |
| 49 | deepseekv3 | 1.34 s 最佳: 0.73最差: 1.97 | 8.32t/s | 5 |
| 50 | gemini-2.5-flash-lite-preview-06-17 | 1.38 s 最佳: 1.20最差: 1.85 | 310.35t/s | 5 |