排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
生成首个 Token 的平均时间,越低越好。
| 排名 | Provider | 模型 | 首字延迟 | 平均输出速度 | 次数 |
|---|---|---|---|---|---|
| 1 | glm-z1-air | 0.30 s 最佳: 0.28最差: 0.33 | 52.65t/s | 5 | |
| 2 | GLM-4-FlashX | 0.30 s 最佳: 0.28最差: 0.36 | 61.60t/s | 5 | |
| 3 |
| glm-4-flash-250414 |
0.31 s 最佳: 0.20最差: 0.44 |
32.24t/s |
| 5 |
| 4 | qwen3-0.6b | 0.33 s 最佳: 0.27最差: 0.39 | 151.91t/s | 5 |
| 5 | GLM-4-Flash | 0.36 s 最佳: 0.31最差: 0.42 | 47.16t/s | 5 |
| 6 | qwen-3-235b-2507 | 0.37 s 最佳: 0.28最差: 0.66 | 625.49t/s | 5 |
| 7 | DeepSeek-V3-Fast | 0.37 s 最佳: 0.27最差: 0.57 | 109.61t/s | 10 |
| 8 | DeepSeek-V3-Fast | 0.50 s 最佳: 0.31最差: 0.81 | 84.97t/s | 5 |
| 9 | DeepSeek-v3 | 0.56 s 最佳: 0.46最差: 0.64 | 29.03t/s | 5 |
| 10 | internlm/internlm2_5-7b-chat | 0.56 s 最佳: 0.50最差: 0.60 | 68.15t/s | 10 |
| 11 | Qwen/Qwen2-7B-Instruct | 0.56 s 最佳: 0.54最差: 0.59 | 68.21t/s | 5 |
| 12 | meta-llama/llama-4-scout-17b-16e-instruct | 0.63 s 最佳: 0.51最差: 0.96 | 444.26t/s | 5 |
| 13 | Qwen/Qwen2.5-32B-Instruct | 0.63 s 最佳: 0.52最差: 0.74 | 59.09t/s | 10 |
| 14 | THUDM/glm-4-9b-chat | 0.63 s 最佳: 0.56最差: 0.71 | 77.31t/s | 5 |
| 15 | gemini-2.5-flash-lite | 0.65 s 最佳: 0.52最差: 1.37 | 390.20t/s | 20 |
| 16 | moonshotai/Kimi-K2-Instruct | 0.66 s 最佳: 0.58最差: 0.97 | 77.91t/s | 10 |
| 17 | gemini-2.5-flash-lite | 0.66 s 最佳: 0.54最差: 1.01 | 371.07t/s | 5 |
| 18 | Pro/THUDM/glm-4-9b-chat | 0.69 s 最佳: 0.55最差: 1.06 | 76.64t/s | 5 |
| 19 | qwen-plus-latest | 0.72 s 最佳: 0.69最差: 0.73 | 27.57t/s | 5 |
| 20 | qwen2.5-7b-instruct | 0.74 s 最佳: 0.58最差: 1.29 | 54.46t/s | 5 |
| 21 | gemini-2.5-flash-lite-preview-06-17 | 0.74 s 最佳: 0.63最差: 1.07 | 407.69t/s | 5 |
| 22 | GLM-4-Flash-250414 | 0.78 s 最佳: 0.35最差: 1.88 | 38.23t/s | 5 |
| 23 | gemini-2.5-flash-lite-preview-06-17 | 0.78 s 最佳: 0.71最差: 0.87 | 386.12t/s | 5 |
| 24 | Qwen/Qwen2.5-7B-Instruct | 0.78 s 最佳: 0.66最差: 0.96 | 22.05t/s | 10 |
| 25 | gpt-4.1 | 0.82 s 最佳: 0.67最差: 1.04 | 78.97t/s | 5 |
| 26 | gpt-4.1 | 0.82 s 最佳: 0.62最差: 1.16 | 77.76t/s | 15 |
| 27 | deepseek-ai/DeepSeek-V3-0324-Turbo | 0.82 s 最佳: 0.49最差: 1.34 | 179.62t/s | 5 |
| 28 | gemini-2.5-flash-lite-preview-06-17 | 0.84 s 最佳: 0.67最差: 1.22 | 381.52t/s | 5 |
| 29 | Qwen/Qwen2.5-72B-Instruct-128K | 0.86 s 最佳: 0.64最差: 1.37 | 18.27t/s | 5 |
| 30 | gpt-4o | 0.87 s 最佳: 0.81最差: 0.95 | 136.68t/s | 5 |
| 31 | hunyuan-lite | 0.90 s 最佳: 0.81最差: 0.98 | 140.56t/s | 5 |
| 32 | gemini-2.5-flash-lite-preview-06-17 | 0.92 s 最佳: 0.77最差: 1.06 | 388.26t/s | 5 |
| 33 | qwen-plus | 0.94 s 最佳: 0.60最差: 1.77 | 21.43t/s | 5 |
| 34 | qwen2.5-14b-instruct | 0.96 s 最佳: 0.69最差: 1.89 | 49.95t/s | 5 |
| 35 | DeepSeek-V3-0324-80 | 0.97 s 最佳: 0.74最差: 1.31 | 129.14t/s | 5 |
| 36 | gpt-4.1-ca | 1.00 s 最佳: 0.51最差: 1.44 | 87.57t/s | 5 |
| 37 | google/gemma-3-27b-it | 1.01 s 最佳: 0.81最差: 1.46 | 37.62t/s | 5 |
| 38 | google/gemma-3-27b-it | 1.01 s 最佳: 0.81最差: 1.46 | 37.62t/s | 5 |
| 39 | google/gemma-3-27b-it | 1.01 s 最佳: 0.81最差: 1.46 | 37.62t/s | 5 |
| 40 | QwQ-32B | 1.03 s 最佳: 0.63最差: 1.66 | 23.17t/s | 10 |
| 41 | deepseek-v3-250324 | 1.03 s 最佳: 0.81最差: 1.49 | 24.60t/s | 5 |
| 42 | qwen3:30b-a3b | 1.04 s 最佳: 0.42最差: 4.58 | 107.03t/s | 15 |
| 43 | qwen3:30b-a3b | 1.04 s 最佳: 0.42最差: 4.58 | 107.03t/s | 15 |
| 44 | qwen3:30b-a3b | 1.04 s 最佳: 0.42最差: 4.58 | 107.03t/s | 15 |
| 45 | gpt-4o-ca | 1.06 s 最佳: 0.81最差: 1.49 | 124.83t/s | 5 |
| 46 | GLM-4.5-Air | 1.08 s 最佳: 0.57最差: 1.93 | 120.66t/s | 5 |
| 47 | Qwen/Qwen2.5-72B-Instruct | 1.08 s 最佳: 0.61最差: 2.60 | 29.59t/s | 5 |
| 48 | zhipu/glm-4-flash | 1.09 s 最佳: 0.42最差: 9.29 | 31.71t/s | 460 |
| 49 | DeepSeek-V3-0324 | 1.10 s 最佳: 0.71最差: 1.77 | 95.89t/s | 5 |
| 50 | qwen2.5-7b-instruct | 1.11 s 最佳: 1.05最差: 1.16 | 46.17t/s | 5 |