排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
平均每秒输出的 Token 数,越高越好。
| 排名 | Provider | 模型 | 输出速度 | 平均首字延迟 | 次数 |
|---|---|---|---|---|---|
| 1 | claude37_sonnet | 2766.82 t/s 最佳: 4454.36最差: 1066.47 | 0.59s | 5 | |
| 2 | deepseek/deepseek-v3-0324 | 456.45 t/s 最佳: 2614.87最差: 23.04 | 7.40s | 70 | |
| 3 |
| deepseek/deepseek-v3 |
372.18 t/s 最佳: 2595.09最差: 26.41 |
6.81s |
| 25 |
| 4 | Qwen/Qwen2-1.5B-Instruct | 213.84 t/s 最佳: 251.60最差: 195.56 | 0.67s | 5 |
| 5 | gpt-4.1-nano | 208.55 t/s 最佳: 273.12最差: 123.60 | 0.65s | 5 |
| 6 | Pro/Qwen/Qwen2-1.5B-Instruct | 204.04 t/s 最佳: 207.89最差: 196.17 | 0.60s | 5 |
| 7 | 免费Qwen2-1.5B | 203.36 t/s 最佳: 211.26最差: 197.76 | 0.68s | 5 |
| 8 | gemini-2.0-flash | 194.65 t/s 最佳: 230.29最差: 170.03 | 0.95s | 15 |
| 9 | gemini-2.0-flash | 190.98 t/s 最佳: 211.82最差: 163.01 | 0.81s | 5 |
| 10 | 免费Grok3-mini | 180.93 t/s 最佳: 198.38最差: 147.42 | 3.99s | 5 |
| 11 | gemini-2.0-flash-lite | 157.78 t/s 最佳: 179.54最差: 134.50 | 1.20s | 5 |
| 12 | codestral-latest | 151.00 t/s 最佳: 172.50最差: 113.42 | 0.38s | 5 |
| 13 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | 142.95 t/s 最佳: 153.18最差: 126.51 | 4.47s | 5 |
| 14 | deepseek-ai/deepseek-vl2 | 125.77 t/s 最佳: 146.34最差: 65.75 | 0.75s | 5 |
| 15 | glm-z1-flash | 116.46 t/s 最佳: 118.18最差: 114.94 | 0.43s | 5 |
| 16 | gpt-4o-mini | 114.75 t/s 最佳: 162.91最差: 68.49 | 8.66s | 5 |
| 17 | translate-model-fast | 98.89 t/s 最佳: 104.36最差: 83.70 | 0.97s | 5 |
| 18 | [bo]gemini-2.5-pro-exp-03-25 | 97.92 t/s 最佳: 110.90最差: 86.08 | 14.48s | 5 |
| 19 | Pro/Qwen/Qwen2-7B-Instruct | 96.25 t/s 最佳: 102.85最差: 86.93 | 0.63s | 5 |
| 20 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | 94.25 t/s 最佳: 172.81最差: 41.52 | 5.51s | 5 |
| 21 | Qwen/Qwen2-7B-Instruct | 93.64 t/s 最佳: 101.48最差: 82.69 | 0.68s | 5 |
| 22 | Qwen/Qwen2-7B-Instruct | 93.55 t/s 最佳: 100.52最差: 83.83 | 0.64s | 5 |
| 23 | Pro/Qwen/Qwen2-VL-7B-Instruct | 93.23 t/s 最佳: 98.94最差: 85.28 | 0.71s | 5 |
| 24 | 免费Qwen2-7B | 93.01 t/s 最佳: 98.84最差: 85.80 | 0.85s | 10 |
| 25 | 免费DS-VL2 | 86.80 t/s 最佳: 140.48最差: 31.60 | 1.86s | 5 |
| 26 | 免费Grok3 | 85.51 t/s 最佳: 116.83最差: 66.02 | 1.39s | 5 |
| 27 | Pro/Qwen/Qwen2.5-VL-7B-Instruct | 85.51 t/s 最佳: 96.72最差: 74.62 | 0.76s | 5 |
| 28 | THUDM/GLM-Z1-9B-0414 | 78.80 t/s 最佳: 80.11最差: 77.60 | 8.89s | 5 |
| 29 | QwQ-32B | 78.79 t/s 最佳: 81.51最差: 77.55 | 8.16s | 10 |
| 30 | Qwen/Qwen3-14B | 78.64 t/s 最佳: 83.29最差: 73.98 | 9.81s | 5 |
| 31 | 免费Qwen2.5-14B | 77.95 t/s 最佳: 80.57最差: 74.32 | 0.69s | 5 |
| 32 | Qwen/Qwen2.5-14B-Instruct | 77.92 t/s 最佳: 81.71最差: 68.44 | 0.69s | 5 |
| 33 | 免费Qwen2-VL-7B | 77.82 t/s 最佳: 96.06最差: 52.43 | 0.95s | 10 |
| 34 | internlm/internlm2_5-7b-chat | 73.88 t/s 最佳: 80.00最差: 63.15 | 0.61s | 5 |
| 35 | 免费GLM-4-9B-128K | 73.70 t/s 最佳: 76.98最差: 71.34 | 0.77s | 5 |
| 36 | Qwen/QwQ-32B-Preview | 72.57 t/s 最佳: 74.00最差: 71.41 | 0.81s | 5 |
| 37 | THUDM/glm-4-9b-chat | 71.17 t/s 最佳: 77.40最差: 63.54 | 0.65s | 5 |
| 38 | Qwen/QwQ-32B | 69.22 t/s 最佳: 86.98最差: 37.41 | 14.67s | 5 |
| 39 | Pro/THUDM/glm-4-9b-chat | 68.04 t/s 最佳: 80.64最差: 60.18 | 0.87s | 5 |
| 40 | Qwen/Qwen2.5-7B-Instruct | 67.51 t/s 最佳: 68.74最差: 65.56 | 0.87s | 5 |
| 41 | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | 66.31 t/s 最佳: 76.96最差: 48.82 | 12.96s | 5 |
| 42 | 免费Qwen2.5-VL-7B | 63.63 t/s 最佳: 76.63最差: 45.85 | 1.03s | 10 |
| 43 | internlm/internlm2_5-20b-chat | 61.81 t/s 最佳: 71.71最差: 38.91 | 0.77s | 5 |
| 44 | deepseek/deepseek-r1 | 61.18 t/s 最佳: 437.13最差: 0.00 | 11.03s | 60 |
| 45 | Qwen/Qwen2.5-32B-Instruct | 60.92 t/s 最佳: 72.45最差: 53.04 | 0.86s | 5 |
| 46 | deepseek-ai/DeepSeek-V3-0324 | 59.16 t/s 最佳: 71.59最差: 48.49 | 0.67s | 5 |
| 47 | gpt-4o-mini | 57.47 t/s 最佳: 112.18最差: 29.83 | 2.08s | 5 |
| 48 | deepseek/deepseek-r1-32b | 55.71 t/s 最佳: 57.01最差: 53.83 | 3.68s | 5 |
| 49 | Qwen/Qwen2.5-32B-Instruct | 55.30 t/s 最佳: 64.22最差: 52.39 | 0.81s | 5 |
| 50 | google/gemma-3-27b | 54.54 t/s 最佳: 93.12最差: 4.62 | 2.63s | 20 |