排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
平均每秒输出的 Token 数,越高越好。
| 排名 | Provider | 模型 | 输出速度 | 平均首字延迟 | 次数 |
|---|---|---|---|---|---|
| 1 | gemini-2.5-flash-preview-04-17-thinking | 203658.15 t/s 最佳: 242039.75最差: 124802.05 | 16.10s | 5 | |
| 2 | spark-desk-lite | 28750.49 t/s 最佳: 32770.86最差: 26708.17 | 7.10s | 5 | |
| 3 |
| gemini-2.0-flash |
12254.31 t/s 最佳: 39232.11最差: 602.41 |
9.63s |
| 10 |
| 4 | deepseek_7b | 4773.40 t/s 最佳: 4820.50最差: 4721.69 | 0.45s | 5 |
| 5 | opengvlab/internvl3-2b:free | 379.88 t/s 最佳: 397.99最差: 365.98 | 1.22s | 5 |
| 6 | deepseek/deepseek-v3-0324 | 377.75 t/s 最佳: 1701.32最差: 43.06 | 3.44s | 5 |
| 7 | inception/mercury-coder-small-beta | 331.42 t/s 最佳: 402.56最差: 235.89 | 0.72s | 5 |
| 8 | qwen3:0.6b | 239.34 t/s 最佳: 291.06最差: 223.84 | 0.40s | 5 |
| 9 | qwen3:0.6b | 239.34 t/s 最佳: 291.06最差: 223.84 | 0.40s | 5 |
| 10 | gemini-2.0-flash | 175.37 t/s 最佳: 193.92最差: 154.56 | 2.48s | 5 |
| 11 | gpt-4.1-nano-2025-04-14 | 152.16 t/s 最佳: 163.61最差: 135.66 | 0.82s | 5 |
| 12 | gemini-2.0-flash-lite-preview-02-05 | 146.97 t/s 最佳: 175.97最差: 124.49 | 0.81s | 5 |
| 13 | google/gemini-2.5-flash-preview | 140.85 t/s 最佳: 169.07最差: 114.25 | 2.05s | 10 |
| 14 | hunyuan-lite | 133.10 t/s 最佳: 138.69最差: 120.73 | 1.04s | 5 |
| 15 | fradser/deeptranslate-r2-4b:latest | 123.70 t/s 最佳: 137.94最差: 103.24 | 0.78s | 10 |
| 16 | fradser/deeptranslate-r2-4b:latest | 123.70 t/s 最佳: 137.94最差: 103.24 | 0.78s | 10 |
| 17 | fradser/deeptranslate-r2-4b:latest | 123.70 t/s 最佳: 137.94最差: 103.24 | 0.78s | 10 |
| 18 | meta-llama/Llama-4-Scout-17B-16E-Instruct | 118.72 t/s 最佳: 124.82最差: 113.03 | 1.04s | 5 |
| 19 | qwen3:30b-a3b | 116.49 t/s 最佳: 119.21最差: 114.63 | 1.27s | 5 |
| 20 | qwen3:30b-a3b | 116.49 t/s 最佳: 119.21最差: 114.63 | 1.27s | 5 |
| 21 | deepseek-ai/DeepSeek-R1-0528-Qwen3-8B | 105.14 t/s 最佳: 112.88最差: 91.29 | 5.48s | 5 |
| 22 | gpt-4o-2024-05-13 | 100.94 t/s 最佳: 129.87最差: 91.03 | 0.49s | 5 |
| 23 | qwen3:30b-a3b | 100.03 t/s 最佳: 123.38最差: 90.81 | 1.98s | 5 |
| 24 | qwen3:30b-a3b | 100.03 t/s 最佳: 123.38最差: 90.81 | 1.98s | 5 |
| 25 | gemini-2.0-pro-exp | 93.92 t/s 最佳: 115.98最差: 73.88 | 17.47s | 5 |
| 26 | qwen3:30b-a3b | 93.34 t/s 最佳: 94.85最差: 91.33 | 1.58s | 10 |
| 27 | qwen3:30b-a3b | 93.34 t/s 最佳: 94.85最差: 91.33 | 1.58s | 10 |
| 28 | grok-3-fast-beta | 89.18 t/s 最佳: 116.86最差: 74.71 | 0.75s | 5 |
| 29 | qwen3:30b-a3b-q8_0 | 84.32 t/s 最佳: 85.38最差: 83.28 | 0.55s | 5 |
| 30 | qwen3:30b-a3b-q8_0 | 84.32 t/s 最佳: 85.38最差: 83.28 | 0.55s | 5 |
| 31 | qwen/qwen3-30b-a3b:free | 83.19 t/s 最佳: 184.42最差: 13.71 | 22.71s | 5 |
| 32 | unsloth/qwen3:30b-a3b-q8_0 | 82.71 t/s 最佳: 83.33最差: 81.38 | 2.21s | 5 |
| 33 | unsloth/qwen3:30b-a3b-q8_0 | 82.71 t/s 最佳: 83.33最差: 81.38 | 2.21s | 5 |
| 34 | grok-3-mini-beta | 81.33 t/s 最佳: 113.35最差: 61.88 | 6.02s | 5 |
| 35 | deepseek-ai/DeepSeek-Prover-V2-671B | 80.53 t/s 最佳: 83.94最差: 75.75 | 1.05s | 10 |
| 36 | gpt-4.1-nano | 78.77 t/s 最佳: 103.70最差: 45.31 | 2.19s | 10 |
| 37 | o4-mini | 78.69 t/s 最佳: 99.58最差: 38.23 | 3.39s | 5 |
| 38 | deepseek-ai/DeepSeek-V3-0324 | 74.08 t/s 最佳: 78.55最差: 68.87 | 1.08s | 5 |
| 39 | /root/models/Qwen/Qwen3-4B | 72.15 t/s 最佳: 72.69最差: 71.44 | 0.56s | 5 |
| 40 | /root/models/Qwen/Qwen3-4B | 72.15 t/s 最佳: 72.69最差: 71.44 | 0.56s | 5 |
| 41 | deepseek-ai/DeepSeek-R1 | 71.38 t/s 最佳: 78.88最差: 66.31 | 11.96s | 5 |
| 42 | QwQ-32B | 69.72 t/s 最佳: 70.16最差: 68.98 | 14.39s | 5 |
| 43 | Qwen/Qwen3-30B-A3B | 69.20 t/s 最佳: 136.72最差: 21.05 | 13.40s | 15 |
| 44 | Qwen/Qwen3-235B-A22B-FP8 | 66.11 t/s 最佳: 68.83最差: 59.67 | 14.31s | 5 |
| 45 | Qwen/QwQ-32B | 63.70 t/s 最佳: 73.47最差: 55.60 | 23.60s | 5 |
| 46 | unsloth/qwen3:14b-q8_0 | 61.79 t/s 最佳: 63.00最差: 60.77 | 1.51s | 5 |
| 47 | unsloth/qwen3:14b-q8_0 | 61.79 t/s 最佳: 63.00最差: 60.77 | 1.51s | 5 |
| 48 | qwen3:30b | 61.59 t/s 最佳: 66.59最差: 41.92 | 0.77s | 10 |
| 49 | glm-4-flash-250414 | 58.60 t/s 最佳: 69.21最差: 46.31 | 0.31s | 10 |
| 50 | zhipu/glm-4v-flash | 57.09 t/s 最佳: 73.22最差: 31.85 | 1.11s | 5 |