排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
平均每秒输出的 Token 数,越高越好。
| 排名 | Provider | 模型 | 输出速度 | 平均首字延迟 | 次数 |
|---|---|---|---|---|---|
| 1 | llama3.1-8b | 1096.01 t/s 最佳: 1506.55最差: 556.32 | 0.45s | 10 | |
| 2 | llama-3.3-70b | 970.00 t/s 最佳: 1534.72最差: 658.59 | 0.52s | 10 | |
| 3 |
| llama-4-109b |
969.99 t/s 最佳: 1383.86最差: 660.49 |
0.48s |
| 15 |
| 4 | qwen-3-32b | 733.22 t/s 最佳: 875.02最差: 628.83 | 0.47s | 5 |
| 5 | inception/mercury-coder-small-beta | 393.33 t/s 最佳: 481.97最差: 280.40 | 1.59s | 5 |
| 6 | deepseek/deepseek-v3 | 344.09 t/s 最佳: 2672.02最差: 26.19 | 4.36s | 10 |
| 7 | gpt-4.1-nano | 316.06 t/s 最佳: 975.08最差: 154.51 | 2.06s | 10 |
| 8 | gemini-2.5-flash-lite-preview-06-17 | 310.35 t/s 最佳: 393.85最差: 216.49 | 1.38s | 5 |
| 9 | deepseek/deepseek-v3-0324 | 306.89 t/s 最佳: 2305.82最差: 29.14 | 4.17s | 15 |
| 10 | gpt-4.1-mini | 291.46 t/s 最佳: 3559.38最差: 56.68 | 3.31s | 20 |
| 11 | qwen3-0.6b | 261.65 t/s 最佳: 382.13最差: 213.60 | 2.60s | 5 |
| 12 | gemini-2.5-flash-preview-05-20-max | 224.58 t/s 最佳: 424.65最差: 69.37 | 7.44s | 10 |
| 13 | gpt-4.1-mini-2025-04-14 | 222.69 t/s 最佳: 2480.85最差: 44.11 | 3.91s | 20 |
| 14 | gemini-2.5-flash-fastmax | 196.98 t/s 最佳: 224.95最差: 170.62 | 10.93s | 5 |
| 15 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | 194.01 t/s 最佳: 194.94最差: 193.20 | 1.00s | 5 |
| 16 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | 194.01 t/s 最佳: 194.94最差: 193.20 | 1.00s | 5 |
| 17 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | 194.01 t/s 最佳: 194.94最差: 193.20 | 1.00s | 5 |
| 18 | gemini-2.5-flash | 192.77 t/s 最佳: 332.83最差: 138.87 | 9.34s | 10 |
| 19 | gpt-4.1-nano | 164.24 t/s 最佳: 197.04最差: 121.43 | 1.44s | 5 |
| 20 | gemini-2.5-pro-preview-05-06 | 158.75 t/s 最佳: 176.72最差: 126.56 | 9.72s | 5 |
| 21 | gpt-4.1-mini | 156.81 t/s 最佳: 260.70最差: 49.57 | 0.73s | 50 |
| 22 | gpt-4.1 | 154.62 t/s 最佳: 225.79最差: 101.14 | 0.80s | 25 |
| 23 | gpt-4.1-nano | 152.73 t/s 最佳: 203.66最差: 104.01 | 1.05s | 5 |
| 24 | gpt-4.1-nano | 151.24 t/s 最佳: 192.36最差: 126.62 | 1.51s | 5 |
| 25 | gemini-2.0-flash | 149.12 t/s 最佳: 179.11最差: 118.03 | 0.74s | 5 |
| 26 | gpt-4.1-nano | 137.68 t/s 最佳: 184.12最差: 62.74 | 1.05s | 10 |
| 27 | deepseek-r1-distill-qwen-1.5b | 135.25 t/s 最佳: 155.44最差: 88.14 | 6.13s | 5 |
| 28 | gpt-4.1-nano | 118.02 t/s 最佳: 312.31最差: 62.01 | 8.08s | 5 |
| 29 | gemini-2.5-pro-preview-06-05-max | 106.92 t/s 最佳: 142.44最差: 69.53 | 13.33s | 20 |
| 30 | gpt-4o | 105.12 t/s 最佳: 147.31最差: 36.17 | 2.04s | 10 |
| 31 | qwen3-8b | 102.46 t/s 最佳: 127.79最差: 90.56 | 8.15s | 5 |
| 32 | DeepSeek-V3-Fast | 102.13 t/s 最佳: 128.63最差: 69.76 | 0.60s | 5 |
| 33 | Gemini-2.5-Pro | 98.70 t/s 最佳: 119.05最差: 79.21 | 19.14s | 5 |
| 34 | Gemini-2.5-Pro | 98.70 t/s 最佳: 119.05最差: 79.21 | 19.14s | 5 |
| 35 | GPT-4o-mini | 95.24 t/s 最佳: 107.86最差: 78.51 | 4.75s | 5 |
| 36 | GPT-4o-mini | 95.24 t/s 最佳: 107.86最差: 78.51 | 4.75s | 5 |
| 37 | gpt-4o-mini | 94.37 t/s 最佳: 126.09最差: 48.22 | 1.47s | 5 |
| 38 | gemini-2.5-pro-fastmax | 89.41 t/s 最佳: 99.04最差: 73.85 | 23.79s | 5 |
| 39 | gpt-4.1-mini | 86.62 t/s 最佳: 141.56最差: 18.97 | 8.62s | 5 |
| 40 | o4-mini | 86.05 t/s 最佳: 146.48最差: 66.71 | 3.61s | 10 |
| 41 | Qwen/Qwen2-7B-Instruct | 85.82 t/s 最佳: 96.99最差: 74.48 | 0.61s | 5 |
| 42 | doubao-seed-1-6-flash | 82.66 t/s 最佳: 99.25最差: 63.66 | 3.57s | 5 |
| 43 | gpt-4o-mini | 77.53 t/s 最佳: 126.48最差: 33.52 | 1.29s | 5 |
| 44 | gpt-4o-mini | 76.86 t/s 最佳: 156.36最差: 48.90 | 3.64s | 15 |
| 45 | Pro/THUDM/glm-4-9b-chat | 75.87 t/s 最佳: 80.21最差: 65.89 | 0.56s | 5 |
| 46 | 沉浸式翻译 | 72.24 t/s 最佳: 79.55最差: 66.21 | 1.01s | 5 |
| 47 | glm-4-flashx | 71.64 t/s 最佳: 73.12最差: 70.67 | 0.29s | 5 |
| 48 | Pro/Qwen/Qwen2-7B-Instruct | 71.29 t/s 最佳: 75.66最差: 68.18 | 0.56s | 5 |
| 49 | doubao-seed-1-6-flash-250615 | 68.67 t/s 最佳: 77.37最差: 60.04 | 3.88s | 5 |
| 50 | doubao-seed-1-6-250615 | 67.76 t/s 最佳: 76.79最差: 58.34 | 12.10s | 5 |