排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
平均每秒输出的 Token 数,越高越好。
| 排名 | Provider | 模型 | 输出速度 | 平均首字延迟 | 次数 |
|---|---|---|---|---|---|
| 1 | gpt-5-nano | 52788.85 t/s 最佳: 114460.71最差: 12345.63 | 26.15s | 5 | |
| 2 | deepseek-ai/DeepSeek-V3.1 | 37419.93 t/s 最佳: 187248.67最差: 36.95 | 3.04s | 15 | |
| 3 |
| qwen-mt-turbo |
5403.35 t/s 最佳: 8067.50最差: 3435.35 |
1.02s |
| 5 |
| 4 | qwen-3-32b | 3044.37 t/s 最佳: 3805.59最差: 2429.74 | 1.93s | 5 |
| 5 | qwen-3-235b-a22b-instruct-2507 | 2212.66 t/s 最佳: 5983.65最差: 1432.88 | 1.99s | 10 |
| 6 | gpt-oss-120b | 671.95 t/s 最佳: 814.13最差: 569.76 | 2.33s | 5 |
| 7 | gpt-oss-120b | 590.03 t/s 最佳: 822.90最差: 458.71 | 0.84s | 5 |
| 8 | mistral-small-latest | 576.27 t/s 最佳: 807.33最差: 70.75 | 1.51s | 5 |
| 9 | qwen-3-235b-a22b-instruct-2507 | 449.95 t/s 最佳: 936.84最差: 109.20 | 1.47s | 5 |
| 10 | gemini-flash-lite-latest | 381.81 t/s 最佳: 517.92最差: 290.49 | 0.88s | 20 |
| 11 | qwen-3-235b-a22b-instruct-2507 | 377.69 t/s 最佳: 420.23最差: 282.14 | 1.38s | 5 |
| 12 | gpt-oss-120b | 365.50 t/s 最佳: 827.27最差: 194.05 | 2.12s | 5 |
| 13 | translate-model | 345.18 t/s 最佳: 2297.88最差: 48.59 | 3.10s | 45 |
| 14 | gemini-2.5-flash-lite-nothinking | 341.00 t/s 最佳: 397.96最差: 261.97 | 0.99s | 5 |
| 15 | gpt-oss-120b | 306.96 t/s 最佳: 776.89最差: 95.72 | 1.64s | 5 |
| 16 | gemini-2.5-flash-lite-nothinking | 295.30 t/s 最佳: 391.82最差: 236.11 | 0.99s | 5 |
| 17 | models/gemini-2.5-flash-lite | 259.93 t/s 最佳: 299.06最差: 233.31 | 0.71s | 5 |
| 18 | qwen3-0.6b | 243.65 t/s 最佳: 289.74最差: 204.64 | 2.38s | 5 |
| 19 | moonshotai/kimi-k2-instruct-0905 | 240.47 t/s 最佳: 294.02最差: 168.89 | 1.79s | 10 |
| 20 | gpt-5-nano | 238.85 t/s 最佳: 376.48最差: 134.58 | 7.16s | 10 |
| 21 | moonshotai/kimi-k2-instruct-0905 | 227.97 t/s 最佳: 297.72最差: 182.46 | 0.78s | 5 |
| 22 | MBZUAI-IFM/K2-Think-nothink | 219.47 t/s 最佳: 234.00最差: 196.83 | 2.56s | 5 |
| 23 | DeepSeek-V3-0324 | 218.28 t/s 最佳: 265.24最差: 119.32 | 0.90s | 5 |
| 24 | Qwen/Qwen3-Next-80B-A3B-Instruct | 215.77 t/s 最佳: 259.45最差: 179.04 | 1.75s | 5 |
| 25 | gemini-2.5-flash | 210.68 t/s 最佳: 243.31最差: 183.09 | 7.27s | 5 |
| 26 | gemini-2.5-flash | 206.02 t/s 最佳: 249.82最差: 162.88 | 7.86s | 5 |
| 27 | openai/gpt-oss-120b | 205.99 t/s 最佳: 224.04最差: 194.48 | 8.90s | 5 |
| 28 | models/gemini-2.5-flash | 198.97 t/s 最佳: 254.68最差: 161.26 | 7.95s | 15 |
| 29 | gemini-2.5-flash | 191.67 t/s 最佳: 228.77最差: 148.61 | 10.04s | 5 |
| 30 | gemini-2.5-flash | 191.67 t/s 最佳: 228.77最差: 148.61 | 10.04s | 5 |
| 31 | Qwen/Qwen3-Next-80B-A3B-Instruct | 178.62 t/s 最佳: 237.70最差: 138.07 | 0.97s | 5 |
| 32 | qwen3-1.7b | 175.64 t/s 最佳: 192.92最差: 152.76 | 4.38s | 5 |
| 33 | Qwen/Qwen3-Next-80B-A3B-Instruct | 173.09 t/s 最佳: 227.84最差: 139.15 | 1.54s | 5 |
| 34 | gemini-2.0-flash | 170.98 t/s 最佳: 254.40最差: 119.27 | 1.37s | 5 |
| 35 | glm-z1-airx | 168.24 t/s 最佳: 209.25最差: 147.32 | 0.34s | 5 |
| 36 | gemini-2.5-flash | 165.42 t/s 最佳: 210.27最差: 123.48 | 0.86s | 5 |
| 37 | momentum | 163.91 t/s 最佳: 213.50最差: 87.86 | 6.20s | 5 |
| 38 | openai/gpt-oss-20b | 154.97 t/s 最佳: 353.08最差: 0.00 | 2.79s | 20 |
| 39 | qwen/qwen3-next-80b-a3b-instruct | 154.28 t/s 最佳: 168.44最差: 130.24 | 0.79s | 10 |
| 40 | openai/gpt-oss-120b | 149.96 t/s 最佳: 171.49最差: 130.58 | 18.38s | 5 |
| 41 | hunyuan-a13b-instruct | 143.03 t/s 最佳: 143.55最差: 141.86 | 3.85s | 5 |
| 42 | gpt-oss:120b | 141.34 t/s 最佳: 164.35最差: 119.92 | 1.35s | 5 |
| 43 | WiNGPT-Babel | 137.86 t/s 最佳: 288.46最差: 71.33 | 1.40s | 5 |
| 44 | immersive_translate | 127.41 t/s 最佳: 137.07最差: 112.45 | 0.31s | 10 |
| 45 | openai/gpt-oss-120b | 127.08 t/s 最佳: 152.09最差: 79.75 | 1.81s | 5 |
| 46 | hunyuan-lite | 123.45 t/s 最佳: 131.43最差: 114.42 | 0.88s | 5 |
| 47 | Qwen/Qwen3-30B-A3B | 123.38 t/s 最佳: 153.33最差: 93.68 | 6.13s | 5 |
| 48 | doubao-seed-1.6-flash | 112.37 t/s 最佳: 149.80最差: 83.62 | 7.99s | 5 |
| 49 | LongCat-Flash-Chat | 110.44 t/s 最佳: 165.84最差: 82.89 | 2.94s | 10 |
| 50 | Qwen/Qwen3-Next-80B-A3B-Instruct | 110.28 t/s 最佳: 147.55最差: 83.24 | 0.95s | 5 |