排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
平均每秒输出的 Token 数,越高越好。
| 排名 | Provider | 模型 | 输出速度 | 平均首字延迟 | 次数 |
|---|---|---|---|---|---|
| 1 | gemini-2.5-flash | 4575.77 t/s 最佳: 22057.30最差: 143.99 | 4.39s | 5 | |
| 2 | yuki | 2712.05 t/s 最佳: 6893.15最差: 95.27 | 5.02s | 5 | |
| 3 |
| llama3.1-8b |
2142.09 t/s 最佳: 2534.63最差: 861.08 |
0.19s |
| 5 |
| 4 | gpt-oss-120b | 1920.13 t/s 最佳: 2415.66最差: 1587.06 | 0.54s | 5 |
| 5 | llama-3.3-70b | 1532.55 t/s 最佳: 1982.40最差: 964.64 | 0.25s | 5 |
| 6 | Qwen/Qwen3-32B | 1214.07 t/s 最佳: 1649.43最差: 977.23 | 0.91s | 5 |
| 7 | qwen-3-235b-a22b-instruct-2507 | 851.89 t/s 最佳: 1123.67最差: 610.53 | 12.09s | 10 |
| 8 | openai/gpt-oss-20b | 755.20 t/s 最佳: 955.01最差: 511.60 | 0.47s | 5 |
| 9 | grok-4.1 | 729.41 t/s 最佳: 1814.47最差: 74.51 | 59.04s | 5 |
| 10 | gpt-4.1-nano-2025-04-14 | 592.40 t/s 最佳: 1840.57最差: 213.50 | 1.03s | 10 |
| 11 | deepseek-ai/DeepSeek-V3.2-Exp | 557.51 t/s 最佳: 2787.57最差: 0.00 | 3.46s | 5 |
| 12 | openai/gpt-oss-120b | 456.69 t/s 最佳: 482.07最差: 427.34 | 0.31s | 10 |
| 13 | gemini-flash-lite-latest | 369.22 t/s 最佳: 551.78最差: 307.12 | 0.67s | 5 |
| 14 | Qwen3-0.6B-Q8_0.gguf | 340.00 t/s 最佳: 431.04最差: 251.73 | 3.08s | 15 |
| 15 | Qwen3-0.6B-Q8_0.gguf | 340.00 t/s 最佳: 431.04最差: 251.73 | 3.08s | 15 |
| 16 | Qwen3-0.6B-Q8_0.gguf | 340.00 t/s 最佳: 431.04最差: 251.73 | 3.08s | 15 |
| 17 | qwen/qwen3-32b | 310.21 t/s 最佳: 362.78最差: 275.13 | 0.18s | 5 |
| 18 | Qwen3-0.6B-Q8_0.gguf | 300.87 t/s 最佳: 305.13最差: 296.03 | 2.59s | 10 |
| 19 | Qwen3-0.6B-Q8_0.gguf | 300.87 t/s 最佳: 305.13最差: 296.03 | 2.59s | 10 |
| 20 | Qwen3-0.6B-Q8_0.gguf | 300.87 t/s 最佳: 305.13最差: 296.03 | 2.59s | 10 |
| 21 | gpt-oss-120b | 284.17 t/s 最佳: 332.77最差: 249.78 | 1.50s | 5 |
| 22 | gemini-2.5-flash-lite | 274.78 t/s 最佳: 319.23最差: 248.99 | 0.60s | 5 |
| 23 | gemini-3-flash-preview | 263.35 t/s 最佳: 427.47最差: 188.54 | 6.89s | 5 |
| 24 | openai/gpt-oss-120b | 251.35 t/s 最佳: 282.59最差: 224.87 | 0.80s | 5 |
| 25 | gemini-2.5-flash | 206.62 t/s 最佳: 260.40最差: 142.45 | 7.26s | 5 |
| 26 | qwen3-vl:latest | 206.16 t/s 最佳: 211.21最差: 200.59 | 6.63s | 5 |
| 27 | qwen3-vl:latest | 206.16 t/s 最佳: 211.21最差: 200.59 | 6.63s | 5 |
| 28 | qwen3-vl:latest | 206.16 t/s 最佳: 211.21最差: 200.59 | 6.63s | 5 |
| 29 | gemini-2.5-flash | 192.65 t/s 最佳: 235.51最差: 144.32 | 9.27s | 5 |
| 30 | gemini-2.5-flash | 188.95 t/s 最佳: 207.59最差: 169.05 | 9.25s | 5 |
| 31 | gemini-2.5-flash | 188.95 t/s 最佳: 207.59最差: 169.05 | 9.25s | 5 |
| 32 | gemini-2.5-flash | 188.95 t/s 最佳: 207.59最差: 169.05 | 9.25s | 5 |
| 33 | gemini-2.5-flash-lite | 186.31 t/s 最佳: 355.26最差: 129.74 | 1.55s | 5 |
| 34 | gemini-2.5-flash | 183.01 t/s 最佳: 213.04最差: 155.85 | 8.28s | 5 |
| 35 | gemini-2.0-flash | 181.83 t/s 最佳: 202.86最差: 160.24 | 1.79s | 5 |
| 36 | gemini-2.0-flash | 181.28 t/s 最佳: 199.82最差: 145.48 | 1.02s | 5 |
| 37 | z-ai/glm-4.6v-flash | 172.60 t/s 最佳: 238.26最差: 118.48 | 9.42s | 5 |
| 38 | gpt-5.1 | 170.84 t/s 最佳: 246.21最差: 119.96 | 1.98s | 5 |
| 39 | gemini-2.5-flash-lite-preview-06-17 | 160.85 t/s 最佳: 213.98最差: 88.78 | 0.70s | 5 |
| 40 | gpt-oss-20b-MXFP4.gguf | 150.80 t/s 最佳: 154.26最差: 147.96 | 2.98s | 10 |
| 41 | gpt-oss-20b-MXFP4.gguf | 150.80 t/s 最佳: 154.26最差: 147.96 | 2.98s | 10 |
| 42 | gpt-oss-20b-MXFP4.gguf | 150.80 t/s 最佳: 154.26最差: 147.96 | 2.98s | 10 |
| 43 | google/gemini-3-flash-preview | 150.13 t/s 最佳: 167.84最差: 141.36 | 1.45s | 5 |
| 44 | moonshotai/kimi-k2-instruct-0905 | 148.30 t/s 最佳: 165.64最差: 133.01 | 0.83s | 5 |
| 45 | GLM-4.6V-Flash | 144.43 t/s 最佳: 193.43最差: 88.78 | 9.58s | 15 |
| 46 | gemini-2.5-flash | 139.24 t/s 最佳: 185.95最差: 103.00 | 7.45s | 5 |
| 47 | qwen-flash | 134.43 t/s 最佳: 143.19最差: 113.93 | 0.50s | 10 |
| 48 | deepseek-v3.1 | 132.30 t/s 最佳: 154.59最差: 110.42 | 0.55s | 5 |
| 49 | deepseek-v3-1-terminus | 126.69 t/s 最佳: 136.27最差: 119.57 | 1.03s | 5 |
| 50 | deepseek-v3-1-terminus | 126.69 t/s 最佳: 136.27最差: 119.57 | 1.03s | 5 |