排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
平均每秒输出的 Token 数,越高越好。
| 排名 | Provider | 模型 | 输出速度 | 平均首字延迟 | 次数 |
|---|---|---|---|---|---|
| 1 | QWEN | 26447.65 t/s 最佳: 29225.31最差: 22615.66 | 2.28s | 5 | |
| 2 | auto_chat | 26226.28 t/s 最佳: 29397.79最差: 21527.43 | 2.31s | 10 | |
| 3 |
| auto_chat |
26226.28 t/s 最佳: 29397.79最差: 21527.43 |
2.31s |
| 10 |
| 4 | QWEN | 25767.73 t/s 最佳: 28486.04最差: 22422.67 | 2.34s | 5 |
| 5 | QWEN | 25767.73 t/s 最佳: 28486.04最差: 22422.67 | 2.34s | 5 |
| 6 | QWEN | 25767.73 t/s 最佳: 28486.04最差: 22422.67 | 2.34s | 5 |
| 7 | QWEN | 24489.11 t/s 最佳: 28226.09最差: 22088.69 | 2.40s | 5 |
| 8 | QWEN | 24489.11 t/s 最佳: 28226.09最差: 22088.69 | 2.40s | 5 |
| 9 | QWEN | 23330.45 t/s 最佳: 28540.31最差: 16419.09 | 2.51s | 5 |
| 10 | QWEN | 23330.45 t/s 最佳: 28540.31最差: 16419.09 | 2.51s | 5 |
| 11 | QWEN | 21961.01 t/s 最佳: 26829.29最差: 8729.13 | 2.49s | 10 |
| 12 | QWEN | 21961.01 t/s 最佳: 26829.29最差: 8729.13 | 2.49s | 10 |
| 13 | SCQwen3 | 2399.97 t/s 最佳: 7173.18最差: 51.52 | 9.80s | 5 |
| 14 | llama3.1-8b | 2191.20 t/s 最佳: 2380.02最差: 1972.50 | 0.35s | 10 |
| 15 | CEREBRAS | 1473.52 t/s 最佳: 1618.04最差: 1197.58 | 3.54s | 5 |
| 16 | CEREBRAS | 1473.52 t/s 最佳: 1618.04最差: 1197.58 | 3.54s | 5 |
| 17 | llama-4-scout-17b-16e-instruct | 1372.80 t/s 最佳: 2337.90最差: 1013.16 | 0.36s | 5 |
| 18 | llama-3.3-70b | 1062.69 t/s 最佳: 1189.55最差: 947.98 | 0.51s | 5 |
| 19 | llama-4-maverick-17b-128e-instruct | 1052.78 t/s 最佳: 1316.79最差: 830.13 | 0.41s | 5 |
| 20 | qwen-3-coder-480b | 894.38 t/s 最佳: 1231.29最差: 476.56 | 0.35s | 5 |
| 21 | gemini-2.0-flash-lite | 853.10 t/s 最佳: 1952.68最差: 189.38 | 4.85s | 5 |
| 22 | gpt-oss-120b | 846.32 t/s 最佳: 1592.38最差: 529.76 | 0.70s | 5 |
| 23 | qwen-3-235b-a22b-instruct-2507 | 754.92 t/s 最佳: 1013.76最差: 548.86 | 0.45s | 5 |
| 24 | qwen-3-235b-a22b-instruct-2507 | 724.96 t/s 最佳: 1015.33最差: 536.96 | 0.60s | 5 |
| 25 | qwen-3-32b | 705.04 t/s 最佳: 831.33最差: 564.46 | 0.40s | 5 |
| 26 | asi1-extended | 681.48 t/s 最佳: 849.76最差: 559.82 | 2.18s | 5 |
| 27 | qwen-3-235b-a22b-thinking-2507 | 579.82 t/s 最佳: 709.20最差: 438.58 | 0.44s | 5 |
| 28 | ai.dev/gemini-2.5-flash-lite | 405.65 t/s 最佳: 498.23最差: 329.15 | 0.78s | 5 |
| 29 | accounts/fireworks/models/gpt-oss-20b | 359.18 t/s 最佳: 380.03最差: 345.85 | 1.14s | 10 |
| 30 | asi1-fast | 339.86 t/s 最佳: 767.56最差: 255.53 | 9.12s | 10 |
| 31 | gcli/gemini-2.5-flash | 332.90 t/s 最佳: 589.48最差: 218.35 | 8.61s | 5 |
| 32 | openai/gpt-5-nano | 321.87 t/s 最佳: 464.65最差: 145.16 | 19.88s | 5 |
| 33 | gemini-2.0-flash-001 | 282.75 t/s 最佳: 340.86最差: 173.41 | 2.70s | 5 |
| 34 | DeepSeek-V3.1 | 257.63 t/s 最佳: 277.42最差: 237.94 | 0.55s | 5 |
| 35 | x-ai/grok-4-fast:free | 233.02 t/s 最佳: 297.76最差: 137.48 | 2.32s | 5 |
| 36 | MBZUAI-IFM/K2-Think | 230.74 t/s 最佳: 300.12最差: 197.21 | 2.12s | 10 |
| 37 | gemini-2.5-flash | 221.56 t/s 最佳: 290.68最差: 155.34 | 9.25s | 5 |
| 38 | openrouter/sonoma-sky-alpha | 219.22 t/s 最佳: 259.93最差: 171.77 | 2.18s | 5 |
| 39 | models/gemini-2.5-flash | 180.81 t/s 最佳: 201.06最差: 158.47 | 7.98s | 5 |
| 40 | gemini-2.0-flash | 178.57 t/s 最佳: 333.67最差: 42.35 | 21.33s | 15 |
| 41 | models/gemini-2.5-flash-preview-09-2025 | 175.68 t/s 最佳: 205.12最差: 152.49 | 0.57s | 5 |
| 42 | o3-mini | 174.13 t/s 最佳: 195.02最差: 152.08 | 3.83s | 5 |
| 43 | grok-4-fast-non-reasoning | 167.62 t/s 最佳: 187.89最差: 151.31 | 0.90s | 5 |
| 44 | openai/gpt-oss-20b:free | 165.41 t/s 最佳: 174.99最差: 151.41 | 3.35s | 5 |
| 45 | qwen3-next-80b-a3b-instruct | 164.04 t/s 最佳: 202.21最差: 119.94 | 0.45s | 5 |
| 46 | gemini-2.0-flash | 163.32 t/s 最佳: 186.75最差: 131.84 | 0.59s | 5 |
| 47 | grok-3-mini | 154.69 t/s 最佳: 170.00最差: 145.81 | 3.10s | 5 |
| 48 | grok-4-fast-non-reasoning | 151.11 t/s 最佳: 168.48最差: 130.03 | 0.51s | 5 |
| 49 | qwen3-8b | 150.65 t/s 最佳: 157.12最差: 140.46 | 5.56s | 5 |
| 50 | moonshotai/kimi-k2-instruct | 149.26 t/s 最佳: 187.53最差: 105.96 | 0.49s | 5 |