排行榜
基于模型测速与 Provider 健康检查数据的多维排行榜,对比不同 Provider、端点与稳定性表现。
生成首个 Token 的平均时间,越低越好。
| 排名 | Provider | 模型 | 首字延迟 | 平均输出速度 | 次数 |
|---|---|---|---|---|---|
| 1 | deepseek-r1:32b | 0.50 s 最佳: 0.34最差: 0.71 | 39.39t/s | 5 | |
| 2 | gpt-3.5-turbo-0613 | 0.50 s 最佳: 0.45最差: 0.66 | 140.29t/s | 5 | |
| 3 |
| deepseek-r1:1.5b |
0.52 s 最佳: 0.47最差: 0.68 |
217.41t/s |
| 5 |
| 4 | deepseek-r1:671b | 0.54 s 最佳: 0.48最差: 0.71 | 1.58t/s | 5 |
| 5 | deepseek/deepseek-r1 | 0.55 s 最佳: 0.47最差: 0.72 | 11.24t/s | 10 |
| 6 | gpt-4o | 0.56 s 最佳: 0.49最差: 0.62 | 90.39t/s | 5 |
| 7 | grok-2-vision-1212 | 0.58 s 最佳: 0.51最差: 0.77 | 64.54t/s | 10 |
| 8 | gpt-4o-mini-2024-07-18 | 0.60 s 最佳: 0.40最差: 0.90 | 130.72t/s | 5 |
| 9 | deepseek-ai/DeepSeek-R1 | 0.62 s 最佳: 0.46最差: 2.26 | 261.08t/s | 20 |
| 10 | gpt-3.5-turbo-16k | 0.64 s 最佳: 0.51最差: 0.94 | 145.74t/s | 5 |
| 11 | 4bd107bff85941239e27b1509eccfe98 | 0.64 s 最佳: 0.51最差: 0.81 | 13.96t/s | 5 |
| 12 | gpt-4-0125-preview | 0.67 s 最佳: 0.51最差: 0.78 | 28.16t/s | 5 |
| 13 | gpt-4o-mini | 0.68 s 最佳: 0.50最差: 0.97 | 101.71t/s | 5 |
| 14 | deepseek/deepseek-v3 | 0.69 s 最佳: 0.42最差: 1.46 | 10.34t/s | 5 |
| 15 | gpt-3.5-turbo-0125 | 0.70 s 最佳: 0.50最差: 0.78 | 98.60t/s | 5 |
| 16 | gpt-4-turbo | 0.73 s 最佳: 0.63最差: 0.84 | 27.93t/s | 5 |
| 17 | gpt-3.5-turbo-16k-0613 | 0.73 s 最佳: 0.49最差: 1.60 | 108.01t/s | 5 |
| 18 | 7ba7726dad4c4ea4ab7f39c7741aea68 | 0.74 s 最佳: 0.50最差: 1.07 | 16.80t/s | 5 |
| 19 | deepseek-v3 | 0.77 s 最佳: 0.60最差: 1.33 | 14.06t/s | 20 |
| 20 | deepseek/deepseek-r1/community | 0.78 s 最佳: 0.45最差: 1.78 | 14.36t/s | 10 |
| 21 | gpt-3.5-turbo | 0.79 s 最佳: 0.36最差: 1.69 | 121.66t/s | 5 |
| 22 | gpt-3.5-turbo-1106 | 0.82 s 最佳: 0.48最差: 1.34 | 156.38t/s | 5 |
| 23 | gpt-4-1106-preview | 0.82 s 最佳: 0.63最差: 1.13 | 42.07t/s | 5 |
| 24 | TA/deepseek-ai/DeepSeek-V3 | 0.84 s 最佳: 0.59最差: 1.06 | 24.61t/s | 5 |
| 25 | LoRA/Qwen/Qwen2.5-32B-Instruct | 0.84 s 最佳: 0.47最差: 2.23 | 64.68t/s | 5 |
| 26 | qwen-14b-chat | 0.90 s 最佳: 0.59最差: 1.92 | 50.69t/s | 5 |
| 27 | gemini-2.0-flash | 0.90 s 最佳: 0.71最差: 1.25 | 113.79t/s | 5 |
| 28 | gemini-1.5-flash | 0.91 s 最佳: 0.75最差: 1.05 | 158.26t/s | 5 |
| 29 | gpt-4o-2024-11-20 | 0.91 s 最佳: 0.70最差: 1.12 | 127.81t/s | 5 |
| 30 | gpt-4o-2024-11-20 | 0.93 s 最佳: 0.50最差: 1.46 | 90.36t/s | 10 |
| 31 | qwen2.5-7b-instruct-1m | 0.93 s 最佳: 0.66最差: 1.79 | 92.57t/s | 10 |
| 32 | Meta-Llama-3-3-70B-Instruct | 0.93 s 最佳: 0.65最差: 1.40 | 47.61t/s | 5 |
| 33 | deepseek-r1 | 0.94 s 最佳: 0.80最差: 1.11 | 33.71t/s | 5 |
| 34 | deepseek/deepseek-r1 | 0.96 s 最佳: 0.92最差: 1.02 | 8.54t/s | 5 |
| 35 | DeepSeek-R1 | 0.99 s 最佳: 0.85最差: 1.41 | 7.45t/s | 5 |
| 36 | qwen-plus-latest | 0.99 s 最佳: 0.69最差: 1.91 | 29.22t/s | 10 |
| 37 | deepseek-ai/DeepSeek-R1 | 1.00 s 最佳: 0.54最差: 6.10 | 45.81t/s | 350 |
| 38 | qwen2.5-7b-instruct | 1.01 s 最佳: 0.86最差: 1.20 | 34.15t/s | 5 |
| 39 | qwen2.5-coder-32b-instruct | 1.02 s 最佳: 0.77最差: 1.86 | 28.02t/s | 5 |
| 40 | LoRA/Qwen/Qwen2.5-14B-Instruct | 1.02 s 最佳: 0.48最差: 3.03 | 58.12t/s | 5 |
| 41 | gemini-1.5-flash-latest | 1.02 s 最佳: 0.74最差: 1.36 | 169.06t/s | 5 |
| 42 | deepseek/deepseek-r1-distill-llama-8b | 1.03 s 最佳: 0.60最差: 1.50 | 49.35t/s | 5 |
| 43 | gpt-4o-mini | 1.05 s 最佳: 0.92最差: 1.21 | 78.22t/s | 5 |
| 44 | gemini-2.0-flash-lite-preview-02-05 | 1.06 s 最佳: 0.70最差: 1.52 | 188.38t/s | 15 |
| 45 | gemini-2.0-flash | 1.07 s 最佳: 0.81最差: 1.38 | 125.24t/s | 5 |
| 46 | deepseek-ai/DeepSeek-V3 | 1.08 s 最佳: 0.83最差: 1.69 | 16.69t/s | 25 |
| 47 | gpt-4o-mini | 1.08 s 最佳: 0.92最差: 1.32 | 93.51t/s | 5 |
| 48 | qwen-max-latest | 1.09 s 最佳: 0.80最差: 1.99 | 24.83t/s | 5 |
| 49 | deepseek/deepseek-v3/community | 1.14 s 最佳: 0.41最差: 3.60 | 14.22t/s | 15 |
| 50 | deepseek/deepseek-r1-distill-qwen-32b | 1.17 s 最佳: 0.65最差: 1.56 | 22.32t/s | 5 |