一个用于管理API请求的智能负载均衡平台。
GPT Load 是一个开源的智能负载均衡平台,旨在高效管理和分发 API 请求。它提供跨多个端点路由流量的工具,以优化性能和可靠性。主要功能包括支持多种 API 模型、可配置的路由规则以及与流行服务的集成。该平台面向需要可扩展 API 管理解决方案的开发者和团队,典型用例涉及 AI 模型 API、Web 服务和后端系统。它在 MIT 许可证下提供,并在 GitHub 上维护。

一个用于管理API请求的智能负载均衡平台。
GPT Load 是一个开源的智能负载均衡平台,旨在高效管理和分发 API 请求。它提供跨多个端点路由流量的工具,以优化性能和可靠性。主要功能包括支持多种 API 模型、可配置的路由规则以及与流行服务的集成。该平台面向需要可扩展 API 管理解决方案的开发者和团队,典型用例涉及 AI 模型 API、Web 服务和后端系统。它在 MIT 许可证下提供,并在 GitHub 上维护。
| Model | Speed | Latency | Tests |
|---|---|---|---|
| qwen-3-32b | 3044.37 t/s | 1.93s | 5 |
| qwen-3-235b-a22b-instruct-2507 | 1381.99 t/s | 1.49s | 20 |
| translate-model | 345.18 t/s | 3.10s | 45 |
| models/gemini-2.5-flash-lite | 259.93 t/s | 0.71s | 5 |
| DeepSeek-V3.1 | 257.63 t/s | 0.55s | 5 |
| DeepSeek-V3.1 | 257.63 t/s | 0.55s | 5 |
| DeepSeek-V3-0324 | 218.28 t/s | 0.90s | 5 |
| openai/gpt-oss-120b | 205.99 t/s | 8.90s | 5 |
| models/gemini-2.5-flash | 198.97 t/s | 7.95s | 15 |
| models/gemini-2.5-flash-preview-09-2025 | 175.68 t/s | 0.57s | 5 |
| Qwen/Qwen3-Next-80B-A3B-Instruct | 173.09 t/s | 1.54s | 5 |
| Qwen/Qwen3-Next-80B-A3B-Instruct | 173.09 t/s | 1.54s | 5 |
| qwen/qwen3-next-80b-a3b-instruct | 154.28 t/s | 0.79s | 10 |
| qwen/qwen3-next-80b-a3b-instruct | 154.28 t/s | 0.79s | 10 |
| gpt-oss:120b | 141.34 t/s | 1.35s | 5 |
| WiNGPT-Babel | 137.86 t/s | 1.40s | 5 |
| x-ai/grok-4.1-fast:free | 87.31 t/s | 6.31s | 5 |
| deepseek-v3.1:671b | 72.01 t/s | 2.63s | 5 |
| deepseek-v3.1:671b | 72.01 t/s | 2.63s | 5 |
| gpt-4.1-mini | 66.95 t/s | 1.58s | 5 |
| moonshotai/kimi-k2-instruct-0905 | 36.98 t/s | 5.74s | 5 |
| Time | Model | Speed | Latency |
|---|---|---|---|
| Nov 28, 08:51 AM | x-ai/grok-4.1-fast:free | 87.31 t/s | 6.31s |
| Nov 28, 08:38 AM | gpt-oss:120b | 141.34 t/s | 1.35s |
| Nov 28, 08:35 AM | DeepSeek-V3-0324 | 218.28 t/s | 0.90s |
| Nov 28, 08:34 AM | qwen-3-235b-a22b-instruct-2507 | 1843.26 t/s | 2.10s |
| Nov 28, 08:33 AM | qwen-3-235b-a22b-instruct-2507 | 377.69 t/s | 1.38s |
| Nov 28, 08:32 AM | models/gemini-2.5-flash | 194.64 t/s | 7.60s |
| Nov 28, 08:31 AM | Qwen/Qwen3-Next-80B-A3B-Instruct | 173.09 t/s | 1.54s |
| Nov 28, 08:29 AM | qwen/qwen3-next-80b-a3b-instruct | 149.87 t/s | 0.78s |
| Nov 28, 08:27 AM | openai/gpt-oss-120b | 205.99 t/s | 8.90s |
| Nov 28, 08:25 AM | qwen/qwen3-next-80b-a3b-instruct | 158.70 t/s | 0.80s |