一个用于管理和分发多个AI提供商API请求的智能负载均衡平台。
GPT Load 是一个开源的智能负载均衡平台,旨在管理和分发跨多个AI提供商的API请求。它提供了一个统一的接口来访问各种AI模型,帮助开发人员优化性能和可靠性。主要功能包括负载均衡、故障转移处理和请求路由。该平台支持与不同AI API的集成,允许用户在不同提供商之间无缝切换。典型用例包括AI应用开发、API管理以及确保AI服务的高可用性。该项目在GitHub上以MIT许可证提供。
0.51s |
| 5 |
| llama-4-maverick-17b-128e-instruct | 1052.78 t/s | 0.41s | 5 |
| llama-4-scout-17b-16e-instruct | 1372.80 t/s | 0.36s | 5 |
| models/gemini-2.5-flash | 180.81 t/s | 7.98s | 5 |
| qwen-3-235b-a22b-instruct-2507 | 754.92 t/s | 0.45s | 5 |
| qwen-3-235b-a22b-thinking-2507 | 579.82 t/s | 0.44s | 5 |
| qwen-3-32b | 705.04 t/s | 0.40s | 5 |
| gpt-oss-120b | 846.32 t/s | 0.70s | 5 |
| qwen-3-coder-480b | 894.38 t/s | 0.35s | 5 |
| 时间 | 模型 | 速度 | 延迟 |
|---|---|---|---|
| Sep 21, 06:22 PM | llama3.1-8b | 2264.49 t/s | 0.35s |
| Sep 21, 06:21 PM | llama-4-maverick-17b-128e-instruct | 1052.78 t/s | 0.41s |
| Sep 21, 06:21 PM | llama-4-scout-17b-16e-instruct | 1372.80 t/s | 0.36s |
| Sep 21, 06:19 PM | llama-3.3-70b | 1062.69 t/s | 0.51s |
| Sep 21, 06:18 PM | qwen-3-235b-a22b-thinking-2507 | 579.82 t/s | 0.44s |
| Sep 21, 06:18 PM | qwen-3-coder-480b | 894.38 t/s | 0.35s |
| Sep 21, 06:17 PM | llama3.1-8b | 2117.91 t/s | 0.34s |
| Sep 21, 06:16 PM | qwen-3-32b | 705.04 t/s | 0.40s |
| Sep 21, 06:16 PM | gpt-oss-120b | 846.32 t/s | 0.70s |
| Sep 21, 06:14 PM | qwen-3-235b-a22b-instruct-2507 | 754.92 t/s | 0.45s |