GPT Load (Shiho)

GPT Load (Shiho) 是托管在 gpt-load.shiho.top 的 OpenAI 兼容 API 负载均衡服务，将请求分发到多个 AI 模型提供商以提高可靠性。

GPT-OSS Llama3 1 Llama 3.3 Llama 4 Maverick 128e Instruct

GPT Load (Shiho) 目前提供 22 个大模型 API。

速度基准测试平均吞吐 1164 tok/s。

平均速度1164.47 tok/s

延迟0.41 s

更新于4/29/2026

创建时间12/7/2025

网站

API 地址

gpt-load.shiho.top

支持的模型

模型	速度	延迟	测试数
openai/gpt-oss-120b	481.90 tok/s	0.43s	5
llama3.1-8b	1629.33 tok/s	0.36s	25
llama-3.3-70b	984.90 tok/s	0.45s	20
llama-4-maverick-17b-128e-instruct	825.70 tok/s	0.41s	5
qwen-3-235b-a22b-thinking-2507	579.82 tok/s	0.44s	5

可用模型列表

共 17 个可用模型（最后更新：6/3/2026）

allam-2-7bSDAIAcanopylabs/orpheus-arabic-saudiCanopy Labscanopylabs/orpheus-v1-englishCanopy Labsgroq/compoundGroqgroq/compound-miniGroqllama-3.1-8b-instantMetallama-3.3-70b-versatileMetameta-llama/llama-4-scout-17b-16e-instructMetameta-llama/llama-prompt-guard-2-22mMetameta-llama/llama-prompt-guard-2-86mMetamoonshotai/kimi-k2-instructsystemopenai/gpt-oss-120bOpenAIopenai/gpt-oss-20bOpenAIopenai/gpt-oss-safeguard-20bOpenAIqwen/qwen3-32bAlibaba Cloudwhisper-large-v3OpenAIwhisper-large-v3-turboOpenAI