GPT Load (Shiho)

GPT Load (Shiho) is an OpenAI-compatible API load balancing service hosted at gpt-load.shiho.top, distributing requests across multiple AI model providers for improved reliability.

GPT-OSS Llama3 1 Llama 3.3 Llama 4 Maverick 128e Instruct

GPT Load (Shiho) offers 22 LLM API models.

Speed benchmark average: 1164 tok/s.

Avg Speed1164.47 tok/s

Latency0.41 s

Updated4/29/2026

Created At12/7/2025

Website

API Endpoints

gpt-load.shiho.top

Supported Models

Model	Speed	Latency	Tests
openai/gpt-oss-120b	481.90 tok/s	0.43s	5
llama3.1-8b	1629.33 tok/s	0.36s	25
llama-3.3-70b	984.90 tok/s	0.45s	20
llama-4-maverick-17b-128e-instruct	825.70 tok/s	0.41s	5
qwen-3-235b-a22b-thinking-2507	579.82 tok/s	0.44s	5

Available Models

17 models available (last updated: 6/3/2026)

allam-2-7bSDAIAcanopylabs/orpheus-arabic-saudiCanopy Labscanopylabs/orpheus-v1-englishCanopy Labsgroq/compoundGroqgroq/compound-miniGroqllama-3.1-8b-instantMetallama-3.3-70b-versatileMetameta-llama/llama-4-scout-17b-16e-instructMetameta-llama/llama-prompt-guard-2-22mMetameta-llama/llama-prompt-guard-2-86mMetamoonshotai/kimi-k2-instructsystemopenai/gpt-oss-120bOpenAIopenai/gpt-oss-20bOpenAIopenai/gpt-oss-safeguard-20bOpenAIqwen/qwen3-32bAlibaba Cloudwhisper-large-v3OpenAIwhisper-large-v3-turboOpenAI