ModelScope

ModelScope provides model inference API access to a wide range of open-source AI models via OpenAI-compatible endpoints.

Categories

ModelScope offers 18 LLM API models.

Speed benchmark average: 58 tok/s.

ModelScope is an API aggregator, offering models from multiple vendors.

Avg Speed58.21 tok/s

Latency5.76 s

Total Tests108

Models18

Updated4/16/2026

Created At12/7/2025

Supported Models

Model	Speed	Latency	Tests
Qwen/Qwen3-Next-80B-A3B-Instruct	158.96 tok/s	0.96s	10
Qwen/Qwen3-4B	126.44 tok/s	4.27s	5
Qwen/Qwen3-30B-A3B	123.38 tok/s	6.13s	5
Qwen/Qwen3-8B	76.12 tok/s	9.33s	5
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B	70.69 tok/s	13.55s	5
Qwen/Qwen3-Coder-480B-A35B-Instruct	61.17 tok/s	0.94s	5
MiniMax/MiniMax-M2.5	52.75 tok/s	7.49s	5
Qwen/QVQ-72B-Preview	44.92 tok/s	1.16s	8
Qwen/Qwen2.5-7B-Instruct	43.96 tok/s	0.91s	5
moonshotai/Kimi-K2.5	43.12 tok/s	1.11s	5
deepseek-ai/DeepSeek-V3	35.26 tok/s	1.77s	5
deepseek-ai/DeepSeek-R1-0528	32.22 tok/s	18.61s	10
Qwen/Qwen3-235B-A22B-Instruct-2507	31.78 tok/s	3.02s	5
deepseek-ai/DeepSeek-V3.2	29.48 tok/s	1.88s	5
kgiser/gpu_gpt_5	28.32 tok/s	1.14s	10
deepseek-ai/DeepSeek-R1-Distill-Llama-70B	27.45 tok/s	27.33s	5
TeichAI/Qwen3-30B-A3B-Thinking-2507-Claude-4.5-Sonnet-High-Reasoning-Distill-GGUF	13.07 tok/s	2.17s	5
mistralai/Mistral-Small-Instruct-2409	11.68 tok/s	1.15s	5