NVIDIA NIM

Name: NVIDIA NIM
Rating: 3.2 (650 reviews)

NVIDIA NIM provides optimized AI model inference APIs for LLMs, vision, and embedding models through NVIDIA cloud infrastructure.

Categories

NVIDIA NIM offers 42 LLM API models.

Speed benchmark average: 63 tok/s.

NVIDIA NIM is an API aggregator, offering models from multiple vendors.

Avg Speed63.48 tok/s

Latency6.53 s

Total Tests650

Models42

Updated4/16/2026

Created At8/13/2025

Recent Test Records

Time	Model	Speed	Latency
Apr 15, 06:51 PM	qwen/qwen3.5-122b-a10b	86.95 tok/s	0.29s
Apr 15, 05:58 PM	minimaxai/minimax-m2.5	73.00 tok/s	0.97s
Apr 13, 11:25 AM	qwen/qwen3-coder-480b-a35b-instruct	73.43 tok/s	3.16s
Apr 11, 02:08 AM	moonshotai/kimi-k2.5	69.24 tok/s	8.16s
Apr 11, 02:01 AM	z-ai/glm5	28.19 tok/s	14.62s
Apr 10, 12:07 PM	qwen/qwen3-coder-480b-a35b-instruct	52.06 tok/s	1.09s
Apr 10, 12:06 PM	moonshotai/kimi-k2.5	72.37 tok/s	8.06s
Apr 10, 11:58 AM	minimaxai/minimax-m2.5	62.31 tok/s	2.44s
Apr 8, 05:11 PM	moonshotai/kimi-k2-thinking	30.41 tok/s	20.72s
Apr 8, 04:12 PM	moonshotai/kimi-k2-thinking	25.84 tok/s	29.77s