NVIDIA NIM

NVIDIA NIM provides optimized AI model inference APIs for LLMs, vision, and embedding models through NVIDIA cloud infrastructure.

NVIDIA NIM offers 192 LLM API models.

Speed benchmark average: 64 tok/s.

NVIDIA NIM is an API aggregator, offering models from multiple vendors.

Avg Speed63.63 tok/s

Latency7.23 s

Updated4/22/2026

Created At8/13/2025

Website

API Endpoints

integrate.api.nvidia.com

Supported Models

Model	Speed	Latency	Tests
deepseek-ai/deepseek-v4-pro	19.55 tok/s	1.41s	35
qwen/qwen3.5-397b-a17b	29.51 tok/s	8.50s	90
nvidia/nemotron-3-ultra-550b-a55b	100.90 tok/s	1.06s	10
openai/gpt-oss-120b	152.83 tok/s	0.95s	95
minimaxai/minimax-m2.7	27.56 tok/s	18.11s	40
qwen/qwen3.5-122b-a10b	44.50 tok/s	2.97s	90
openai/gpt-oss-20b	162.69 tok/s	1.12s	10
nvidia/nemotron-mini-4b-instruct	86.58 tok/s	0.45s	5
meta/llama-3.1-8b-instruct	145.74 tok/s	0.21s	5
meta/llama-4-maverick-17b-128e-instruct	92.80 tok/s	0.27s	30
stepfun-ai/step-3.7-flash	53.14 tok/s	19.67s	5
qwen/qwen3-coder-480b-a35b-instruct	49.27 tok/s	2.07s	45
deepseek-ai/deepseek-v4-flash	23.53 tok/s	9.35s	40
google/gemma-4-31b-it	18.96 tok/s	27.70s	10
meta/llama-3.3-70b-instruct	28.12 tok/s	5.27s	5
nvidia/nemotron-3-super-120b-a12b	28.45 tok/s	31.58s	10
qwen/qwen3-next-80b-a3b-thinking	106.59 tok/s	9.02s	20
microsoft/phi-4-multimodal-instruct	83.16 tok/s	0.39s	10
minimaxai/minimax-m2.5	78.81 tok/s	3.19s	45
nvidia/nemotron-3-nano-omni-30b-a3b-reasoning	274.49 tok/s	0.66s	10

Showing 20 of 53 models.

Available Models

139 models available (last updated: 6/5/2026)

01-ai/yi-large01-aiabacusai/dracarys-llama-3.1-70b-instructabacusaiadept/fuyu-8badeptai21labs/jamba-1.5-large-instructai21labsaisingapore/sea-lion-7b-instructaisingaporebaai/bge-m3baaibigcode/starcoder2-15bbigcodebytedance/seed-oss-36b-instructbytedancedatabricks/dbrx-instructdatabricksdeepseek-ai/deepseek-coder-6.7b-instructdeepseek-aideepseek-ai/deepseek-v3.1-terminusdeepseek-aideepseek-ai/deepseek-v3.2deepseek-aideepseek-ai/deepseek-v4-flashdeepseek-aideepseek-ai/deepseek-v4-prodeepseek-aigoogle/codegemma-1.1-7bgooglegoogle/codegemma-7bgooglegoogle/deplotgooglegoogle/gemma-2-2b-itgooglegoogle/gemma-2bgooglegoogle/gemma-3-12b-itgoogle

Showing 20 of 139 models.

NVIDIA NIM

API Endpoints

Supported Models

Available Models

NVIDIA NIM

API Endpoints

Leaderboard Rankings

Supported Models

Available Models

Leaderboard Rankings