NVIDIA NIM

NVIDIA NIM 通过 NVIDIA 云基础设施提供优化的 AI 模型推理 API，支持大语言模型、视觉和向量模型。

分类

NVIDIA NIM 目前提供 42 个大模型 API。

速度基准测试平均吞吐 63 tok/s。

NVIDIA NIM 是一个 API 聚合平台，提供来自多个供应商的模型。

平均速度63.48 tok/s

延迟6.53 s

总测试数650

模型数42

更新于4/16/2026

创建时间8/13/2025

支持的模型

模型	速度	延迟	测试数
openai/gpt-oss-20b	200.28 tok/s	10.88s	5
openai/gpt-oss-120b	169.75 tok/s	6.57s	60
qwen/qwen3-next-80b-a3b-instruct	118.96 tok/s	0.58s	10
qwen/qwen3-next-80b-a3b-thinking	105.70 tok/s	10.51s	10
meta/llama-4-maverick-17b-128e-instruct	100.41 tok/s	0.21s	15
mistralai/mixtral-8x22b-instruct-v0.1	89.66 tok/s	0.22s	5
deepseek-ai/deepseek-r1	87.63 tok/s	8.96s	15
minimaxai/minimax-m2.1	86.36 tok/s	2.88s	30
marin/marin-8b-instruct	84.25 tok/s	0.44s	5
stepfun-ai/step-3.5-flash	81.82 tok/s	4.79s	10
microsoft/phi-4-mini-flash-reasoning	74.19 tok/s	0.46s	5
moonshotai/kimi-k2.5	70.81 tok/s	8.11s	10
minimaxai/minimax-m2.5	66.85 tok/s	3.83s	30
nvidia/llama-3.3-nemotron-super-49b-v1.5	57.55 tok/s	11.11s	10
google/gemma-3-27b-it	57.40 tok/s	0.20s	10
z-ai/glm4.7	56.96 tok/s	27.72s	25
ai21labs/jamba-1.5-large-instruct	55.60 tok/s	0.29s	10
stockmark/stockmark-2-100b-instruct	55.31 tok/s	0.74s	5
qwen/qwen3-coder-480b-a35b-instruct	55.07 tok/s	1.32s	25
nvidia/llama-3.1-nemotron-70b-instruct	52.19 tok/s	0.23s	5

当前仅显示 20 / 42 个模型。