大模型排行榜 - AI 模型评测对比

大模型评测排行榜

LMSpeed 是一个 AI 模型目录。它用 API 价格、输出速度、首字延迟、服务商覆盖和评测数据帮助你对比模型。先用它缩小选择，再测试适合你的接口。

价格、速度、延迟和可用性会变化。表格只反映当前信号。上线前请测试你自己的接口。

智能体最强

模型	上下文	输入价	输出价	服务商	Agents	编程	推理	知识	数学	多语言	多模态	指令遵循	吞吐	延迟	发布日期
GPT-5.6 LunaOpenAI	上下文1.1M	输入价$1.00/M	输出价$6.00/M	服务商 +84	61±7.6	57.5±9.3E	59±10.8E	56.5±16.7P	62.4±16.1P	—	49.6±16.1P	—	吞吐 —	延迟 —	发布日期2026-07-09	61 57.5 59 56.5 62.4 — 49.6 —
GPT-5.6 TerraOpenAI	上下文1.1M	输入价$2.50/M	输出价$15.00/M	服务商 +91	64.3±7.5	60.6±9.3E	60.8±10.8E	57±16.7P	64.5±16.1P	—	55.3±16.1P	53.4±16.0P	吞吐 —	延迟 —	发布日期2026-07-09	64.3 60.6 60.8 57 64.5 — 55.3 53.4
GPT-5.6 SolOpenAI	上下文1.1M	输入价$5.00/M	输出价$30.00/M	服务商 +93	70.3±7.5	63.4±9.3E	62.1±10.8E	57.2±16.7P	67±16.1P	—	61.5±16.1P	54±16.0P	吞吐 —	延迟 —	发布日期2026-07-09	70.3 63.4 62.1 57.2 67 — 61.5 54
Grok 4.5xAI	上下文500K	输入价$2.00/M	输出价$6.00/M	服务商 +51	62.4±8.4	59.5±6.9	59.5±10.8E	59.9±16.0P	—	—	—	—	吞吐 —	延迟 —	发布日期2026-07-08	62.4 59.5 59.5 59.9 — — — —
Hy3Tencent	上下文262.1K	输入价—	输出价—	服务商 +10	53.3±16.0P	58.2±16.0P	56.9±10.8E	48.3±16.0P	—	—	—	—	吞吐 —	延迟 —	发布日期2026-07-06	53.3 58.2 56.9 48.3 — — — —
Claude Sonnet 5Anthropic	上下文1M	输入价$2.00/M	输出价$10.00/M	服务商 +81	60.3±8.2	59.9±6.6	56.8±10.8E	61.8±14.0P	—	—	61.4±16.2P	—	吞吐 —	延迟 —	发布日期2026-06-30	60.3 59.9 56.8 61.8 — — 61.4 —
Gemini 3.1 Flash ImageGoogle	上下文131.1K	输入价—	输出价—	服务商 +119	—	—	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-06-18	— — — — — — — —
Gemini 3 Pro ImageGoogle	上下文65.5K	输入价—	输出价—	服务商 +103	—	—	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-06-18	— — — — — — — —
North Mini CodeCohere	上下文256K	输入价—	输出价—	服务商 +6	—	51.9±16.0P	50.1±13.9P	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-06-17	— 51.9 50.1 — — — — —
GLM-5.2Z.ai	上下文1.0M	输入价$1.40/M	输出价$4.40/M	服务商 +114	61.3±7.2	59.1±8.9	54.9±10.8E	59.2±14.0P	71±11.5E	—	—	54.2±16.0P	吞吐 69 t/s	延迟 6.95s	发布日期2026-06-16	61.3 59.1 54.9 59.2 71 — — 54.2
Kimi K2.7 CodeMoonshotAI	上下文262.1K	输入价$0.950/M	输出价$4.00/M	服务商 +28	54.6±11.2E	57.8±11.8E	57.5±10.8E	50.3±16.0P	—	—	—	50.6±16.0P	吞吐 46 t/s	延迟 3.67s	发布日期2026-06-12	54.6 57.8 57.5 50.3 — — — 50.6
Kimi K2.7Moonshot AI	上下文262.1K	输入价—	输出价—	服务商 +30	—	—	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-06-12	— — — — — — — —
Claude Fable 5Anthropic	上下文1M	输入价$10.00/M	输出价$50.00/M	服务商 +101	65.7±8.2	68.4±6.9	61.3±10.8E	66.5±14.0P	53.2±17.7P	61.3±16.1P	61.6±16.1P	50.7±16.0P	吞吐 62 t/s	延迟 3.91s	发布日期2026-06-09	65.7 68.4 61.3 66.5 53.2 61.3 61.6 50.7
Nex n2 ProNex AGI	上下文262.1K	输入价$0.500/M	输出价$2.50/M	服务商 +3	—	54.3±16.0P	60.1±13.9P	—	—	—	—	—	吞吐 83 t/s	延迟 1.16s	发布日期2026-06-08	— 54.3 60.1 — — — — —
Nemotron 3 UltraNVIDIA	上下文1M	输入价$0.675/M	输出价$2.67/M	服务商 +9	—	53±16.0P	58±13.9P	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-06-04	— 53 58 — — — — —
Qwen3.7 PlusQwen	上下文1M	输入价$0.400/M	输出价$1.60/M	服务商 +31	54.4±5.7	54.8±6.0	58.2±8.7	48.6±12.2E	57.5±12.4E	51.9±11.7E	57.3±6.3	57.1±11.9E	吞吐 —	延迟 —	发布日期2026-06-03	54.4 54.8 58.2 48.6 57.5 51.9 57.3 57.1
MiniMax M3MiniMax	上下文1.0M	输入价$0.300/M	输出价$1.20/M	服务商 +59	57±7.3	54±6.6	59.6±10.8E	53.4±16.0P	49.6±17.7P	—	46.9±12.0E	58.6±16.0P	吞吐 60 t/s	延迟 2.13s	发布日期2026-05-31	57 54 59.6 53.4 49.6 — 46.9 58.6
Step 3.7 FlashStepFun	上下文256K	输入价$0.200/M	输出价$1.15/M	服务商 +30	54.5±5.7	51±9.3E	53.3±10.8E	43.3±16.0P	—	—	59.5±14.6P	52±16.0P	吞吐 119 t/s	延迟 15.57s	发布日期2026-05-28	54.5 51 53.3 43.3 — — 59.5 52
Claude Opus 4.8Anthropic	上下文1M	输入价$5.00/M	输出价$25.00/M	服务商 +132	63.4±5.3	66.5±6.6	60.3±10.8E	64±14.0P	58±16.1P	61.2±17.5P	62.3±12.0E	50.3±16.0P	吞吐 232 t/s	延迟 2.21s	发布日期2026-05-27	63.4 66.5 60.3 64 58 61.2 62.3 50.3
Qwen3.7 MaxQwen	上下文1M	输入价$2.50/M	输出价$7.50/M	服务商 +28	57.9±5.5	60.3±6.0	60.1±8.7	55.8±12.2E	64.7±12.4E	59.9±11.7E	—	57.2±11.9E	吞吐 78 t/s	延迟 14.81s	发布日期2026-05-21	57.9 60.3 60.1 55.8 64.7 59.9 — 57.2
Grok Build 0 1xAI	上下文256K	输入价$1.00/M	输出价$2.00/M	服务商 +28	51.7±11.8E	59.9±16.0P	57.2±10.8E	55±16.0P	—	—	—	—	吞吐 131 t/s	延迟 12.87s	发布日期2026-05-20	51.7 59.9 57.2 55 — — — —
Gemini Embedding 2Google	上下文8.2K	输入价—	输出价—	服务商 +34	—	—	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-05-20	— — — — — — — —
Gemini 3.5 FlashGoogle	上下文1.0M	输入价$1.50/M	输出价$9.00/M	服务商 +81	59.6±5.2	56.2±8.9	54.7±8.5	59.6±14.0P	55.1±16.1P	—	58.8±11.9E	55.4±16.0P	吞吐 —	延迟 —	发布日期2026-05-19	59.6 56.2 54.7 59.6 55.1 — 58.8 55.4
Claude Opus 4.7Anthropic	上下文1M	输入价$5.00/M	输出价$25.00/M	服务商 +181	55±6.9	60.7±8.9	56.7±10.8E	56.8±16.0P	56.8±16.1P	—	—	44.5±16.0P	吞吐 47 t/s	延迟 4.89s	发布日期2026-05-12	55 60.7 56.7 56.8 56.8 — — 44.5
Ring 2 6 1tinclusionAI	上下文262.1K	输入价$0.300/M	输出价$2.50/M	服务商 +2	—	54.7±16.0P	55.8±13.9P	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-05-08	— 54.7 55.8 — — — — —
Gemini 3.1 Flash LiteGoogle	上下文1.0M	输入价—	输出价—	服务商 +108	43±6.9	43.2±9.3E	52.9±10.8E	44.5±14.0P	—	46.3±16.1P	40.5±16.2P	55.8±16.0P	吞吐 191 t/s	延迟 6.58s	发布日期2026-05-07	43 43.2 52.9 44.5 — 46.3 40.5 55.8
GPT-4o Mini TranscribeOpenAI	上下文128K	输入价—	输出价—	服务商 +35	—	—	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-05-01	— — — — — — — —
Grok 4.3xAI	上下文1M	输入价$1.25/M	输出价$2.50/M	服务商 +49	49.6±6.6	55.3±11.8E	56.4±10.8E	57±14.0P	—	—	48.9±16.1P	57.7±16.0P	吞吐 49 t/s	延迟 6.49s	发布日期2026-04-30	49.6 55.3 56.4 57 — — 48.9 57.7
Granite 4.1 8BIBM	上下文131.1K	输入价$0.050/M	输出价$0.100/M	服务商	—	38.9±16.0P	39.4±13.9P	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-04-30	— 38.9 39.4 — — — — —
Mistral Medium 3.5Mistral	上下文262.1K	输入价$1.50/M	输出价$7.50/M	服务商 +10	46.6±6.6	52.7±9.2E	50.1±10.8E	43.7±16.0P	—	—	—	52.5±16.0P	吞吐 47 t/s	延迟 10.40s	发布日期2026-04-30	46.6 52.7 50.1 43.7 — — — 52.5
Nemotron 3 Nano OmniNVIDIA	上下文256K	输入价$0.075/M	输出价$0.300/M	服务商 +9	—	44.1±16.0P	41.4±13.9P	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-04-28	— 44.1 41.4 — — — — —
Laguna Xs 2Poolside	上下文262.1K	输入价—	输出价—	服务商 +8	39.8±16.1P	36±9.0	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-04-28	39.8 36 — — — — — —
Laguna M 1Poolside	上下文262.1K	输入价—	输出价—	服务商 +8	43.9±16.1P	41.2±9.0	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-04-28	43.9 41.2 — — — — — —
GPT-4o TranscribeOpenAI	上下文128K	输入价—	输出价—	服务商 +37	—	—	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-04-27	— — — — — — — —
Gemini ProGoogle	上下文1.0M	输入价—	输出价—	服务商 +36	—	—	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-04-27	— — — — — — — —
Gemini FlashGoogle	上下文1.0M	输入价—	输出价—	服务商 +41	—	—	—	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-04-27	— — — — — — — —
Qwen3.5 PlusAlibaba	上下文1M	输入价—	输出价—	服务商 +106	44.6±16.2P	46.4±16.1P	—	—	48.8±16.1P	—	—	—	吞吐 51 t/s	延迟 13.81s	发布日期2026-04-27	44.6 46.4 — — 48.8 — — —
Qwen3.6 35B A3BQwen	上下文262.1K	输入价$0.248/M	输出价$1.49/M	服务商 +5	47.4±5.9	40.3±6.0	53.1±8.7	39.1±12.2E	34.9±11.5E	—	42.7±7.1	51±16.0P	吞吐 —	延迟 —	发布日期2026-04-27	47.4 40.3 53.1 39.1 34.9 — 42.7 51
Qwen3.6 Max PreviewQwen	上下文262.1K	输入价$1.30/M	输出价$7.80/M	服务商 +14	54.5±11.8E	54.7±8.9	57±10.8E	55.1±16.3P	50.6±16.1P	—	—	55.6±16.0P	吞吐 —	延迟 —	发布日期2026-04-27	54.5 54.7 57 55.1 50.6 — — 55.6
Qwen3.6 27BQwen	上下文262.1K	输入价$0.600/M	输出价$3.60/M	服务商 +3	56.5±6.6	47.4±6.0	54.9±8.7	37.3±11.6E	41.7±11.5E	—	46.3±6.5	52.1±16.0P	吞吐 —	延迟 —	发布日期2026-04-27	56.5 47.4 54.9 37.3 41.7 — 46.3 52.1
GPT-5.5 ProOpenAI	上下文1.1M	输入价—	输出价—	服务商 +24	61±16.1P	—	64.5±14.0P	60.5±16.0P	57.2±16.1P	—	—	—	吞吐 —	延迟 —	发布日期2026-04-24	61 — 64.5 60.5 57.2 — — —
GPT-5.5OpenAI	上下文1.1M	输入价$5.00/M	输出价$30.00/M	服务商 +110	62.6±5.0	60.8±8.7	61.4±8.8	61.5±14.0P	56.9±16.1P	—	56.6±16.1P	55.3±16.0P	吞吐 44 t/s	延迟 6.29s	发布日期2026-04-24	62.6 60.8 61.4 61.5 56.9 — 56.6 55.3
DeepSeek V4 ProDeepSeek	上下文1.0M	输入价$0.435/M	输出价$0.870/M	服务商 +182	52.5±5.5	50.5±6.3	53.8±8.4	48.8±14.0P	36.2±12.4E	—	—	53.5±16.0P	吞吐 37 t/s	延迟 8.37s	发布日期2026-04-24	52.5 50.5 53.8 48.8 36.2 — — 53.5
DeepSeek V4 FlashDeepSeek	上下文1.0M	输入价$0.140/M	输出价$0.280/M	服务商 +190	48.9±6.0	46.5±6.6	51.6±8.4	45.8±14.0P	36.8±12.4E	—	—	54.3±16.0P	吞吐 66 t/s	延迟 7.28s	发布日期2026-04-24	48.9 46.5 51.6 45.8 36.8 — — 54.3
Ling 2.6 1TinclusionAI	上下文262.1K	输入价$0.300/M	输出价$2.50/M	服务商	—	51±16.0P	49.1±13.9P	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-04-23	— 51 49.1 — — — — —
Hy3 previewTencent	上下文262.1K	输入价$0.123/M	输出价$0.430/M	服务商 +2	47±11.2E	48.7±9.3E	52.1±10.8E	48.3±14.0P	—	—	—	50.6±16.0P	吞吐 —	延迟 —	发布日期2026-04-22	47 48.7 52.1 48.3 — — — 50.6
MiMo-V2.5-ProXiaomi	上下文1.0M	输入价$0.435/M	输出价$0.870/M	服务商 +98	52.8±6.0	51±9.3E	54.6±10.8E	57.5±14.0P	—	—	—	57±16.0P	吞吐 45 t/s	延迟 5.86s	发布日期2026-04-22	52.8 51 54.6 57.5 — — — 57
MiMo-V2.5Xiaomi	上下文1.0M	输入价$0.140/M	输出价$0.280/M	服务商 +94	50.9±8.9	51.4±9.3E	57±13.9P	—	—	—	49±11.9E	—	吞吐 81 t/s	延迟 3.64s	发布日期2026-04-22	50.9 51.4 57 — — — 49 —
Ling 2.6 FlashinclusionAI	上下文262.1K	输入价$0.100/M	输出价$0.300/M	服务商 +2	45.8±11.8E	44.8±11.8E	39.4±10.8E	39.2±14.0P	—	—	—	48.8±16.0P	吞吐 —	延迟 —	发布日期2026-04-21	45.8 44.8 39.4 39.2 — — — 48.8
Kimi K2.6MoonshotAI	上下文262.1K	输入价$0.950/M	输出价$4.00/M	服务商 +114	52.7±5.0	57.8±6.1	55.5±10.8E	54.9±14.0P	59.7±9.1E	—	54.3±9.0E	55.3±16.0P	吞吐 53 t/s	延迟 18.41s	发布日期2026-04-20	52.7 57.8 55.5 54.9 59.7 — 54.3 55.3
GLM-5.1Z.ai	上下文202.8K	输入价$1.40/M	输出价$4.40/M	服务商 +173	54.4±5.7	55.5±6.5	54.4±10.8E	58.6±14.0P	52.1±9.1E	—	—	55.4±16.0P	吞吐 48 t/s	延迟 14.18s	发布日期2026-04-07	54.4 55.5 54.4 58.6 52.1 — — 55.4
Qwen3.6 PlusQwen	上下文1M	输入价$0.500/M	输出价$3.00/M	服务商 +116	50.5±5.5	54±6.0	58.1±8.1	52±11.6E	52.6±9.1E	52.4±12.2E	51.2±6.5	56±11.9E	吞吐 47 t/s	延迟 24.53s	发布日期2026-04-02	50.5 54 58.1 52 52.6 52.4 51.2 56
GLM-5V TurboZ.ai	上下文202.8K	输入价—	输出价—	服务商 +33	47.4±9.3E	53.8±11.8E	51.2±10.8E	48.1±16.0P	—	—	—	49.9±16.0P	吞吐 —	延迟 —	发布日期2026-04-01	47.4 53.8 51.2 48.1 — — — 49.9
Trinity Large ThinkingArcee AI	上下文262.1K	输入价$0.235/M	输出价$0.875/M	服务商 +1	44.8±9.3E	48.7±11.8E	44.6±10.8E	41.6±16.0P	—	—	—	48.4±16.0P	吞吐 108 t/s	延迟 1.94s	发布日期2026-04-01	44.8 48.7 44.6 41.6 — — — 48.4
Grok 4.20 Multi AgentxAI	上下文2M	输入价—	输出价—	服务商 +28	—	—	—	—	—	—	—	62.6±16.3P	吞吐 —	延迟 —	发布日期2026-03-31	— — — — — — — 62.6
Grok 4.20xAI	上下文2M	输入价$2.00/M	输出价$6.00/M	服务商 +85	43.5±11.2E	47.9±8.6	52.4±11.3E	44.1±15.1P	—	—	38.5±6.8	60.9±16.3P	吞吐 75 t/s	延迟 4.82s	发布日期2026-03-31	43.5 47.9 52.4 44.1 — — 38.5 60.9
Kat Coder Pro V2Kwaipilot	上下文256K	输入价$0.300/M	输出价$1.20/M	服务商 +4	—	51.9±16.0P	55.1±13.9P	—	—	—	—	—	吞吐 —	延迟 —	发布日期2026-03-27	— 51.9 55.1 — — — — —
MiniMax M2.7MiniMax	上下文204.8K	输入价$0.300/M	输出价$1.20/M	服务商 +159	45.6±6.0	49.5±6.1	54.9±10.8E	51.6±14.0P	48.2±17.7P	—	53.8±16.9P	55.2±16.0P	吞吐 178 t/s	延迟 7.32s	发布日期2026-03-18	45.6 49.5 54.9 51.6 48.2 — 53.8 55.2
GPT-5.4 NanoOpenAI	上下文400K	输入价$0.200/M	输出价$1.25/M	服务商 +88	45.6±8.1	52.1±9.3E	50±10.8E	49.6±14.0P	51.8±16.1P	—	28±16.1P	55.3±16.0P	吞吐 137 t/s	延迟 3.38s	发布日期2026-03-17	45.6 52.1 50 49.6 51.8 — 28 55.3
GPT-5.4 MiniOpenAI	上下文400K	输入价$0.750/M	输出价$4.50/M	服务商 +225	51.6±8.1	58.7±9.3E	56.3±10.8E	52.3±14.0P	49.7±16.1P	—	45.4±16.1P	54.2±16.0P	吞吐 134 t/s	延迟 3.54s	发布日期2026-03-17	51.6 58.7 56.3 52.3 49.7 — 45.4 54.2

发布日期

上下文1.1M

输入价$1.00/M

输出价$6.00/M

服务商

+84

61±7.6

57.5±9.3E

59±10.8E

56.5±16.7P

62.4±16.1P

—

49.6±16.1P

—

吞吐

—

延迟

—

发布日期2026-07-09

GPT-5.6 TerraOpenAI

上下文1.1M

输入价$2.50/M

输出价$15.00/M

服务商

+91

64.3±7.5

60.6±9.3E

60.8±10.8E

57±16.7P

64.5±16.1P

—

55.3±16.1P

53.4±16.0P

吞吐

—

延迟

—

发布日期2026-07-09

GPT-5.6 SolOpenAI

上下文1.1M

输入价$5.00/M

输出价$30.00/M

服务商

+93

70.3±7.5

63.4±9.3E

62.1±10.8E

57.2±16.7P

67±16.1P

—

61.5±16.1P

54±16.0P

吞吐

—

延迟

—

发布日期2026-07-09

Grok 4.5xAI

上下文500K

输入价$2.00/M

输出价$6.00/M

服务商

+51

62.4±8.4

59.5±6.9

59.5±10.8E

59.9±16.0P

—

吞吐

—

延迟

—

发布日期2026-07-08

Hy3Tencent

上下文262.1K

输入价—

输出价—

服务商

+10

53.3±16.0P

58.2±16.0P

56.9±10.8E

48.3±16.0P

—

吞吐

—

延迟

—

发布日期2026-07-06

Claude Sonnet 5Anthropic

上下文1M

输入价$2.00/M

输出价$10.00/M

服务商

+81

60.3±8.2

59.9±6.6

56.8±10.8E

61.8±14.0P

—

61.4±16.2P

—

吞吐

—

延迟

—

发布日期2026-06-30

Gemini 3.1 Flash ImageGoogle

上下文131.1K

输入价—

输出价—

服务商

+119

—

吞吐

—

延迟

—

发布日期2026-06-18

Gemini 3 Pro ImageGoogle

上下文65.5K

输入价—

输出价—

服务商

+103

—

吞吐

—

延迟

—

发布日期2026-06-18

North Mini CodeCohere

上下文256K

输入价—

输出价—

服务商

—

51.9±16.0P

50.1±13.9P

—

吞吐

—

延迟

—

发布日期2026-06-17

GLM-5.2Z.ai

上下文1.0M

输入价$1.40/M

输出价$4.40/M

服务商

+114

61.3±7.2

59.1±8.9

54.9±10.8E

59.2±14.0P

71±11.5E

—

54.2±16.0P

吞吐

69 t/s

延迟

6.95s

发布日期2026-06-16

Kimi K2.7 CodeMoonshotAI

上下文262.1K

输入价$0.950/M

输出价$4.00/M

服务商

+28

54.6±11.2E

57.8±11.8E

57.5±10.8E

50.3±16.0P

—

50.6±16.0P

吞吐

46 t/s

延迟

3.67s

发布日期2026-06-12

Kimi K2.7Moonshot AI

上下文262.1K

输入价—

输出价—

服务商

+30

—

吞吐

—

延迟

—

发布日期2026-06-12

Claude Fable 5Anthropic

上下文1M

输入价$10.00/M

输出价$50.00/M

服务商

+101

65.7±8.2

68.4±6.9

61.3±10.8E

66.5±14.0P

53.2±17.7P

61.3±16.1P

61.6±16.1P

50.7±16.0P

吞吐

62 t/s

延迟

3.91s

发布日期2026-06-09

Nex n2 ProNex AGI

上下文262.1K

输入价$0.500/M

输出价$2.50/M

服务商

—

54.3±16.0P

60.1±13.9P

—

吞吐

83 t/s

延迟

1.16s

发布日期2026-06-08

Nemotron 3 UltraNVIDIA

上下文1M

输入价$0.675/M

输出价$2.67/M

服务商

—

53±16.0P

58±13.9P

—

吞吐

—

延迟

—

发布日期2026-06-04

Qwen3.7 PlusQwen

上下文1M

输入价$0.400/M

输出价$1.60/M

服务商

+31

54.4±5.7

54.8±6.0

58.2±8.7

48.6±12.2E

57.5±12.4E

51.9±11.7E

57.3±6.3

57.1±11.9E

吞吐

—

延迟

—

发布日期2026-06-03

MiniMax M3MiniMax

上下文1.0M

输入价$0.300/M

输出价$1.20/M

服务商

+59

57±7.3

54±6.6

59.6±10.8E

53.4±16.0P

49.6±17.7P

—

46.9±12.0E

58.6±16.0P

吞吐

60 t/s

延迟

2.13s

发布日期2026-05-31

Step 3.7 FlashStepFun

上下文256K

输入价$0.200/M

输出价$1.15/M

服务商

+30

54.5±5.7

51±9.3E

53.3±10.8E

43.3±16.0P

—

59.5±14.6P

52±16.0P

吞吐

119 t/s

延迟

15.57s

发布日期2026-05-28

Claude Opus 4.8Anthropic

上下文1M

输入价$5.00/M

输出价$25.00/M

服务商

+132

63.4±5.3

66.5±6.6

60.3±10.8E

64±14.0P

58±16.1P

61.2±17.5P

62.3±12.0E

50.3±16.0P

吞吐

232 t/s

延迟

2.21s

发布日期2026-05-27

Qwen3.7 MaxQwen

上下文1M

输入价$2.50/M

输出价$7.50/M

服务商

+28

57.9±5.5

60.3±6.0

60.1±8.7

55.8±12.2E

64.7±12.4E

59.9±11.7E

—

57.2±11.9E

吞吐

78 t/s

延迟

14.81s

发布日期2026-05-21

Grok Build 0 1xAI

上下文256K

输入价$1.00/M

输出价$2.00/M

服务商

+28

51.7±11.8E

59.9±16.0P

57.2±10.8E

55±16.0P

—

吞吐

131 t/s

延迟

12.87s

发布日期2026-05-20

Gemini Embedding 2Google

上下文8.2K

输入价—

输出价—

服务商

+34

—

吞吐

—

延迟

—

发布日期2026-05-20

Gemini 3.5 FlashGoogle

上下文1.0M

输入价$1.50/M

输出价$9.00/M

服务商

+81

59.6±5.2

56.2±8.9

54.7±8.5

59.6±14.0P

55.1±16.1P

—

58.8±11.9E

55.4±16.0P

吞吐

—

延迟

—

发布日期2026-05-19

Claude Opus 4.7Anthropic

上下文1M

输入价$5.00/M

输出价$25.00/M

服务商

+181

55±6.9

60.7±8.9

56.7±10.8E

56.8±16.0P

56.8±16.1P

—

44.5±16.0P

吞吐

47 t/s

延迟

4.89s

发布日期2026-05-12

Ring 2 6 1tinclusionAI

上下文262.1K

输入价$0.300/M

输出价$2.50/M

服务商

—

54.7±16.0P

55.8±13.9P

—

吞吐

—

延迟

—

发布日期2026-05-08

Gemini 3.1 Flash LiteGoogle

上下文1.0M

输入价—

输出价—

服务商

+108

43±6.9

43.2±9.3E

52.9±10.8E

44.5±14.0P

—

46.3±16.1P

40.5±16.2P

55.8±16.0P

吞吐

191 t/s

延迟

6.58s

发布日期2026-05-07

GPT-4o Mini TranscribeOpenAI

上下文128K

输入价—

输出价—

服务商

+35

—

吞吐

—

延迟

—

发布日期2026-05-01

Grok 4.3xAI

上下文1M

输入价$1.25/M

输出价$2.50/M

服务商

+49

49.6±6.6

55.3±11.8E

56.4±10.8E

57±14.0P

—

48.9±16.1P

57.7±16.0P

吞吐

49 t/s

延迟

6.49s

发布日期2026-04-30

Granite 4.1 8BIBM

上下文131.1K

输入价$0.050/M

输出价$0.100/M

服务商

—

38.9±16.0P

39.4±13.9P

—

吞吐

—

延迟

—

发布日期2026-04-30

Mistral Medium 3.5Mistral

上下文262.1K

输入价$1.50/M

输出价$7.50/M

服务商

+10

46.6±6.6

52.7±9.2E

50.1±10.8E

43.7±16.0P

—

52.5±16.0P

吞吐

47 t/s

延迟

10.40s

发布日期2026-04-30

Nemotron 3 Nano OmniNVIDIA

上下文256K

输入价$0.075/M

输出价$0.300/M

服务商

—

44.1±16.0P

41.4±13.9P

—

吞吐

—

延迟

—

发布日期2026-04-28

Laguna Xs 2Poolside

上下文262.1K

输入价—

输出价—

服务商

39.8±16.1P

36±9.0

—

吞吐

—

延迟

—

发布日期2026-04-28

Laguna M 1Poolside

上下文262.1K

输入价—

输出价—

服务商

43.9±16.1P

41.2±9.0

—

吞吐

—

延迟

—

发布日期2026-04-28

GPT-4o TranscribeOpenAI

上下文128K

输入价—

输出价—

服务商

+37

—

吞吐

—

延迟

—

发布日期2026-04-27

Gemini ProGoogle

上下文1.0M

输入价—

输出价—

服务商

+36

—

吞吐

—

延迟

—

发布日期2026-04-27

Gemini FlashGoogle

上下文1.0M

输入价—

输出价—

服务商

+41

—

吞吐

—

延迟

—

发布日期2026-04-27

Qwen3.5 PlusAlibaba

上下文1M

输入价—

输出价—

服务商

+106

44.6±16.2P

46.4±16.1P

—

48.8±16.1P

—

吞吐

51 t/s

延迟

13.81s

发布日期2026-04-27

Qwen3.6 35B A3BQwen

上下文262.1K

输入价$0.248/M

输出价$1.49/M

服务商

47.4±5.9

40.3±6.0

53.1±8.7

39.1±12.2E

34.9±11.5E

—

42.7±7.1

51±16.0P

吞吐

—

延迟

—

发布日期2026-04-27

Qwen3.6 Max PreviewQwen

上下文262.1K

输入价$1.30/M

输出价$7.80/M

服务商

+14

54.5±11.8E

54.7±8.9

57±10.8E

55.1±16.3P

50.6±16.1P

—

55.6±16.0P

吞吐

—

延迟

—

发布日期2026-04-27

Qwen3.6 27BQwen

上下文262.1K

输入价$0.600/M

输出价$3.60/M

服务商

56.5±6.6

47.4±6.0

54.9±8.7

37.3±11.6E

41.7±11.5E

—

46.3±6.5

52.1±16.0P

吞吐

—

延迟

—

发布日期2026-04-27

GPT-5.5 ProOpenAI

上下文1.1M

输入价—

输出价—

服务商

+24

61±16.1P

—

64.5±14.0P

60.5±16.0P

57.2±16.1P

—

吞吐

—

延迟

—

发布日期2026-04-24

GPT-5.5OpenAI

上下文1.1M

输入价$5.00/M

输出价$30.00/M

服务商

+110

62.6±5.0

60.8±8.7

61.4±8.8

61.5±14.0P

56.9±16.1P

—

56.6±16.1P

55.3±16.0P

吞吐

44 t/s

延迟

6.29s

发布日期2026-04-24

DeepSeek V4 ProDeepSeek

上下文1.0M

输入价$0.435/M

输出价$0.870/M

服务商

+182

52.5±5.5

50.5±6.3

53.8±8.4

48.8±14.0P

36.2±12.4E

—

53.5±16.0P

吞吐

37 t/s

延迟

8.37s

发布日期2026-04-24

DeepSeek V4 FlashDeepSeek

上下文1.0M

输入价$0.140/M

输出价$0.280/M

服务商

+190

48.9±6.0

46.5±6.6

51.6±8.4

45.8±14.0P

36.8±12.4E

—

54.3±16.0P

吞吐

66 t/s

延迟

7.28s

发布日期2026-04-24

Ling 2.6 1TinclusionAI

上下文262.1K

输入价$0.300/M

输出价$2.50/M

服务商

—

51±16.0P

49.1±13.9P

—

吞吐

—

延迟

—

发布日期2026-04-23

Hy3 previewTencent

上下文262.1K

输入价$0.123/M

输出价$0.430/M

服务商

47±11.2E

48.7±9.3E

52.1±10.8E

48.3±14.0P

—

50.6±16.0P

吞吐

—

延迟

—

发布日期2026-04-22

MiMo-V2.5-ProXiaomi

上下文1.0M

输入价$0.435/M

输出价$0.870/M

服务商

+98

52.8±6.0

51±9.3E

54.6±10.8E

57.5±14.0P

—

57±16.0P

吞吐

45 t/s

延迟

5.86s

发布日期2026-04-22

MiMo-V2.5Xiaomi

上下文1.0M

输入价$0.140/M

输出价$0.280/M

服务商

+94

50.9±8.9

51.4±9.3E

57±13.9P

—

49±11.9E

—

吞吐

81 t/s

延迟

3.64s

发布日期2026-04-22

Ling 2.6 FlashinclusionAI

上下文262.1K

输入价$0.100/M

输出价$0.300/M

服务商

45.8±11.8E

44.8±11.8E

39.4±10.8E

39.2±14.0P

—

48.8±16.0P

吞吐

—

延迟

—

发布日期2026-04-21

Kimi K2.6MoonshotAI

上下文262.1K

输入价$0.950/M

输出价$4.00/M

服务商

+114

52.7±5.0

57.8±6.1

55.5±10.8E

54.9±14.0P

59.7±9.1E

—

54.3±9.0E

55.3±16.0P

吞吐

53 t/s

延迟

18.41s

发布日期2026-04-20

GLM-5.1Z.ai

上下文202.8K

输入价$1.40/M

输出价$4.40/M

服务商

+173

54.4±5.7

55.5±6.5

54.4±10.8E

58.6±14.0P

52.1±9.1E

—

55.4±16.0P

吞吐

48 t/s

延迟

14.18s

发布日期2026-04-07

Qwen3.6 PlusQwen

上下文1M

输入价$0.500/M

输出价$3.00/M

服务商

+116

50.5±5.5

54±6.0

58.1±8.1

52±11.6E

52.6±9.1E

52.4±12.2E

51.2±6.5

56±11.9E

吞吐

47 t/s

延迟

24.53s

发布日期2026-04-02

GLM-5V TurboZ.ai

上下文202.8K

输入价—

输出价—

服务商

+33

47.4±9.3E

53.8±11.8E

51.2±10.8E

48.1±16.0P

—

49.9±16.0P

吞吐

—

延迟

—

发布日期2026-04-01

Trinity Large ThinkingArcee AI

上下文262.1K

输入价$0.235/M

输出价$0.875/M

服务商

44.8±9.3E

48.7±11.8E

44.6±10.8E

41.6±16.0P

—

48.4±16.0P

吞吐

108 t/s

延迟

1.94s

发布日期2026-04-01

Grok 4.20 Multi AgentxAI

上下文2M

输入价—

输出价—

服务商

+28

—

62.6±16.3P

吞吐

—

延迟

—

发布日期2026-03-31

Grok 4.20xAI

上下文2M

输入价$2.00/M

输出价$6.00/M

服务商

+85

43.5±11.2E

47.9±8.6

52.4±11.3E

44.1±15.1P

—

38.5±6.8

60.9±16.3P

吞吐

75 t/s

延迟

4.82s

发布日期2026-03-31

Kat Coder Pro V2Kwaipilot

上下文256K

输入价$0.300/M

输出价$1.20/M

服务商

—

51.9±16.0P

55.1±13.9P

—

吞吐

—

延迟

—

发布日期2026-03-27

MiniMax M2.7MiniMax

上下文204.8K

输入价$0.300/M

输出价$1.20/M

服务商

+159

45.6±6.0

49.5±6.1

54.9±10.8E

51.6±14.0P

48.2±17.7P

—

53.8±16.9P

55.2±16.0P

吞吐

178 t/s

延迟

7.32s

发布日期2026-03-18

GPT-5.4 NanoOpenAI

上下文400K

输入价$0.200/M

输出价$1.25/M

服务商

+88

45.6±8.1

52.1±9.3E

50±10.8E

49.6±14.0P

51.8±16.1P

—

28±16.1P

55.3±16.0P

吞吐

137 t/s

延迟

3.38s

发布日期2026-03-17

GPT-5.4 MiniOpenAI

上下文400K

输入价$0.750/M

输出价$4.50/M

服务商

+225

51.6±8.1

58.7±9.3E

56.3±10.8E

52.3±14.0P

49.7±16.1P

—

45.4±16.1P

54.2±16.0P

吞吐

134 t/s

延迟

3.54s

发布日期2026-03-17

如何阅读分类能力分

Agent、Coding、Reasoning 等能力列，是在某次 Category Score V3 运行中，相对于合格模型群的 0–100 实测能力估计。

它们不是成功率、IQ，也不是八个分类的平均分。请结合模型详情页中的 80% 区间、实测维度、benchmark family 和具体证据阅读。

查看完整评分方法论

这个目录展示什么

每一行都提供对比 LLM API 所需的信息。如果 LMSpeed 没有模型或服务商的当前数据，对应字段会留空。

API 价格

有数据时可以对比每百万 token 的输入和输出价格。

速度和延迟

用吞吐量和首字延迟对比响应表现。

服务商覆盖

打开模型页可以查看已列出的服务商和当前信息。

能力数据

有当前评分时可以查看模型能力列。

怎么使用模型目录

先确定你的重点，再对比当前数据，最后测试接口。

找到模型.按模型名、slug 或描述搜索。

按关键指标排序.可以按价格、吞吐量、延迟、服务商数量或能力数据排序。

对比服务商.打开模型页，查看服务商选项和当前数据。

测试你的接口.在生产环境使用接口前，先跑一次速度测试。

常见问题

LMSpeed 怎么评测大模型？

LMSpeed 对每个模型跑标准化的五轮 API 速度测试，测量输出吞吐量（每秒 token 数）、首字延迟和总响应时间，覆盖多个服务商。

哪个大模型的 API 延迟最低？

延迟因服务商和模型不同而不同。在 LMSpeed 模型目录中按延迟排序，找到首字响应最快的模型。也可以查看延迟排行榜看月度排名。

怎么对比大模型 API 价格？

LMSpeed 列出每个模型在可用服务商的输入和输出价格（每百万 token）。按价格排序可以找较低价格的选项，也可以按服务商筛选对比。

什么是 AI 模型目录？

AI 模型目录是一个可搜索的模型清单，里面有对比数据。LMSpeed 在有数据时展示 API 价格、吞吐量、首字延迟、服务商覆盖和能力数据。

怎么选择模型和服务商？

先看最重要的指标。再打开模型页对比服务商数据。生产环境使用前，请测试你自己的接口。

模型价格和速度会变化吗？

会。价格、可用性、吞吐量和延迟会随模型、服务商和时间变化。页面数据只能用作对比信号。请用自己的接口确认。