这个比较为什么能收录？

它至少有 6 个可验证比较点，并且两个模型都有价格或测速数据。

没有数据的指标会不会编？

不会。没有 LMSpeed 数据的指标不会出现在这份报告里。

LM Speed

GPT-5.2 vs Grok 4.20：价格速度对比 | LMSpeed

返回模型目录

数据点: 102

Model compare

GPT-5.2 vs Grok 4.20

GPT-5.2 和 Grok 4.20 的结论先放在这里，方便先判断是否值得继续看明细。

模型 A

GPT-5.2

OpenAI

领先

模型 B

Grok 4.20

xAI

对照

Key Takeaways

综合加权结果：GPT-5.2。Benchmark 能力分类占 80%，价格、API 性能和可用性占 20%。

结论

GPT-5.2

GPT-5.2 当前综合加权更高；模型 A / B 得分为 96 对 4。

证据覆盖

102 个数据点

包含 19 个 benchmark、0 个 audit 样本和 8 个 provider 样本。

选择依据

优先看 GPT-5.2

下方图表把 27 组高信号样本拆开，便于核对速度、跑分和安全分。

切换对比模型

左右两边都可以换成其他模型，页面会打开新的 LMSpeed 对比 URL。

模型 A模型 B

对比总表

这份报告只使用 LMSpeed 已有数据：GPT-5.2 和 Grok 4.20 的价格、测速聚合、第三方跑分与共同服务商样本。

综合领先	领先	对照
综合加权得分	96.0 分	4.0 分
Benchmark 分类领先	5 类	0 类
运营维度优势	最低输入价格、首 token 延迟、免费服务商、服务商覆盖	平均速度
上下文窗口	400K tokens	2M tokens
最大输出	128K tokens	暂无数据
模态	输入文件图像文本输出文本

模型元信息

Model compare	GPT-5.2	Grok 4.20
开发者	OpenAI	xAI
发布日期	2025年12月	2026年3月
参数量	暂无数据	暂无数据
Tokenizer	GPT	Grok
知识截止	暂无数据	2025-09-01
OpenRouter ID	openai/gpt-5.2	x-ai/grok-4.20
来源链接	暂无数据	暂无数据

跑分对比

来自 LMSpeed 同步的第三方 benchmark profile；只展示两个模型都有数值的指标。

分类能力对比

按 0-100 分对比 benchmark 分类表现；点击分类可以聚焦查看差距。

模型 A 覆盖: 7 / 8
模型 B 覆盖: 5 / 8
共同覆盖: 5 个共同分类

平均分

GPT-5.2

52.9

平均分

Grok 4.20

45.1

Agents

GPT-5.2 领先 4.8

GPT-5.248.3

Grok 4.2043.5

代码

GPT-5.2 领先 9.1

GPT-5.256.6

Grok 4.2047.5

推理

GPT-5.2 领先 2.5

GPT-5.254.6

Grok 4.2052.1

知识

GPT-5.2 领先 12.8

GPT-5.256.9

Grok 4.2044.1

数学

GPT-5.2

GPT-5.255.9

Grok 4.20-

多语言

暂无数据

GPT-5.2-

Grok 4.20-

多模态

GPT-5.2 领先 4.5

GPT-5.242.8

Grok 4.2038.3

指令遵循

GPT-5.2

GPT-5.254.9

Grok 4.20-

专业跑分明细

按具体 benchmark 指标对比两个模型，展示来源、排名覆盖、置信度、误差和评测日期等上下文。

能力组

综合reported

BenchLM overall score

来源GPT-5.2

GPT-5.2

领先

53.0

排名 #50/84 · confidence 3 · 评测日期 2025-12-11

+7.0

Grok 4.20

46.0

排名 #65/84 · confidence 2 · 评测日期 2026-03-10

价格verified

Output price

来源GPT-5.2 (Non-reasoning)

GPT-5.2

$14.00/M

排名 #133/162 · confidence 4

+$8.00/M

Grok 4.20

领先

$6.00/M

排名 #105/162 · confidence 4

价格verified

Blended price

来源GPT-5.2 (Non-reasoning)

GPT-5.2

$4.81/M

排名 #132/162 · confidence 4

+$1.81/M

Grok 4.20

领先

$3.00/M

排名 #112/162 · confidence 4

价格verified

Input price

来源GPT-5.2 (Non-reasoning)

GPT-5.2

领先

$1.75/M

排名 #120/162 · confidence 4

+$0.250/M

Grok 4.20

$2.00/M

排名 #123/162 · confidence 4

推理reported

ARC-AGI-2

来源GPT-5.2

GPT-5.2

52.9

排名 #12/15 · confidence 3 · 评测日期 2025-12-11

+0.4

Grok 4.20

领先

53.3

排名 #11/15 · confidence 2 · 评测日期 2026-03-10

推理verified

GPQA

来源GPT-5.2 (Non-reasoning)

GPT-5.2

71.2%

排名 #110/188 · confidence 4

+19.9%

Grok 4.20

领先

91.1%

排名 #14/188 · confidence 4

推理reported

BenchLM Reasoning score

来源GPT-5.2

GPT-5.2

61.4

排名 #22/25 · confidence 3 · 评测日期 2025-12-11

+0.3

Grok 4.20

领先

61.7

排名 #21/25 · confidence 2 · 评测日期 2026-03-10

推理verified

HLE

来源GPT-5.2 (Non-reasoning)

GPT-5.2

7.3%

排名 #109/187 · confidence 4

+24.9%

Grok 4.20

领先

32.2%

排名 #29/187 · confidence 4

代码reported

Vibe Code Bench

来源GPT-5.2

GPT-5.2

领先

53.5

排名 #6/33 · confidence 3 · 评测日期 2025-12-11

+49.4

Grok 4.20

4.1

排名 #30/33 · confidence 2 · 评测日期 2026-03-10

代码reported

SWE-bench Verified

来源GPT-5.2

GPT-5.2

领先

80.0

排名 #12/43 · confidence 3 · 评测日期 2025-12-11

+3.3

Grok 4.20

76.7

排名 #23/43 · confidence 2 · 评测日期 2026-03-10

代码reported

SWE-bench Pro

来源GPT-5.2

GPT-5.2

领先

55.6

排名 #25/37 · confidence 3 · 评测日期 2025-12-11

+3.8

Grok 4.20

51.8

排名 #32/37 · confidence 2 · 评测日期 2026-03-10

代码reported

BenchLM Coding score

来源GPT-5.2

GPT-5.2

领先

52.2

排名 #34/65 · confidence 3 · 评测日期 2025-12-11

+8.1

Grok 4.20

44.1

排名 #49/65 · confidence 2 · 评测日期 2026-03-10

代码verified

SciCode

来源GPT-5.2 (Non-reasoning)

GPT-5.2

40.4%

排名 #64/185 · confidence 4

+5.2%

Grok 4.20

领先

45.6%

排名 #34/185 · confidence 4

多模态reported

CharXiv

来源GPT-5.2

GPT-5.2

领先

82.1

排名 #8/22 · confidence 3 · 评测日期 2025-12-11

+21.2

Grok 4.20

60.9

排名 #21/22 · confidence 2 · 评测日期 2026-03-10

多模态reported

MMMU-Pro

来源GPT-5.2

GPT-5.2

领先

79.5

排名 #10/27 · confidence 3 · 评测日期 2025-12-11

+4.3

Grok 4.20

75.2

排名 #24/27 · confidence 2 · 评测日期 2026-03-10

多模态reported

BenchLM Multimodal Grounded score

来源GPT-5.2

GPT-5.2

领先

70.3

排名 #11/35 · confidence 3 · 评测日期 2025-12-11

+34.4

Grok 4.20

35.9

排名 #32/35 · confidence 2 · 评测日期 2026-03-10

多模态reported

Design Arena Website

来源GPT-5.2

GPT-5.2

1219.0

排名 #35/66 · confidence 3 · 评测日期 2025-12-11

+33.0

Grok 4.20

领先

1252.0

排名 #30/66 · confidence 2 · 评测日期 2026-03-10

Agentsreported

Gert Labs

来源GPT-5.2

GPT-5.2

领先

46.5

排名 #29/50 · confidence 3 · 评测日期 2025-12-11

+8.2

Grok 4.20

38.4

排名 #42/50 · confidence 2 · 评测日期 2026-03-10

Agentsreported

BenchLM Agentic score

来源GPT-5.2

GPT-5.2

22.0

排名 #48/53 · confidence 3 · 评测日期 2025-12-11

+8.2

Grok 4.20

领先

30.2

排名 #44/53 · confidence 2 · 评测日期 2026-03-10

Provider	GPT-5.2	Grok 4.20
暂无共同 provider 的已完成 audit。

Provider 数据样本

把同一 provider 的测速聚合和 input/output 价格放进同一行，便于判断实际 API 表现和迁移成本。

Provider	GPT-5.2	Grok 4.20
45 次测试	GPT-5.2 speed / latency 52 tok/s / 2671ms input / output 暂无数据	Grok 4.20 speed / latency 67 tok/s / 1296ms input / output 暂无数据
20 次测试	GPT-5.2 speed / latency 64 tok/s / 3553ms input / output 暂无数据	Grok 4.20 speed / latency 103 tok/s / 9875ms input / output 暂无数据
10 次测试	GPT-5.2 speed / latency N/A / N/A input / output 暂无数据	Grok 4.20 speed / latency 82 tok/s / 10813ms input / output 暂无数据
10 次测试	GPT-5.2 speed / latency 57 tok/s / 1904ms input / output 暂无数据	Grok 4.20 speed / latency 41 tok/s / 1129ms input / output 暂无数据
10 次测试	GPT-5.2 speed / latency 71 tok/s / 2893ms input / output 暂无数据	Grok 4.20 speed / latency 55 tok/s / 1168ms input / output 暂无数据
	GPT-5.2 gpt-5.2 speed / latency 暂无数据 input / output $0.024/M/$0.192/M	Grok 4.20 grok-4.20-fast speed / latency 暂无数据 input / output $0/M
	GPT-5.2 gpt-5.2 speed / latency 暂无数据 input / output $0/M/$0/M	Grok 4.20 grok-4.20-fast speed / latency 暂无数据 input / output $0/M
	GPT-5.2 gpt-5-2 speed / latency 暂无数据 input / output $0/request	Grok 4.20 grok-4.20-0309 speed / latency 暂无数据 input / output $0.100/request

对比总表

模型元信息

什么时候选哪个模型

跑分对比

分类能力对比

Agents

代码

推理

知识

数学

多语言

多模态

指令遵循

专业跑分明细

BenchLM overall score

Output price

Blended price

Input price

ARC-AGI-2

GPQA

BenchLM Reasoning score

HLE

Vibe Code Bench

SWE-bench Verified

SWE-bench Pro

BenchLM Coding score

SciCode

CharXiv

MMMU-Pro

BenchLM Multimodal Grounded score

Design Arena Website

Gert Labs

BenchLM Agentic score

API audit 对比

Provider 数据样本

FAQ

相关 Compare 报告