Why is this comparison indexable?

It has 6 verifiable comparison points, and both models have pricing or benchmark data.

Are missing metrics invented?

No. Metrics without LMSpeed data are omitted from this report.

GitHub

Model compare	GPT-5.4	Grok 4.20
Overall leader	Leading	Contender
Weighted overall score	96.0 pts	4.0 pts
Benchmark category leads	5 categories	0 categories
Operational advantages	Cheapest input price, First-token latency, Free providers, Provider coverage	Average speed
Context window	1.1M tokens	2M tokens
Max output	128K tokens	No data
Modalities	Input TextImageFile Output Text

Model compare	GPT-5.4	Grok 4.20
Developer	OpenAI	xAI
Released	Mar 2026	Mar 2026
Parameters	No data	No data
Tokenizer	GPT	Grok
Knowledge cutoff	No data	2025-09-01
OpenRouter ID	openai/gpt-5.4	x-ai/grok-4.20
References	No data	No data

Aggregatereported

BenchLM overall score

SourceGPT-5.4

GPT-5.4

winner

67.0

Rank #19/84 · confidence 3 · eval date 2026-03-05

+21.0

Grok 4.20

46.0

Rank #65/84 · confidence 2 · eval date 2026-03-10

Pricingverified

Output price

SourceGPT-5.4 (Non-reasoning)

GPT-5.4

$15.00/M

Rank #136/162 · confidence 4

+$9.00/M

Grok 4.20

winner

$6.00/M

Rank #105/162 · confidence 4

Pricingverified

Blended price

SourceGPT-5.4 (Non-reasoning)

GPT-5.4

$5.63/M

Rank #135/162 · confidence 4

+$2.63/M

Grok 4.20

winner

$3.00/M

Rank #112/162 · confidence 4

Pricingverified

Input price

SourceGPT-5.4 (Non-reasoning)

GPT-5.4

$2.50/M

Rank #131/162 · confidence 4

+$0.500/M

Grok 4.20

winner

$2.00/M

Rank #123/162 · confidence 4

Reasoningreported

ARC-AGI-2

SourceGPT-5.4

GPT-5.4

winner

74.0

Rank #7/15 · confidence 3 · eval date 2026-03-05

+20.7

Grok 4.20

53.3

Rank #11/15 · confidence 2 · eval date 2026-03-10

Reasoningreported

ARC-AGI-3

SourceGPT-5.4

GPT-5.4

winner

0.2

Rank #7/10 · confidence 3 · eval date 2026-03-05

+0.1

Grok 4.20

0.1

Rank #10/10 · confidence 2 · eval date 2026-03-10

Reasoningverified

GPQA

SourceGPT-5.4 (Non-reasoning)

GPT-5.4

74.8%

Rank #96/188 · confidence 4

+16.3%

Grok 4.20

winner

91.1%

Rank #14/188 · confidence 4

Reasoningreported

BenchLM Reasoning score

SourceGPT-5.4

GPT-5.4

winner

78.9

Rank #16/25 · confidence 3 · eval date 2026-03-05

+17.2

Grok 4.20

61.7

Rank #21/25 · confidence 2 · eval date 2026-03-10

Reasoningverified

HLE

SourceGPT-5.4 (Non-reasoning)

GPT-5.4

10.6%

Rank #91/187 · confidence 4

+21.6%

Grok 4.20

winner

32.2%

Rank #29/187 · confidence 4

Codingreported

LiveCodeBench Pro

SourceGPT-5.4

GPT-5.4

winner

87.5

Rank #1/4 · confidence 3 · eval date 2026-03-05

+13.3

Grok 4.20

74.2

Rank #3/4 · confidence 2 · eval date 2026-03-10

Codingreported

Vibe Code Bench

SourceGPT-5.4

GPT-5.4

winner

67.4

Rank #3/33 · confidence 3 · eval date 2026-03-05

+63.4

Grok 4.20

4.1

Rank #30/33 · confidence 2 · eval date 2026-03-10

Codingreported

SWE-bench Pro

SourceGPT-5.4

GPT-5.4

winner

57.7

Rank #15/37 · confidence 3 · eval date 2026-03-05

+5.9

Grok 4.20

51.8

Rank #32/37 · confidence 2 · eval date 2026-03-10

Codingverified

SciCode

SourceGPT-5.4 (Non-reasoning)

GPT-5.4

winner

47.1%

Rank #24/185 · confidence 4

+1.5%

Grok 4.20

45.6%

Rank #34/185 · confidence 4

Codingreported

BenchLM Coding score

SourceGPT-5.4

GPT-5.4

42.4

Rank #53/65 · confidence 3 · eval date 2026-03-05

+1.7

Grok 4.20

winner

44.1

Rank #49/65 · confidence 2 · eval date 2026-03-10

Knowledgereported

HealthBench Hard

SourceGPT-5.4

GPT-5.4

winner

40.1

Rank #1/7 · confidence 3 · eval date 2026-03-05

+19.8

Grok 4.20

20.3

Rank #6/7 · confidence 2 · eval date 2026-03-10

Knowledgereported

MedXpertQA (Text)

SourceGPT-5.4

GPT-5.4

winner

59.6

Rank #2/4 · confidence 3 · eval date 2026-03-05

+9.4

Grok 4.20

50.2

Rank #4/4 · confidence 2 · eval date 2026-03-10

Knowledgereported

GPQA-D

SourceGPT-5.4

GPT-5.4

winner

92.8

Rank #8/24 · confidence 3 · eval date 2026-03-05

+4.3

Grok 4.20

88.5

Rank #17/24 · confidence 2 · eval date 2026-03-10

Knowledgereported

HLE w/o tools

SourceGPT-5.4

GPT-5.4

winner

39.8

Rank #11/15 · confidence 3 · eval date 2026-03-05

+8.2

Grok 4.20

31.6

Rank #13/15 · confidence 2 · eval date 2026-03-10

Multimodalreported

MedXpertQA (MM)

SourceGPT-5.4

GPT-5.4

winner

77.1

Rank #2/5 · confidence 3 · eval date 2026-03-05

+11.3

Grok 4.20

65.8

Rank #4/5 · confidence 2 · eval date 2026-03-10

Multimodalreported

ERQA

SourceGPT-5.4

GPT-5.4

winner

65.4

Rank #3/6 · confidence 3 · eval date 2026-03-05

+11.3

Grok 4.20

54.1

Rank #5/6 · confidence 2 · eval date 2026-03-10

Multimodalreported

SimpleVQA

SourceGPT-5.4

GPT-5.4

winner

61.1

Rank #4/7 · confidence 3 · eval date 2026-03-05

+3.7

Grok 4.20

57.4

Rank #6/7 · confidence 2 · eval date 2026-03-10

Multimodalreported

MMMU-Pro

SourceGPT-5.4

GPT-5.4

winner

81.2

Rank #6/27 · confidence 3 · eval date 2026-03-05

+6.0

Grok 4.20

75.2

Rank #24/27 · confidence 2 · eval date 2026-03-10

Multimodalreported

CharXiv

SourceGPT-5.4

GPT-5.4

winner

82.8

Rank #7/22 · confidence 3 · eval date 2026-03-05

+21.9

Grok 4.20

60.9

Rank #21/22 · confidence 2 · eval date 2026-03-10

Multimodalreported

BenchLM Multimodal Grounded score

SourceGPT-5.4

GPT-5.4

winner

68.5

Rank #14/35 · confidence 3 · eval date 2026-03-05

+32.6

Grok 4.20

35.9

Rank #32/35 · confidence 2 · eval date 2026-03-10

Multimodalreported

Design Arena Website

SourceGPT-5.4

GPT-5.4

1245.0

Rank #32/66 · confidence 3 · eval date 2026-03-05

+7.0

Grok 4.20

winner

1252.0

Rank #30/66 · confidence 2 · eval date 2026-03-10

Agentsreported

Gert Labs

SourceGPT-5.4

GPT-5.4

winner

64.9

Rank #4/50 · confidence 3 · eval date 2026-03-05

+26.5

Grok 4.20

38.4

Rank #42/50 · confidence 2 · eval date 2026-03-10

Agentsreported

DeepSearchQA

SourceGPT-5.4

GPT-5.4

winner

73.6

Rank #7/9 · confidence 3 · eval date 2026-03-05

+10.8

Grok 4.20

62.8

Rank #9/9 · confidence 2 · eval date 2026-03-10

Agentsreported

Terminal-Bench 2.0

SourceGPT-5.4

GPT-5.4

winner

75.1

Rank #12/46 · confidence 3 · eval date 2026-03-05

+28.0

Grok 4.20

47.1

Rank #40/46 · confidence 2 · eval date 2026-03-10

Agentsreported

BenchLM Agentic score

SourceGPT-5.4

GPT-5.4

winner

74.7

Rank #14/53 · confidence 3 · eval date 2026-03-05

+44.5

Grok 4.20

30.2

Rank #44/53 · confidence 2 · eval date 2026-03-10

Provider	GPT-5.4	Grok 4.20
50 tests	GPT-5.4 speed / latency 50 tok/s / 7305ms input / output No data	Grok 4.20 speed / latency N/A / N/A input / output No data
50 tests	GPT-5.4 speed / latency 49 tok/s / 5435ms input / output No data	Grok 4.20 speed / latency 67 tok/s / 1296ms input / output No data
25 tests	GPT-5.4 speed / latency 41 tok/s / 6581ms input / output No data	Grok 4.20 speed / latency 82 tok/s / 10813ms input / output No data
15 tests	GPT-5.4 speed / latency N/A / N/A input / output No data	Grok 4.20 speed / latency 103 tok/s / 9875ms input / output No data
10 tests	GPT-5.4 speed / latency 61 tok/s / 3483ms input / output No data	Grok 4.20 speed / latency N/A / N/A input / output No data
	GPT-5.4 gpt-5.4 speed / latency No data input / output $0.240/M/$1.44/M	Grok 4.20 grok-4.20-fast speed / latency No data input / output $0/M
	GPT-5.4 gpt-5.4-openai-compact speed / latency No data input / output $0/M/$0/M	Grok 4.20 grok-4.20-fast speed / latency No data input / output $0/M

Comparison sheet

Model metadata

When to choose each model

Benchmark score comparison

Category performance

Agents

Coding

Reasoning

Knowledge

Math

Multilingual

Multimodal

Instruction following

Professional benchmark details

BenchLM overall score

Output price

Blended price

Input price

ARC-AGI-2

ARC-AGI-3

GPQA

BenchLM Reasoning score

HLE

LiveCodeBench Pro

Vibe Code Bench

SWE-bench Pro

SciCode

BenchLM Coding score

HealthBench Hard

MedXpertQA (Text)

GPQA-D

HLE w/o tools

MedXpertQA (MM)

ERQA

SimpleVQA

MMMU-Pro

CharXiv

BenchLM Multimodal Grounded score

Design Arena Website

Gert Labs

DeepSearchQA

Terminal-Bench 2.0

BenchLM Agentic score

API audit comparison

Provider examples

FAQ

Related compare reports