Why is this comparison indexable?

It has 6 verifiable comparison points, and both models have pricing or benchmark data.

Are missing metrics invented?

No. Metrics without LMSpeed data are omitted from this report.

Back to models

Data points: 126

Model compare

GPT-4.1 vs GPT-5.4

The readout for GPT-4.1 and GPT-5.4, before the detailed comparison sheet.

Model A

GPT-4.1

OpenAI

Contender

vs

Model B

GPT-5.4

OpenAI

Leading

Key Takeaways

Weighted outcome: GPT-5.4. Benchmark capability categories carry 80%, while price, API performance, and availability carry 20%.

Decision read

GPT-5.4

GPT-5.4 has the higher weighted result; Model A / B score 8 to 92.

Evidence depth

126 data points

Includes 23 benchmark rows, 3 audit samples, and 7 provider examples.

Selection signal

Start with GPT-5.4

The charts below split 33 high-signal samples across speed, scores, and audit health.

Change comparison

Switch either side of this report to compare another model with the same LMSpeed data pipeline.

Model AModel B

Comparison sheet

This report only uses LMSpeed data for GPT-4.1 and GPT-5.4: pricing, speed aggregates, third-party benchmark scores, and shared provider samples.

Model compare	GPT-4.1	GPT-5.4
Overall leader	Contender	Leading
Weighted overall score	8.0 pts	92.0 pts
Benchmark category leads	0 categories	6 categories
Operational advantages	Average speed, First-token latency	Cheapest input price, Free providers, Provider coverage
Context window	1.0M tokens	1.1M tokens
Max output	32.8K tokens	128K tokens
Modalities	Input ImageTextFile Output Text

The overall result weights benchmark capability categories at 80% and price, API speed/latency, and availability at 20%. Recent test volume does not affect the winner, and missing benchmark categories are excluded.

Model metadata

Model compare	GPT-4.1	GPT-5.4
Developer	OpenAI	OpenAI
Released	Apr 2025	Mar 2026
Parameters	No data	No data
Tokenizer	GPT	GPT
Knowledge cutoff	2024-06-30	No data
OpenRouter ID	openai/gpt-4.1	openai/gpt-5.4
References	No data	No data

When to choose each model

This report only uses LMSpeed data for GPT-4.1 and GPT-5.4: pricing, speed aggregates, third-party benchmark scores, and shared provider samples.

GPT-4.1

GPT-4.1 has these operational advantages: Average speed, First-token latency.

GPT-5.4

GPT-5.4 is stronger in benchmark categories (Agents, Coding, Reasoning, Knowledge, Math) and operational dimensions (Cheapest input price, Free providers, Provider coverage).

Benchmark score comparison

Third-party benchmark profile synced into LMSpeed; only metrics available for both models are shown.

Category performance

Compare benchmark category scores on a 0-100 scale. Select a category to inspect the gap.

Model A coverage: 6 / 8
Model B coverage: 7 / 8
Shared: 6 shared categories

Avg. score

GPT-4.1

46

Avg. score

GPT-5.4

57.4

Agents

GPT-5.4 leads by 16.6

GPT-4.139.9

GPT-5.456.5

Coding

GPT-5.4 leads by 24.4

GPT-4.138.6

GPT-5.463

Reasoning

GPT-5.4 leads by 7.5

GPT-4.149.2

GPT-5.456.7

Knowledge

GPT-5.4 leads by 2.9

GPT-4.157

GPT-5.459.9

Math

GPT-5.4 leads by 8.5

GPT-4.149.1

GPT-5.457.6

Multilingual

No data

GPT-4.1-

GPT-5.4-

Multimodal

GPT-5.4

GPT-4.1-

GPT-5.453.7

Instruction following

GPT-5.4 leads by 12.2

GPT-4.142.1

GPT-5.454.3

Professional benchmark details

Metric-level scores with benchmark source, rank depth, confidence, error, and evaluation date where available.

Group

Aggregatereported

Provider	GPT-4.1	GPT-5.4
Winner: GPT-5.4	GPT-4.1 gpt-4.1 No audit yet	GPT-5.4 gpt-5.4 Audit score 100 100100100100
Winner: GPT-5.4	GPT-4.1 gpt-4.1 No audit yet	GPT-5.4 gpt-5.4 Audit score 93 1008486100
Winner: GPT-4.1	GPT-4.1 gpt-4.1 Audit score 78 70728088	GPT-5.4 gpt-5.4 No audit yet

Provider	GPT-4.1	GPT-5.4
120 tests	GPT-4.1 speed / latency 81 tok/s / 1822ms input / output No data	GPT-5.4 speed / latency N/A / N/A input / output No data
20 tests	GPT-4.1 speed / latency N/A / N/A input / output No data	GPT-5.4 speed / latency 51 tok/s / 4032ms input / output No data
10 tests	GPT-4.1 speed / latency N/A / N/A input / output No data	GPT-5.4 speed / latency 88 tok/s / 6075ms input / output No data
10 tests	GPT-4.1 speed / latency N/A / N/A input / output No data	GPT-5.4 speed / latency 55 tok/s / 2903ms input / output No data
10 tests	GPT-4.1 speed / latency N/A / N/A input / output No data	GPT-5.4 speed / latency 54 tok/s / 1369ms input / output No data
	GPT-4.1 gpt-4.1 speed / latency No data input / output $0/M/$0/M	GPT-5.4 gpt-5.4 speed / latency No data input / output $0.240/M
	GPT-4.1 gpt-4.1 speed / latency No data input / output $0/request	GPT-5.4 gpt-5.4 speed / latency No data input / output $0/request

Comparison sheet

Model metadata

When to choose each model

Benchmark score comparison

Category performance

Agents

Coding

Reasoning

Knowledge

Math

Multilingual

Multimodal

Instruction following

Professional benchmark details

BenchLM overall score

Output price

Blended price

Input price

AA-LCR

HLE

GPQA

AA-SciCode

SciCode

BenchLM Coding score

FrontierMath v2 (Tiers 1-3)

BenchLM Math score

AA-HLE

AA-Omniscience Accuracy

Artificial Analysis Intelligence Index

AA-GPQA Diamond

BenchLM Knowledge score

AA-Omniscience Hallucination Rate

AA-MMMU-Pro

Design Arena Website

AA-IFBench

Gert Labs

τ²-bench results

API audit comparison

Provider examples

FAQ

Related compare reports