这个比较为什么能收录？

它至少有 6 个可验证比较点，并且两个模型都有价格或测速数据。

没有数据的指标会不会编？

不会。没有 LMSpeed 数据的指标不会出现在这份报告里。

LM Speed

Claude Opus 4.6 vs Gemini 3.1 Pro：价格速度对比 | LMSpeed

返回模型目录

数据点: 175

Model compare

Claude Opus 4.6 vs Gemini 3.1 Pro

Claude Opus 4.6 和 Gemini 3.1 Pro 的结论先放在这里，方便先判断是否值得继续看明细。

模型 A

Claude Opus 4.6

Anthropic

对照

vs

模型 B

Gemini 3.1 Pro

Google

领先

Key Takeaways

综合加权结果：Gemini 3.1 Pro。Benchmark 能力分类占 80%，价格、API 性能和可用性占 20%。

结论

Gemini 3.1 Pro

Gemini 3.1 Pro 当前综合加权更高；模型 A / B 得分为 42 对 58。

证据覆盖

175 个数据点

包含 38 个 benchmark、6 个 audit 样本和 7 个 provider 样本。

选择依据

优先看 Gemini 3.1 Pro

下方图表把 51 组高信号样本拆开，便于核对速度、跑分和安全分。

切换对比模型

左右两边都可以换成其他模型，页面会打开新的 LMSpeed 对比 URL。

模型 A模型 B

对比总表

这份报告只使用 LMSpeed 已有数据：Claude Opus 4.6 和 Gemini 3.1 Pro 的价格、测速聚合、第三方跑分与共同服务商样本。

综合领先	对照	领先
综合加权得分	42.0 分	58.0 分
Benchmark 分类领先	3 类	5 类
运营维度优势	最低输入价格、首 token 延迟、服务商覆盖	平均速度、免费服务商
上下文窗口	1M tokens	1.0M tokens
最大输出	128K tokens	65.5K tokens
模态	输入文本图像文件输出文本

模型元信息

Model compare	Claude Opus 4.6	Gemini 3.1 Pro
开发者	Anthropic	Google
发布日期	2026年2月	2026年2月
参数量	暂无数据	暂无数据
Tokenizer	Claude	Gemini
知识截止	暂无数据	暂无数据
OpenRouter ID	anthropic/claude-opus-4.6	google/gemini-3.1-pro-preview
来源链接	暂无数据	暂无数据

跑分对比

来自 LMSpeed 同步的第三方 benchmark profile；只展示两个模型都有数值的指标。

分类能力对比

按 0-100 分对比 benchmark 分类表现；点击分类可以聚焦查看差距。

模型 A 覆盖: 8 / 8
模型 B 覆盖: 8 / 8
共同覆盖: 8 个共同分类

平均分

Claude Opus 4.6

53.4

平均分

Gemini 3.1 Pro

56.6

Agents

Claude Opus 4.6 领先 4.8

Claude Opus 4.655.6

Gemini 3.1 Pro50.8

代码

Claude Opus 4.6 领先 0.1

Claude Opus 4.659.4

Gemini 3.1 Pro59.3

推理

Gemini 3.1 Pro 领先 4.4

Claude Opus 4.653.9

Gemini 3.1 Pro58.3

知识

Gemini 3.1 Pro 领先 4.1

Claude Opus 4.653.7

Gemini 3.1 Pro57.8

数学

Claude Opus 4.6 领先 1.2

Claude Opus 4.656.5

Gemini 3.1 Pro55.3

多语言

Gemini 3.1 Pro 领先 5.7

Claude Opus 4.654

Gemini 3.1 Pro59.7

多模态

Gemini 3.1 Pro 领先 7.0

Claude Opus 4.649

Gemini 3.1 Pro56

指令遵循

Gemini 3.1 Pro 领先 10.8

Claude Opus 4.644.8

Gemini 3.1 Pro55.6

专业跑分明细

按具体 benchmark 指标对比两个模型，展示来源、排名覆盖、置信度、误差和评测日期等上下文。

能力组

综合reported

BenchLM overall score

来源Claude Opus 4.6

Claude Opus 4.6

68.0

排名 #20/90 · confidence 3 · 评测日期 2026-02-01

+3.0

Gemini 3.1 Pro

领先

71.0

排名 #14/90 · confidence 3 · 评测日期 2026-02-19

推理reported

AA-LCR

来源Claude Opus 4.6

Claude Opus 4.6

58.3

排名 #67/94 · confidence 3 · 评测日期 2026-02-01

+14.4

Gemini 3.1 Pro

领先

72.7

排名 #13/94 · confidence 3 · 评测日期 2026-02-19

推理reported

CritPt

来源Claude Opus 4.6

Claude Opus 4.6

2.8

排名 #47/77 · confidence 3 · 评测日期 2026-02-01

+14.9

Gemini 3.1 Pro

领先

17.7

排名 #13/77 · confidence 3 · 评测日期 2026-02-19

代码reported

AA-SciCode

来源Claude Opus 4.6

Claude Opus 4.6

45.7

排名 #41/101 · confidence 3 · 评测日期 2026-02-01

+13.2

Gemini 3.1 Pro

领先

58.9

排名 #2/101 · confidence 3 · 评测日期 2026-02-19

代码reported

LiveCodeBench Pro

来源Claude Opus 4.6

Claude Opus 4.6

70.7

排名 #4/4 · confidence 3 · 评测日期 2026-02-01

+12.2

Gemini 3.1 Pro

领先

82.9

排名 #2/4 · confidence 3 · 评测日期 2026-02-19

代码reported

React Native Evals

来源Claude Opus 4.6

Claude Opus 4.6

领先

84.1

排名 #3/12 · confidence 3 · 评测日期 2026-02-01

+5.2

Gemini 3.1 Pro

78.9

排名 #6/12 · confidence 3 · 评测日期 2026-02-19

代码reported

Vibe Code Bench

来源Claude Opus 4.6

Claude Opus 4.6

领先

57.6

排名 #5/33 · confidence 3 · 评测日期 2026-02-01

+25.5

Gemini 3.1 Pro

32.0

排名 #13/33 · confidence 3 · 评测日期 2026-02-19

代码reported

BenchLM Coding score

来源Claude Opus 4.6

Claude Opus 4.6

领先

63.7

排名 #9/71 · confidence 3 · 评测日期 2026-02-01

+2.3

Gemini 3.1 Pro

61.4

排名 #16/71 · confidence 3 · 评测日期 2026-02-19

数学reported

FrontierMath v2 (Tier 4)

来源Claude Opus 4.6

Claude Opus 4.6

领先

22.9

排名 #10/35 · confidence 3 · 评测日期 2026-02-01

+6.2

Gemini 3.1 Pro

16.7

排名 #13/35 · confidence 3 · 评测日期 2026-02-19

数学reported

FrontierMath v2 (Tiers 1-3)

来源Claude Opus 4.6

Claude Opus 4.6

领先

40.7

排名 #10/47 · confidence 3 · 评测日期 2026-02-01

+3.8

Gemini 3.1 Pro

36.9

排名 #15/47 · confidence 3 · 评测日期 2026-02-19

数学reported

BenchLM Math score

来源Claude Opus 4.6

Claude Opus 4.6

领先

59.8

排名 #23/57 · confidence 3 · 评测日期 2026-02-01

+4.6

Gemini 3.1 Pro

55.2

排名 #29/57 · confidence 3 · 评测日期 2026-02-19

知识reported

AA-GPQA Diamond

来源Claude Opus 4.6

Claude Opus 4.6

84.0

排名 #56/101 · confidence 3 · 评测日期 2026-02-01

+10.1

Gemini 3.1 Pro

领先

94.1

排名 #1/101 · confidence 3 · 评测日期 2026-02-19

知识reported

MedXpertQA (Text)

来源Claude Opus 4.6

Claude Opus 4.6

52.1

排名 #3/4 · confidence 3 · 评测日期 2026-02-01

+19.4

Gemini 3.1 Pro

领先

71.5

排名 #1/4 · confidence 3 · 评测日期 2026-02-19

知识reported

AA-Omniscience Index

来源Claude Opus 4.6

Claude Opus 4.6

3.5

排名 #27/34 · confidence 3 · 评测日期 2026-02-01

+29.4

Gemini 3.1 Pro

领先

32.9

排名 #2/34 · confidence 3 · 评测日期 2026-02-19

知识reported

GPQA-D

来源Claude Opus 4.6

Claude Opus 4.6

89.2

排名 #16/25 · confidence 3 · 评测日期 2026-02-01

+5.1

Gemini 3.1 Pro

领先

94.3

排名 #2/25 · confidence 3 · 评测日期 2026-02-19

知识reported

AA-Omniscience Accuracy

来源Claude Opus 4.6

Claude Opus 4.6

45.2

排名 #17/95 · confidence 3 · 评测日期 2026-02-01

+10.1

Gemini 3.1 Pro

领先

55.3

排名 #5/95 · confidence 3 · 评测日期 2026-02-19

知识reported

HealthBench Hard

来源Claude Opus 4.6

Claude Opus 4.6

14.8

排名 #7/7 · confidence 3 · 评测日期 2026-02-01

+5.8

Gemini 3.1 Pro

领先

20.6

排名 #5/7 · confidence 3 · 评测日期 2026-02-19

知识reported

HLE w/o tools

来源Claude Opus 4.6

Claude Opus 4.6

40.0

排名 #12/18 · confidence 3 · 评测日期 2026-02-01

+5.4

Gemini 3.1 Pro

领先

45.4

排名 #5/18 · confidence 3 · 评测日期 2026-02-19

知识reported

AA-HLE

来源Claude Opus 4.6

Claude Opus 4.6

18.6

排名 #60/101 · confidence 3 · 评测日期 2026-02-01

+26.1

Gemini 3.1 Pro

领先

44.7

排名 #6/101 · confidence 3 · 评测日期 2026-02-19

知识reported

BenchLM Knowledge score

来源Claude Opus 4.6

Claude Opus 4.6

领先

82.6

排名 #10/60 · confidence 3 · 评测日期 2026-02-01

+15.8

Gemini 3.1 Pro

66.8

排名 #34/60 · confidence 3 · 评测日期 2026-02-19

知识reported

Artificial Analysis Intelligence Index

来源Claude Opus 4.6

Claude Opus 4.6

37.8

排名 #43/104 · confidence 3 · 评测日期 2026-02-01

+8.7

Gemini 3.1 Pro

领先

46.5

排名 #17/104 · confidence 3 · 评测日期 2026-02-19

知识reported

AA-Omniscience Hallucination Rate

来源Claude Opus 4.6

Claude Opus 4.6

领先

76.0

排名 #44/95 · confidence 3 · 评测日期 2026-02-01

+26.1

Gemini 3.1 Pro

49.9

排名 #71/95 · confidence 3 · 评测日期 2026-02-19

多语言reported

AA Global-MMLU-Lite

来源Claude Opus 4.6 (Adaptive)

Claude Opus 4.6

92.2

排名 #2/4 · confidence 1 · 评测日期 2026-02-01

+1.0

Gemini 3.1 Pro

领先

93.2

排名 #1/4 · confidence 3 · 评测日期 2026-02-19

多模态reported

MedXpertQA (MM)

来源Claude Opus 4.6

Claude Opus 4.6

64.8

排名 #5/5 · confidence 3 · 评测日期 2026-02-01

+16.5

Gemini 3.1 Pro

领先

81.3

排名 #1/5 · confidence 3 · 评测日期 2026-02-19

多模态reported

ERQA

来源Claude Opus 4.6

Claude Opus 4.6

51.6

排名 #6/6 · confidence 3 · 评测日期 2026-02-01

+17.8

Gemini 3.1 Pro

领先

69.4

排名 #2/6 · confidence 3 · 评测日期 2026-02-19

多模态reported

MMMU-Pro

来源Claude Opus 4.6

Claude Opus 4.6

77.3

排名 #20/28 · confidence 3 · 评测日期 2026-02-01

+6.6

Gemini 3.1 Pro

领先

83.9

排名 #2/28 · confidence 3 · 评测日期 2026-02-19

多模态reported

ScreenSpot Pro

来源Claude Opus 4.6

Claude Opus 4.6

83.1

排名 #4/9 · confidence 3 · 评测日期 2026-02-01

+1.3

Gemini 3.1 Pro

领先

84.4

排名 #3/9 · confidence 3 · 评测日期 2026-02-19

多模态reported

AA-MMMU-Pro

来源Claude Opus 4.6

Claude Opus 4.6

72.5

排名 #40/61 · confidence 3 · 评测日期 2026-02-01

+9.9

Gemini 3.1 Pro

领先

82.4

排名 #5/61 · confidence 3 · 评测日期 2026-02-19

多模态reported

BenchLM Multimodal Grounded score

来源Claude Opus 4.6

Claude Opus 4.6

62.1

排名 #27/40 · confidence 3 · 评测日期 2026-02-01

+19.8

Gemini 3.1 Pro

领先

81.9

排名 #7/40 · confidence 3 · 评测日期 2026-02-19

多模态reported

Design Arena Website

来源Claude Opus 4.6

Claude Opus 4.6

领先

1319.0

排名 #8/69 · confidence 3 · 评测日期 2026-02-01

+43.0

Gemini 3.1 Pro

1276.0

排名 #24/69 · confidence 3 · 评测日期 2026-02-19

指令遵循reported

AA-IFBench

来源Claude Opus 4.6

Claude Opus 4.6

44.6

排名 #61/86 · confidence 3 · 评测日期 2026-02-01

+32.5

Gemini 3.1 Pro

领先

77.1

排名 #10/86 · confidence 3 · 评测日期 2026-02-19

Agentsreported

Claw-Eval

来源Claude Opus 4.6

Claude Opus 4.6

领先

70.4

排名 #3/28 · confidence 3 · 评测日期 2026-02-01

+12.6

Gemini 3.1 Pro

57.8

排名 #17/28 · confidence 3 · 评测日期 2026-02-19

Agentsreported

ResearchClawBench

来源Claude Opus 4.6

Claude Opus 4.6

领先

19.9

排名 #4/19 · confidence 3 · 评测日期 2026-02-01

+6.6

Gemini 3.1 Pro

13.3

排名 #18/19 · confidence 3 · 评测日期 2026-02-19

Agentsreported

APEX-Agents-AA

来源Claude Opus 4.6 (Adaptive)

Claude Opus 4.6

领先

33.0

排名 #8/24 · confidence 1 · 评测日期 2026-02-01

+1.0

Gemini 3.1 Pro

32.0

排名 #9/24 · confidence 3 · 评测日期 2026-02-19

Agentsreported

DeepSearchQA

来源Claude Opus 4.6

Claude Opus 4.6

领先

73.7

排名 #8/11 · confidence 3 · 评测日期 2026-02-01

+4.0

Gemini 3.1 Pro

69.7

排名 #10/11 · confidence 3 · 评测日期 2026-02-19

Agentsreported

Gert Labs

来源Claude Opus 4.6

Claude Opus 4.6

领先

61.9

排名 #10/50 · confidence 3 · 评测日期 2026-02-01

+5.0

Gemini 3.1 Pro

56.9

排名 #14/50 · confidence 3 · 评测日期 2026-02-19

Agentsreported

τ²-bench results

来源Claude Opus 4.6

Claude Opus 4.6

84.8

排名 #47/84 · confidence 3 · 评测日期 2026-02-01

+10.8

Gemini 3.1 Pro

领先

95.6

排名 #17/84 · confidence 3 · 评测日期 2026-02-19

Agentsreported

BenchLM Agentic score

来源Claude Opus 4.6

Claude Opus 4.6

65.3

排名 #25/59 · confidence 3 · 评测日期 2026-02-01

+8.7

Gemini 3.1 Pro

领先

74.0

排名 #18/59 · confidence 3 · 评测日期 2026-02-19

API audit 对比

来自共同 provider 的最近完成 audit，展示四个安全/完整性分组分数和报告入口。

Provider	Claude Opus 4.6	Gemini 3.1 Pro
胜出方: Claude Opus 4.6	Claude Opus 4.6 claude-opus-4-6 Audit 分数 91 7610086100	Gemini 3.1 Pro gemini-3.1-pro 暂无 audit
胜出方: Claude Opus 4.6	Claude Opus 4.6 claude-opus-4-6 Audit 分数 89 56100100100	Gemini 3.1 Pro gemini-3.1-pro 暂无 audit
胜出方: Claude Opus 4.6	Claude Opus 4.6 claude-opus-4-6 Audit 分数 88 6410086100	Gemini 3.1 Pro gemini-3.1-pro-preview Audit 分数 79 69
胜出方: Gemini 3.1 Pro	Claude Opus 4.6 claude-opus-4-6 暂无 audit	Gemini 3.1 Pro gemini-3.1-pro-preview Audit 分数 87 848480100
胜出方: Claude Opus 4.6	Claude Opus 4.6 claude-opus-4-6 Audit 分数 84 648486100	Gemini 3.1 Pro gemini-3.1-pro-preview 暂无 audit
胜出方: Gemini 3.1 Pro	Claude Opus 4.6 claude-opus-4-6 暂无 audit	Gemini 3.1 Pro gemini-3.1-pro-preview Audit 分数 83 787280100

Provider 数据样本

把同一 provider 的测速聚合和 input/output 价格放进同一行，便于判断实际 API 表现和迁移成本。

Provider	Claude Opus 4.6	Gemini 3.1 Pro
25 次测试	Claude Opus 4.6 speed / latency 42 tok/s / 2282ms input / output 暂无数据	Gemini 3.1 Pro speed / latency 96 tok/s / 13019ms input / output 暂无数据
20 次测试	Claude Opus 4.6 speed / latency 40 tok/s / 16141ms input / output 暂无数据	Gemini 3.1 Pro speed / latency N/A / N/A input / output 暂无数据
15 次测试	Claude Opus 4.6 speed / latency 57 tok/s / 3926ms input / output 暂无数据	Gemini 3.1 Pro speed / latency N/A / N/A input / output 暂无数据
15 次测试	Claude Opus 4.6 speed / latency 43 tok/s / 1437ms input / output 暂无数据	Gemini 3.1 Pro speed / latency 102 tok/s / 12933ms input / output 暂无数据
15 次测试	Claude Opus 4.6 speed / latency 45 tok/s / 6167ms input / output 暂无数据	Gemini 3.1 Pro speed / latency 101 tok/s / 15025ms input / output 暂无数据
	Claude Opus 4.6 claude-opus-4-6 speed / latency 暂无数据 input / output $0/M/$0/M	Gemini 3.1 Pro gemini-3.1-pro-preview speed / latency 暂无数据 input / output $0/M
	Claude Opus 4.6 claude-opus-4-6 speed / latency 暂无数据 input / output $0/request	Gemini 3.1 Pro gemini-3.1-pro-preview speed / latency 暂无数据 input / output $0/request

能力	文本输入图像输入文件输入文本输出工具调用结构化输出JSON 模式推理	文本输入图像输入文件输入音频输入文本输出工具调用结构化输出JSON 模式推理

对比总表

模型元信息

什么时候选哪个模型

跑分对比

分类能力对比

Agents

代码

推理

知识

数学

多语言

多模态

指令遵循

专业跑分明细

BenchLM overall score

AA-LCR

CritPt

AA-SciCode

LiveCodeBench Pro

React Native Evals

Vibe Code Bench

BenchLM Coding score

FrontierMath v2 (Tier 4)

FrontierMath v2 (Tiers 1-3)

BenchLM Math score

AA-GPQA Diamond

MedXpertQA (Text)

AA-Omniscience Index

GPQA-D

AA-Omniscience Accuracy

HealthBench Hard

HLE w/o tools

AA-HLE

BenchLM Knowledge score

Artificial Analysis Intelligence Index

AA-Omniscience Hallucination Rate

AA Global-MMLU-Lite

MedXpertQA (MM)

ERQA

MMMU-Pro

ScreenSpot Pro

AA-MMMU-Pro

BenchLM Multimodal Grounded score

Design Arena Website

AA-IFBench

Claw-Eval

ResearchClawBench

APEX-Agents-AA

DeepSearchQA

Gert Labs

τ²-bench results

BenchLM Agentic score

API audit 对比

Provider 数据样本

FAQ

相关 Compare 报告