对话 · 文档理解 · 文档理解总榜

基于公开偏好评测数据展示文档理解 / 文档理解总榜榜单，每个榜单独立排序。

选型指南

文档理解总榜模型怎么选？

文档理解总榜排行榜用于回答“文档理解总榜哪个 AI 模型更强”这类选型问题。页面基于公开偏好评测数据展示模型排名，每个榜单独立排序，不把不同任务的原始分数直接混合。当前榜首是 claude-opus-4-6，厂商为 anthropic，百分制分数 100.0，样本量 32.1K。数据来源保留 Arena 原始榜单和 LMArena leaderboard dataset，更新时间以榜单发布时间 2026-06-10 为准。

claude-opus-4-6claude-opus-4-6-thinkingclaude-opus-4-7-thinkingclaude-opus-4-7claude-fable-5

claude-opus-4-6

Anthropic

100.0

32.1K

¥36 / ¥180输入/输出

claude-opus-4-6-thinking

Anthropic

96.4

20.2K

¥36 / ¥180输入/输出

claude-opus-4-7-thinking

Anthropic

92.9

13.9K

¥36 / ¥180输入/输出

claude-opus-4-7

Anthropic

89.3

14.1K

¥36 / ¥180输入/输出

claude-fable-5

Anthropic

85.7

1.5K

¥72 / ¥360输入/输出

claude-sonnet-4-6

Anthropic

82.1

49.4K

¥21.6 / ¥108输入/输出

gpt-5.5-high

Openai

78.6

11.8K

1.05M

¥36 / ¥216输入/输出

gpt-5.5

Openai

75.0

12.1K

1.05M

¥36 / ¥216输入/输出

gpt-5.4

Openai

71.4

24.4K

1.05M

¥18 / ¥108输入/输出

claude-opus-4-8-thinking

Anthropic

67.9

3.4K

200K

¥108 / ¥540输入/输出

claude-opus-4-8

Anthropic

64.3

3.2K

200K

¥108 / ¥540输入/输出

claude-opus-4-5-20251101

Anthropic

60.7

200K

¥36 / ¥180输入/输出

kimi-k2.6

Moonshot

57.1

8.6K

262K

¥6.84 / ¥28.8输入/输出

claude-sonnet-4-5-20250929

Anthropic

53.6

24.2K

200K

¥21.6 / ¥108输入/输出

muse-spark

Meta

50.0

1.1K

gemini-3.1-pro-preview

Google

46.4

38.1K

1.05M

¥14.4 / ¥86.4输入/输出

minimax-m3

Minimax

42.9

3.6K

512K

¥0 / ¥0输入/输出

gemini-3-pro

Google

39.3

10.7K

1.05M

¥14.4 / ¥86.4输入/输出

kimi-k2.5-thinking

Moonshot

35.7

16.5K

262K

¥4.32 / ¥21.6输入/输出

gemma-4-31b

Google

32.1

262K

¥1.01 / ¥2.88输入/输出

gemini-2.5-pro

Google

28.6

25K

1.05M

¥9 / ¥72输入/输出

claude-haiku-4-5-20251001

Anthropic

25.0

26.4K

200K

¥7.2 / ¥36输入/输出

glm-5v-turbo

Zai

21.4

1.4K

200K

¥8.64 / ¥28.8输入/输出

gemini-3-flash

Google

17.9

7.2K

1.05M

¥3.6 / ¥21.6输入/输出

grok-4.20-beta-0309-reasoning

Xai

14.3

14.1K

¥14.4 / ¥43.2输入/输出

gpt-5.2-high

Openai

10.7

7.1K

400K

¥12.6 / ¥101输入/输出

gpt-5.5-instant

Openai

7.1

8.5K

400K

¥36 / ¥216输入/输出

gpt-5.1

Openai

3.6

8.3K

128K

¥9 / ¥72输入/输出

gpt-5.2

Openai

0.0

28.2K

400K

¥12.6 / ¥101输入/输出

常见问题

文档理解总榜常见问题

文档理解总榜排行榜看什么指标？

主要看排名、百分制分数、样本量和来源。分数用于快速比较同一榜单内模型表现，样本量用于判断结果稳定性。

为什么不同榜单不能直接混合成总分？

不同榜单的任务、样本和评测口径不同，模力榜默认只在同一榜单内排序，避免把写作、代码、图像等能力强行合并。

文档理解总榜模型应该怎么选？

优先看与你任务最接近的榜单，再结合价格、上下文长度、开源闭源和厂商可用性。排名靠前不代表适合所有预算和部署方式。

榜单多久更新？

页面展示的是最新成功采集的公开榜单数据。当前优先使用 LMArena leaderboard dataset，并在页面来源中保留原始链接。

筛选项

对话 · 文档理解 · 文档理解总榜

文档理解总榜模型怎么选？

claude-opus-4-6 为什么排第一

不要只看第一名

继续比较相近能力

文档理解总榜常见问题

筛选项