编程 · 网页开发 · 总榜

基于公开偏好评测数据展示网页开发 / 总榜榜单，每个榜单独立排序。

选型指南

总榜模型怎么选？

总榜排行榜用于回答“总榜哪个 AI 模型更强”这类选型问题。页面基于公开偏好评测数据展示模型排名，每个榜单独立排序，不把不同任务的原始分数直接混合。当前榜首是 claude-fable-5，厂商为 anthropic，百分制分数 100.0，样本量 1.2K。数据来源保留 Arena 原始榜单和 LMArena leaderboard dataset，更新时间以榜单发布时间 2026-06-10 为准。

claude-fable-5claude-opus-4-7-thinkingclaude-opus-4-8-thinkingclaude-opus-4-7claude-opus-4-8

claude-fable-5

Anthropic

100.0

1.2K

¥72 / ¥360输入/输出

claude-opus-4-7-thinking

Anthropic

98.8

6.7K

¥36 / ¥180输入/输出

claude-opus-4-8-thinking

Anthropic

97.6

200K

¥108 / ¥540输入/输出

claude-opus-4-7

Anthropic

96.5

6.2K

¥36 / ¥180输入/输出

claude-opus-4-8

Anthropic

95.3

2.5K

200K

¥108 / ¥540输入/输出

claude-opus-4-6-thinking

Anthropic

94.1

9.3K

¥36 / ¥180输入/输出

claude-opus-4-6

Anthropic

92.9

10.3K

¥36 / ¥180输入/输出

qwen3.7-max-20260517

Alibaba

91.8

2.9K

¥18 / ¥54输入/输出

glm-5.1

Zai

90.6

3.6K

200K

¥10.1 / ¥31.7输入/输出

claude-sonnet-4-6

Anthropic

89.4

12.6K

¥21.6 / ¥108输入/输出

minimax-m3

Minimax

88.2

2.1K

512K

¥0 / ¥0输入/输出

kimi-k2.6

Moonshot

87.1

5.1K

262K

¥6.84 / ¥28.8输入/输出

muse-spark

Meta

85.9

1.6K

gemini-3.5-flash

Google

84.7

2.2K

1.05M

¥10.8 / ¥64.8输入/输出

gpt-5.5-xhigh (codex-harness)

Openai

83.5

5.5K

400K

¥9 / ¥72输入/输出

claude-opus-4-5-20251101-thinking-32k

Anthropic

82.4

13.1K

200K

¥108 / ¥540输入/输出

qwen3.6-max-preview

Alibaba

81.2

2.5K

246K

¥9.5 / ¥56.9输入/输出

gpt-5.5-high (codex-harness)

Openai

80.0

5.7K

400K

¥9 / ¥72输入/输出

mimo-v2.5-pro

Xiaomi

78.8

1.05M

¥0 / ¥0输入/输出

claude-opus-4-5-20251101

Anthropic

77.6

15.3K

200K

¥36 / ¥180输入/输出

qwen3.6-plus

Alibaba

76.5

7.5K

¥3.6 / ¥21.6输入/输出

deepseek-v4-pro-thinking

Deepseek

75.3

5.3K

¥3.13 / ¥6.26输入/输出

gpt-5.4-high (codex-harness)

Openai

74.1

1.5K

400K

¥9 / ¥72输入/输出

gpt-5.5 (codex-harness)

Openai

72.9

5.6K

400K

¥9 / ¥72输入/输出

gemini-3.1-pro-preview

Google

71.8

11.7K

1.05M

¥14.4 / ¥86.4输入/输出

glm-4.7

Zai

70.6

4.9K

205K

¥4.32 / ¥15.8输入/输出

gemini-3-pro

Google

69.4

17.2K

1.05M

¥14.4 / ¥86.4输入/输出

gpt-5.4-medium (codex-harness)

Openai

68.2

1.4K

400K

¥9 / ¥72输入/输出

gemini-3-flash

Google

67.1

13.3K

1.05M

¥3.6 / ¥21.6输入/输出

mimo-v2.5

Xiaomi

65.9

1.05M

¥0 / ¥0输入/输出

glm-5

Zai

64.7

6.6K

205K

¥7.2 / ¥23输入/输出

mimo-v2-pro

Xiaomi

63.5

6.8K

1.05M

¥0 / ¥0输入/输出

kimi-k2.5-thinking

Moonshot

62.4

11.9K

262K

¥4.32 / ¥21.6输入/输出

kimi-k2.5-instant

Moonshot

61.2

3.6K

262K

¥4.32 / ¥18输入/输出

gpt-5.3-codex (codex-harness)

Openai

60.0

400K

¥9 / ¥72输入/输出

gpt-5.2

Openai

58.8

1.5K

400K

¥12.6 / ¥101输入/输出

gpt-5.4-mini-high

Openai

57.6

6.8K

400K

¥5.4 / ¥32.4输入/输出

minimax-m2.7

Minimax

56.5

7.4K

205K

¥0 / ¥0输入/输出

qwen3.5-397b-a17b

Alibaba

55.3

11K

262K

¥3.1 / ¥18.6输入/输出

gpt-5-medium

Openai

54.1

3.8K

400K

¥9 / ¥72输入/输出

gpt-5.4

Openai

52.9

331

1.05M

¥18 / ¥108输入/输出

minimax-m2.1-preview

Minimax

51.8

9.3K

205K

¥0 / ¥0输入/输出

gpt-5.1-medium

Openai

50.6

6.1K

128K

¥9 / ¥72输入/输出

grok-4.20-beta-0309-reasoning

Xai

49.4

8.6K

¥14.4 / ¥43.2输入/输出

claude-sonnet-4-5-20250929-thinking-32k

Anthropic

48.2

15.7K

200K

¥21.6 / ¥108输入/输出

gemini-3-flash (thinking-minimal)

Google

47.1

17.8K

1.05M

¥3.6 / ¥21.6输入/输出

claude-opus-4-1-20250805

Anthropic

45.9

8.6K

200K

¥108 / ¥540输入/输出

claude-sonnet-4-5-20250929

Anthropic

44.7

18.4K

200K

¥21.6 / ¥108输入/输出

minimax-m2.5

Minimax

43.5

7.8K

205K

¥0 / ¥0输入/输出

gemma-4-31b

Google

42.4

4.2K

262K

¥1.01 / ¥2.88输入/输出

gpt-5.3-codex (codex-harness)

Openai

41.2

3.5K

400K

¥9 / ¥72输入/输出

grok-4.3

Xai

40.0

4.8K

¥9 / ¥18输入/输出

deepseek-v3.2-thinking

Deepseek

38.8

7.9K

128K

¥4.46 / ¥13.3输入/输出

qwen3.5-122b-a10b

Alibaba

37.6

8.2K

262K

¥2.88 / ¥23输入/输出

hunyuan-hy3-preview

Tencent

36.5

1.4K

256K

¥0 / ¥0输入/输出

gemma-4-26b-a4b

Google

35.3

1.5K

262K

¥0.94 / ¥2.88输入/输出

qwen3.5-27b

Alibaba

34.1

7.7K

262K

¥2.16 / ¥17.3输入/输出

glm-4.6

Zai

32.9

8.4K

205K

¥4.32 / ¥15.8输入/输出

gpt-5.1

Openai

31.8

12.9K

128K

¥9 / ¥72输入/输出

mimo-v2-flash (non-thinking)

Xiaomi

30.6

6.7K

262K

¥0.72 / ¥2.16输入/输出

gpt-5.2-codex

Openai

29.4

7.8K

400K

¥12.6 / ¥101输入/输出

deepseek-v3.2

Deepseek

28.2

10.5K

128K

¥4.46 / ¥13.3输入/输出

kimi-k2-thinking-turbo

Moonshot

27.1

15.3K

262K

¥8.28 / ¥57.6输入/输出

gpt-5.1-codex

Openai

25.9

6.2K

400K

¥9 / ¥72输入/输出

claude-haiku-4-5-20251001

Anthropic

24.7

21.8K

200K

¥7.2 / ¥36输入/输出

minimax-m2

Minimax

23.5

8.4K

197K

¥0 / ¥0输入/输出

mimo-v2-flash (thinking)

Xiaomi

22.4

2.1K

262K

¥0.72 / ¥2.16输入/输出

deepseek-v3.2-exp

Deepseek

21.2

4.9K

131K

¥2.07 / ¥3.1输入/输出

qwen3-coder-480b-a35b-instruct

Alibaba

20.0

15.2K

262K

¥6.2 / ¥24.8输入/输出

mistral-medium-3.5

Mistral

18.8

1.8K

262K

¥10.8 / ¥54输入/输出

UNKAT-Coder-Pro-V1

17.6

1.9K

256K

¥0.22 / ¥8.64输入/输出

qwen3.5-35b-a3b

Alibaba

16.5

1.8K

262K

¥1.8 / ¥14.4输入/输出

gemini-3.1-flash-lite-preview

Google

15.3

10.7K

1.05M

¥1.8 / ¥10.8输入/输出

UNtrinity-large-thinking

14.1

1.3K

131K

¥1.8 / ¥7.2输入/输出

gpt-5.1-codex-mini

Openai

12.9

1.4K

400K

¥1.8 / ¥14.4输入/输出

qwen3.5-flash

Alibaba

11.8

1.6K

¥1.24 / ¥12.4输入/输出

grok-4-1-fast-reasoning

Xai

10.6

6.9K

¥1.44 / ¥3.6输入/输出

mistral-large-3

Mistral

9.4

262K

¥3.6 / ¥10.8输入/输出

grok-4.1-thinking

Xai

8.2

1.2K

200K

¥14.4 / ¥72输入/输出

gemini-2.5-pro

Google

7.1

3.3K

1.05M

¥9 / ¥72输入/输出

granite-4.1-8b

Ibm

5.9

1.7K

131K

¥0.36 / ¥0.72输入/输出

devstral-2

Mistral

4.7

1.6K

262K

¥2.88 / ¥14.4输入/输出

mercury-2

Inception Ai

3.5

948

128K

¥1.8 / ¥5.4输入/输出

grok-4-fast-reasoning

Xai

2.4

934

¥1.44 / ¥3.6输入/输出

grok-code-fast-1

Xai

1.2

981

256K

¥1.44 / ¥10.8输入/输出

devstral-medium-2507

Mistral

0.0

992

262K

¥2.88 / ¥14.4输入/输出

常见问题

总榜常见问题

总榜排行榜看什么指标？

主要看排名、百分制分数、样本量和来源。分数用于快速比较同一榜单内模型表现，样本量用于判断结果稳定性。

为什么不同榜单不能直接混合成总分？

不同榜单的任务、样本和评测口径不同，模力榜默认只在同一榜单内排序，避免把写作、代码、图像等能力强行合并。

总榜模型应该怎么选？

优先看与你任务最接近的榜单，再结合价格、上下文长度、开源闭源和厂商可用性。排名靠前不代表适合所有预算和部署方式。

榜单多久更新？

页面展示的是最新成功采集的公开榜单数据。当前优先使用 LMArena leaderboard dataset，并在页面来源中保留原始链接。

筛选项

编程 · 网页开发 · 总榜

总榜模型怎么选？

claude-fable-5 为什么排第一

不要只看第一名

继续比较相近能力

总榜常见问题

筛选项