对话 · 视觉理解 · 创意写作排行榜

基于公开偏好评测数据展示视觉理解 / 创意写作榜单，每个榜单独立排序。

选型指南

创意写作模型怎么选？

创意写作排行榜用于回答“创意写作哪个 AI 模型更强”这类选型问题。页面基于公开偏好评测数据展示模型排名，每个榜单独立排序，不把不同任务的原始分数直接混合。当前榜首是 gemini-3-pro，厂商为 google，百分制分数 100.0，样本量 766。数据来源保留 Arena 原始榜单和 LMArena leaderboard dataset，更新时间以榜单发布时间 2026-01-09 为准。

gemini-3-proernie-5.0-preview-1220gemini-3-flashgpt-5.1gemini-2.5-flash-preview-09-2025

gemini-3-pro

Google

100.0

766

1.05M

¥14.4 / ¥86.4输入/输出

ernie-5.0-preview-1220

Baidu

97.0

176

128K

¥7.92 / ¥14.4输入/输出

gemini-3-flash

Google

93.9

217

1.05M

¥3.6 / ¥21.6输入/输出

gpt-5.1

Openai

90.9

411

400K

¥9 / ¥72输入/输出

gemini-2.5-flash-preview-09-2025

Google

87.9

555

¥2.16 / ¥18输入/输出

gpt-5.1-high

Openai

84.8

385

400K

¥9 / ¥72输入/输出

gemini-2.5-pro

Google

81.8

2.4K

1.05M

¥9 / ¥72输入/输出

grok-4-0709

Xai

78.8

1.5K

256K

¥21.6 / ¥108输入/输出

claude-opus-4-20250514

Anthropic

75.8

192

200K

¥108 / ¥540输入/输出

gemini-2.5-flash

Google

72.7

1.7K

1.05M

¥2.16 / ¥18输入/输出

chatgpt-4o-latest-20250326

Openai

69.7

128K

¥18 / ¥72输入/输出

gpt-5-chat

Openai

66.7

1.5K

400K

¥9 / ¥72输入/输出

qwen3-vl-235b-a22b-thinking

Alibaba

63.6

219

131K

¥2.06 / ¥8.26输入/输出

qwen3-vl-235b-a22b-instruct

Alibaba

60.6

690

128K

¥2.16 / ¥8.64输入/输出

mistral-medium-2508

Mistral

57.6

1.4K

262K

¥2.88 / ¥14.4输入/输出

gpt-4.1-2025-04-14

Openai

54.5

1.4K

1.05M

¥14.4 / ¥57.6输入/输出

gemini-2.5-flash-lite-preview-09-2025-no-thinking

Google

51.5

565

1.05M

¥0.72 / ¥2.88输入/输出

gemini-2.0-flash-001

Google

48.5

292

1.05M

¥1.08 / ¥4.32输入/输出

o3-2025-04-16

Openai

45.5

1.9K

200K

¥14.4 / ¥57.6输入/输出

claude-sonnet-4-20250514

Anthropic

42.4

156

200K

¥21.6 / ¥108输入/输出

gpt-5-high

Openai

39.4

1.6K

400K

¥9 / ¥72输入/输出

gemini-2.5-flash-lite-preview-06-17-thinking

Google

36.4

1.3K

65.5K

¥0.72 / ¥2.88输入/输出

mistral-small-2506

Mistral

33.3

442

262K

¥2.88 / ¥14.4输入/输出

qwen-vl-max-2025-08-13

Alibaba

30.3

191

131K

¥1.66 / ¥4.13输入/输出

gemma-3-27b-it

Google

27.3

732

128K

¥2.15 / ¥2.15输入/输出

gpt-5-mini-high

Openai

24.2

1.1K

400K

¥1.8 / ¥14.4输入/输出

hunyuan-vision-1.5-thinking

Tencent

21.2

275

mistral-medium-2505

Mistral

18.2

518

262K

¥2.88 / ¥14.4输入/输出

gpt-4.1-mini-2025-04-14

Openai

15.2

1.3K

1.05M

¥2.88 / ¥11.5输入/输出

o4-mini-2025-04-16

Openai

12.1

1.4K

200K

¥7.92 / ¥31.7输入/输出

mistral-small-3.1-24b-instruct-2503

Mistral

9.1

777

262K

¥2.88 / ¥14.4输入/输出

llama-4-scout-17b-16e-instruct

创意写作常见问题

创意写作排行榜看什么指标？

主要看排名、百分制分数、样本量和来源。分数用于快速比较同一榜单内模型表现，样本量用于判断结果稳定性。

为什么不同榜单不能直接混合成总分？

不同榜单的任务、样本和评测口径不同，模力榜默认只在同一榜单内排序，避免把写作、代码、图像等能力强行合并。

创意写作模型应该怎么选？

优先看与你任务最接近的榜单，再结合价格、上下文长度、开源闭源和厂商可用性。排名靠前不代表适合所有预算和部署方式。

榜单多久更新？

页面展示的是最新成功采集的公开榜单数据。当前优先使用 LMArena leaderboard dataset，并在页面来源中保留原始链接。

对话 · 视觉理解 · 创意写作排行榜

创意写作模型怎么选？

gemini-3-pro 为什么排第一

不要只看第一名

继续比较相近能力

创意写作常见问题