← 返回排行榜

Anthropic

Claude 3.7 Sonnet

面向长上下文和推理的闭源模型。

闭源 API

Use Case Fit

适合的应用场景

按应用任务展示该模型被推荐的理由和证据数量。

内容创作写文章

长文结构、语气控制和润色稳定性最好，适合公众号和深度文章。

#1 · 94 分 · 1 条证据短剧/视频短剧剧本

在该应用场景的公开证据或平台样例评测中表现靠前。

#1 · 94 分 · 1 条证据办公效率PPT/方案

在该应用场景的公开证据或平台样例评测中表现靠前。

#1 · 94 分 · 1 条证据内容创作小红书/社媒文案

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据营销销售广告营销文案

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据短剧/视频视频口播脚本

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据编程开发代码生成

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据编程开发Bug 修复

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据学习研究论文总结

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据商业分析财报分析

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据专业行业医学问答

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据

跨 Benchmark 成绩

已收录结果

7Results

领域	Benchmark	排名	分数	指标	来源	更新时间
math	LMArena Math	#4	1338 Elo	Arena Elo	LMArena	2026/05/30
math	MMLU-Pro Mathematics	#4	83.2%	Accuracy	TIGER-Lab / MMLU-Pro	2026/05/20
physics	MMLU-Pro Physics	#3	80.7%	Accuracy	TIGER-Lab / MMLU-Pro	2026/05/20
chemistry	ChemBench	#2	78.9 pts	Normalized Score	ChemBench	2026/05/28
economics	MMLU-Pro Economics	#2	84.6%	Accuracy	TIGER-Lab / MMLU-Pro	2026/05/20
finance	Open FinLLM Leaderboard	#2	81.3 pts	Composite Score	TheFinAI / Open FinLLM	2026/05/29
medicine	MedHELM	#2	83.9 pts	Overall Score	MedHELM	2026/05/27