Anthropic
Claude 3.7 Sonnet
面向长上下文和推理的闭源模型。
Use Case Fit
适合的应用场景
按应用任务展示该模型被推荐的理由和证据数量。
内容创作写文章
长文结构、语气控制和润色稳定性最好,适合公众号和深度文章。
#1 · 94 分 · 1 条证据短剧/视频短剧剧本在该应用场景的公开证据或平台样例评测中表现靠前。
#1 · 94 分 · 1 条证据办公效率PPT/方案在该应用场景的公开证据或平台样例评测中表现靠前。
#1 · 94 分 · 1 条证据内容创作小红书/社媒文案在该应用场景的公开证据或平台样例评测中表现靠前。
#2 · 91 分 · 1 条证据营销销售广告营销文案在该应用场景的公开证据或平台样例评测中表现靠前。
#2 · 91 分 · 1 条证据短剧/视频视频口播脚本在该应用场景的公开证据或平台样例评测中表现靠前。
#2 · 91 分 · 1 条证据编程开发代码生成在该应用场景的公开证据或平台样例评测中表现靠前。
#2 · 91 分 · 1 条证据编程开发Bug 修复在该应用场景的公开证据或平台样例评测中表现靠前。
#2 · 91 分 · 1 条证据学习研究论文总结在该应用场景的公开证据或平台样例评测中表现靠前。
#2 · 91 分 · 1 条证据商业分析财报分析在该应用场景的公开证据或平台样例评测中表现靠前。
#2 · 91 分 · 1 条证据专业行业医学问答在该应用场景的公开证据或平台样例评测中表现靠前。
#2 · 91 分 · 1 条证据跨 Benchmark 成绩
已收录结果
7Results
| 领域 | Benchmark | 排名 | 分数 | 指标 | 来源 | 更新时间 |
|---|---|---|---|---|---|---|
| math | LMArena Math | #4 | 1338 Elo | Arena Elo | LMArena | 2026/05/30 |
| math | MMLU-Pro Mathematics | #4 | 83.2% | Accuracy | TIGER-Lab / MMLU-Pro | 2026/05/20 |
| physics | MMLU-Pro Physics | #3 | 80.7% | Accuracy | TIGER-Lab / MMLU-Pro | 2026/05/20 |
| chemistry | ChemBench | #2 | 78.9 pts | Normalized Score | ChemBench | 2026/05/28 |
| economics | MMLU-Pro Economics | #2 | 84.6% | Accuracy | TIGER-Lab / MMLU-Pro | 2026/05/20 |
| finance | Open FinLLM Leaderboard | #2 | 81.3 pts | Composite Score | TheFinAI / Open FinLLM | 2026/05/29 |
| medicine | MedHELM | #2 | 83.9 pts | Overall Score | MedHELM | 2026/05/27 |