← 返回排行榜

OpenAI

GPT-4o

主流多模态闭源模型。

闭源 API

Use Case Fit

适合的应用场景

按应用任务展示该模型被推荐的理由和证据数量。

内容创作小红书/社媒文案

在该应用场景的公开证据或平台样例评测中表现靠前。

#1 · 94 分 · 1 条证据营销销售广告营销文案

在该应用场景的公开证据或平台样例评测中表现靠前。

#1 · 94 分 · 1 条证据短剧/视频视频口播脚本

在该应用场景的公开证据或平台样例评测中表现靠前。

#1 · 94 分 · 1 条证据办公效率会议纪要

在该应用场景的公开证据或平台样例评测中表现靠前。

#1 · 94 分 · 1 条证据商业分析财报分析

在该应用场景的公开证据或平台样例评测中表现靠前。

#1 · 94 分 · 1 条证据专业行业医学问答

在该应用场景的公开证据或平台样例评测中表现靠前。

#1 · 94 分 · 1 条证据内容创作写文章

通用写作表现均衡，适合快速生成多版本文章。

#2 · 91 分 · 1 条证据短剧/视频短剧剧本

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据办公效率PPT/方案

在该应用场景的公开证据或平台样例评测中表现靠前。

#2 · 91 分 · 1 条证据学习研究论文总结

在该应用场景的公开证据或平台样例评测中表现靠前。

#3 · 88 分 · 1 条证据

跨 Benchmark 成绩

已收录结果

7Results

领域	Benchmark	排名	分数	指标	来源	更新时间
math	LMArena Math	#6	1304 Elo	Arena Elo	LMArena	2026/05/30
math	MMLU-Pro Mathematics	#5	80.6%	Accuracy	TIGER-Lab / MMLU-Pro	2026/05/20
physics	MMLU-Pro Physics	#5	76.2%	Accuracy	TIGER-Lab / MMLU-Pro	2026/05/20
chemistry	ChemBench	#4	75.6 pts	Normalized Score	ChemBench	2026/05/28
economics	MMLU-Pro Economics	#4	80.2%	Accuracy	TIGER-Lab / MMLU-Pro	2026/05/20
finance	Open FinLLM Leaderboard	#1	82.7 pts	Composite Score	TheFinAI / Open FinLLM	2026/05/29
medicine	MedHELM	#1	84.2 pts	Overall Score	MedHELM	2026/05/27