编程开发

代码生成模型排名

比较真实代码任务、工程上下文理解、测试生成和代码解释能力。

Models3

Evidence3

Updated06/03 16:30

#1

o3OpenAI · closed

推荐证据充足

94应用适配分

在该应用场景的公开证据或平台样例评测中表现靠前。

价格中速度中上下文中长

证据明细1 条

独立评测

复杂推理和代码任务强

来源: LiveBench
指标: 公开来源分
分数: 94/100
排名: #1
更新时间: 2026/06/03

公开 benchmark 或第三方来源提供的模型能力信号。

不能直接代表该应用场景的所有业务效果，因此只作为推荐证据之一。

#2

Claude 3.7 SonnetAnthropic · closed

推荐证据充足

91应用适配分

在该应用场景的公开证据或平台样例评测中表现靠前。

价格中速度中上下文中长

证据明细1 条

独立评测

工程上下文和代码解释强

来源: LiveBench
指标: 公开来源分
分数: 91/100
排名: #2
更新时间: 2026/06/03

公开 benchmark 或第三方来源提供的模型能力信号。

不能直接代表该应用场景的所有业务效果，因此只作为推荐证据之一。

#3

DeepSeek-R1DeepSeek · open

推荐证据充足

88应用适配分

在该应用场景的公开证据或平台样例评测中表现靠前。

价格中速度中上下文中长

证据明细1 条

独立评测

开放权重推理能力强

来源: LMArena
指标: 公开来源分
分数: 88/100
排名: #3
更新时间: 2026/06/03

公开 benchmark 或第三方来源提供的模型能力信号。

不能直接代表该应用场景的所有业务效果，因此只作为推荐证据之一。