编程开发

代码生成模型排名

比较真实代码任务、工程上下文理解、测试生成和代码解释能力。

Models3
Evidence3
Updated06/03 16:30
按应用适配分排序证据来源可悬浮查看不跨 benchmark 混合原始分
#1
o3OpenAI · closed
推荐证据充足
94应用适配分

在该应用场景的公开证据或平台样例评测中表现靠前。

价格 速度 上下文 中长
证据明细1
独立评测

复杂推理和代码任务强

来源
LiveBench
指标
公开来源分
分数
94/100
排名
#1
更新时间
2026/06/03

公开 benchmark 或第三方来源提供的模型能力信号。

不能直接代表该应用场景的所有业务效果,因此只作为推荐证据之一。

打开来源
#2
Claude 3.7 SonnetAnthropic · closed
推荐证据充足
91应用适配分

在该应用场景的公开证据或平台样例评测中表现靠前。

价格 速度 上下文 中长
证据明细1
独立评测

工程上下文和代码解释强

来源
LiveBench
指标
公开来源分
分数
91/100
排名
#2
更新时间
2026/06/03

公开 benchmark 或第三方来源提供的模型能力信号。

不能直接代表该应用场景的所有业务效果,因此只作为推荐证据之一。

打开来源
#3
DeepSeek-R1DeepSeek · open
推荐证据充足
88应用适配分

在该应用场景的公开证据或平台样例评测中表现靠前。

价格 速度 上下文 中长
证据明细1
独立评测

开放权重推理能力强

来源
LMArena
指标
公开来源分
分数
88/100
排名
#3
更新时间
2026/06/03

公开 benchmark 或第三方来源提供的模型能力信号。

不能直接代表该应用场景的所有业务效果,因此只作为推荐证据之一。

打开来源