
2026年编程对决:Claude Opus 4.6 vs GPT-5.4——如何解读公开基准测试

如果你正在为生产环境编程选择 Claude Opus 4.6 还是 GPT-5.4,最大的误区就是把每个公开的基准测试数字都当作干净的正面对比来看待。实际情况并非如此。
截至2026年3月24日,Anthropic 和 OpenAI 都在为各自的旗舰模型发布强有力的编程能力信号,但它们强调的基准测试系列和测试设置并不相同。这意味着负责任的对比方式是将可直接对比的内容与仅具参考意义的内容区分开来。
简要结论
以下是实际结论:
- Claude Opus 4.6 拥有 Anthropic 发布的强有力的官方编程能力声明,包括对 SWE-bench Verified 方法论的公开讨论以及在 Terminal-Bench 2.0 上的出色表现。
- GPT-5.4 拥有 OpenAI 发布的强有力的官方编程能力声明,包括在 SWE-Bench Pro (Public) 上公布的 57.7% 分数,以及围绕智能体编程、工具使用和计算机使用的明确定位。
- 这些数字并非同类对比的结果集,因此你不应据此宣布某个模型全面胜出。
对于大多数工程团队来说,更好的选择取决于:
- 哪个基准测试系列最接近你的实际工作负载,
- 你是否需要原生的计算机使用和工具搜索功能,
- 你需要多大的上下文窗口,
- 以及你能承受多高的每 token 费用。
真正可以对比的内容
公开的基准测试报告是有用的,但前提是你要进行同类对比。
| 模型 | 官方编程能力信号 | 可以安全得出的结论 | 不应得出的结论 |
|---|---|---|---|
| Claude Opus 4.6 | Anthropic 表示 Opus 4.6 在 Terminal-Bench 2.0 上领先,并报告了经过25次试验平均的 SWE-bench Verified 结果,指出经过提示词修改后达到 81.42% | Anthropic 将 Opus 4.6 定位为顶级编程和智能体模型 | 你不能仅凭此证明 Opus 4.6 在相同基准测试设置下击败了 GPT-5.4 |
| GPT-5.4 | OpenAI 报告在 SWE-Bench Pro (Public) 上获得 57.7%,并表示 GPT-5.4 在 SWE-Bench Pro 上匹敌或超越 GPT-5.3-Codex | OpenAI 将 GPT-5.4 定位为具有强大智能体能力的旗舰编程模型 | 你不能将此数字与其他供应商的 SWE-bench Verified 分数直接对比 |
为什么基准测试的差异很重要
SWE-bench Verified 被广泛引用,因为它更容易识别和讨论。SWE-Bench Pro 更新且更严格。一个模型在不同基准测试系列上的表现可能因测试框架选择、提示方式、工具可用性、试验平均方式和污染控制而有所不同。
这意味着以下说法是可靠的:
两家供应商都发布了强有力的编程能力证据,但公开证据并非在同一基准测试上的正面对决。
以下说法则是不可靠的:
Claude Opus 4.6 在编程方面绝对击败了 GPT-5.4,因为它报告的基准测试数字更高。
如果你正在做生产决策,请将基准测试标题视为筛选信号,而非最终证据。
可以清晰对比的规格和平台差异
与基准测试分数不同,模型规格和标价是可以清晰对比的。
| 模型 | 上下文窗口 | 最大输出 | 官方标价 | 官方标注的独特优势 |
|---|---|---|---|---|
| Claude Opus 4.6 | 1M tokens | 128K | 输入 $5 / 输出 $25(每百万 tokens) | 自适应思维、高端编程和智能体聚焦、长上下文工作 |
| GPT-5.4 | 1,050,000 tokens | 128K | 输入 $2.50 / 输出 $15(每百万 tokens) | 原生计算机使用、工具搜索、旗舰 GPT-5 推理和编程 |
这里有两个重要观察:
- 上下文窗口不再是曾经那样的明显差异化因素。两个模型现在都支持非常大的工作上下文。
- GPT-5.4 的标价更低,而 Claude Opus 4.6 被定位为 Anthropic 最高端的编程和智能体模型。
如何在实际生产工作中做出选择
选择 Claude Opus 4.6 的情况:
- 你已经偏好 Anthropic 的编程工作流和推理风格。
- 你需要 Anthropic 最高端的模型来处理长时间运行的编程或智能体任务。
- 你愿意为前沿能力支付高端标价。
选择 GPT-5.4 的情况:
- 你希望获得更低的官方标价。
- 你需要在同一旗舰模型中集成原生的计算机使用和工具搜索功能。
- 你正在构建的智能体开发工作流已与 OpenAI 的 Responses API 技术栈对齐。
不应仅凭基准测试标题做出选择的情况:
- 你的工作依赖于特定的代码库风格、仓库规模、框架或工具链。
- 比起基准测试声望,你更关心补丁接受率、代码审查负担或延迟。
- 你有合规性、数据驻留或路由约束,这些比原始模型质量更重要。
比追逐排行榜更好的采购流程
如果你认真考虑在这两个模型之间做出选择,请进行一次有控制的对比测试:
- 从你的实际工作流中挑选20到50个任务。
- 将它们分为 Bug 修复、重构、测试、文档和工具使用任务。
- 评估质量、接受率、延迟和总 token 成本。
- 对两个模型使用相同的提示风格和成功标准。
这比任何标题基准测试都能告诉你更多信息。
我们从最初更强烈的表述中删除了什么
许多对比草稿在三个方面出了问题:
- 将不同的基准测试系列当作相同的来对比。
- 将单次运行的轶事测试上升为普遍性结论。
- 将官方定价与内部折扣或路由假设混为一谈,而这些假设可能并不适用于每位买家。
对于一篇可发布的对比文章,这些问题需要被删除或降级处理。结果虽然不那么吸引眼球,但对于需要做出可信采购决策的读者来说更加有用。
常见问题
Claude Opus 4.6 有官方的 SWE-bench Verified 结果吗?
有。Anthropic 公开指出其 SWE-bench Verified 分数是经过25次试验平均得出的,并表示经过提示词修改后达到了 81.42%。
OpenAI 是否发布了 GPT-5.4 的 SWE-bench Verified 分数?
在本文使用的 OpenAI 官方来源中没有。OpenAI 关于 GPT-5.4 的公开发布材料强调的是 SWE-Bench Pro (Public),其中 GPT-5.4 的得分为 57.7%。
我可以将 SWE-bench Verified 上的 81.42% 与 SWE-Bench Pro 上的 57.7% 进行对比吗?
不可以。这是不同的基准测试,不应被视为可直接对比的分数。
按官方标价来看哪个模型更便宜?
GPT-5.4 的官方标价更低:输入 $2.50、输出 $15(每百万 tokens),而 Claude Opus 4.6 为输入 $5、输出 $25。
哪个模型的上下文窗口更大?
两者非常接近。GPT-5.4 标注为 1,050,000 tokens,而 Claude Opus 4.6 支持 1M token 的上下文窗口。
编程团队应该先试用哪个模型?
如果成本和 OpenAI 原生智能体功能很重要,先从 GPT-5.4 开始。如果你想要 Anthropic 的高端旗舰编程模型并且能接受更高的定价,先从 Claude Opus 4.6 开始。理想情况下,两个模型都在你自己的代码库任务上进行试用。
在 EvoLink 上试用
如果你想在一个地方对比 GPT-5.4、Claude Opus 4.6 和其他编程模型,EvoLink 为你提供统一的 API 端点,支持并排评估和路由。
Explore Models on EvoLink最终结论
如果你需要一个可信的建议,请将官方基准测试报告作为地图参考,然后让你自己的评估来做最终决定。


