Anthropic 发布 Claude Opus 4：代码生成能力刷新多项基准

6/7/2026

Anthropic这周发布了Claude Opus 4，基准测试数据确实亮眼。但说实话，实际用起来跟排行榜上的数字是两回事。

先说数据。SWE-bench上，Claude Opus 4得分67.8%，比之前的最好成绩高了12个百分点。HumanEval上96.2%。研究生级科学问答测试GPQA上84.5%。

听起来很厉害对吧？但真正重要的不是这些数字。

过去几天我一直在Claude Code里用Opus 4，最明显的提升是上下文处理能力。200K token的上下文窗口对Claude模型来说不是新东西，但Opus 4用得更好。我做了个测试：把一个完整的Django项目（约40个文件、15000行代码）整个加载到上下文中，然后问了一些涉及多个模块的跨领域问题——它全都准确回答了，没有丢失上下文。