Anthropic 发布 Claude Opus 4:代码生成能力刷新多项基准

6/7/2026

Anthropic这周发布了Claude Opus 4,基准测试数据确实亮眼。但说实话,实际用起来跟排行榜上的数字是两回事。

先说数据。SWE-bench上,Claude Opus 4得分67.8%,比之前的最好成绩高了12个百分点。HumanEval上96.2%。研究生级科学问答测试GPQA上84.5%。

听起来很厉害对吧?但真正重要的不是这些数字。

过去几天我一直在Claude Code里用Opus 4,最明显的提升是上下文处理能力。200K token的上下文窗口对Claude模型来说不是新东西,但Opus 4用得更好。我做了个测试:把一个完整的Django项目(约40个文件、15000行代码)整个加载到上下文中,然后问了一些涉及多个模块的跨领域问题——它全都准确回答了,没有丢失上下文。