研究机构 METR 发布报告指出,当前广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估模型在真实开发环境中的表现。团队邀请维护 scikit-learn、Sphinx 和 pytest 的四名开发者评审296段由五个模型生成的代码,包括 Anthropic 的 Claude 系列与 OpenAI 的 GPT-5。结果显示,维护者实际采纳率平均比自动化评分低约24个百分点,约一半“通过”代码在人工审核中被拒。拒绝原因主要为功能性缺陷或破坏现有结构,而非代码风格。研究还发现,按 SWE-bench 评估推算,Claude4.5Sonnet 的任务完成时间较人工评审结果存在约7倍高估。研究指出,仅依赖基准分数可能导致系统性偏差,未来需建立更贴近实际工程流程的评测体系。