研究称AI编程基准测试或高估模型真实能力最高达7倍

研究机构 METR 发布报告指出，当前广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估模型在真实开发环境中的表现。团队邀请维护 scikit-learn、Sphinx 和 pytest 的四名开发者评审296段由五个模型生成的代码，包括 Anthropic 的 Claude 系列与 OpenAI 的 GPT-5。结果显示，维护者实际采纳率平均比自动化评分低约24个百分点，约一半“通过”代码在人工审核中被拒。拒绝原因主要为功能性缺陷或破坏现有结构，而非代码风格。研究还发现，按 SWE-bench 评估推算，Claude4.5Sonnet 的任务完成时间较人工评审结果存在约7倍高估。研究指出，仅依赖基准分数可能导致系统性偏差，未来需建立更贴近实际工程流程的评测体系。

研究称AI编程基准测试或高估模型真实能力最高达7倍

发表回复