上海交大等发布 SWE-Explore 基准，揭示 AI 编码智能体行级定位能力不足

上海交通大学参与的国际研究团队发布代码智能体评测基准 SWE-Explore，通过将代码搜索与修复阶段解耦评估，首次量化分析 AI 编码智能体在行级缺陷定位方面的能力。该基准基于 GPT-5.4、Gemini 3 Pro、Claude Sonnet 4.6、Kimi K2.6 等模型运行轨迹构建，涵盖10种编程语言、203个开源项目和848个缺陷任务。评测显示，Claude Code、OpenHands 等智能体在文件级定位表现较好，但行级核心区域覆盖率仅约14%至19%。研究还发现，当关键上下文可见度低于50%时修复成功率显著下降，超过50%至75%后成功率才明显提升。该成果为评估与优化 AI 软件工程系统的代码检索与上下文理解能力提供了新标准。

上海交大等发布 SWE-Explore 基准，揭示 AI 编码智能体行级定位能力不足

发表回复