上海交通大学参与的国际研究团队发布代码智能体评测基准 SWE-Explore,通过将代码搜索与修复阶段解耦评估,首次量化分析 AI 编码智能体在行级缺陷定位方面的能力。该基准基于 GPT-5.4、Gemini 3 Pro、Claude Sonnet 4.6、Kimi K2.6 等模型运行轨迹构建,涵盖10种编程语言、203个开源项目和848个缺陷任务。评测显示,Claude Code、OpenHands 等智能体在文件级定位表现较好,但行级核心区域覆盖率仅约14%至19%。研究还发现,当关键上下文可见度低于50%时修复成功率显著下降,超过50%至75%后成功率才明显提升。该成果为评估与优化 AI 软件工程系统的代码检索与上下文理解能力提供了新标准。