近日,OpenClaw发布最新“AI Agent小龙虾能力排行榜”,评测多款主流大模型在真实编码任务中的执行表现。此次评测在统一任务集下进行,采用自动化代码检测与智能评审双重机制评分,确保结果客观可复现。榜单显示,Gemini3Flash Preview、MiniMax M2.1与Kimi K2.5分列前三,在复杂编码任务中成功率领先。Claude Sonnet4.5、Claude Haiku4.5与Claude Opus4.6成功率均超90%,展现出强劲的多步推理与稳定性表现。相较之下,GPT-5.2成功率为65.6%,DeepSeek V3.2约为82%。OpenClaw方面表示,评测结果反映出大模型在真实场景下的实用差异,框架适配与任务执行效率成为影响Agent性能的关键因素。