Anthropic发布Claude Opus 4.7:编程与推理性能显著提升,聚焦可靠性优化

Anthropic正式推出大模型Claude Opus 4.7,强调性能稳定与结果可靠而非单纯智能提升。官方表示,该版本虽非最强,却在多项技术基准上全面升级:SWE-bench Pro编程测试得分从53.4%提升至64.3%,超越GPT-5.4与Gemini 3.1 Pro;视觉推理基准CharXiv达82.1%,识别清晰度比前代提升三倍。工具调用MCP-Atlas得分77.3%,法律AI平台Harvey基准达90.9%。模型在数据缺失时倾向报错而非生成虚假结果,工具任务韧性提升,错误率降至原来的三分之一。Opus 4.7采用新分词器,Token消耗增加约1至1.35倍,并新增xhigh思考强度及“任务预算”管理功能。Anthropic同时确认更强版本Claude Mythos仍在安全评估阶段,暂未公开发布。此次更新标志公司在高频迭代中进一步强化模型可靠性。

上一篇:

下一篇:

发表回复

登录后才能评论