Anthropic发布Claude Opus 4.7：编程与推理性能显著提升，聚焦可靠性优化

Anthropic正式推出大模型Claude Opus 4.7，强调性能稳定与结果可靠而非单纯智能提升。官方表示，该版本虽非最强，却在多项技术基准上全面升级：SWE-bench Pro编程测试得分从53.4%提升至64.3%，超越GPT-5.4与Gemini 3.1 Pro；视觉推理基准CharXiv达82.1%，识别清晰度比前代提升三倍。工具调用MCP-Atlas得分77.3%，法律AI平台Harvey基准达90.9%。模型在数据缺失时倾向报错而非生成虚假结果，工具任务韧性提升，错误率降至原来的三分之一。Opus 4.7采用新分词器，Token消耗增加约1至1.35倍，并新增xhigh思考强度及“任务预算”管理功能。Anthropic同时确认更强版本Claude Mythos仍在安全评估阶段，暂未公开发布。此次更新标志公司在高频迭代中进一步强化模型可靠性。

Anthropic发布Claude Opus 4.7：编程与推理性能显著提升，聚焦可靠性优化

发表回复