3月21日,美团正式开源超大规模数学证明模型 LongCat-Flash-Prover。该模型拥有约5677亿参数,采用混合专家(MoE)架构,面向复杂数学形式化证明任务进行深度优化。在 MiniF2F-Test 基准测试中,模型取得97.1%的准确率,仅需72次推理尝试;在 PutnamBench 测试中解决率达41.5%,均创下全球最新SOTA纪录。为提升逻辑严谨性,美团引入基于抽象语法树(AST)的多阶段验证与 Lean4 语言整合机制,以减少推理幻觉;并通过自研 HisPO 算法及定理一致性检测优化 MoE 训练稳定性。目前,LongCat-Flash-Prover 及相关代码已在 GitHub 与 Hugging Face 全面开源,标志着国产大模型在数学推理与形式逻辑领域取得重要突破。