阿里通义实验室发布FIPO算法,32B模型推理性能领先海外同级模型

阿里通义实验室智能计算团队正式发布大模型后训练新算法FIPO(Future-KL Influenced Policy Optimization)。该算法通过引入“Future-KL”机制,突破纯强化学习训练中推理长度停滞的技术瓶颈,并对关键Token实施差异化奖励分配,以提升模型在长文本推理及复杂逻辑对齐中的前瞻性能力。实验结果显示,在32B规模模型下,采用FIPO算法的模型推理性能已超越DeepSeek-Zero-MATH与OpenAI o1-mini,显著强化逻辑推理与数学计算表现。业内认为,随着大模型竞争重心转向推理端深度对齐,FIPO的推出标志着国产实验室在高性能推理算法领域的自主突破与全球技术竞争力提升。

上一篇:

下一篇:

发表回复

登录后才能评论