阿里通义发布 FIPO 算法,32B 模型推理性能超越 o1-mini

阿里通义实验室 Qwen Pilot 团队推出全新强化学习算法 FIPO,旨在突破大模型在复杂逻辑任务中的推理瓶颈,实现推理深度与准确率的同步提升。该算法通过引入 Future-KL 策略与符号对数概率差机制,能够识别并强化对后续推理关键的 Token,从而显著延长模型的有效推理链条。在零基础模型上,FIPO 将平均推理长度提升至 10,000 Token 以上。在实测中,搭载 FIPO 的 32B 模型在纯强化学习设置下的推理性能超越同规模模型,并在部分指标上优于 OpenAI 的 o1-mini,尤其在处理高难数学题时表现突出。该成果标志着阿里通义在大模型底层算法优化上的又一突破,继 3 月推出 CoPaw 1.0 后,持续推动模型逻辑推理能力的“深度进化”。

上一篇:

下一篇:

发表回复

登录后才能评论