阿里通义发布 FIPO 算法，32B 模型推理性能超越 o1-mini

阿里通义实验室 Qwen Pilot 团队推出全新强化学习算法 FIPO，旨在突破大模型在复杂逻辑任务中的推理瓶颈，实现推理深度与准确率的同步提升。该算法通过引入 Future-KL 策略与符号对数概率差机制，能够识别并强化对后续推理关键的 Token，从而显著延长模型的有效推理链条。在零基础模型上，FIPO 将平均推理长度提升至 10,000 Token 以上。在实测中，搭载 FIPO 的 32B 模型在纯强化学习设置下的推理性能超越同规模模型，并在部分指标上优于 OpenAI 的 o1-mini，尤其在处理高难数学题时表现突出。该成果标志着阿里通义在大模型底层算法优化上的又一突破，继 3 月推出 CoPaw 1.0 后，持续推动模型逻辑推理能力的“深度进化”。

阿里通义发布 FIPO 算法，32B 模型推理性能超越 o1-mini

发表回复