阿里巴巴通义实验室 Qwen Pilot 团队推出新算法 FIPO(Future-KL Influenced Policy Optimization),旨在突破大模型推理过程中的性能瓶颈。该算法通过引入 Future-KL 机制,能够识别并奖励对最终推理结果影响显著的关键 Token,从而解决传统强化学习中推理长度停滞的问题。在 Qwen2.5-32B-Base 模型的测试中,FIPO 将平均推理长度提升至 1 万 Token 以上,并在复杂数学推理任务中取得显著准确率提升。实验结果显示,FIPO 表现超越同规模的 o1-mini 和 DeepSeek-Zero-MATH 模型,展现出较高的推理效率和优化潜力。