阿里通义实验室发布 FIPO 算法显著提升大模型推理能力

阿里巴巴通义实验室 Qwen Pilot 团队推出新算法 FIPO（Future-KL Influenced Policy Optimization），旨在突破大模型推理过程中的性能瓶颈。该算法通过引入 Future-KL 机制，能够识别并奖励对最终推理结果影响显著的关键 Token，从而解决传统强化学习中推理长度停滞的问题。在 Qwen2.5-32B-Base 模型的测试中，FIPO 将平均推理长度提升至 1 万 Token 以上，并在复杂数学推理任务中取得显著准确率提升。实验结果显示，FIPO 表现超越同规模的 o1-mini 和 DeepSeek-Zero-MATH 模型，展现出较高的推理效率和优化潜力。

阿里通义实验室发布 FIPO 算法 显著提升大模型推理能力

发表回复

阿里通义实验室发布 FIPO 算法显著提升大模型推理能力