腾讯开源强化学习后训练框架 WorldCompass，提升世界模型交互精度超35%

腾讯混元3D团队宣布正式开源强化学习（RL）后训练框架 WorldCompass，这是业界首个专为世界模型设计的RL调优框架。该框架作为混元世界模型1.5的官方扩展模块，旨在提升模型在复杂动作指令下的理解与执行准确性。通过强化学习机制，WorldCompass可对预训练模型进行深度调优，使其在交互过程中更精准地解析和执行复合动作。评测结果显示，应用该框架后，开源模型 WorldPlay 在复杂动作场景下的交互准确率（Accaction）从约20%提升至55%以上，增幅超过35%。同时，该框架显著改善视觉保真度评分（HPSv3），保证虚拟世界长时序场景中的图像一致性。腾讯表示，此次开源标志着世界模型技术进入强化学习精细化调优阶段，全部代码与技术报告已面向全球开发者开放。

腾讯开源强化学习后训练框架 WorldCompass，提升世界模型交互精度超35%

发表回复