腾讯开源强化学习后训练框架 WorldCompass,提升世界模型交互精度超35%

腾讯混元3D团队宣布正式开源强化学习(RL)后训练框架 WorldCompass,这是业界首个专为世界模型设计的RL调优框架。该框架作为混元世界模型1.5的官方扩展模块,旨在提升模型在复杂动作指令下的理解与执行准确性。通过强化学习机制,WorldCompass可对预训练模型进行深度调优,使其在交互过程中更精准地解析和执行复合动作。评测结果显示,应用该框架后,开源模型 WorldPlay 在复杂动作场景下的交互准确率(Accaction)从约20%提升至55%以上,增幅超过35%。同时,该框架显著改善视觉保真度评分(HPSv3),保证虚拟世界长时序场景中的图像一致性。腾讯表示,此次开源标志着世界模型技术进入强化学习精细化调优阶段,全部代码与技术报告已面向全球开发者开放。

上一篇:

下一篇:

发表回复

登录后才能评论