阿里通义实验室发布 PrismAudio 视频配音模型,入选 ICLR 2026

阿里巴巴通义实验室推出全新视频生成音频框架 PrismAudio,可让 AI 自动理解视频内容并生成匹配的环境音效,解决声画不同步的问题。该成果已被 AI 顶级会议 ICLR 2026 收录。PrismAudio 采用“思维链”生成机制,在配音前分析画面内容、时序及声源位置,通过语义一致性、时序同步、美学质量和空间准确性的四维强化学习评分体系优化结果。模型参数仅为 5.18 亿,具备轻量高效特性,生成 9 秒视频音频仅需约 0.63 秒。PrismAudio 基于自研 Fast-GRPO 算法提升性能,可广泛用于影视后期、短视频创作及多模态生成任务。目前相关论文已在 arXiv 发布,项目主页已公开。

上一篇:

下一篇:

发表回复

登录后才能评论