阿里通义实验室发布 PrismAudio 视频配音模型，入选 ICLR 2026

阿里巴巴通义实验室推出全新视频生成音频框架 PrismAudio，可让 AI 自动理解视频内容并生成匹配的环境音效，解决声画不同步的问题。该成果已被 AI 顶级会议 ICLR 2026 收录。PrismAudio 采用“思维链”生成机制，在配音前分析画面内容、时序及声源位置，通过语义一致性、时序同步、美学质量和空间准确性的四维强化学习评分体系优化结果。模型参数仅为 5.18 亿，具备轻量高效特性，生成 9 秒视频音频仅需约 0.63 秒。PrismAudio 基于自研 Fast-GRPO 算法提升性能，可广泛用于影视后期、短视频创作及多模态生成任务。目前相关论文已在 arXiv 发布，项目主页已公开。

阿里通义实验室发布 PrismAudio 视频配音模型，入选 ICLR 2026

发表回复