通义实验室开源Fun-CineForge多模态大模型，突破影视级AI配音难题

通义实验室正式发布并开源影视级多模态配音大模型Fun-CineForge，针对传统AI配音在情绪、口型与多角色场景中的瓶颈，首次实现影视制作所需的高精度语音合成。该模型通过“时间模态”与视觉、文本、音频的四模态融合架构，实现语音与画面的毫秒级时间对齐，并在多人物对话中保持稳定音色与情感一致性。通义实验室同步开源CineDub高质量数据集及自动化构建流程，将中英文文本转录错率降至1%–2%。实验结果显示，Fun-CineForge在唇部同步度、词错率及音色相似度等指标上均显著优于现有模型，填补了业内多人对话AI配音的技术空白。目前模型已在GitHub、HuggingFace及ModelScope等平台开放下载。

通义实验室开源Fun-CineForge多模态大模型，突破影视级AI配音难题

发表回复