通义实验室正式发布并开源影视级多模态配音大模型Fun-CineForge,针对传统AI配音在情绪、口型与多角色场景中的瓶颈,首次实现影视制作所需的高精度语音合成。该模型通过“时间模态”与视觉、文本、音频的四模态融合架构,实现语音与画面的毫秒级时间对齐,并在多人物对话中保持稳定音色与情感一致性。通义实验室同步开源CineDub高质量数据集及自动化构建流程,将中英文文本转录错率降至1%–2%。实验结果显示,Fun-CineForge在唇部同步度、词错率及音色相似度等指标上均显著优于现有模型,填补了业内多人对话AI配音的技术空白。目前模型已在GitHub、HuggingFace及ModelScope等平台开放下载。