阿里通义实验室于3月16日发布并开源多模态影视级配音大模型 Fun-CineForge,旨在解决AI配音中的口型不同步、情感缺失及音色不一致等难题。该模型首创“时间模态”架构,通过精准时间戳控制实现高精度音画同步,即使在遮挡、镜头切换等复杂场景下仍保持稳定表现。其配套开源的CineDub数据集构建流程利用大模型思维链技术,将影视素材自动转化为结构化数据,将中英文字错率降至约1%,说话人分离错误率为1.20%。Fun-CineForge已在GitHub、HuggingFace及魔搭社区上线,支持30秒以内视频推理,并实现单人及多人对话场景的专业级配音生成,推动AI语音技术向动漫与影视后期制作领域延伸。