研究团队发布LPM1.0模型:实现单图生成实时交互式数字人视频

近日,研究人员推出LPM1.0模型,可通过单张参考图像实时生成可说话、聆听及表演的数字人视频。该模型整合文本、音频与图像多模态输入,具备精准唇形同步、细腻表情与自然情绪过渡,并可接入ChatGPT、豆包等主流语音AI,实现可视化的实时交互。技术上,LPM1.0采用多粒度身份条件化机制,从多角度素材提取细节特征,不需重新训练即可驱动照片、动漫或3D角色,支持流式传输并在长时生成下保持稳定。模型可识别说话、倾听及停顿三种交互状态,生成相应的面部与肢体表现。该团队表示,LPM1.0目前仍为研究项目,暂未开放代码或权重,并提醒技术可能带来深度伪造风险。

上一篇:

下一篇:

发表回复

登录后才能评论