研究团队发布LPM1.0模型：实现单图生成实时交互式数字人视频

近日，研究人员推出LPM1.0模型，可通过单张参考图像实时生成可说话、聆听及表演的数字人视频。该模型整合文本、音频与图像多模态输入，具备精准唇形同步、细腻表情与自然情绪过渡，并可接入ChatGPT、豆包等主流语音AI，实现可视化的实时交互。技术上，LPM1.0采用多粒度身份条件化机制，从多角度素材提取细节特征，不需重新训练即可驱动照片、动漫或3D角色，支持流式传输并在长时生成下保持稳定。模型可识别说话、倾听及停顿三种交互状态，生成相应的面部与肢体表现。该团队表示，LPM1.0目前仍为研究项目，暂未开放代码或权重，并提醒技术可能带来深度伪造风险。

研究团队发布LPM1.0模型：实现单图生成实时交互式数字人视频

发表回复