小米推出自研MiMo-V2-TTS语音合成大模型支持多方言与情感控制

小米正式发布自研语音合成大模型MiMo-V2-TTS，在高可控与高表现力语音生成领域取得新进展。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构，利用上亿小时语音数据进行预训练，具备从整体语气到细微情绪的精确调节能力。MiMo-V2-TTS可在单句中实现语气转折与情感递变，并支持歌声合成及多方言表达，包括东北话、四川话、河南话、粤语及台湾腔等。模型通过多维度强化学习优化生成稳定性与自然度，可自动识别文本标点与语气词，实现无人工标注的自然合成。作为小米语音技术的重要里程碑，此模型未来将拓展多语种支持，并与MiMo-V2-Omni多模态理解系统融合，推动AI语音从语义交互向具备情感共鸣的人机互动阶段迈进。

小米推出自研MiMo-V2-TTS语音合成大模型 支持多方言与情感控制

发表回复

小米推出自研MiMo-V2-TTS语音合成大模型支持多方言与情感控制