小米发布自研语音合成大模型 MiMo-V2-TTS,支持多方言与情感表达

3月19日,小米正式推出自研语音合成大模型 MiMo-V2-TTS,标志其在智能语音技术领域的重要进展。该模型基于小米自研 Audio Tokenizer 及多码本语音-文本联合架构,历经上亿小时语音数据预训练,可实现多粒度语音风格与情感控制。MiMo-V2-TTS 支持情感细腻调节、自然语气转折,并具备高质量歌声合成能力,能够生成音高与节奏精准的歌唱语音。模型同时支持东北话、四川话、河南话、粤语及台湾腔等多地方言,用户无需额外标注即可实现自然语音生成。小米表示,该模型将与 MiMo-V2-Omni 的多模态理解能力结合,扩展至更多语种,为智能设备提供更自然、更具人机交互体验的语音能力。

上一篇:

下一篇:

发表回复

登录后才能评论