小米发布自研语音合成大模型 MiMo-V2-TTS，支持多方言与情感表达

3月19日，小米正式推出自研语音合成大模型 MiMo-V2-TTS，标志其在智能语音技术领域的重要进展。该模型基于小米自研 Audio Tokenizer 及多码本语音-文本联合架构，历经上亿小时语音数据预训练，可实现多粒度语音风格与情感控制。MiMo-V2-TTS 支持情感细腻调节、自然语气转折，并具备高质量歌声合成能力，能够生成音高与节奏精准的歌唱语音。模型同时支持东北话、四川话、河南话、粤语及台湾腔等多地方言，用户无需额外标注即可实现自然语音生成。小米表示，该模型将与 MiMo-V2-Omni 的多模态理解能力结合，扩展至更多语种，为智能设备提供更自然、更具人机交互体验的语音能力。

小米发布自研语音合成大模型 MiMo-V2-TTS，支持多方言与情感表达

发表回复