小米正式发布自研语音合成大模型MiMo-V2-TTS,在高可控与高表现力语音生成领域取得新进展。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构,利用上亿小时语音数据进行预训练,具备从整体语气到细微情绪的精确调节能力。MiMo-V2-TTS可在单句中实现语气转折与情感递变,并支持歌声合成及多方言表达,包括东北话、四川话、河南话、粤语及台湾腔等。模型通过多维度强化学习优化生成稳定性与自然度,可自动识别文本标点与语气词,实现无人工标注的自然合成。作为小米语音技术的重要里程碑,此模型未来将拓展多语种支持,并与MiMo-V2-Omni多模态理解系统融合,推动AI语音从语义交互向具备情感共鸣的人机互动阶段迈进。