小米开源多语言零样本语音模型 OmniVoice，支持600+语种合成速度提升40倍

小米旗下 k2-fsa 团队近日正式开源超大规模多语言文本转语音模型 OmniVoice。该模型支持超过600种语言，实现零样本语音克隆，在中文测试集上词错误率（WER）仅为0.84%，多语言指标超越主流商用模型。OmniVoice 采用扩散语言模型风格的离散非自回归架构，可一步生成语音，合成实时因子（RTF）低至0.025，生成速度比实时快约40倍。模型仅需3至10秒参考音频即可完成高质量语音克隆，并支持通过自然语言自定义音色、口音及语气，还能处理非语言符号和精细发音控制。该项目已在 GitHub 与 Hugging Face 上开源，预计将助力多语种及濒危语言的数字化保护与应用。

小米开源多语言零样本语音模型 OmniVoice，支持600+语种合成速度提升40倍

发表回复