小米开源多语言零样本语音模型 OmniVoice,支持600+语种合成速度提升40倍

小米旗下 k2-fsa 团队近日正式开源超大规模多语言文本转语音模型 OmniVoice。该模型支持超过600种语言,实现零样本语音克隆,在中文测试集上词错误率(WER)仅为0.84%,多语言指标超越主流商用模型。OmniVoice 采用扩散语言模型风格的离散非自回归架构,可一步生成语音,合成实时因子(RTF)低至0.025,生成速度比实时快约40倍。模型仅需3至10秒参考音频即可完成高质量语音克隆,并支持通过自然语言自定义音色、口音及语气,还能处理非语言符号和精细发音控制。该项目已在 GitHub 与 Hugging Face 上开源,预计将助力多语种及濒危语言的数字化保护与应用。

上一篇:

下一篇:

发表回复

登录后才能评论