Hume AI开源语音生成模型TADA,实现零幻觉与手机端700秒音频生成

Hume AI发布并开源了新一代文本转语音模型TADA(Text-Acoustic Dual Alignment)。该系统采用文本与声学双对齐架构,实现文本token与声学表示1:1同步,有效消除传统LLM类TTS中常见的内容幻觉。在超千样本测试中,模型表现为零幻觉。性能方面,TADA生成速度比同类系统快超5倍,每秒音频仅需2至3帧计算资源,可在手机和边缘设备上本地运行。模型提供1B英语版和3B多语言版(基于Llama3.23B),支持中文等多语种,一次可生成约700秒连续音频。其同步转录功能可在生成语音时实时输出文字,无需额外ASR流程。主观评测中,模型在自然度和音色相似度上排名第二,展现出高效且高保真语音生成能力。相关资源已在Hugging Face平台上线。

上一篇:

下一篇:

发表回复

登录后才能评论