Hume AI开源语音生成模型TADA，实现零幻觉与手机端700秒音频生成

Hume AI发布并开源了新一代文本转语音模型TADA（Text-Acoustic Dual Alignment）。该系统采用文本与声学双对齐架构，实现文本token与声学表示1:1同步，有效消除传统LLM类TTS中常见的内容幻觉。在超千样本测试中，模型表现为零幻觉。性能方面，TADA生成速度比同类系统快超5倍，每秒音频仅需2至3帧计算资源，可在手机和边缘设备上本地运行。模型提供1B英语版和3B多语言版（基于Llama3.23B），支持中文等多语种，一次可生成约700秒连续音频。其同步转录功能可在生成语音时实时输出文字，无需额外ASR流程。主观评测中，模型在自然度和音色相似度上排名第二，展现出高效且高保真语音生成能力。相关资源已在Hugging Face平台上线。

Hume AI开源语音生成模型TADA，实现零幻觉与手机端700秒音频生成

发表回复