美团开源 LongCat-AudioDiT，推出波形潜空间模型刷新语音克隆性能纪录

美团 LongCat 团队宣布开源音频生成模型 LongCat-AudioDiT，提供 1B 与 3.5B 两个版本。该模型采用波形潜空间建模，首次在零样本语音克隆任务中刷新行业性能上限。其架构由 Wav-VAE 与 DiT 组成，摒弃传统梅尔频谱与多阶段声码器流程，实现端到端生成。Wav-VAE 将 24kHz 波形压缩 2000 倍，并在保持时频结构的同时提升自然听感；DiT 融合文本编码器的词嵌入与隐藏状态，增强语义与音素细节。模型引入双重约束机制及自适应投影引导（APG），有效解决音色漂移与音质劣化问题。在 Seed-ZH 测试中，3.5B 模型相似度达 0.818，英文语音识别错误率仅 1.50%，均超越主流模型。LongCat-AudioDiT 已在 GitHub 与 HuggingFace 全面开放源码及权重。

美团开源 LongCat-AudioDiT，推出波形潜空间模型刷新语音克隆性能纪录

发表回复