美团开源 LongCat-AudioDiT,推出波形潜空间模型刷新语音克隆性能纪录

美团 LongCat 团队宣布开源音频生成模型 LongCat-AudioDiT,提供 1B 与 3.5B 两个版本。该模型采用波形潜空间建模,首次在零样本语音克隆任务中刷新行业性能上限。其架构由 Wav-VAE 与 DiT 组成,摒弃传统梅尔频谱与多阶段声码器流程,实现端到端生成。Wav-VAE 将 24kHz 波形压缩 2000 倍,并在保持时频结构的同时提升自然听感;DiT 融合文本编码器的词嵌入与隐藏状态,增强语义与音素细节。模型引入双重约束机制及自适应投影引导(APG),有效解决音色漂移与音质劣化问题。在 Seed-ZH 测试中,3.5B 模型相似度达 0.818,英文语音识别错误率仅 1.50%,均超越主流模型。LongCat-AudioDiT 已在 GitHub 与 HuggingFace 全面开放源码及权重。

上一篇:

下一篇:

发表回复

登录后才能评论