微软正式开源语音 AI 模型家族 VibeVoice,涵盖自动语音识别(ASR)、文本转语音(TTS)及实时语音生成三大核心模型,采用 MIT 许可协议并支持本地部署。该项目在 GitHub 上迅速获得约 27K Star,引发开发者广泛关注。主要成员包括 VibeVoice-ASR-7B,可一次处理长达 60 分钟音频并输出结构化转录结果,支持 50 余种语言;VibeVoice-TTS-1.5B,可生成长达 90 分钟的多说话人自然语音;以及低延迟版 VibeVoice-Realtime-0.5B,实现约 300 毫秒响应的实时 TTS。项目集成音频水印与免责声明机制以防误用,模型权重已在 GitHub 与 Hugging Face 平台公开,进一步推动高性能语音 AI 的开源应用与开发协作。