微软开源语音 AI 模型家族 VibeVoice，GitHub 获 27K Star

微软正式开源语音 AI 模型家族 VibeVoice，涵盖自动语音识别（ASR）、文本转语音（TTS）及实时语音生成三大核心模型，采用 MIT 许可协议并支持本地部署。该项目在 GitHub 上迅速获得约 27K Star，引发开发者广泛关注。主要成员包括 VibeVoice-ASR-7B，可一次处理长达 60 分钟音频并输出结构化转录结果，支持 50 余种语言；VibeVoice-TTS-1.5B，可生成长达 90 分钟的多说话人自然语音；以及低延迟版 VibeVoice-Realtime-0.5B，实现约 300 毫秒响应的实时 TTS。项目集成音频水印与免责声明机制以防误用，模型权重已在 GitHub 与 Hugging Face 平台公开，进一步推动高性能语音 AI 的开源应用与开发协作。

微软开源语音 AI 模型家族 VibeVoice，GitHub 获 27K Star

发表回复