Fish Audio发布开源TTS模型S2：支持多说话人与词级情绪控制

Fish Audio宣布推出新一代文本转语音（TTS）模型S2，主打情绪可控性与多说话人支持。该模型支持通过自然语言标签在词或短语级精确控制语气和情绪，可生成更自然、生动的语音表现。S2全面开源，模型权重、微调代码以及基于SGLang的流式推理引擎均已在GitHub与Hugging Face公开，其中旗舰版本S2-Pro拥有约44亿参数。模型推理延迟低于150毫秒，可用于实时语音合成、虚拟主播及对话机器人等场景。S2基于约1000万小时多语种音频数据训练，结合强化学习与双自回归架构，在语音自然度和情感表现方面表现领先，被认为是当前开源与闭源TTS系统中情感智能水平较高的方案之一。

Fish Audio发布开源TTS模型S2：支持多说话人与词级情绪控制

发表回复