Fish Audio宣布推出新一代文本转语音(TTS)模型S2,主打情绪可控性与多说话人支持。该模型支持通过自然语言标签在词或短语级精确控制语气和情绪,可生成更自然、生动的语音表现。S2全面开源,模型权重、微调代码以及基于SGLang的流式推理引擎均已在GitHub与Hugging Face公开,其中旗舰版本S2-Pro拥有约44亿参数。模型推理延迟低于150毫秒,可用于实时语音合成、虚拟主播及对话机器人等场景。S2基于约1000万小时多语种音频数据训练,结合强化学习与双自回归架构,在语音自然度和情感表现方面表现领先,被认为是当前开源与闭源TTS系统中情感智能水平较高的方案之一。