谷歌推出Gemini-TTS语音模型，支持约70种语言与情感控制

谷歌近日在Gemini 3.1系列中发布全新文字转语音模型Gemini-TTS，号称其迄今最具表现力的TTS解决方案。该模型允许开发者通过文本提示词精确控制语音的情感、节奏与风格，可生成旁白、对话等多样语气，并在听感自然度上显著提升。Gemini-TTS支持约70种语言，包括中文、英语、西班牙语和日语，能够自动识别文本语种并生成对应语音输出，无需手动标注。谷歌还强调该模型与Gemini系列音频系统的协同能力，可在实时对话、语音翻译及多模态交互场景中保持低延迟与高质量输出，为全球多语种语音应用提供更灵活的开发接口。

谷歌推出Gemini-TTS语音模型，支持约70种语言与情感控制

发表回复