Inworld AI 发布实时语音模型 TTS-2，实现情感与语调感知的闭环对话

Inworld AI 宣布推出实时语音模型 TTS-2，通过 Inworld API 和 Realtime API 提供研究预览版。该模型采用闭环系统架构，能够在语音交互中实时分析用户的音频输入，识别语调、节奏和情感，实现更自然的双向交流。与传统仅依赖文字转录的 TTS 系统不同，TTS-2 可根据情境理解语义差异。模型具备四项核心功能：语音指令支持，可通过语言提示控制声音表达；对话意识功能，使模型具备上下文理解能力；跨语言语音识别与输出，可在上百种语言间保持一致声音身份；以及高级语音设计功能，允许开发者以文字描述生成可复用的定制声音。该产品展示了 Inworld AI 在语音情感建模与多语言交互领域的技术进展，为语音 AI 应用带来更高的自然度与一致性。

Inworld AI 发布实时语音模型 TTS-2，实现情感与语调感知的闭环对话

发表回复