Inworld AI 宣布推出实时语音模型 TTS-2,通过 Inworld API 和 Realtime API 提供研究预览版。该模型采用闭环系统架构,能够在语音交互中实时分析用户的音频输入,识别语调、节奏和情感,实现更自然的双向交流。与传统仅依赖文字转录的 TTS 系统不同,TTS-2 可根据情境理解语义差异。模型具备四项核心功能:语音指令支持,可通过语言提示控制声音表达;对话意识功能,使模型具备上下文理解能力;跨语言语音识别与输出,可在上百种语言间保持一致声音身份;以及高级语音设计功能,允许开发者以文字描述生成可复用的定制声音。该产品展示了 Inworld AI 在语音情感建模与多语言交互领域的技术进展,为语音 AI 应用带来更高的自然度与一致性。