火山引擎发布豆包音频生成模型1.0，支持长音频音色一致生成

火山引擎6月23日发布豆包音频生成模型1.0，主打多模态参考生成和长时音色一致性。用户可通过包含角色台词、情绪语气、配乐和环境氛围的Prompt，直接生成完整音频成片，减少对白、音效、配乐分轨制作及后期混音流程。该模型支持文本或参考音频输入，具备0样本多模态音频创造能力，可在长篇有声书、播客等长音频延长中保持角色音色稳定，并支持“一声多角”演绎。火山方舟已开启API邀测，个人用户可获30分钟创作额度，后续将接入剪映、即梦、番茄等平台。

火山引擎发布豆包音频生成模型1.0，支持长音频音色一致生成

发表回复