火山引擎发布豆包音频生成模型1.0,支持长音频音色一致生成

火山引擎6月23日发布豆包音频生成模型1.0,主打多模态参考生成和长时音色一致性。用户可通过包含角色台词、情绪语气、配乐和环境氛围的Prompt,直接生成完整音频成片,减少对白、音效、配乐分轨制作及后期混音流程。该模型支持文本或参考音频输入,具备0样本多模态音频创造能力,可在长篇有声书、播客等长音频延长中保持角色音色稳定,并支持“一声多角”演绎。火山方舟已开启API邀测,个人用户可获30分钟创作额度,后续将接入剪映、即梦、番茄等平台。

上一篇:

下一篇:

发表回复

登录后才能评论