通义实验室发布多模态模型 Qwen3.5-Omni,斩获 215 项 SOTA 成绩

通义实验室正式推出多模态大模型 Qwen3.5-Omni,具备原生全模态架构,可同时处理文本、图像、音频和视频输入。在多项行业测试中,模型取得 215 项 SOTA 成绩,在通用音频理解领域超越 Gemini-3.1 Pro,视觉与文本能力维持顶级表现。Qwen3.5-Omni 采用 Hybrid-Attention MoE 架构,支持最长 256K 上下文,可处理 10 小时音频或 1 小时视频,并通过 TMRoPE 技术强化长时序分析。新版 Talker 模块引入 ARIA 技术和 RVQ 编码,提升语音输出准确度及实时控制能力。该模型已在阿里云百炼平台上线,提供 Plus、Flash、Light 三种尺寸及 Realtime API,并支持音色克隆、视频拆解和拟人化交互等多种应用场景。

上一篇:

下一篇:

发表回复

登录后才能评论