通义实验室发布多模态模型 Qwen3.5-Omni，斩获 215 项 SOTA 成绩

通义实验室正式推出多模态大模型 Qwen3.5-Omni，具备原生全模态架构，可同时处理文本、图像、音频和视频输入。在多项行业测试中，模型取得 215 项 SOTA 成绩，在通用音频理解领域超越 Gemini-3.1 Pro，视觉与文本能力维持顶级表现。Qwen3.5-Omni 采用 Hybrid-Attention MoE 架构，支持最长 256K 上下文，可处理 10 小时音频或 1 小时视频，并通过 TMRoPE 技术强化长时序分析。新版 Talker 模块引入 ARIA 技术和 RVQ 编码，提升语音输出准确度及实时控制能力。该模型已在阿里云百炼平台上线，提供 Plus、Flash、Light 三种尺寸及 Realtime API，并支持音色克隆、视频拆解和拟人化交互等多种应用场景。

通义实验室发布多模态模型 Qwen3.5-Omni，斩获 215 项 SOTA 成绩

发表回复