阿里发布 Qwen3.5-Omni 全模态大模型，获 215 项 SOTA 成绩

3月30日，阿里正式发布新一代全模态大模型 Qwen3.5-Omni。该模型采用混合注意力 MoE 架构，实现图片、视频、语音及文字的统一输入输出，在215项多模态测试任务中取得 SOTA 成绩。Qwen3.5-Omni 在 DailyOmni、QualcommInteractive 等视听交互评测中得分显著领先 Google Gemini-3.1 Pro，并在 WenetSpeech 测试中展现出高抗噪识别能力。模型支持113种语言及方言识别，并引入音视频编程功能，可根据语音指令生成产品原型界面。阿里云百炼平台同步推出 Plus、Flash、Light 三种 API，输入成本每百万 Tokens 低于0.8元，为 Gemini 模型的十分之一。目前“千问”系列已服务超100万家企业，标志国产大模型在多模态交互领域取得阶段性领先。

阿里发布 Qwen3.5-Omni 全模态大模型，获 215 项 SOTA 成绩

发表回复