2月11日,蚂蚁集团正式开源全模态大模型Ming-flash-omni 2.0,该模型在视觉语言理解、语音生成、图像编辑等领域表现出色,部分指标超越顶尖模型Gemini2.5Pro,成为全模态开源领域的新标杆。
Ming-flash-omni 2.0实现业界首个全场景音频统一生成,可通过自然语言精细控制语音、音效与音乐参数,并支持零样本音色克隆。其推理阶段达到3.1Hz的低帧率,支持分钟级长音频的实时高保真生成,显著提升效率与降低成本。
该模型基于Ling-2.0架构(MoE,100B-A6B)训练,优化视觉识别、音频生成和图像编辑能力,支持复杂场景识别、动态场景连贯编辑、一键修图等功能。蚂蚁集团表示,开源后开发者可复用该框架的视觉、语音与生成能力,降低系统复杂度与开发成本。
Ming-flash-omni 2.0的模型权重与推理代码现已发布至Hugging Face开源社区,用户可通过蚂蚁百灵Ling Studio在线体验与调用。