蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

2月11日，蚂蚁集团正式开源全模态大模型Ming-flash-omni 2.0，该模型在视觉语言理解、语音生成、图像编辑等领域表现出色，部分指标超越顶尖模型Gemini2.5Pro，成为全模态开源领域的新标杆。

Ming-flash-omni 2.0实现业界首个全场景音频统一生成，可通过自然语言精细控制语音、音效与音乐参数，并支持零样本音色克隆。其推理阶段达到3.1Hz的低帧率，支持分钟级长音频的实时高保真生成，显著提升效率与降低成本。

该模型基于Ling-2.0架构（MoE，100B-A6B）训练，优化视觉识别、音频生成和图像编辑能力，支持复杂场景识别、动态场景连贯编辑、一键修图等功能。蚂蚁集团表示，开源后开发者可复用该框架的视觉、语音与生成能力，降低系统复杂度与开发成本。

Ming-flash-omni 2.0的模型权重与推理代码现已发布至Hugging Face开源社区，用户可通过蚂蚁百灵Ling Studio在线体验与调用。