原生多模态大模型 LongCat-Next 开源发布，统一视觉、语音与文本建模

AI研发团队近日发布并开源原生多模态大模型 LongCat-Next 及其离散分词器，尝试以统一架构让视觉、语音与文本共享同一表示体系。模型基于 DiNA 离散原生自回归框架，将图像、音频和文本统一转化为离散 Token，并通过“下一 Token 预测”完成统一建模。配套的 dNaViT 视觉分词器支持任意分辨率输入，最高实现约28倍像素压缩，并保持较高图像还原度。基于 LongCat-Flash-Lite MoE（总参数68.5B、激活参数3B）的测试结果显示，该模型在 OmniDocBench 上超过 Qwen3-Omni 和 Qwen3-VL，并在 MMLU-Pro、C-Eval、SWE-Bench 及语音合成等任务中保持较强表现。目前模型与相关代码已在 GitHub 与 HuggingFace 开源。

原生多模态大模型 LongCat-Next 开源发布，统一视觉、语音与文本建模

发表回复