原生多模态大模型 LongCat-Next 开源发布,统一视觉、语音与文本建模

AI研发团队近日发布并开源原生多模态大模型 LongCat-Next 及其离散分词器,尝试以统一架构让视觉、语音与文本共享同一表示体系。模型基于 DiNA 离散原生自回归框架,将图像、音频和文本统一转化为离散 Token,并通过“下一 Token 预测”完成统一建模。配套的 dNaViT 视觉分词器支持任意分辨率输入,最高实现约28倍像素压缩,并保持较高图像还原度。基于 LongCat-Flash-Lite MoE(总参数68.5B、激活参数3B)的测试结果显示,该模型在 OmniDocBench 上超过 Qwen3-Omni 和 Qwen3-VL,并在 MMLU-Pro、C-Eval、SWE-Bench 及语音合成等任务中保持较强表现。目前模型与相关代码已在 GitHub 与 HuggingFace 开源。

上一篇:

下一篇:

发表回复

登录后才能评论