美团发布原生多模态大模型 LongCat-Next,实现图像语音文本统一建模

4月3日,美团技术团队正式发布原生多模态大模型 LongCat-Next,该模型采用突破性的 DiNA(离散原生自回归)架构,将图像、语音与文本统一为同源离散 Token,实现底层模态内化与全模态统一处理。模型通过 dNaViT 视觉分词器支持任意分辨率输入,实现最高28倍像素空间压缩。实测显示,LongCat-Next 在 OmniDocBench、MathVista 等多项测试中表现领先,文本能力达到 C-Eval 86.80,并支持低延迟语音生成与语音克隆。美团已将该模型及分词器开源,为 AI 的视觉、语音与语言一体化探索提供重要基础。

上一篇:

下一篇:

发表回复

登录后才能评论