美团发布原生多模态大模型 LongCat-Next，实现图像语音文本统一建模

4月3日，美团技术团队正式发布原生多模态大模型 LongCat-Next，该模型采用突破性的 DiNA（离散原生自回归）架构，将图像、语音与文本统一为同源离散 Token，实现底层模态内化与全模态统一处理。模型通过 dNaViT 视觉分词器支持任意分辨率输入，实现最高28倍像素空间压缩。实测显示，LongCat-Next 在 OmniDocBench、MathVista 等多项测试中表现领先，文本能力达到 C-Eval 86.80，并支持低延迟语音生成与语音克隆。美团已将该模型及分词器开源，为 AI 的视觉、语音与语言一体化探索提供重要基础。

美团发布原生多模态大模型 LongCat-Next，实现图像语音文本统一建模

发表回复