CVPR2026揭示视觉智能范式重构:从感知跃迁至推理与决策核心

在CVPR2026上,计算机视觉研究焦点出现重大转向。研究者指出,视觉智能正从单纯图像识别迈向服务推理、决策与交互的新阶段。VideoAuto-R1框架提出“按需推理”机制,在复杂任务中动态触发推理过程,平均输出长度缩减3.3倍而保持性能稳定。与此同时,模型正在从语言描述过渡到潜在空间中的隐式视觉推理,以更自然地处理几何与空间关系。评测体系也迎来变革:传统多项选择题(MCQA)被质疑高估模型真实能力约20%,业界正推广“可验证开放问答”标准和VS-Bench等多智能体环境测试,推动模型具备策略推理和合作决策能力。Molmo2等开源模型加速透明化,开放权重、数据与训练流程,并实现从静态图像到多帧视频的定位能力。Pico-Banana-400K真实数据集的发布进一步强化图像编辑与偏好对齐训练。整体来看,视觉智能正进入融合感知、认知与行动的一体化时代。

上一篇:

下一篇:

发表回复

登录后才能评论