谷歌DeepMind发布TIPSv2模型:显著提升AI图像细节理解能力

谷歌DeepMind在最新研究中推出视觉语言模型方案TIPSv2,旨在解决现有AI在图像局部定位能力不足的问题。该方案基于对小模型在精细分割任务表现优异的发现进行了三项核心改进:其一,引入iBOT++机制,对图像全区域进行监督,使零样本分割性能提升14.1个百分点;其二,采用Head-only EMA策略,仅在投影头执行动量平均,训练参数量减少约42%,运行更高效;其三,通过多粒度文本混合训练,结合网页描述与生成长描述,增强模型细节捕捉与泛化能力。在9项任务、20个数据集的评估中,TIPSv2在零样本分割、图文检索和分类中均刷新业界最优表现,超越参数量大56%的对比模型。目前该模型代码与权重已全面开源,研究详情可参阅alphaxiv平台论文。

上一篇:

下一篇:

发表回复

登录后才能评论