苹果公司联合威斯康星大学麦迪逊分校推出全新 AI 图像描述训练框架 RubiCap,专注于密集图像描述任务,旨在让模型准确捕捉细节内容。该系统采用强化学习机制,利用 GPT-5 和 Gemini 2.5 Pro 生成候选描述,由 Gemini 2.5 Pro 构建评分标准,并由 Qwen2.5 模型担任裁判进行打分反馈。RubiCap 系列模型的参数规模介于 20 亿至 70 亿之间,在盲测中表现出色,70 亿参数版本的描述准确度超越多款参数量高达 720 亿的主流大模型,且幻觉率更低。30 亿参数的轻量版本在部分测试指标上亦超越更大规模模型。研究结果显示,通过优化训练范式,小型模型同样可实现高质量图像理解,为高效视觉 AI 的发展提供了新思路。