苹果与威斯康星大学发布 RubiCap 图像描述框架，低参数模型精度超大型对手

苹果公司联合威斯康星大学麦迪逊分校推出全新 AI 图像描述训练框架 RubiCap，专注于密集图像描述任务，旨在让模型准确捕捉细节内容。该系统采用强化学习机制，利用 GPT-5 和 Gemini 2.5 Pro 生成候选描述，由 Gemini 2.5 Pro 构建评分标准，并由 Qwen2.5 模型担任裁判进行打分反馈。RubiCap 系列模型的参数规模介于 20 亿至 70 亿之间，在盲测中表现出色，70 亿参数版本的描述准确度超越多款参数量高达 720 亿的主流大模型，且幻觉率更低。30 亿参数的轻量版本在部分测试指标上亦超越更大规模模型。研究结果显示，通过优化训练范式，小型模型同样可实现高质量图像理解，为高效视觉 AI 的发展提供了新思路。

苹果与威斯康星大学发布 RubiCap 图像描述框架，低参数模型精度超大型对手

发表回复