AI2开源视觉驱动网络代理MolmoWeb,性能接近OpenAI商用模型

艾伦人工智能研究所(AI2)近日发布全开源网络代理MolmoWeb,其最大特点是无需依赖网页底层代码,仅凭屏幕截图进行决策,实现“视觉驱动”的网页操作。MolmoWeb通过捕获浏览器截图进行视觉分析,选择点击、滚动等下一步动作,提升了模型的鲁棒性与可解释性。该模型提供4B和8B两个版本,其中8B版本在WebVoyager测试中得分78.2%,接近OpenAI的o3模型(79.3%),多次运行筛选后成功率可达94.7%,并在UI元素定位任务上超越Anthropic Claude3.7。AI2同步开源了包含3.6万次真实任务、220万个截图问答对的MolmoWebMix数据集,采用Apache 2.0许可证在Hugging Face与GitHub开放。该成果被视为开放视觉智能体研究的重要里程碑。

上一篇:

下一篇:

发表回复

登录后才能评论