AI2开源视觉驱动网络代理MolmoWeb，性能接近OpenAI商用模型

艾伦人工智能研究所（AI2）近日发布全开源网络代理MolmoWeb，其最大特点是无需依赖网页底层代码，仅凭屏幕截图进行决策，实现“视觉驱动”的网页操作。MolmoWeb通过捕获浏览器截图进行视觉分析，选择点击、滚动等下一步动作，提升了模型的鲁棒性与可解释性。该模型提供4B和8B两个版本，其中8B版本在WebVoyager测试中得分78.2%，接近OpenAI的o3模型（79.3%），多次运行筛选后成功率可达94.7%，并在UI元素定位任务上超越Anthropic Claude3.7。AI2同步开源了包含3.6万次真实任务、220万个截图问答对的MolmoWebMix数据集，采用Apache 2.0许可证在Hugging Face与GitHub开放。该成果被视为开放视觉智能体研究的重要里程碑。

AI2开源视觉驱动网络代理MolmoWeb，性能接近OpenAI商用模型

发表回复