腾讯发布OpenSearch-VL：开源多模态深度搜索智能体方案

腾讯混元团队联合加州大学洛杉矶分校、香港中文大学等机构发布开源项目 OpenSearch-VL，推出完整的多模态深度搜索智能体（agent）研发方案。该框架基于强化学习技术，旨在让AI具备主动检索与多步推理能力。项目自建超过3.6万条指令微调轨迹的 SearchVL-SFT 数据集和8000条强化学习数据 SearchVL-RL，用以克服训练样本不足问题。OpenSearch-VL 集成网页搜索、反向图像搜索、OCR、图像增强与透视校正等功能，实现从视觉输入修复到知识检索的全流程处理。团队还提出“多轮故障感知GRPO”算法，使模型能从失败任务中提取有效学习信号。测试显示，该模型在七项主流多模态搜索基准上平均性能提升超10%，部分结果可比肩闭源商业系统。项目代码、数据及模型权重将全面开源，论文已在arXiv发布。

腾讯发布OpenSearch-VL：开源多模态深度搜索智能体方案

发表回复