谷歌于2026年3月正式推出Gemini Embedding 2,这是其基于Gemini架构的首款完全多模态嵌入模型,现已在Gemini API与Vertex AI上开放Public Preview。该模型实现文本、图片、视频、音频及文档等多类型数据在统一嵌入空间的映射,支持跨模态检索与分类,并覆盖超过100种语言。Gemini Embedding 2具备原生混合输入能力,可同时处理图片与文字、视频与音频等复合内容,精准捕捉语义关联。此外,模型支持音频原生嵌入,无需语音转文本(ASR)步骤,显著提升处理效率与性能。该技术预计可应用于RAG检索增强生成、语义搜索、内容聚类及法律文档分析等多种场景,降低企业构建多模态AI系统的复杂度。