谷歌发布Gemini Embedding 2：首款全多模态嵌入模型开放预览

谷歌于2026年3月正式推出Gemini Embedding 2，这是其基于Gemini架构的首款完全多模态嵌入模型，现已在Gemini API与Vertex AI上开放Public Preview。该模型实现文本、图片、视频、音频及文档等多类型数据在统一嵌入空间的映射，支持跨模态检索与分类，并覆盖超过100种语言。Gemini Embedding 2具备原生混合输入能力，可同时处理图片与文字、视频与音频等复合内容，精准捕捉语义关联。此外，模型支持音频原生嵌入，无需语音转文本（ASR）步骤，显著提升处理效率与性能。该技术预计可应用于RAG检索增强生成、语义搜索、内容聚类及法律文档分析等多种场景，降低企业构建多模态AI系统的复杂度。

谷歌发布Gemini Embedding 2：首款全多模态嵌入模型开放预览

发表回复