谷歌推出原生多模态嵌入模型 Gemini Embedding 2

谷歌正式发布首个原生多模态嵌入模型 Gemini Embedding 2。该模型可同时处理文本、图像、视频、音频及 PDF 文档等多种数据类型，并将其映射至统一的向量空间，实现跨媒体内容理解。相比传统仅依赖关键词的检索方式，新模型在语义识别、上下文关联与搜索精度上显著提升。Gemini Embedding 2 支持全球约 100 种语言，可在单次请求中处理多模态组合输入，适用于语义搜索、检索增强生成（RAG）、情感分析及数据聚类等场景。谷歌表示，该模型在法律取证等复杂任务中可快速定位跨媒体关键信息，提升检索精度与召回率。目前，Gemini Embedding 2 已通过 Gemini API 和 Vertex AI 向开发者开放预览。

谷歌推出原生多模态嵌入模型 Gemini Embedding 2

发表回复