谷歌推出多模态嵌入模型 Gemini Embedding2，统一文本、图像、音视频语义空间

谷歌正式发布原生多模态嵌入模型 Gemini Embedding2，可将文本、图像、视频、音频及 PDF 文档映射至统一语义向量空间，以提升多模态检索与理解能力。该模型基于 Gemini 架构，支持最长 8192 个文本 token、最多处理 6 张图像、120 秒视频及 6 页 PDF，并新增原生音频嵌入与“交错输入”功能，实现跨模态语义融合。Gemini Embedding2 采用 Matryoshka 表示学习技术，默认嵌入维度为 3072，并提供 1536、768 等可选配置。在基准测试中，其在文本—视频检索及图像对比任务上均超越同类模型。该模型现已通过 Gemini API 与 Vertex AI 开放，与 LangChain、LlamaIndex、Weaviate 等框架兼容。谷歌此次发布标志其在多模态语义建模领域的技术拓展。

谷歌推出多模态嵌入模型 Gemini Embedding2，统一文本、图像、音视频语义空间

发表回复