谷歌推出多模态嵌入模型 Gemini Embedding2,统一文本、图像、音视频语义空间

谷歌正式发布原生多模态嵌入模型 Gemini Embedding2,可将文本、图像、视频、音频及 PDF 文档映射至统一语义向量空间,以提升多模态检索与理解能力。该模型基于 Gemini 架构,支持最长 8192 个文本 token、最多处理 6 张图像、120 秒视频及 6 页 PDF,并新增原生音频嵌入与“交错输入”功能,实现跨模态语义融合。Gemini Embedding2 采用 Matryoshka 表示学习技术,默认嵌入维度为 3072,并提供 1536、768 等可选配置。在基准测试中,其在文本—视频检索及图像对比任务上均超越同类模型。该模型现已通过 Gemini API 与 Vertex AI 开放,与 LangChain、LlamaIndex、Weaviate 等框架兼容。谷歌此次发布标志其在多模态语义建模领域的技术拓展。

上一篇:

下一篇:

发表回复

登录后才能评论