Google 发布 Gemini Embedding 2向量模型 ：升级为多模态 图片、视频、音频都能进行向量搜索

📰 正文

以前你想让 AI 同时理解文字、图片和视频，得用好几个不同的模型拼在一起。Google 刚发布的 Gemini Embedding 2 嵌入模型，一个模型就全包了。

嵌入模型是干什么的

你每天用搜索引擎、用知识库问答、用 AI 找相似内容，背后都有个关键环节：把你输入的内容转换成一串数字，AI 才能拿去比较、排序、检索。干这件事的就是嵌入模型。

你搜"苹果"，传统搜索引擎会把"苹果公司"和"苹果水果"的结果混在一起给你，因为它只认关键词。嵌入模型干的事情就是让 AI 真正"理解"你说的是哪个苹果。

它的工作原理是把文本转换成一组向量（你可以理解为一串带方向的数字），语义相近的内容，向量也相近。这样 AI 就能按意思去比较、排序、检索，而不是死板地匹配关键词。

你平时用的 AI 搜索、知识库问答、ChatGPT 的"先查资料再回答"，底层都得靠嵌入模型先把内容"翻译"成 AI 能理解的格式。它不像聊天模型那样直接跟你对话，但没有它，AI 的搜索和检索就跑不起来。

先说它解决什么问题

相比上一代 Gemini Embedding 2 最大的跨越是：从"只懂文字"升级到"什么都懂"。文字、图片、音频、视频、PDF 文档，全部能放在同一个空间里比较和检索。同时输入上限从以前的 2K 提升到 8K，向量维度从 768 提升到 3072，能装的信息量大了好几倍。

举个具体场景：你拍了张照片，想在资料库里找类似的图；你有一段会议录音，想找到之前写过的相关笔记；你有份 PDF 合同，想快速定位其他类似条款。以前这些不同类型的内容没法放在一起搜索，你得分别处理再拼结果。现在一个模型直接搞定。

这些场景有个共同难点：不同类型的内容（文字、图片、音频、视频、文档），AI 以前没法放在同一个维度去比较和检索。你得分别处理，然后想办法拼结果。

Gemini Embedding 2 就是 Google 给出的方案：把所有这些不同类型的内容，统一转换成 AI 能直接比较和搜索的格式。文字跟图片能比，音频跟文档也能比，全部放在同一个空间里检索。

具体能处理什么

支持五种输入类型：

文本：最多 8192 个 token，大概相当于一篇长文章的量

图像：单次最多 6 张图片

视频：最长 120 秒

音频：直接处理原始音频，不需要先转成文字

文档：最多 6 页 PDF

关键是，这些类型可以混着来。一个请求里同时丢进去一段文字加两张图片，模型能一起处理。支持 100 多种语言。

一个很实用的设计：精度和成本自己选

模型输出的维度最高 3072，但你可以根据需求往下调。

说人话就是：精度要求高的场景（比如法律文档检索），你用高维度，效果最好但占的空间和算力也多；日常搜索够用就行的场景，调低维度，省钱省空间。开发者自己根据业务需求来选，不用一刀切。

从跑分看，不同维度下表现差距很小。MTEB（主流的文本嵌入测评榜单）上，高维度 68.17 分，最低维度 67.99 分，几乎没掉。这意味着很多场景下完全可以用低维度省成本。

目前排名第一

在 MTEB 排行榜上，Gemini Embedding 2 拿到了综合第一。排在后面的是阿里巴巴的 Qwen3-Embedding（开源，Apache 2.0 协议），再后面是 OpenAI 和 Mistral 的模型。

不过要注意，这个榜主要测的是文本能力。Gemini Embedding 2 真正拉开差距的地方在多模态：目前市面上能同时原生处理文本、图片、视频、音频、文档这五种类型的模型，基本就它一个。

已经有人用出了效果

几个早期用户的数据值得看看。

法律科技公司 Everlaw 用它做法律文档检索，精确度明显提升。做过法律相关工作的应该知道，法律文档里经常是扫描件 PDF 混着文字，传统搜索很难覆盖全，多模态在这个场景天然有优势。

另一个案例更直观：Sparkonomy 这家公司接入后，检索延迟降低了 70%，内容相似性得分从 0.4 直接升到 0.8。这个提升幅度相当夸张，说明之前用的方案和这个原生多模态方案差距不小。

一点看法

嵌入模型这个领域之前一直比较"安静"，大家关注的都是聊天模型谁更强。但实际上，嵌入模型是所有 AI 搜索、知识库、“让 AI 先查资料再回答"这类应用的基础设施。基础设施升级了，上面跑的应用才能跟着变好。

Gemini Embedding 2 最让我觉得有意思的不是跑分第一，而是"原生多模态"这个方向。以前处理多模态都是各搞各的再拼起来，现在一个模型统一处理，架构上干净很多，效果自然也更好。

对于在做 AI 应用的开发者来说，如果你的产品涉及多种类型内容的搜索和匹配，这个模型值得第一时间试试。目前是预览阶段，免费用。

本文参考：Google AI Studio 的推文 | 原文链接 | Google 官方博客 | VentureBeat 报道