📰 正文
以前你想让 AI 同时理解文字、图片和视频,得用好几个不同的模型拼在一起。Google 刚发布的 Gemini Embedding 2 嵌入模型,一个模型就全包了。
嵌入模型是干什么的
你每天用搜索引擎、用知识库问答、用 AI 找相似内容,背后都有个关键环节:把你输入的内容转换成一串数字,AI 才能拿去比较、排序、检索。干这件事的就是嵌入模型。
你搜"苹果",传统搜索引擎会把"苹果公司"和"苹果水果"的结果混在一起给你,因为它只认关键词。嵌入模型干的事情就是让 AI 真正"理解"你说的是哪个苹果。
它的工作原理是把文本转换成一组向量(你可以理解为一串带方向的数字),语义相近的内容,向量也相近。这样 AI 就能按意思去比较、排序、检索,而不是死板地匹配关键词。
你平时用的 AI 搜索、知识库问答、ChatGPT 的"先查资料再回答",底层都得靠嵌入模型先把内容"翻译"成 AI 能理解的格式。它不像聊天模型那样直接跟你对话,但没有它,AI 的搜索和检索就跑不起来。
先说它解决什么问题
相比上一代 Gemini Embedding 2 最大的跨越是:从"只懂文字"升级到"什么都懂"。文字、图片、音频、视频、PDF 文档,全部能放在同一个空间里比较和检索。同时输入上限从以前的 2K 提升到 8K,向量维度从 768 提升到 3072,能装的信息量大了好几倍。
举个具体场景:你拍了张照片,想在资料库里找类似的图;你有一段会议录音,想找到之前写过的相关笔记;你有份 PDF 合同,想快速定位其他类似条款。以前这些不同类型的内容没法放在一起搜索,你得分别处理再拼结果。现在一个模型直接搞定。
这些场景有个共同难点:不同类型的内容(文字、图片、音频、视频、文档),AI 以前没法放在同一个维度去比较和检索。你得分别处理,然后想办法拼结果。
Gemini Embedding 2 就是 Google 给出的方案:把所有这些不同类型的内容,统一转换成 AI 能直接比较和搜索的格式。文字跟图片能比,音频跟文档也能比,全部放在同一个空间里检索。
具体能处理什么
支持五种输入类型:
文本:最多 8192 个 token,大概相当于一篇长文章的量
图像:单次最多 6 张图片
视频:最长 120 秒
音频:直接处理原始音频,不需要先转成文字
文档:最多 6 页 PDF
关键是,这些类型可以混着来。一个请求里同时丢进去一段文字加两张图片,模型能一起处理。支持 100 多种语言。
一个很实用的设计:精度和成本自己选
模型输出的维度最高 3072,但你可以根据需求往下调。
说人话就是:精度要求高的场景(比如法律文档检索),你用高维度,效果最好但占的空间和算力也多;日常搜索够用就行的场景,调低维度,省钱省空间。开发者自己根据业务需求来选,不用一刀切。
从跑分看,不同维度下表现差距很小。MTEB(主流的文本嵌入测评榜单)上,高维度 68.17 分,最低维度 67.99 分,几乎没掉。这意味着很多场景下完全可以用低维度省成本。
目前排名第一
在 MTEB 排行榜上,Gemini Embedding 2 拿到了综合第一。排在后面的是阿里巴巴的 Qwen3-Embedding(开源,Apache 2.0 协议),再后面是 OpenAI 和 Mistral 的模型。
不过要注意,这个榜主要测的是文本能力。Gemini Embedding 2 真正拉开差距的地方在多模态:目前市面上能同时原生处理文本、图片、视频、音频、文档这五种类型的模型,基本就它一个。
已经有人用出了效果
几个早期用户的数据值得看看。
法律科技公司 Everlaw 用它做法律文档检索,精确度明显提升。做过法律相关工作的应该知道,法律文档里经常是扫描件 PDF 混着文字,传统搜索很难覆盖全,多模态在这个场景天然有优势。
另一个案例更直观:Sparkonomy 这家公司接入后,检索延迟降低了 70%,内容相似性得分从 0.4 直接升到 0.8。这个提升幅度相当夸张,说明之前用的方案和这个原生多模态方案差距不小。
一点看法
嵌入模型这个领域之前一直比较"安静",大家关注的都是聊天模型谁更强。但实际上,嵌入模型是所有 AI 搜索、知识库、“让 AI 先查资料再回答"这类应用的基础设施。基础设施升级了,上面跑的应用才能跟着变好。
Gemini Embedding 2 最让我觉得有意思的不是跑分第一,而是"原生多模态"这个方向。以前处理多模态都是各搞各的再拼起来,现在一个模型统一处理,架构上干净很多,效果自然也更好。
对于在做 AI 应用的开发者来说,如果你的产品涉及多种类型内容的搜索和匹配,这个模型值得第一时间试试。目前是预览阶段,免费用。
本文参考:Google AI Studio 的推文 | 原文链接 | Google 官方博客 | VentureBeat 报道
来源:Google 发布 Gemini Embedding 2向量模型 :升级为多模态 图片、视频、音频都能进行向量搜索