📰 正文
Google 正式推出的 新一代开源轻量级多模态大模型:Gemma 3n,专为**端侧部署(on-device)**而优化。
它支持图像、音频、视频和文本输入输出,致力于在移动设备上实现接近云端模型的能力。
设计目标是:
高性能、多模态、轻量部署、可自定义、全设备适配。
它是 Gemma 系列模型家族的一部分,之前的版本已经累积下载超过 1.6 亿次,广泛用于计算机视觉、医疗模型、内容生成等领域。
Gemma 3n 是迄今为止该系列中最先进、专为 移动端和边缘设备打造的版本。
🚀 核心亮点
原生多模态支持
Gemma 3n 支持:
图像、音频、视频、文本 输入
文本 输出
适用于语音识别、图像理解、视频处理等多场景。
轻量高效:两种模型规格
💡 使用创新架构,实际运行内存相当于传统 2B/4B 模型。
性能优异
文本处理支持 140+ 种语言;
多模态理解支持 35 种语言;
在数学、编程和推理方面有显著增强;
E4B 是首个参数少于 10B 的模型,在 lmarena.ai 测试中突破了 1300 分;成为首个参数量低于 100 亿且达到此基准的模型。
核心技术架构
🧬 MatFormer(Matryoshka Transformer)
像“俄罗斯套娃”一样,一个模型包含多个子模型(可嵌套推理)。
支持两种使用方式: 1.
预提取模型:使用已经分离好的 E2B 和 E4B。
Mix-n-Match:通过调整隐藏维度、跳层等方法,自定义模型大小,适配特定硬件。
后续还将支持部署时动态切换子模型路径(弹性推理)。
📦 PLE(Per-Layer Embeddings)
每一层嵌入独立加载,大幅减小显存压力。
只需将核心 Transformer 权重载入显存,其他在 CPU 上计算即可。
🧠 KV Cache Sharing(上下文缓存共享)
针对音频/视频等长序列输入场景,显著加速首次响应时间。
Prefill 阶段性能提升 2 倍。
音频处理:内置语音理解能力
基于 USM(Universal Speech Model) 构建语音编码器。
每 160ms 生成一个 token,提供细粒度上下文感知。
支持:
ASR(自动语音识别)
AST(自动语音翻译)
特别适合英语与西语、法语、意大利语、葡语之间的翻译任务。
视觉处理:全新 MobileNet-V5 编码器
架构:MobileNet-V5-300M
特性:
原生支持分辨率:256×256,512×512,768×768
实时处理:可达 60fps(Google Pixel)
视觉语言理解准确率超越 SoViT
参数减少 46%,显存减少 4 倍,速度提升 13 倍(量化后)
如何开始使用 Gemma 3n?
✅ 在线体验:
Google AI Studio → 选择 Gemma 3n 即可运行。
✅ 模型下载:
Hugging Face
Kaggle
Google Cloud Vertex AI
官方介绍:https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/