Gemma 4 指南
Gemma 4 模型全家桶对比:E2B、E4B、12B、26B A4B、31B 中文详解

Google 在 2026 年 4 月初发布第一批 Gemma 4 模型,随后在 2026 年 6 月加入 Gemma 4 12B。所以现在的 Gemma 4 不是单一模型,而是五个同宗不同命的模型。每个版本在显存、速度、多模态支持、推理能力等方面各有取舍。选错了,可能就是白下几十GB,或者你的硬件明明能跑更强的模型却被性能拖后腿。
本指南将彻底解读 Gemma 4 的命名体系,详细对比五个主要模型的真实差异,帮你在下载权重前做出明智选择。
命名到底什么意思?
Gemma 4 的命名第一次看几乎没人不懵。下面是每个前缀和后缀的真正含义:
E2B / E4B —— “有效参数”,为边缘设备打造
E 代表 有效参数(Effective Parameters)。E2B 推理时有效参数为 23 亿,总参数 51 亿。E4B 同理。之所以有差距,是因为 Google 用了 Per-Layer Embeddings(PLE)技术:每层解码器有独立的小型嵌入表,推理时只消耗少量算力,但模型表现力远超参数表面数字。结果就是,模型体积适合手机/笔记本,但推理能力远超同级。
12B —— 统一多模态中间档
12B 是 2026 年 6 月加入 Gemma 4 家族的新版本。它采用统一多模态设计,用直接投影处理视觉和音频输入,不再依赖独立编码器。实际定位上,12B 填补了 E4B 与 26B/31B 之间的空档:比边缘模型更强,又比 26B A4B 和 31B 更容易部署。
26B A4B —— “活跃参数”,MoE 架构
A 代表 活跃参数(Active Parameters)。26B A4B 是 MoE(专家混合)模型,总参数 260 亿级别,但每步推理只激活约 40 亿。Google 用了 128 个小专家,每步激活 8 个加 1 个常驻专家。实际推理速度接近 4B 密集模型,但效果接近 31B。26B 代表存储需求,A4B 代表推理算力消耗。
31B —— 纯密集,无花活
每个参数每步都参与推理,算力消耗最大,但效果天花板最高,也是微调的最佳基座。
五大模型一览
| E2B | E4B | 12B | 26B A4B | 31B | |
|---|---|---|---|---|---|
| 架构 | PLE 边缘密集 | PLE 边缘密集 | 统一多模态 | MoE | 密集 |
| 有效/活跃参数 | ~23亿 | ~40亿 | 120亿 | ~40亿活跃 | 307亿 |
| 总参数 | 51亿 | ~90亿 | 120亿 | 260亿级别 | 310亿级别 |
| 上下文窗口 | 128K | 128K | 256K | 256K | 256K |
| 音频输入 | 支持 | 支持 | 支持 | 不支持 | 不支持 |
| 图像/视频输入 | 支持 | 支持 | 支持 | 支持 | 支持 |
| 目标硬件 | 手机/IoT | 笔记本 | 中端 GPU/服务器 | 消费级 GPU | H100/高端 GPU |
| 显存需求(Q4) | ~2.9GB | ~4.5GB | ~6.7GB | ~14.4GB | ~17.5GB |
| 显存需求(8bit/BF16) | ~5.7/11.4GB | ~8.9/17.9GB | ~13.4/26.7GB | ~28.8/57.7GB | ~34.9/69.9GB |
| 主要定位 | 最轻量边缘选项 | 更强边缘选项 | 均衡多模态中间档 | 高端高效率 | 最强 dense 质量 |
显存数据采用 Google 官方近似加载内存表,实际消耗会因上下文长度、量化方式、运行时和系统开销略有浮动。
基准分数
以下分数均来自 Google 官方 model card 及指令微调版。AIME 2026、LiveCodeBench v6、MMLU Pro 均为新一代基准,不能直接与 Gemma 3 横向对比。
31B 密集
| 基准 | 分数 |
|---|---|
| AIME 2026(数学) | 89.2% |
| LiveCodeBench v6(代码) | 80.0% |
| GPQA Diamond(科学推理) | 84.3% |
| MMLU Pro(知识) | 85.2% |
| MMMU Pro(视觉) | 76.9% |
| MATH-Vision | 85.6% |
| Codeforces ELO | 2150 |
| 多针检索(长上下文) | 66.4% |
Gemma 3 27B 仅 20.8%(AIME)/29.1%(LiveCodeBench),Gemma 4 属于代际飞跃。
26B A4B(MoE)
| 基准 | 分数 |
|---|---|
| AIME 2026 | 88.3% |
| LiveCodeBench v6 | 77.1% |
| GPQA Diamond | 82.3% |
| MMLU Pro | 82.6% |
26B A4B 只激活 3.8 亿参数,效果达 31B 的 97%,LMArena Elo 1441 vs 1452,实际体验差距极小。
E4B
| 基准 | 分数 |
|---|---|
| AIME 2026 | 42.5% |
| LiveCodeBench v6 | 52.0% |
| MMLU Pro | 69.4% |
| MMMU Pro(视觉) | 52.6% |
能在 T4 GPU 或 MacBook Air 跑,推理能力虽不及高端型号,但 OCR、图像理解、代码辅助等场景表现优异。
E2B
| 基准 | 分数 |
|---|---|
| AIME 2026 | 37.5% |
| LiveCodeBench v6 | 44.0% |
| MMLU Pro | 60.0% |
| MMMU Pro(视觉) | 44.2% |
E2B 可在树莓派5等极端低配设备运行,Google 实测 LiteRT-LM 跑 E2B,解码速度约 7.6 token/s,虽慢但能用。
关键差异
音频输入不是全家桶标配
E2B、E4B 和 12B 支持原生音频输入。26B A4B 和 31B 仍然不支持原生音频输入。如果你的场景需要语音或音频理解,现在应优先在 E2B、E4B、12B 之间选择。
上下文长度分两档
E2B/E4B 最多 128K token,12B、26B A4B 和 31B 可达 256K。Gemma 4 的 256K 是真能用的长上下文,检索能力大幅提升。
MoE vs 密集 = 速度与微调权衡
26B A4B 推理速度接近 4B 密集模型,非常适合需要大量生成的场景。31B 虽慢但行为更稳定,微调更友好。
视频支持有硬性上限
当前五款模型都能处理视频,但仅支持 1fps、最长 60 秒,适合短片、UI录屏、Demo总结,不适合长视频分析。
训练数据截止到 2025年1月
Gemma 4 训练集截止 2025年1月,256K 上下文无法弥补知识盲区,需结合检索增强或工具调用。
硬件需求
以下为量化推理下的近似需求,"总内存"指 RAM+VRAM(统一内存架构如苹果),或独立显卡 VRAM。
| 模型 | 4bit量化 | 8bit量化 | 未量化(BF16) |
|---|---|---|---|
| E2B | ~2.9GB | ~5.7GB | ~11.4GB |
| E4B | ~4.5GB | ~8.9GB | ~17.9GB |
| 12B | ~6.7GB | ~13.4GB | ~26.7GB |
| 26B A4B | ~14.4GB | ~28.8GB | ~57.7GB |
| 31B | ~17.5GB | ~34.9GB | ~69.9GB |
实用建议:
- 手机/树莓派 — E2B(LiteRT-LM/AI Edge Gallery)
- MacBook Air(8GB统一内存) — E4B 4bit
- 中端 GPU/16GB 统一内存 — 12B 4bit,是更均衡的音频/视频多模态选项
- 16GB 笔记本/台式机 — 26B A4B 4bit
- RTX 3090/4090(24GB VRAM) — 26B A4B 256K全速,31B 4bit可用
- NVIDIA H100(80GB) — 31B BF16
- NVIDIA DGX Spark(128GB统一) — 31B BF16
注意:26B A4B 虽然推理只激活 3.8 亿参数,但 252 亿参数加载时都要进内存,硬件预算要按总参数算。
选哪个模型?
- 选 E2B: 手机端、IoT、极低内存、需要音频输入。
- 选 E4B: 8–16GB 笔记本/中端GPU,音频输入+更强推理。
- 选 12B: 需要音频、图像、视频和 256K 上下文,同时又不想直接上 26B/31B 的显存压力。
- 选 26B A4B: 16–24GB 显存,追求速度+高质量,适合本地 Agent、代码助手、文档处理。
- 选 31B: 追求极致质量/微调/高端硬件,不要盲目迷信参数,26B A4B 已足够大多数场景。
获取方式
- Google AI Studio — 部分 Gemma 4 版本可在线体验
- Google AI Edge Gallery — 更偏移动端/小模型测试
- Hugging Face — E2B、E4B、12B、26B A4B、31B 官方权重
- Ollama —
ollama run gemma4:e4b、gemma4:26b等 - LM Studio — 26B/31B 图形界面本地部署
- llama.cpp — 跨平台 CPU/GPU
- MLX — 苹果芯片优化
全部权重 Apache 2.0 许可,无月活限制,商用无门槛。
常见问题
Q:Gemma 4 26B A4B 的“A4B”啥意思? A:A 代表活跃参数,26B A4B 是 MoE 架构,总参数 252 亿,推理只激活 3.8 亿,算力消耗接近 4B,效果接近 26B。
Q:E2B/E4B 又是啥? A:E 代表有效参数,采用 PLE 技术,总参数远大于表面数字,但推理消耗与“E”数字一致。E2B 跑起来就是 2B 级别。
Q:Gemma 4 支持音频吗? A:支持,但不是所有尺寸都支持。E2B、E4B 和 12B 支持原生音频输入;26B A4B 和 31B 不支持原生音频输入。
Q:Gemma 4 31B 需要多少显存? A:4bit 约 20GB,8bit 约 34GB,BF16 需单卡 80GB H100。大多数本地用户建议 4bit+24GB 显存。
Q:新增的 12B 改变了什么? A:12B 增加了一个中间档:支持原生音频、图像、视频输入,也有 256K 上下文,但显存压力远低于 26B A4B 和 31B。如果 E4B 太小、26B/31B 又太重,12B 现在是最该先评估的版本。
Q:16GB 笔记本能跑 26B A4B 吗? A:4bit 约 18GB,16GB+独显共享内存可勉强,苹果 24GB 统一内存无压力。
Q:Gemma 4 比 Gemma 3 强多少? A:AIME 2026 数学从 20.8%(Gemma 3 27B)飙到 89.2%(Gemma 4 31B),LiveCodeBench 从 29.1% 到 80.0%,长上下文检索从 13.5% 到 66.4%,属于代际飞跃。
继续阅读
相关阅读
继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

Gemma 4 A4B 和 E4B 的区别:名称含义与选型指南
E 代表 effective(有效参数),A 代表 active(激活参数)。两者是完全不同的架构。本文告诉你如何根据自己的机器选对模型。


还没决定下一篇看什么?
回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。
