Gemma 4 指南
Gemma 4 模型全家桶对比:31B、26B A4B、E4B、E2B 中文详解

2026年4月3日,Google 发布了 Gemma 4,但它不是一个模型,而是四个同宗不同命的模型。每个版本在显存、速度、多模态支持、推理能力等方面各有取舍。选错了,可能就是白下几十GB,或者你的硬件明明能跑更强的模型却被性能拖后腿。
本指南将彻底解读 Gemma 4 的命名体系,详细对比四大模型的真实差异,帮你在下载权重前做出明智选择。
命名到底什么意思?
Gemma 4 的命名第一次看几乎没人不懵。下面是每个前缀和后缀的真正含义:
E2B / E4B —— “有效参数”,为边缘设备打造
E 代表 有效参数(Effective Parameters)。E2B 推理时有效参数为 23 亿,总参数 51 亿。E4B 同理。之所以有差距,是因为 Google 用了 Per-Layer Embeddings(PLE)技术:每层解码器有独立的小型嵌入表,推理时只消耗少量算力,但模型表现力远超参数表面数字。结果就是,模型体积适合手机/笔记本,但推理能力远超同级。
26B A4B —— “活跃参数”,MoE 架构
A 代表 活跃参数(Active Parameters)。26B A4B 是 MoE(专家混合)模型,总参数 252 亿,但每步推理只激活 3.8 亿。Google 用了 128 个小专家,每步激活 8 个+1个常驻专家。实际推理速度接近 4B 密集模型,但效果接近 31B。26B 代表存储需求,A4B 代表推理算力消耗。
31B —— 纯密集,无花活
每个参数每步都参与推理,算力消耗最大,但效果天花板最高,也是微调的最佳基座。
四大模型一览
| E2B | E4B | 26B A4B | 31B | |
|---|---|---|---|---|
| 架构 | 密集(Edge) | 密集(Edge) | MoE | 密集 |
| 有效/活跃参数 | ~23亿 | ~40亿 | ~3.8亿活跃 | 30.7亿 |
| 总参数 | 51亿 | ~90亿 | 252亿 | 30.7亿 |
| 上下文窗口 | 128K | 128K | 256K | 256K |
| 音频输入 | ✅ | ✅ | ❌ | ❌ |
| 图像/视频输入 | ✅ | ✅ | ✅ | ✅ |
| 目标硬件 | 手机/IoT | 笔记本 | 消费级GPU | H100/高端GPU |
| 显存需求(4bit量化) | ~5GB | ~8GB | ~18GB | ~20GB |
| 显存需求(8/16bit) | ~15GB | — | ~28GB | ~34GB |
| LMArena Elo(文本) | — | — | 1441 | 1452 |
| Open model rank | — | — | #6 | #3 |
显存数据来自 Unsloth 部署指南,实际消耗会因上下文长度、量化方式、系统开销略有浮动。
基准分数
以下分数均来自 Google 官方 model card 及指令微调版。AIME 2026、LiveCodeBench v6、MMLU Pro 均为新一代基准,不能直接与 Gemma 3 横向对比。
31B 密集
| 基准 | 分数 |
|---|---|
| AIME 2026(数学) | 89.2% |
| LiveCodeBench v6(代码) | 80.0% |
| GPQA Diamond(科学推理) | 84.3% |
| MMLU Pro(知识) | 85.2% |
| MMMU Pro(视觉) | 76.9% |
| MATH-Vision | 85.6% |
| Codeforces ELO | 2150 |
| 多针检索(长上下文) | 66.4% |
Gemma 3 27B 仅 20.8%(AIME)/29.1%(LiveCodeBench),Gemma 4 属于代际飞跃。
26B A4B(MoE)
| 基准 | 分数 |
|---|---|
| AIME 2026 | 88.3% |
| LiveCodeBench v6 | 77.1% |
| GPQA Diamond | 82.3% |
| MMLU Pro | 82.6% |
26B A4B 只激活 3.8 亿参数,效果达 31B 的 97%,LMArena Elo 1441 vs 1452,实际体验差距极小。
E4B
| 基准 | 分数 |
|---|---|
| AIME 2026 | 42.5% |
| LiveCodeBench v6 | 52.0% |
| MMLU Pro | 69.4% |
| MMMU Pro(视觉) | 52.6% |
能在 T4 GPU 或 MacBook Air 跑,推理能力虽不及高端型号,但 OCR、图像理解、代码辅助等场景表现优异。
E2B
| 基准 | 分数 |
|---|---|
| AIME 2026 | 37.5% |
| LiveCodeBench v6 | 44.0% |
| MMLU Pro | 60.0% |
| MMMU Pro(视觉) | 44.2% |
E2B 可在树莓派5等极端低配设备运行,Google 实测 LiteRT-LM 跑 E2B,解码速度约 7.6 token/s,虽慢但能用。
关键差异
音频输入不是全家桶标配
只有 E2B 和 E4B 支持音频输入(语音识别/音频转文本),单段最长 30 秒。26B A4B 和 31B 完全不支持音频。
上下文长度分两档
E2B/E4B 最多 128K token,26B A4B/31B 可达 256K。Gemma 4 的 256K 是真能用的长上下文,检索能力大幅提升。
MoE vs 密集 = 速度与微调权衡
26B A4B 推理速度接近 4B 密集模型,非常适合需要大量生成的场景。31B 虽慢但行为更稳定,微调更友好。
视频支持有硬性上限
四款模型都能处理视频,但仅支持 1fps、最长 60 秒,适合短片、UI录屏、Demo总结,不适合长视频分析。
训练数据截止到 2025年1月
Gemma 4 训练集截止 2025年1月,256K 上下文无法弥补知识盲区,需结合检索增强或工具调用。
硬件需求
以下为量化推理下的近似需求,"总内存"指 RAM+VRAM(统一内存架构如苹果),或独立显卡 VRAM。
| 模型 | 4bit量化 | 8bit量化 | 未量化(BF16) |
|---|---|---|---|
| E2B | ~5GB | ~15GB | — |
| E4B | ~8GB | — | — |
| 26B A4B | ~18GB | ~28GB | — |
| 31B | ~20GB | ~34GB | ~80GB(H100) |
实用建议:
- 手机/树莓派 — E2B(LiteRT-LM/AI Edge Gallery)
- MacBook Air(8GB统一内存) — E4B 4bit
- 16GB 笔记本/台式机 — 26B A4B 4bit
- RTX 3090/4090(24GB VRAM) — 26B A4B 256K全速,31B 4bit可用
- NVIDIA H100(80GB) — 31B BF16
- NVIDIA DGX Spark(128GB统一) — 31B BF16
注意:26B A4B 虽然推理只激活 3.8 亿参数,但 252 亿参数加载时都要进内存,硬件预算要按总参数算。
选哪个模型?
- 选 E2B: 手机端、IoT、极低内存、需要音频输入。
- 选 E4B: 8–16GB 笔记本/中端GPU,音频输入+更强推理。
- 选 26B A4B: 16–24GB 显存,追求速度+高质量,适合本地 Agent、代码助手、文档处理。
- 选 31B: 追求极致质量/微调/高端硬件,不要盲目迷信参数,26B A4B 已足够大多数场景。
获取方式
- Google AI Studio — 31B/26B A4B 在线体验
- Google AI Edge Gallery — E4B/E2B 移动端优化
- Hugging Face — 四款模型权重全都有
- Ollama —
ollama run gemma4:e4b、gemma4:26b等 - LM Studio — 26B/31B 图形界面本地部署
- llama.cpp — 跨平台 CPU/GPU
- MLX — 苹果芯片优化
全部权重 Apache 2.0 许可,无月活限制,商用无门槛。
常见问题
Q:Gemma 4 26B A4B 的“A4B”啥意思? A:A 代表活跃参数,26B A4B 是 MoE 架构,总参数 252 亿,推理只激活 3.8 亿,算力消耗接近 4B,效果接近 26B。
Q:E2B/E4B 又是啥? A:E 代表有效参数,采用 PLE 技术,总参数远大于表面数字,但推理消耗与“E”数字一致。E2B 跑起来就是 2B 级别。
Q:Gemma 4 支持音频吗? A:只有 E2B/E4B 支持音频输入(语音识别/音频转文本),最长 30 秒。26B A4B/31B 不支持音频。
Q:Gemma 4 31B 需要多少显存? A:4bit 约 20GB,8bit 约 34GB,BF16 需单卡 80GB H100。大多数本地用户建议 4bit+24GB 显存。
Q:E2B 和 E4B 区别? A:都是边缘模型,128K 上下文,E4B 推理能力更强(MMLU Pro 69.4% vs 60.0%),但显存需求也更高(8GB vs 5GB)。能上 E4B 就别选 E2B。
Q:16GB 笔记本能跑 26B A4B 吗? A:4bit 约 18GB,16GB+独显共享内存可勉强,苹果 24GB 统一内存无压力。
Q:Gemma 4 比 Gemma 3 强多少? A:AIME 2026 数学从 20.8%(Gemma 3 27B)飙到 89.2%(Gemma 4 31B),LiveCodeBench 从 29.1% 到 80.0%,长上下文检索从 13.5% 到 66.4%,属于代际飞跃。
继续阅读
相关阅读
继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。



Gemma 4 26B A4B 显存要求:Q4、Q8、F16 与 24GB 显卡适配
一篇聚焦 Gemma 4 26B A4B 显存要求的实用指南,帮你判断 26B 为什么是很多本地用户最值得先试的版本。
还没决定下一篇看什么?
回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。
