Gemma 4 指南

Gemma 4 模型全家桶对比:31B、26B A4B、E4B、E2B 中文详解

约 8 分钟
gemma 4模型对比31b26be4be2ba4b
Gemma 4 模型全家桶对比:31B、26B A4B、E4B、E2B 中文详解

2026年4月3日,Google 发布了 Gemma 4,但它不是一个模型,而是四个同宗不同命的模型。每个版本在显存、速度、多模态支持、推理能力等方面各有取舍。选错了,可能就是白下几十GB,或者你的硬件明明能跑更强的模型却被性能拖后腿。

本指南将彻底解读 Gemma 4 的命名体系,详细对比四大模型的真实差异,帮你在下载权重前做出明智选择。


命名到底什么意思?

Gemma 4 的命名第一次看几乎没人不懵。下面是每个前缀和后缀的真正含义:

E2B / E4B —— “有效参数”,为边缘设备打造

E 代表 有效参数(Effective Parameters)。E2B 推理时有效参数为 23 亿,总参数 51 亿。E4B 同理。之所以有差距,是因为 Google 用了 Per-Layer Embeddings(PLE)技术:每层解码器有独立的小型嵌入表,推理时只消耗少量算力,但模型表现力远超参数表面数字。结果就是,模型体积适合手机/笔记本,但推理能力远超同级。

26B A4B —— “活跃参数”,MoE 架构

A 代表 活跃参数(Active Parameters)。26B A4B 是 MoE(专家混合)模型,总参数 252 亿,但每步推理只激活 3.8 亿。Google 用了 128 个小专家,每步激活 8 个+1个常驻专家。实际推理速度接近 4B 密集模型,但效果接近 31B。26B 代表存储需求,A4B 代表推理算力消耗。

31B —— 纯密集,无花活

每个参数每步都参与推理,算力消耗最大,但效果天花板最高,也是微调的最佳基座。


四大模型一览

E2B E4B 26B A4B 31B
架构 密集(Edge) 密集(Edge) MoE 密集
有效/活跃参数 ~23亿 ~40亿 ~3.8亿活跃 30.7亿
总参数 51亿 ~90亿 252亿 30.7亿
上下文窗口 128K 128K 256K 256K
音频输入
图像/视频输入
目标硬件 手机/IoT 笔记本 消费级GPU H100/高端GPU
显存需求(4bit量化) ~5GB ~8GB ~18GB ~20GB
显存需求(8/16bit) ~15GB ~28GB ~34GB
LMArena Elo(文本) 1441 1452
Open model rank #6 #3

显存数据来自 Unsloth 部署指南,实际消耗会因上下文长度、量化方式、系统开销略有浮动。


基准分数

以下分数均来自 Google 官方 model card 及指令微调版。AIME 2026、LiveCodeBench v6、MMLU Pro 均为新一代基准,不能直接与 Gemma 3 横向对比。

31B 密集

基准 分数
AIME 2026(数学) 89.2%
LiveCodeBench v6(代码) 80.0%
GPQA Diamond(科学推理) 84.3%
MMLU Pro(知识) 85.2%
MMMU Pro(视觉) 76.9%
MATH-Vision 85.6%
Codeforces ELO 2150
多针检索(长上下文) 66.4%

Gemma 3 27B 仅 20.8%(AIME)/29.1%(LiveCodeBench),Gemma 4 属于代际飞跃。

26B A4B(MoE)

基准 分数
AIME 2026 88.3%
LiveCodeBench v6 77.1%
GPQA Diamond 82.3%
MMLU Pro 82.6%

26B A4B 只激活 3.8 亿参数,效果达 31B 的 97%,LMArena Elo 1441 vs 1452,实际体验差距极小。

E4B

基准 分数
AIME 2026 42.5%
LiveCodeBench v6 52.0%
MMLU Pro 69.4%
MMMU Pro(视觉) 52.6%

能在 T4 GPU 或 MacBook Air 跑,推理能力虽不及高端型号,但 OCR、图像理解、代码辅助等场景表现优异。

E2B

基准 分数
AIME 2026 37.5%
LiveCodeBench v6 44.0%
MMLU Pro 60.0%
MMMU Pro(视觉) 44.2%

E2B 可在树莓派5等极端低配设备运行,Google 实测 LiteRT-LM 跑 E2B,解码速度约 7.6 token/s,虽慢但能用。


关键差异

音频输入不是全家桶标配

只有 E2B 和 E4B 支持音频输入(语音识别/音频转文本),单段最长 30 秒。26B A4B 和 31B 完全不支持音频。

上下文长度分两档

E2B/E4B 最多 128K token,26B A4B/31B 可达 256K。Gemma 4 的 256K 是真能用的长上下文,检索能力大幅提升。

MoE vs 密集 = 速度与微调权衡

26B A4B 推理速度接近 4B 密集模型,非常适合需要大量生成的场景。31B 虽慢但行为更稳定,微调更友好。

视频支持有硬性上限

四款模型都能处理视频,但仅支持 1fps、最长 60 秒,适合短片、UI录屏、Demo总结,不适合长视频分析。

训练数据截止到 2025年1月

Gemma 4 训练集截止 2025年1月,256K 上下文无法弥补知识盲区,需结合检索增强或工具调用。


硬件需求

以下为量化推理下的近似需求,"总内存"指 RAM+VRAM(统一内存架构如苹果),或独立显卡 VRAM。

模型 4bit量化 8bit量化 未量化(BF16)
E2B ~5GB ~15GB
E4B ~8GB
26B A4B ~18GB ~28GB
31B ~20GB ~34GB ~80GB(H100)

实用建议:

  • 手机/树莓派 — E2B(LiteRT-LM/AI Edge Gallery)
  • MacBook Air(8GB统一内存) — E4B 4bit
  • 16GB 笔记本/台式机 — 26B A4B 4bit
  • RTX 3090/4090(24GB VRAM) — 26B A4B 256K全速,31B 4bit可用
  • NVIDIA H100(80GB) — 31B BF16
  • NVIDIA DGX Spark(128GB统一) — 31B BF16

注意:26B A4B 虽然推理只激活 3.8 亿参数,但 252 亿参数加载时都要进内存,硬件预算要按总参数算。


选哪个模型?

  • 选 E2B: 手机端、IoT、极低内存、需要音频输入。
  • 选 E4B: 8–16GB 笔记本/中端GPU,音频输入+更强推理。
  • 选 26B A4B: 16–24GB 显存,追求速度+高质量,适合本地 Agent、代码助手、文档处理。
  • 选 31B: 追求极致质量/微调/高端硬件,不要盲目迷信参数,26B A4B 已足够大多数场景。

获取方式

  • Google AI Studio — 31B/26B A4B 在线体验
  • Google AI Edge Gallery — E4B/E2B 移动端优化
  • Hugging Face — 四款模型权重全都有
  • Ollamaollama run gemma4:e4bgemma4:26b
  • LM Studio — 26B/31B 图形界面本地部署
  • llama.cpp — 跨平台 CPU/GPU
  • MLX — 苹果芯片优化

全部权重 Apache 2.0 许可,无月活限制,商用无门槛。


常见问题

Q:Gemma 4 26B A4B 的“A4B”啥意思? A:A 代表活跃参数,26B A4B 是 MoE 架构,总参数 252 亿,推理只激活 3.8 亿,算力消耗接近 4B,效果接近 26B。

Q:E2B/E4B 又是啥? A:E 代表有效参数,采用 PLE 技术,总参数远大于表面数字,但推理消耗与“E”数字一致。E2B 跑起来就是 2B 级别。

Q:Gemma 4 支持音频吗? A:只有 E2B/E4B 支持音频输入(语音识别/音频转文本),最长 30 秒。26B A4B/31B 不支持音频。

Q:Gemma 4 31B 需要多少显存? A:4bit 约 20GB,8bit 约 34GB,BF16 需单卡 80GB H100。大多数本地用户建议 4bit+24GB 显存。

Q:E2B 和 E4B 区别? A:都是边缘模型,128K 上下文,E4B 推理能力更强(MMLU Pro 69.4% vs 60.0%),但显存需求也更高(8GB vs 5GB)。能上 E4B 就别选 E2B。

Q:16GB 笔记本能跑 26B A4B 吗? A:4bit 约 18GB,16GB+独显共享内存可勉强,苹果 24GB 统一内存无压力。

Q:Gemma 4 比 Gemma 3 强多少? A:AIME 2026 数学从 20.8%(Gemma 3 27B)飙到 89.2%(Gemma 4 31B),LiveCodeBench 从 29.1% 到 80.0%,长上下文检索从 13.5% 到 66.4%,属于代际飞跃。

继续阅读

相关阅读

继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

还没决定下一篇看什么?

回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。