Gemma 4 指南

Gemma 4 A4B 和 E4B 的区别:名称含义与选型指南

约 7 分钟
gemma 4a4be4b模型对比本地大模型
Gemma 4 A4B 和 E4B 的区别:名称含义与选型指南

这两个名字确实容易混淆。E4B 和 26B A4B 都带有"4B",但这个"4B"在两者中含义完全不同,底层架构也截然不同。下面是你真正需要知道的内容。

E4B 是什么意思

E4B 里的"E"代表 effective parameters(有效参数),不是 edge(边缘)或 efficient(高效)。Google 使用了一种叫做 Per-Layer Embeddings(PLE,逐层嵌入)的技术:每个解码层都有自己的小嵌入表,向该层的计算提供残差信号。这些嵌入表在磁盘上占用不小,但计算开销很低,这就是为什么虽然完整权重数达到约 8B,但模型在运行时表现得像一个 4.5B 参数模型。

最终效果是:这是一个体积紧凑、但深度超过其参数数量所暗示水平的模型。E4B 专为手机和笔记本设计,目标是 8–16 GB 内存的使用场景。

E4B 还原生支持音频输入,而更大的 26B A4B 不支持。如果你的使用场景涉及音频,E4B 是目前支持音频的最大本地模型。

上下文窗口:128K token。

26B A4B 是什么意思

26B A4B 里的"A"代表 active parameters(激活参数)。26B A4B 是一个混合专家(MoE)模型,总参数约 25.2B,但每次前向推理只有约 3.8B 参数被激活。在运行时,它的速度接近 4B 模型,但调用的是更丰富的专家网络知识。

这就是为什么 A4B 在复杂任务上明显优于 E4B:总知识量远大,即使每次推理只用一小部分。但内存代价是真实的——全部 26B 权重都需要加载进内存,即使每次只激活一小部分。

上下文窗口:**256K token。**不原生支持音频输入。

内存需求

以下数据来自 Google 官方模型概览(含约 20% 开销)。Unsloth 的实测数据显示 26B A4B Q4 实际加载约需 18 GB,高于 Google 基准估算。

模型 Q4 Q8 BF16
Gemma 4 E2B ~2.9 GB ~5.7 GB ~11.4 GB
Gemma 4 E4B ~4.5 GB ~8.9 GB ~17.9 GB
Gemma 4 12B ~6.7 GB ~13.4 GB ~26.7 GB
Gemma 4 26B A4B ~14.4–18 GB ~28 GB ~52–58 GB
Gemma 4 31B ~17.5 GB ~34.9 GB ~69.9 GB

这些是模型加载的估算值,需在此基础上叠加 KV 缓存(随上下文长度增长)。长上下文场景下,KV 缓存内存可能超过模型权重本身。

实际质量差异

E4B 在对话、摘要、信息提取和简单 Agent 场景上完全够用。PLE 技术让它在同量级中表现出色。但在需要多步推理、复杂编程和长文档理解的任务上,26B A4B 会稳定地优于 E4B。

差距最明显的场景:

  • 需要跟踪大文件中多个依赖关系的编程任务
  • 需要多步推断才能得出结论的推理任务
  • 文档足够长、早期上下文对后续结论有实质影响的场景
  • 需要在多个约束下精确跟随指令的结构化输出

对于日常对话、快速摘要和提示词探索,两者的实际差距往往不大,E4B 反而更合适——加载更快、内存压力更小。

按硬件选择

你的机器 从这里开始
8 GB 内存笔记本 E2B Q4,或 E4B Q4(如果能舒适放下)
16 GB Mac 或 PC E4B Q4 — 26B A4B 在这个内存级别太紧
24 GB 显卡 26B A4B Q4 可以放下;这是它的目标硬件
32 GB 系统 26B A4B Q4,有更多上下文空间
48 GB+ 26B A4B Q8,或 31B Q4
64 GB+ 工作站 31B Q8,或比较 26B A4B Q8 与 31B Q4

不要在 16 GB 系统上强行跑 26B A4B Q4,除非你清楚你在接受什么:模型加载就会占满你几乎全部内存,上下文和运行时开销会把你推入慢速内存交换。

速度

因为每次推理步骤只有约 3.8B 参数被激活,26B A4B 的实际运行速度接近一个 4B 稠密模型——尽管总参数有 26B。在同等硬件上,它通常比稠密 31B 快,比任何稠密 26B 模型快得多。

E4B 的绝对速度更快,因为它本身就是更小的模型,加载也更快。

选择建议

第一次尝试 Gemma 4,机器有 8–16 GB 内存:E4B Q4 开始。加载快、日常任务够用,让你快速判断 Gemma 4 是否适合你的工作流。

有 24 GB 显卡或更多内存,需要更强的推理、编程辅助或长上下文处理:26B A4B Q4

质量是第一优先级,内存不是瓶颈: 31B 仍然是这个系列中最好的模型。

26B A4B 不是将就之选,它是有足够内存的本地用户的首选。E4B 是消费级笔记本和手机用户的首选。

常见问题

E4B 支持音频输入吗?
支持。E4B(以及 E2B 和 12B)原生支持音频输入。26B A4B 和 31B 不支持。

为什么 E4B 的内存占用超过其参数数量所暗示的大小?
因为 Per-Layer Embeddings。嵌入表增加了磁盘大小和内存占用,而它们不计入 Google 宣传的"有效参数"数字中。

为什么 26B A4B 叫 26B,但只有约 3.8B 参数被激活?
因为模型将 26B 总参数分布在多个专家网络中,全部加载进内存,但每次前向推理只激活其中一个子集。这就是混合专家模型的工作方式。

16 GB 机器能跑 26B A4B 吗?
技术上某些配置下可以,但不推荐。Q4 状态下,模型加载就会接近内存上限,还没算上下文、KV 缓存或运行时开销。性能会因内存交换而变得很慢。

相关指南:

相关阅读

继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

还没决定下一篇看什么?

回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。