Gemma 4 指南
Gemma 4 A4B 和 E4B 的区别:名称含义与选型指南

这两个名字确实容易混淆。E4B 和 26B A4B 都带有"4B",但这个"4B"在两者中含义完全不同,底层架构也截然不同。下面是你真正需要知道的内容。
E4B 是什么意思
E4B 里的"E"代表 effective parameters(有效参数),不是 edge(边缘)或 efficient(高效)。Google 使用了一种叫做 Per-Layer Embeddings(PLE,逐层嵌入)的技术:每个解码层都有自己的小嵌入表,向该层的计算提供残差信号。这些嵌入表在磁盘上占用不小,但计算开销很低,这就是为什么虽然完整权重数达到约 8B,但模型在运行时表现得像一个 4.5B 参数模型。
最终效果是:这是一个体积紧凑、但深度超过其参数数量所暗示水平的模型。E4B 专为手机和笔记本设计,目标是 8–16 GB 内存的使用场景。
E4B 还原生支持音频输入,而更大的 26B A4B 不支持。如果你的使用场景涉及音频,E4B 是目前支持音频的最大本地模型。
上下文窗口:128K token。
26B A4B 是什么意思
26B A4B 里的"A"代表 active parameters(激活参数)。26B A4B 是一个混合专家(MoE)模型,总参数约 25.2B,但每次前向推理只有约 3.8B 参数被激活。在运行时,它的速度接近 4B 模型,但调用的是更丰富的专家网络知识。
这就是为什么 A4B 在复杂任务上明显优于 E4B:总知识量远大,即使每次推理只用一小部分。但内存代价是真实的——全部 26B 权重都需要加载进内存,即使每次只激活一小部分。
上下文窗口:**256K token。**不原生支持音频输入。
内存需求
以下数据来自 Google 官方模型概览(含约 20% 开销)。Unsloth 的实测数据显示 26B A4B Q4 实际加载约需 18 GB,高于 Google 基准估算。
| 模型 | Q4 | Q8 | BF16 |
|---|---|---|---|
| Gemma 4 E2B | ~2.9 GB | ~5.7 GB | ~11.4 GB |
| Gemma 4 E4B | ~4.5 GB | ~8.9 GB | ~17.9 GB |
| Gemma 4 12B | ~6.7 GB | ~13.4 GB | ~26.7 GB |
| Gemma 4 26B A4B | ~14.4–18 GB | ~28 GB | ~52–58 GB |
| Gemma 4 31B | ~17.5 GB | ~34.9 GB | ~69.9 GB |
这些是模型加载的估算值,需在此基础上叠加 KV 缓存(随上下文长度增长)。长上下文场景下,KV 缓存内存可能超过模型权重本身。
实际质量差异
E4B 在对话、摘要、信息提取和简单 Agent 场景上完全够用。PLE 技术让它在同量级中表现出色。但在需要多步推理、复杂编程和长文档理解的任务上,26B A4B 会稳定地优于 E4B。
差距最明显的场景:
- 需要跟踪大文件中多个依赖关系的编程任务
- 需要多步推断才能得出结论的推理任务
- 文档足够长、早期上下文对后续结论有实质影响的场景
- 需要在多个约束下精确跟随指令的结构化输出
对于日常对话、快速摘要和提示词探索,两者的实际差距往往不大,E4B 反而更合适——加载更快、内存压力更小。
按硬件选择
| 你的机器 | 从这里开始 |
|---|---|
| 8 GB 内存笔记本 | E2B Q4,或 E4B Q4(如果能舒适放下) |
| 16 GB Mac 或 PC | E4B Q4 — 26B A4B 在这个内存级别太紧 |
| 24 GB 显卡 | 26B A4B Q4 可以放下;这是它的目标硬件 |
| 32 GB 系统 | 26B A4B Q4,有更多上下文空间 |
| 48 GB+ | 26B A4B Q8,或 31B Q4 |
| 64 GB+ 工作站 | 31B Q8,或比较 26B A4B Q8 与 31B Q4 |
不要在 16 GB 系统上强行跑 26B A4B Q4,除非你清楚你在接受什么:模型加载就会占满你几乎全部内存,上下文和运行时开销会把你推入慢速内存交换。
速度
因为每次推理步骤只有约 3.8B 参数被激活,26B A4B 的实际运行速度接近一个 4B 稠密模型——尽管总参数有 26B。在同等硬件上,它通常比稠密 31B 快,比任何稠密 26B 模型快得多。
E4B 的绝对速度更快,因为它本身就是更小的模型,加载也更快。
选择建议
第一次尝试 Gemma 4,机器有 8–16 GB 内存: 从 E4B Q4 开始。加载快、日常任务够用,让你快速判断 Gemma 4 是否适合你的工作流。
有 24 GB 显卡或更多内存,需要更强的推理、编程辅助或长上下文处理: 用 26B A4B Q4。
质量是第一优先级,内存不是瓶颈: 31B 仍然是这个系列中最好的模型。
26B A4B 不是将就之选,它是有足够内存的本地用户的首选。E4B 是消费级笔记本和手机用户的首选。
常见问题
E4B 支持音频输入吗?
支持。E4B(以及 E2B 和 12B)原生支持音频输入。26B A4B 和 31B 不支持。
为什么 E4B 的内存占用超过其参数数量所暗示的大小?
因为 Per-Layer Embeddings。嵌入表增加了磁盘大小和内存占用,而它们不计入 Google 宣传的"有效参数"数字中。
为什么 26B A4B 叫 26B,但只有约 3.8B 参数被激活?
因为模型将 26B 总参数分布在多个专家网络中,全部加载进内存,但每次前向推理只激活其中一个子集。这就是混合专家模型的工作方式。
16 GB 机器能跑 26B A4B 吗?
技术上某些配置下可以,但不推荐。Q4 状态下,模型加载就会接近内存上限,还没算上下文、KV 缓存或运行时开销。性能会因内存交换而变得很慢。
相关指南:
相关阅读
继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。



Gemma 4 26B A4B 显存要求:Q4、Q8、F16 与 24GB 显卡适配
一篇聚焦 Gemma 4 26B A4B 显存要求的实用指南,帮你判断 26B 为什么是很多本地用户最值得先试的版本。
还没决定下一篇看什么?
回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。
