Gemma 4 指南

Gemma 4 硬件要求:显存、内存与模型尺寸完整指南

约 6 分钟
gemma 4硬件要求显存内存
Gemma 4 硬件要求:显存、内存与模型尺寸完整指南

Google DeepMind 于 2026 年 4 月 2 日发布了 Gemma 4,共四个开放权重模型,均采用 Apache 2.0 许可证,底层研究与 Gemini 3 同源。在下载任何文件之前,最关键的问题只有一个:哪个模型能跑在你的硬件上?

本文直接给出答案。你将看到按模型和量化精度整理的内存对照表、按上下文长度变化的显存数据、真实 GPU 基准测试,以及一个简单的决策树帮你确定从哪个版本开始。


Gemma 4 模型家族概览

Gemma 4 共有四个尺寸,每个尺寸均提供基础版(base)和指令微调版(instruct):

模型 架构 总参数量 激活参数量 上下文窗口 支持模态
E2B 稠密(PLE) ~5.1B ~2.3B 128K 文本、图片、音频、视频
E4B 稠密(PLE) ~5.1B ~4B 128K 文本、图片、音频、视频
26B A4B MoE 26B 激活 4B 256K 文本、图片、视频
31B 稠密 31B 31B 256K 文本、图片、视频

"E" 前缀代表有效参数(Effective parameters)。E2B 和 E4B 采用逐层嵌入(Per-Layer Embeddings,PLE)技术,能在保持较低内存占用的同时,获得远超其参数量级的表达深度。26B A4B 是 Gemma 系列首个混合专家(MoE)模型,推理时仅激活 260 亿参数中的 40 亿,与同等规模的稠密模型相比,显存压力大幅降低。


Gemma 4 显存/内存需求(按模型与量化精度)

这是大多数人最想看的表格。以下数字是加载模型权重所需的最低内存——实际运行时的内存占用会因上下文长度和系统开销而更高。

模型 4-bit (Q4) 8-bit (Q8) BF16(全精度)
E2B ~2 GB ~5 GB ~15 GB
E4B ~5 GB ~8 GB ~15 GB
26B A4B ~18 GB ~28 GB ~52 GB
31B ~20 GB ~34 GB ~62 GB

说明: BF16 精度的 31B 权重可装入单张 80 GB NVIDIA H100 GPU。对于消费级本地推理,量化版本(Q4 或 Q8)是实际可行的选择。

核心要点:

  • E2B 和 E4B 的 4-bit 版本可在 8 GB 内存或统一内存的笔记本上运行,包括入门级 Apple Silicon Mac。
  • 26B A4B Q4 版本约需 18 GB,但受益于 MoE 架构的高效特性,实际激活的内存压力远低于同参数量的稠密模型。
  • 31B Q4 版本加载约需 20 GB;24 GB 显存的 GPU 可在较短上下文长度下运行。

Gemma 4 26B A4B:按上下文长度的显存需求

26B A4B 是本地用户最值得关注的模型。其混合注意力架构使上下文扩展效率远优于上一代——长上下文不会导致显存占用急剧攀升。

26B A4B @ Q4——按上下文长度的显存需求(测试环境:llama.cpp,Debian 12,CUDA 12.8):

上下文长度 所需显存
4K 17.98 GB
8K 18 GB
16K 18 GB
32K 18 GB
64K 19 GB
128K 20 GB
256K 23 GB

24 GB 显存的 GPU(RTX 3090、RTX 4090)可轻松运行完整的 256K 上下文窗口,且有余量。这对于这个质量级别的模型来说相当罕见,也是 26B A4B 成为大多数本地用户首选的核心原因。


Gemma 4 31B:按上下文长度的显存需求

31B 是完全稠密模型——推理时每个参数都会被激活。与 MoE 架构的 26B 相比,内存随上下文长度的增长更为明显。

31B @ Q4——按上下文长度的显存需求:

上下文长度 所需显存
4K 20 GB
8K 21 GB
16K 21 GB
32K 22 GB
64K 25 GB
128K 30 GB
256K 40 GB

24 GB 显存的 GPU 可运行 31B 约至 45K token 的上下文长度,之后便会触及显存上限。若要在 31B 上使用完整 256K 上下文,则需要 40 GB 以上的显存——即 48 GB 工作站 GPU、双卡配置,或搭载 48–64 GB 统一内存的 Apple Silicon Mac。


GPU 性能基准测试

以下数据来自 llama.cpp(build 8639)在同一测试机器上的实测结果(AMD EPYC 7513,64 GB RAM,Debian 12,CUDA 12.8)。pp = 提示词处理速度(token/s),tg = 文本生成速度(token/s)。

26B A4B @ Q4

GPU 上下文 pp (t/s) tg (t/s)
RTX 3090 4K 3,625 119
RTX 3090 128K 1,147 82
RTX 3090 256K 671 64
RTX 5090 4K 8,799 180
RTX 5090 128K 2,839 130
RTX 5090 256K 1,707 106
RTX PRO 6000 Blackwell 4K 9,437 196
RTX PRO 6000 Blackwell 256K 2,245 112

26B A4B 在 RTX 3090 上处理 128K 上下文时,提示词处理速度超过 1,000 token/s——足以满足实际 Agent 工作流的需求。

31B @ Q4

GPU 上下文 pp (t/s) tg (t/s)
RTX 3090 4K 1,155 34
RTX 3090 32K 723 31
RTX 3090 ~45K 629 30
RTX 5090 4K 3,395 61
RTX 5090 64K 1,459 51
RTX 5090 128K 900 43
RTX PRO 6000 Blackwell 4K 3,749 61
RTX PRO 6000 Blackwell 256K 506 34

31B 的速度明显慢于 26B——RTX 3090 上的生成速度约为 30–34 token/s,而 MoE 模型为 64–119 token/s。如果你的工作流对速度有要求,在消费级硬件上 26B A4B 是更好的选择。


按硬件配置的推荐方案

按 GPU 显存大小

你的硬件 推荐模型 备注
6–8 GB 显存(GTX 1080、RTX 3070、入门级笔记本) E2B 或 E4B @ Q4 CPU+内存同样可运行,只是速度较慢
10–16 GB 显存(RTX 3080、M2 Pro 16 GB) E4B @ Q8 或 E2B @ BF16 26B A4B 在 Q4 下仍超出显存
20–24 GB 显存(RTX 3090、RTX 4090) 26B A4B @ Q4(完整 256K 上下文) 大多数本地用户的甜蜜点
24 GB 显存 31B @ Q4(约 45K 上下文) 上下文受限;此配置通常 26B A4B 更优
32 GB 显存(RTX 5090) 31B @ Q4(最长 128K 上下文) 运行 31B 的舒适配置
48–96 GB 显存(RTX PRO 6000 / 多卡配置) 31B @ Q4 或 Q8(完整 256K 上下文) 满血上下文,最高质量

Apple Silicon

Apple Silicon 的 CPU 和 GPU 共用统一内存,非常适合本地 LLM 推理。所有 Gemma 4 模型均支持通过 MLX 和 llama.cpp 使用 Metal 加速。

Mac 配置 推荐模型
M1 / M2(8 GB) E2B 或 E4B @ Q4
M2 Pro / M3 Pro(18–36 GB) 26B A4B @ Q4
M2 Max / M3 Max(48–64 GB) 31B @ Q4 或 Q8
M2 Ultra / M3 Ultra(96–192 GB) 31B @ BF16(全精度)

实测提示: 在搭载 24 GB 统一内存的 Mac Mini 上,通过 Ollama 以 Q4_K_M 量化运行 26B A4B(约占 9.6 GB),表现流畅且有充足余量。但若在 24 GB Mac 上以全量化运行 26B,并发请求下系统响应会变得非常迟缓——请坚持使用 Q4 并为系统保留内存余量。


如何在本地实际运行 Gemma 4

三款工具覆盖大多数本地部署场景:

Ollama — 最简单的入门方式:

ollama run gemma4:e4b          # E4B(默认 Q4_K_M)
ollama run gemma4:26b-a4b      # 26B MoE
ollama run gemma4:31b          # 31B Dense

llama.cpp — 最适合纯 CPU 推理和自定义量化:

# 下载并编译 llama.cpp,然后:
llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL

Unsloth Studio — 开源 Web UI,支持 macOS/Windows/Linux,一行命令安装:

# macOS / Linux
curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888

LM Studio 也原生支持 Gemma 4 GGUF 文件,如果你更偏好 GUI 界面且不想接触命令行,这是一个不错的选择。


26B A4B 与 31B:该选哪个?

选择取决于你的硬件预算以及你更看重什么。

选择 26B A4B,如果你:

  • 拥有 24 GB 显存的 GPU,且需要完整 256K 上下文
  • 对速度有要求——同等硬件下生成速度是 31B 的 2–3 倍
  • 在运行 Agent 工作流、代码助手,或任何涉及长上下文轨迹的场景

选择 31B,如果你:

  • 拥有 32 GB+ 显存或大统一内存的 Mac
  • 希望使用行为更可预期的全稠密模型
  • 需要进行微调,且需要访问完整参数
  • 在较短上下文下对原始输出质量有最高要求

对于大多数使用消费级硬件的本地用户,26B A4B 是更明显的选择。它可以完整装入 24 GB 显存的 GPU,支持完整的 256K 上下文窗口,且吞吐量足以让 Agent 工作流流畅运行。


常见问题解答

没有 GPU 能运行 Gemma 4 吗? 可以。所有版本均可通过 llama.cpp 在纯 CPU 上运行。文本生成速度约降至 5–10 token/s,用于测试尚可,但日常使用较慢。E2B 和 E4B 是纯 CPU 场景下最实用的选择。

Q4 和 Q8 量化有什么区别? Q4(4-bit)相较 BF16 可减少约 60% 的内存占用;Q8(8-bit)可减少约 50%。Q4 会损失少量精度(基准测试约下降 2–5%),但能让模型在更多设备上运行。大多数推理任务推荐从 Q4_K_M 开始。如果显存充足且希望接近全精度输出,可选择 Q8。

Gemma 4 支持在消费级硬件上微调吗? 支持,通过 QLoRA(量化 LoRA)实现。使用 Unsloth 或 TRL,31B 模型最低 16 GB 显存即可进行 QLoRA 微调。全量微调则需要更多显存——31B 至少需要 80 GB。

E2B、E4B 与更大模型有何区别? E2B 和 E4B 为设备端和移动端场景设计,利用逐层嵌入(PLE)技术使模型能力超越其参数量级,并支持音频输入(最长 30 秒)。26B 和 31B 面向工作站和服务器,具备 256K 上下文和更强的推理能力。四个模型均支持图片和视频输入。

Gemma 4 可免费用于商业用途吗? 可以。Gemma 4 采用 Apache 2.0 许可证,允许免费商业使用、微调、再分发和修改,无月活跃用户(MAU)上限或用途限制。

运行时需要为上下文窗口额外预留显存吗? 需要。本文中的数字仅为加载模型权重所需的内存。使用更长的上下文窗口会在此基础上增加显存占用。对于 26B A4B,增量较小(4K 时 18 GB → 256K 时 23 GB);对于 31B,增量更大(4K 时 20 GB → 256K 时 40 GB)。始终在模型基础大小之上预留至少 2–4 GB 余量,用于运行时、KV 缓存和系统开销。


总结

如果你在纠结从哪里开始,简短版如下:

  • 轻量设备(8 GB 内存/显存): 从 E2B 或 E4B 的 Q4 版本开始。
  • 中端设备(16–20 GB): E4B @ Q8,或尝试激进量化的 26B A4B。
  • 24 GB 显存(RTX 3090 / 4090): 26B A4B @ Q4——可轻松运行完整 256K 上下文,这是最优甜蜜点。
  • 32 GB 显存(RTX 5090)或 48 GB+ Mac: 31B @ Q4,享受完整上下文和最高质量输出。

Gemma 4 系列是迄今为止硬件效率最高的开放模型发布之一。26B MoE 尤其值得关注——它让过去根本无法触及的完整 256K 上下文推理,在消费级硬件上成为现实。

继续阅读

相关阅读

继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

还没决定下一篇看什么?

回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。