Gemma 4 指南
Gemma 4 Q4 还是 Q8:到底应该下载哪个量化版本

下载 Gemma 4 GGUF 时,你是在选择一个压缩级别。文件名中的数字(Q4、Q5、Q8)是每个模型权重使用的比特数。比特数越低,文件越小、内存占用越少、质量损失越多。比特数越高,文件越大、内存越多、输出越接近完整精度模型。
大多数人的正确选择:从 Q4_K_M 开始。如果你想要明显更好的推理或编程输出,而且硬件有余量,移到 Q5_K_M。只有在确认 Q4 不够好、内存不是瓶颈的情况下,才移到 Q8。
还有一个更新的选项——QAT——会改变这道计算题。下面细说。
GGUF 命名体系
在 Hugging Face 上,模型文件的命名规律如 Q4_K_M、Q5_K_S、Q8_0。各部分含义:
- Q4 = 4 位量化(每个模型权重存储 4 位)
- K = K-quant 格式:混合精度,对敏感层保留更高精度
- M = medium 变体(K-quant 家族中 S 更小,L 更大)
- Q8_0 = 8 位,传统零点格式
- Q4_0 = 4 位,传统零点格式(相同大小下比 Q4_K_M 差)
最重要的一点:Q4_0 和 Q4_K_M 不等价。 K-quant 格式在不同层类型间使用混合精度。实践中,Q4_K_M 在几乎相同文件大小下产生明显更好的输出。如果有选择,永远选 Q4_K_M。
内存需求
来自 Google 官方数据(含约 20% 开销)。Unsloth 实测显示 26B A4B Q4 加载约需 18 GB,高于 Google 基准估算。
| 模型 | Q4_K_M | Q8_0 | BF16 |
|---|---|---|---|
| Gemma 4 E2B | ~2.9 GB | ~5.7 GB | ~11.4 GB |
| Gemma 4 E4B | ~4.5 GB | ~8.9 GB | ~17.9 GB |
| Gemma 4 12B | ~6.7 GB | ~13.4 GB | ~26.7 GB |
| Gemma 4 26B A4B | ~14.4–18 GB | ~28 GB | ~52–58 GB |
| Gemma 4 31B | ~17.5 GB | ~34.9 GB | ~69.9 GB |
这些是模型加载估算值,需在此基础上叠加 KV 缓存(随上下文长度增长)。长上下文场景下 KV 缓存内存可能超过模型权重本身。
质量差异真正出现在哪里
量化质量研究的结论一致:日常对话、摘要和信息提取对量化的抵御力非常强。 Q4_K_M 和 Q8 在对话任务上的困惑度差异在百分之几点以内——正常使用中感知不到。
差距在以下需要精度在多步骤间累积的任务中才变得可见:
- 多步推理链(量化误差在每一步叠加)
- 复杂代码生成和重构(精确 token 预测更重要)
- 数学密集型任务
- 长上下文工作(早期上下文需精确影响后续结论)
- 结构化输出(每个字段必须严格遵循 schema)
对大多数本地使用场景——聊天、文档问答、写作辅助、简单编程帮助——Q4_K_M 已经足够。如果你在运行编程 Agent 或复杂推理流程,在最终决定前值得测试 Q8。
被低估的中间选项:Q5_K_M
Q5_K_M 介于 Q4 和 Q8 之间,通常是以下情况的正确答案:
- 系统内存在 Q4 需要之上还有余量
- 进行 Q4 偶尔感觉不可靠的编程或推理工作
- 不想承受 Q8 全部 2 倍的内存代价
例如:在运行 26B A4B 的 32 GB 系统上,Q5_K_M 约占 20–22 GB,比 Q4_K_M 明显更好,内存增加量可控。Q8 需要约 28 GB,几乎没有给上下文留空间。
如果 Q4 已经挤满你的系统,Q5 放不下。但如果有舒适余量,在直接跳到 Q8 之前值得考虑 Q5_K_M。
按硬件选择下载的文件
| 你的配置 | 从这里开始 |
|---|---|
| 8 GB RAM 笔记本 | E2B Q4_K_M,或 E4B Q4_K_M(如果能放下) |
| 16 GB 系统 | E4B Q4_K_M |
| 24 GB 显卡 | 26B A4B Q4_K_M |
| 32 GB 系统 | 26B A4B Q4_K_M,如果放得下可试 Q5_K_M |
| 48 GB+ | 26B A4B Q8,或 31B Q4_K_M |
| 64 GB+ 工作站 | 31B Q8,或 26B A4B Q8 |
如果模型勉强能以 Q4 放下,不要强行用 Q8。 改为选用较小模型的 Q5 或 Q6。一个在无内存压力情况下正常运行的模型,始终优于一个在不断交换内存的较大模型。
Gemma 4 QAT:改变这道计算题的选项
Google 于 2026 年 6 月 5 日发布了 Gemma 4 的量化感知训练(QAT)版本。QAT 模型在训练过程中内置量化模拟——模型学会补偿精度损失,而不是在事后压缩。
结果:QAT Q4 模型的性能明显优于相同大小的标准后训练 Q4 模型,有时接近 Q8 标准质量。
对 GGUF 使用,有两个相关路径:
-
Google 官方 QAT GGUF(Q4_0 格式):直接在 Hugging Face 的
google/gemma-4-*-it-qat-q4_0-gguf下提供。注意,将 QAT 检查点朴素转换到 llama.cpp 的 Q4_0 格式会损失部分 QAT 质量收益。 -
Unsloth 的 UD-Q4_K_XL GGUF:Unsloth 将其动态方法应用于 QAT 检查点,相比朴素转换恢复了 8–15 个百分点的 top-1 准确率,同时文件还更小。他们的文件命名为
UD-Q4_K_XL,发布在unsloth/gemma-4-*-it-qat-GGUF。
比较标准 Q4_K_M 和 Unsloth 的 QAT UD-Q4_K_XL:在相同内存占用下,QAT 版本更好。 这是 4 位推理的首选。
IQ4_XS:尺寸优化的替代方案
IQ4_XS 使用重要性矩阵校准,在更小的整体文件中保留最关键的权重。经过适当校准,它可以以约小 9–10% 的文件大小匹配 Q4_K_M 质量。寻找来自可信发布者的标记为"imatrix"的文件。
这是次级优化。在寻找 imatrix 版本之前,先从知名发布者那里使用 Q4_K_M(或 QAT)。
应该避免的
Q3 和 Q2:对大多数任务,低于 Q4 质量会急剧下降。尤其是算术推理有明显的准确率悬崖。除非有非常特殊的内存限制原因,否则避免。
"以防万一"的 Q8:Q8 文件大小约为 Q4 的 2 倍。如果不确定 Q8 是否对你的场景有帮助,先测试 Q4,只在输出不够好时才升级。
来源不明的 GGUF:坚持使用 ggml-org、unsloth、bartowski 或 mradermacher。未知发布者可能产生量化不正确、tokenizer 配置错误或其他问题的 GGUF,表现为奇怪的模型行为,而不是明显的错误。
常见问题
Q8 总是比 Q4 好吗?
单独看是的。但如果 Q8 让你的系统不断进行内存交换,有充足余量的 Q4 会产生更稳定的结果。最好的量化是你的硬件能无压力运行的那个。
应该用 QAT 还是标准量化?
如果你的模型大小有来自 Unsloth 或 Google 的 QAT GGUF,它在 4 位级别是更好的选择。QAT 训练专门改善了 4 位精度。
Q4_0 和 Q4_K_M 有什么区别?
Q4_K_M 在不同层类型间使用混合精度,对敏感层保留更高精度。Q4_0 对所有层统一用 4 位。Q4_K_M 几乎总是更好。有选择时总选它。
量化会影响上下文窗口长度吗?
间接影响。精度较低的权重占用内存较少,为 KV 缓存留出更多空间。较低量化级别可以在相同硬件上支持更长的有效上下文,不会耗尽内存。
相关指南:
相关阅读
继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

如何用 llama.cpp 本地运行 Gemma 4:GGUF 配置、硬件要求与量化指南
从硬件配置表到一键复制的构建命令,再到量化方案和多模态配置——让 Gemma 4 在本地跑起来所需的一切都在这里。

DiffusionGemma 能在 LM Studio 中运行吗?2026 年 6 月现状
LM Studio 的 llama.cpp 和 MLX 引擎在 2026 年 6 月都无法加载 DiffusionGemma。本文解释这些错误的含义、在哪里跟踪,以及实际有效的工具。

修复 llama.cpp 中的 "unknown model architecture" 错误:gemma4 和 diffusion-gemma
gemma4 和 diffusion-gemma 架构错误有不同的原因和不同的修复方法。把它们当作同一个问题处理只会浪费时间。
还没决定下一篇看什么?
回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。
