Gemma 4 Q4 还是 Q8：到底应该下载哪个量化版本

下载 Gemma 4 GGUF 时，你是在选择一个压缩级别。文件名中的数字（Q4、Q5、Q8）是每个模型权重使用的比特数。比特数越低，文件越小、内存占用越少、质量损失越多。比特数越高，文件越大、内存越多、输出越接近完整精度模型。

大多数人的正确选择：从 Q4_K_M 开始。如果你想要明显更好的推理或编程输出，而且硬件有余量，移到 Q5_K_M。只有在确认 Q4 不够好、内存不是瓶颈的情况下，才移到 Q8。

还有一个更新的选项——QAT——会改变这道计算题。下面细说。

GGUF 命名体系

在 Hugging Face 上，模型文件的命名规律如 Q4_K_M、Q5_K_S、Q8_0。各部分含义：

Q4 = 4 位量化（每个模型权重存储 4 位）
K = K-quant 格式：混合精度，对敏感层保留更高精度
M = medium 变体（K-quant 家族中 S 更小，L 更大）
Q8_0 = 8 位，传统零点格式
Q4_0 = 4 位，传统零点格式（相同大小下比 Q4_K_M 差）

最重要的一点：Q4_0 和 Q4_K_M 不等价。 K-quant 格式在不同层类型间使用混合精度。实践中，Q4_K_M 在几乎相同文件大小下产生明显更好的输出。如果有选择，永远选 Q4_K_M。

内存需求

来自 Google 官方数据（含约 20% 开销）。Unsloth 实测显示 26B A4B Q4 加载约需 18 GB，高于 Google 基准估算。

模型	Q4_K_M	Q8_0	BF16
Gemma 4 E2B	~2.9 GB	~5.7 GB	~11.4 GB
Gemma 4 E4B	~4.5 GB	~8.9 GB	~17.9 GB
Gemma 4 12B	~6.7 GB	~13.4 GB	~26.7 GB
Gemma 4 26B A4B	~14.4–18 GB	~28 GB	~52–58 GB
Gemma 4 31B	~17.5 GB	~34.9 GB	~69.9 GB

这些是模型加载估算值，需在此基础上叠加 KV 缓存（随上下文长度增长）。长上下文场景下 KV 缓存内存可能超过模型权重本身。

质量差异真正出现在哪里

量化质量研究的结论一致：日常对话、摘要和信息提取对量化的抵御力非常强。 Q4_K_M 和 Q8 在对话任务上的困惑度差异在百分之几点以内——正常使用中感知不到。

差距在以下需要精度在多步骤间累积的任务中才变得可见：

多步推理链（量化误差在每一步叠加）
复杂代码生成和重构（精确 token 预测更重要）
数学密集型任务
长上下文工作（早期上下文需精确影响后续结论）
结构化输出（每个字段必须严格遵循 schema）

对大多数本地使用场景——聊天、文档问答、写作辅助、简单编程帮助——Q4_K_M 已经足够。如果你在运行编程 Agent 或复杂推理流程，在最终决定前值得测试 Q8。

被低估的中间选项：Q5_K_M

Q5_K_M 介于 Q4 和 Q8 之间，通常是以下情况的正确答案：

系统内存在 Q4 需要之上还有余量
进行 Q4 偶尔感觉不可靠的编程或推理工作
不想承受 Q8 全部 2 倍的内存代价

例如：在运行 26B A4B 的 32 GB 系统上，Q5_K_M 约占 20–22 GB，比 Q4_K_M 明显更好，内存增加量可控。Q8 需要约 28 GB，几乎没有给上下文留空间。

如果 Q4 已经挤满你的系统，Q5 放不下。但如果有舒适余量，在直接跳到 Q8 之前值得考虑 Q5_K_M。

按硬件选择下载的文件

你的配置	从这里开始
8 GB RAM 笔记本	E2B Q4_K_M，或 E4B Q4_K_M（如果能放下）
16 GB 系统	E4B Q4_K_M
24 GB 显卡	26B A4B Q4_K_M
32 GB 系统	26B A4B Q4_K_M，如果放得下可试 Q5_K_M
48 GB+	26B A4B Q8，或 31B Q4_K_M
64 GB+ 工作站	31B Q8，或 26B A4B Q8

如果模型勉强能以 Q4 放下，不要强行用 Q8。 改为选用较小模型的 Q5 或 Q6。一个在无内存压力情况下正常运行的模型，始终优于一个在不断交换内存的较大模型。

Gemma 4 QAT：改变这道计算题的选项

Google 于 2026 年 6 月 5 日发布了 Gemma 4 的量化感知训练（QAT）版本。QAT 模型在训练过程中内置量化模拟——模型学会补偿精度损失，而不是在事后压缩。

结果：QAT Q4 模型的性能明显优于相同大小的标准后训练 Q4 模型，有时接近 Q8 标准质量。

对 GGUF 使用，有两个相关路径：

Google 官方 QAT GGUF（Q4_0 格式）：直接在 Hugging Face 的 google/gemma-4-*-it-qat-q4_0-gguf 下提供。注意，将 QAT 检查点朴素转换到 llama.cpp 的 Q4_0 格式会损失部分 QAT 质量收益。
Unsloth 的 UD-Q4_K_XL GGUF：Unsloth 将其动态方法应用于 QAT 检查点，相比朴素转换恢复了 8–15 个百分点的 top-1 准确率，同时文件还更小。他们的文件命名为 UD-Q4_K_XL，发布在 unsloth/gemma-4-*-it-qat-GGUF。

比较标准 Q4_K_M 和 Unsloth 的 QAT UD-Q4_K_XL：在相同内存占用下，QAT 版本更好。 这是 4 位推理的首选。

IQ4_XS：尺寸优化的替代方案

IQ4_XS 使用重要性矩阵校准，在更小的整体文件中保留最关键的权重。经过适当校准，它可以以约小 9–10% 的文件大小匹配 Q4_K_M 质量。寻找来自可信发布者的标记为"imatrix"的文件。

这是次级优化。在寻找 imatrix 版本之前，先从知名发布者那里使用 Q4_K_M（或 QAT）。

应该避免的

Q3 和 Q2：对大多数任务，低于 Q4 质量会急剧下降。尤其是算术推理有明显的准确率悬崖。除非有非常特殊的内存限制原因，否则避免。

"以防万一"的 Q8：Q8 文件大小约为 Q4 的 2 倍。如果不确定 Q8 是否对你的场景有帮助，先测试 Q4，只在输出不够好时才升级。

来源不明的 GGUF：坚持使用 ggml-org、unsloth、bartowski 或 mradermacher。未知发布者可能产生量化不正确、tokenizer 配置错误或其他问题的 GGUF，表现为奇怪的模型行为，而不是明显的错误。

常见问题

Q8 总是比 Q4 好吗？
单独看是的。但如果 Q8 让你的系统不断进行内存交换，有充足余量的 Q4 会产生更稳定的结果。最好的量化是你的硬件能无压力运行的那个。

应该用 QAT 还是标准量化？
如果你的模型大小有来自 Unsloth 或 Google 的 QAT GGUF，它在 4 位级别是更好的选择。QAT 训练专门改善了 4 位精度。

Q4_0 和 Q4_K_M 有什么区别？
Q4_K_M 在不同层类型间使用混合精度，对敏感层保留更高精度。Q4_0 对所有层统一用 4 位。Q4_K_M 几乎总是更好。有选择时总选它。

量化会影响上下文窗口长度吗？
间接影响。精度较低的权重占用内存较少，为 KV 缓存留出更多空间。较低量化级别可以在相同硬件上支持更长的有效上下文，不会耗尽内存。

Gemma 4 Q4 还是 Q8：到底应该下载哪个量化版本

GGUF 命名体系

内存需求

质量差异真正出现在哪里

被低估的中间选项：Q5_K_M

按硬件选择下载的文件

Gemma 4 QAT：改变这道计算题的选项

IQ4_XS：尺寸优化的替代方案

应该避免的

常见问题

相关阅读

用 llama.cpp 运行 Gemma 4：完整 GGUF 配置指南（2026）

DiffusionGemma 能在 LM Studio 中运行吗？2026 年 6 月现状

修复 llama.cpp 中的 "unknown model architecture" 错误：gemma4 和 diffusion-gemma

还没决定下一篇看什么？