Gemma 4 指南

llama.cpp 支持 Gemma 4 吗?GGUF 状态、修复与当前可用性

约 6 分钟
gemma 4llama.cppgguf本地大模型兼容性
可阅读语言English中文
llama.cpp 支持 Gemma 4 吗?GGUF 状态、修复与当前可用性

如果你搜索的是 llama.cpp 支持 Gemma 4 吗,先给明确答案:支持。

截至 2026 年 4 月 7 日ggml-org 已经公开了完整 Gemma 4 家族的 GGUF 页面:

  • Gemma 4 E2B
  • Gemma 4 E4B
  • Gemma 4 26B A4B
  • Gemma 4 31B

而这些 GGUF 页面本身就直接给出了类似下面的运行方式:

llama-server -hf ggml-org/gemma-4-31B-it-GGUF

这已经足够说明:llama.cpp 对 Gemma 4 的支持不是试验状态,而是用户可直接使用的状态。


llama.cpp 支持 Gemma 4 吗?先给结论

支持。因为现在已经同时满足这几件事:

  • Google 的 Gemma 文档把 llama.cpp 作为官方集成路径之一
  • ggml-org 提供了 Gemma 4 GGUF
  • GGUF 模型页明确指向 llama.cpp 的使用方式

所以从兼容性角度看,这个问题已经没有悬念。


现在有哪些 Gemma 4 能在 llama.cpp 里跑?

目前公开 GGUF 路线覆盖的是:

模型 是否有公开 GGUF
Gemma 4 E2B
Gemma 4 E4B
Gemma 4 26B A4B
Gemma 4 31B

这意味着 llama.cpp 对 Gemma 4 的支持不是只覆盖一个型号,而是覆盖了整个家族


这里说的“支持”具体指什么

最实用的理解是:

llama.cpp 对 Gemma 4 的明确支持,至少覆盖了:

  • GGUF 加载
  • 本地文本推理
  • llama-server 跑本地 API
  • CLI / 自动化场景

这已经是大多数用户真正关心的主路径。

至于刚发布模型最边缘的多模态细节,最稳妥的做法依然是:用更新的 llama.cpp build,不要拿很旧的 binary 硬猜。


为什么建议用新 build

Gemma 4 发布之后,llama.cpp 很快合并了相关修复,包括:

  • 2026 年 4 月 2 日 的 Gemma 4 parser fix
  • 2026 年 4 月 3 日 的 Gemma 4 tokenizer fix

这说明 llama.cpp 支持 Gemma 4 是真的,但也说明:请优先使用新版本构建


在 llama.cpp 里该先跑哪个 Gemma 4?

实际建议和整体选型一致:

  • 要最小体积:选 E2B
  • 要最强小模型:选 E4B
  • 要本地甜点位:选 26B A4B
  • 要家族最强:选 31B

如果你只想在 llama.cpp 里选一个“最值得先试”的版本,通常还是 26B A4B


什么情况下 llama.cpp 是对的路线

如果你想要:

  • CLI 控制
  • 本地 OpenAI-compatible server
  • 更细的量化和部署控制
  • CPU / 跨平台本地推理

llama.cpp 就是很对的路线。

如果你更想要 GUI,优先看 LM Studio

如果你更想要微调和导出,优先看 Unsloth


FAQ

llama.cpp 现在支持 Gemma 4 吗?

支持。完整 Gemma 4 家族都已经有公开 GGUF 路线。

哪些 Gemma 4 能在 llama.cpp 里用?

E2B、E4B、26B A4B、31B 目前都有公开 GGUF 页面。

需要用旧版 llama.cpp 吗?

不建议。Gemma 4 发布后在 2026 年 4 月初合并过相关修复,优先用新 build。

llama.cpp 和 LM Studio 该选谁?

要控制力和自动化,选 llama.cpp;要最省心 GUI 体验,选 LM Studio


官方参考


相关阅读

相关阅读

继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

还没决定下一篇看什么?

回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。

切换语言English中文