Gemma 4 指南
如何在 Ollama 中运行 Gemma 4:标签、硬件要求与快速上手

快速结论
Ollama 已支持 Gemma 4。支持版本为 Ollama v0.20.0,于 2026 年 4 月 3 日与 Google 发布 Gemma 4 的同一天上线。两条命令即可运行:
ollama pull gemma4
ollama run gemma4
默认标签为 gemma4:e4b——一个 9.6 GB 的模型,在大多数开发者机器上都能舒适运行。如果需要其他大小,请在拉取之前先查看下方的标签表格。
Gemma 4 Ollama 全部标签
这是搜索数据中最常见的问题,所以放在最前面。
| 标签 | 磁盘大小 | 上下文窗口 | 架构 | 音频输入 | 适用场景 |
|---|---|---|---|---|---|
gemma4:e2b |
7.2 GB | 128K | 密集型(2.3B 有效参数) | 支持 | 笔记本、边缘设备、最低硬件门槛 |
gemma4:e4b (默认) |
9.6 GB | 128K | 密集型(4.5B 有效参数) | 支持 | 大多数开发者,最佳起点 |
gemma4:26b |
18 GB | 256K | MoE(3.8B 激活参数) | 不支持 | 性价比最高,推理速度快 |
gemma4:31b |
20 GB | 256K | 密集型(30.7B) | 不支持 | 最高质量,适合代码和推理 |
几点说明:
- E2B 和 E4B 中的"E"代表"effective"(有效参数)——这些是面向笔记本和移动设备的边缘优先模型。
gemma4:26b是混合专家(Mixture-of-Experts)模型。推理时只有 38 亿参数被激活,运行速度比总参数量所呈现的更快——速度通常与 4B 密集模型相当,但质量接近 13B 模型。gemma4:latest解析为gemma4:e4b。运行ollama run gemma4不加标签时,拉取的就是这个版本。
前提:检查 Ollama 版本
Gemma 4 需要 Ollama v0.20.0 或更高版本。旧版本拉取模型会失败。请先检查当前版本:
ollama --version
如果版本过旧,请先更新再拉取:
# macOS (Homebrew)
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows 用户请从 ollama.com 下载最新安装包。
硬件要求
下载前请核对以下数据。勉强加载的模型通常不如一个运行流畅的小模型。
| 模型 | 最低 RAM / 显存 | 推荐配置 | 备注 |
|---|---|---|---|
gemma4:e2b |
8 GB | 16 GB | 纯 CPU 机器最佳选择 |
gemma4:e4b |
10 GB 显存或 16 GB 统一内存 | 16–24 GB | 默认模型,适合大多数消费级 GPU |
gemma4:26b |
20 GB RAM 或统一内存 | 24–32 GB | MoE 架构,实际推理负载轻于总参数量 |
gemma4:31b |
24 GB 显存或 32 GB 统一内存 | 32 GB+ | 质量优先,不建议作为第一次下载 |
在 Apple Silicon(M1/M2/M3/M4)上,统一内存对所有尺寸均适用。16 GB 内存的 Mac 轻松应对 e4b。26b 模型在 24 GB 上勉强放得下,但几乎没有余量——这是上限,不是目标配置。
在 NVIDIA GPU 上,上述显存数字是硬性限制。模型必须完全放入显存才能 GPU 加速推理。若不满足,Ollama 会回退到 CPU,速度会明显下降。
纯 CPU 机器也能运行 Gemma 4,但 e4b 大约只有每秒 1–3 个 Token 的速度。如需更好的 CPU 性能,请使用 e2b。
应该选哪个模型?
从硬件可以舒适承载的最小模型开始,而不是技术上能加载的最大模型。
- RAM / 显存不足 16 GB → 从
gemma4:e2b开始 - 16 GB RAM 或 10 GB+ 显存 →
gemma4:e4b是正确的默认选择 - 24 GB+ 统一内存或显存 →
gemma4:26b凭借 MoE 效率提供明显更高的质量 - 32 GB+,质量优先 →
gemma4:31b适合代码、推理和长文档任务
对大多数做本地实验的开发者来说,e4b 是正确答案。只有在确认首次运行稳定流畅后,再考虑升级。
拉取与运行命令
仅拉取不运行(推荐大模型使用):
ollama pull gemma4 # 拉取 e4b(默认,9.6 GB)
ollama pull gemma4:e2b # 7.2 GB
ollama pull gemma4:26b # 18 GB
ollama pull gemma4:31b # 20 GB
交互式运行:
ollama run gemma4 # 启动 e4b
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b
查看已安装的模型:
ollama list
查看当前加载到内存中的模型:
ollama ps
使用本地 API
模型运行后,Ollama 会在 http://localhost:11434 暴露本地 REST API。可以从任何 HTTP 客户端调用——无云端依赖,无需 API Key。
curl(generate 接口)
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"prompt": "解释 MoE 和密集型 Transformer 架构的区别。",
"stream": false
}'
curl(chat 接口,兼容 OpenAI 格式)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"messages": [
{"role": "user", "content": "写一个安全解析 JSON 的 Python 函数。"}
]
}'
Python(ollama 库)
from ollama import chat
response = chat(
model='gemma4',
messages=[{'role': 'user', 'content': '什么是混合专家模型?'}],
)
print(response.message.content)
Python(OpenAI SDK,兼容替换)
由于 Ollama 的 API 兼容 OpenAI 格式,可以将官方 OpenAI SDK 指向本地实例:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # SDK 必填但 Ollama 不使用
)
response = client.chat.completions.create(
model="gemma4",
messages=[
{"role": "system", "content": "你是一个有帮助的编程助手。"},
{"role": "user", "content": "写一个在 Python 中展平嵌套列表的函数。"}
]
)
print(response.choices[0].message.content)
JavaScript
import ollama from 'ollama'
const response = await ollama.chat({
model: 'gemma4',
messages: [{role: 'user', content: '你好!'}],
})
console.log(response.message.content)
Gemma 4 相比 Gemma 3 的能力提升
这不是渐进式改进——基准测试的差距相当显著:
| 基准测试 | Gemma 4 31B | Gemma 4 E4B | Gemma 3 27B |
|---|---|---|---|
| AIME 2026(数学推理) | 89.2% | 42.5% | 20.8% |
| LiveCodeBench v6(编程) | 80.0% | 52.0% | 29.1% |
| Codeforces ELO | 2150 | 940 | 110 |
| MMLU Pro(知识) | 85.2% | 69.4% | 67.6% |
| GPQA Diamond(科学) | 84.3% | 58.6% | 42.4% |
超出基准测试,Gemma 4 还增加了 Gemma 3 没有的能力:
- 原生函数调用 — 全部四个版本均原生支持结构化工具调用,返回符合 Schema 的有效 JSON
- 思考模式 — 可通过系统提示中的
<|think|>Token 逐请求开关思维链推理 - 256K 上下文 — 26B 和 31B 模型支持(Gemma 3 27B 为 128K)
- 音频输入 — E2B 和 E4B 支持语音识别与理解,与文本、图像并行
- 140+ 语言原生支持
思考模式
Gemma 4 支持可配置的思维链推理。在系统提示开头加入 <|think|> Token 即可启用:
from ollama import chat
response = chat(
model='gemma4:31b',
messages=[
{
'role': 'system',
'content': '<|think|> 回答前请一步步思考。'
},
{
'role': 'user',
'content': '求 x^2 从 0 到 3 的积分。'
}
],
)
print(response.message.content)
关闭思考模式,只需从系统提示中移除 <|think|> Token。对 E2B 和 E4B,没有该 Token 时思考完全关闭。对 26B 和 31B,模型仍会输出思考标签,但内容为空。
简单查询或日常对话不需要开启思考。数学、复杂编程或文档分析时开启——在较大模型上质量差异显著。
常见报错与解决方法
Error: gemma4:e4b requires a newer version of Ollama
当前 Ollama 版本低于 v0.20.0。按照上方"前提"章节的命令更新后重试。
内存不足 / 模型加载失败
用 ollama ps 检查可用显存或统一内存。若模型过大,切换到更小的标签。gemma4:e2b(7.2 GB)是最轻量的官方选项。
响应缓慢(每秒 1–5 个 Token)
如果 Ollama 没有使用 GPU,模型在 CPU 上运行。确认 GPU 驱动是最新版且 Ollama 能识别 GPU。在 Apple Silicon 上,请确保使用较新版本的 Ollama——MLX 加速支持在 v0.20.0 中新增。
端口 11434 已被占用
另一个 Ollama 实例正在运行,或其他程序占用了该端口。可以设置自定义端口:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
然后将 API 调用中的端口改为 11435。
输出在完成前被截断
上下文窗口可能对你的提示词来说太小。可按请求增大:
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4",
"prompt": "...",
"options": {"num_ctx": 32768}
}'
gemma4:26b 勉强能放下但感觉很慢
在 24 GB 机器上运行 26B 模型几乎没有内存余量。其他程序争用内存会明显降低性能。关闭其他占用 GPU 的应用,或者改用 e4b 以获得更稳定的响应速度。
在责怪模型之前先检查这些
如果输出质量低于预期,在切换更大的模型之前先排查以下几点:
- 确认正在使用你预期的模型大小——
ollama list显示已安装的模型 - 确认 GPU 推理已激活——
ollama ps显示当前使用的处理器 - 如果任务涉及推理或数学,尝试开启思考模式
- 确认上下文窗口足够容纳完整提示词
- 使用推荐的采样参数:
temperature=1.0、top_p=0.95、top_k=64
大多数情况下,开启思考模式的 e4b 能处理那些看似需要 31b 才能完成的任务。
下一步
如果 Ollama 不适合你的使用场景,两个常见替代方案:
- LM Studio — 以 GUI 为主的本地运行时,适合不喜欢命令行的用户
- llama.cpp — 更多配置选项,更适合 CPU 密集型或资源受限的环境
如果想在不做任何本地配置的情况下体验 Gemma 4,Google AI Studio 提供了 31B 和 26B 模型的在线托管访问。
继续阅读
相关阅读
继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

Gemma 4 26B A4B 显存要求:Q4、Q8、F16 与 24GB 显卡适配
一篇聚焦 Gemma 4 26B A4B 显存要求的实用指南,帮你判断 26B 为什么是很多本地用户最值得先试的版本。


还没决定下一篇看什么?
回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。
