如何在 Ollama 中运行 Gemma 4：标签、硬件要求与快速上手

快速结论

Ollama 已支持 Gemma 4。支持版本为 Ollama v0.20.0，于 2026 年 4 月 3 日与 Google 发布 Gemma 4 的同一天上线。两条命令即可运行：

ollama pull gemma4
ollama run gemma4

默认标签为 gemma4:e4b——一个 9.6 GB 的模型，在大多数开发者机器上都能舒适运行。如果需要其他大小，请在拉取之前先查看下方的标签表格。

Gemma 4 Ollama 全部标签

这是搜索数据中最常见的问题，所以放在最前面。

标签	磁盘大小	上下文窗口	架构	音频输入	适用场景
`gemma4:e2b`	7.2 GB	128K	密集型（2.3B 有效参数）	支持	笔记本、边缘设备、最低硬件门槛
`gemma4:e4b` （默认）	9.6 GB	128K	密集型（4.5B 有效参数）	支持	大多数开发者，最佳起点
`gemma4:26b`	18 GB	256K	MoE（3.8B 激活参数）	不支持	性价比最高，推理速度快
`gemma4:31b`	20 GB	256K	密集型（30.7B）	不支持	最高质量，适合代码和推理

几点说明：

E2B 和 E4B 中的"E"代表"effective"（有效参数）——这些是面向笔记本和移动设备的边缘优先模型。
gemma4:26b 是混合专家（Mixture-of-Experts）模型。推理时只有 38 亿参数被激活，运行速度比总参数量所呈现的更快——速度通常与 4B 密集模型相当，但质量接近 13B 模型。
gemma4:latest 解析为 gemma4:e4b。运行 ollama run gemma4 不加标签时，拉取的就是这个版本。

前提：检查 Ollama 版本

Gemma 4 需要 Ollama v0.20.0 或更高版本。旧版本拉取模型会失败。请先检查当前版本：

ollama --version

如果版本过旧，请先更新再拉取：

# macOS (Homebrew)
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Windows 用户请从 ollama.com 下载最新安装包。

硬件要求

下载前请核对以下数据。勉强加载的模型通常不如一个运行流畅的小模型。

模型	最低 RAM / 显存	推荐配置	备注
`gemma4:e2b`	8 GB	16 GB	纯 CPU 机器最佳选择
`gemma4:e4b`	10 GB 显存或 16 GB 统一内存	16–24 GB	默认模型，适合大多数消费级 GPU
`gemma4:26b`	20 GB RAM 或统一内存	24–32 GB	MoE 架构，实际推理负载轻于总参数量
`gemma4:31b`	24 GB 显存或 32 GB 统一内存	32 GB+	质量优先，不建议作为第一次下载

在 Apple Silicon（M1/M2/M3/M4）上，统一内存对所有尺寸均适用。16 GB 内存的 Mac 轻松应对 e4b。26b 模型在 24 GB 上勉强放得下，但几乎没有余量——这是上限，不是目标配置。

在 NVIDIA GPU 上，上述显存数字是硬性限制。模型必须完全放入显存才能 GPU 加速推理。若不满足，Ollama 会回退到 CPU，速度会明显下降。

纯 CPU 机器也能运行 Gemma 4，但 e4b 大约只有每秒 1–3 个 Token 的速度。如需更好的 CPU 性能，请使用 e2b。

应该选哪个模型？

从硬件可以舒适承载的最小模型开始，而不是技术上能加载的最大模型。

RAM / 显存不足 16 GB → 从 gemma4:e2b 开始
16 GB RAM 或 10 GB+ 显存 → gemma4:e4b 是正确的默认选择
24 GB+ 统一内存或显存 → gemma4:26b 凭借 MoE 效率提供明显更高的质量
32 GB+，质量优先 → gemma4:31b 适合代码、推理和长文档任务

对大多数做本地实验的开发者来说，e4b 是正确答案。只有在确认首次运行稳定流畅后，再考虑升级。

拉取与运行命令

仅拉取不运行（推荐大模型使用）：

ollama pull gemma4          # 拉取 e4b（默认，9.6 GB）
ollama pull gemma4:e2b      # 7.2 GB
ollama pull gemma4:26b      # 18 GB
ollama pull gemma4:31b      # 20 GB

交互式运行：

ollama run gemma4           # 启动 e4b
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b

查看已安装的模型：

ollama list

查看当前加载到内存中的模型：

ollama ps

使用本地 API

模型运行后，Ollama 会在 http://localhost:11434 暴露本地 REST API。可以从任何 HTTP 客户端调用——无云端依赖，无需 API Key。

curl（generate 接口）

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "解释 MoE 和密集型 Transformer 架构的区别。",
    "stream": false
  }'

curl（chat 接口，兼容 OpenAI 格式）

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "user", "content": "写一个安全解析 JSON 的 Python 函数。"}
    ]
  }'

Python（ollama 库）

from ollama import chat

response = chat(
    model='gemma4',
    messages=[{'role': 'user', 'content': '什么是混合专家模型？'}],
)
print(response.message.content)

Python（OpenAI SDK，兼容替换）

由于 Ollama 的 API 兼容 OpenAI 格式，可以将官方 OpenAI SDK 指向本地实例：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # SDK 必填但 Ollama 不使用
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "system", "content": "你是一个有帮助的编程助手。"},
        {"role": "user", "content": "写一个在 Python 中展平嵌套列表的函数。"}
    ]
)

print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'gemma4',
  messages: [{role: 'user', content: '你好！'}],
})
console.log(response.message.content)

Gemma 4 相比 Gemma 3 的能力提升

这不是渐进式改进——基准测试的差距相当显著：

基准测试	Gemma 4 31B	Gemma 4 E4B	Gemma 3 27B
AIME 2026（数学推理）	89.2%	42.5%	20.8%
LiveCodeBench v6（编程）	80.0%	52.0%	29.1%
Codeforces ELO	2150	940	110
MMLU Pro（知识）	85.2%	69.4%	67.6%
GPQA Diamond（科学）	84.3%	58.6%	42.4%

超出基准测试，Gemma 4 还增加了 Gemma 3 没有的能力：

原生函数调用 — 全部四个版本均原生支持结构化工具调用，返回符合 Schema 的有效 JSON
思考模式 — 可通过系统提示中的 <|think|> Token 逐请求开关思维链推理
256K 上下文 — 26B 和 31B 模型支持（Gemma 3 27B 为 128K）
音频输入 — E2B 和 E4B 支持语音识别与理解，与文本、图像并行
140+ 语言原生支持

思考模式

Gemma 4 支持可配置的思维链推理。在系统提示开头加入 <|think|> Token 即可启用：

from ollama import chat

response = chat(
    model='gemma4:31b',
    messages=[
        {
            'role': 'system',
            'content': '<|think|> 回答前请一步步思考。'
        },
        {
            'role': 'user',
            'content': '求 x^2 从 0 到 3 的积分。'
        }
    ],
)
print(response.message.content)

关闭思考模式，只需从系统提示中移除 <|think|> Token。对 E2B 和 E4B，没有该 Token 时思考完全关闭。对 26B 和 31B，模型仍会输出思考标签，但内容为空。

简单查询或日常对话不需要开启思考。数学、复杂编程或文档分析时开启——在较大模型上质量差异显著。

常见报错与解决方法

Error: gemma4:e4b requires a newer version of Ollama

当前 Ollama 版本低于 v0.20.0。按照上方"前提"章节的命令更新后重试。

内存不足 / 模型加载失败

用 ollama ps 检查可用显存或统一内存。若模型过大，切换到更小的标签。gemma4:e2b（7.2 GB）是最轻量的官方选项。

响应缓慢（每秒 1–5 个 Token）

如果 Ollama 没有使用 GPU，模型在 CPU 上运行。确认 GPU 驱动是最新版且 Ollama 能识别 GPU。在 Apple Silicon 上，请确保使用较新版本的 Ollama——MLX 加速支持在 v0.20.0 中新增。

端口 11434 已被占用

另一个 Ollama 实例正在运行，或其他程序占用了该端口。可以设置自定义端口：

OLLAMA_HOST=0.0.0.0:11435 ollama serve

然后将 API 调用中的端口改为 11435。

输出在完成前被截断

上下文窗口可能对你的提示词来说太小。可按请求增大：

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4",
    "prompt": "...",
    "options": {"num_ctx": 32768}
  }'

gemma4:26b 勉强能放下但感觉很慢

在 24 GB 机器上运行 26B 模型几乎没有内存余量。其他程序争用内存会明显降低性能。关闭其他占用 GPU 的应用，或者改用 e4b 以获得更稳定的响应速度。

在责怪模型之前先检查这些

如果输出质量低于预期，在切换更大的模型之前先排查以下几点：

确认正在使用你预期的模型大小——ollama list 显示已安装的模型
确认 GPU 推理已激活——ollama ps 显示当前使用的处理器
如果任务涉及推理或数学，尝试开启思考模式
确认上下文窗口足够容纳完整提示词
使用推荐的采样参数：temperature=1.0、top_p=0.95、top_k=64

大多数情况下，开启思考模式的 e4b 能处理那些看似需要 31b 才能完成的任务。

下一步

如果 Ollama 不适合你的使用场景，两个常见替代方案：

LM Studio — 以 GUI 为主的本地运行时，适合不喜欢命令行的用户
llama.cpp — 更多配置选项，更适合 CPU 密集型或资源受限的环境

如果想在不做任何本地配置的情况下体验 Gemma 4，Google AI Studio 提供了 31B 和 26B 模型的在线托管访问。