Gemma 4 指南

如何在 Ollama 中运行 Gemma 4:标签、硬件要求与快速上手

约 9 分钟
gemma 4ollama本地大模型安装教程gemma4 标签硬件要求
如何在 Ollama 中运行 Gemma 4:标签、硬件要求与快速上手

快速结论

Ollama 已支持 Gemma 4。支持版本为 Ollama v0.20.0,于 2026 年 4 月 3 日与 Google 发布 Gemma 4 的同一天上线。两条命令即可运行:

ollama pull gemma4
ollama run gemma4

默认标签为 gemma4:e4b——一个 9.6 GB 的模型,在大多数开发者机器上都能舒适运行。如果需要其他大小,请在拉取之前先查看下方的标签表格。


Gemma 4 Ollama 全部标签

这是搜索数据中最常见的问题,所以放在最前面。

标签 磁盘大小 上下文窗口 架构 音频输入 适用场景
gemma4:e2b 7.2 GB 128K 密集型(2.3B 有效参数) 支持 笔记本、边缘设备、最低硬件门槛
gemma4:e4b (默认) 9.6 GB 128K 密集型(4.5B 有效参数) 支持 大多数开发者,最佳起点
gemma4:26b 18 GB 256K MoE(3.8B 激活参数) 不支持 性价比最高,推理速度快
gemma4:31b 20 GB 256K 密集型(30.7B) 不支持 最高质量,适合代码和推理

几点说明:

  • E2B 和 E4B 中的"E"代表"effective"(有效参数)——这些是面向笔记本和移动设备的边缘优先模型。
  • gemma4:26b 是混合专家(Mixture-of-Experts)模型。推理时只有 38 亿参数被激活,运行速度比总参数量所呈现的更快——速度通常与 4B 密集模型相当,但质量接近 13B 模型。
  • gemma4:latest 解析为 gemma4:e4b。运行 ollama run gemma4 不加标签时,拉取的就是这个版本。

前提:检查 Ollama 版本

Gemma 4 需要 Ollama v0.20.0 或更高版本。旧版本拉取模型会失败。请先检查当前版本:

ollama --version

如果版本过旧,请先更新再拉取:

# macOS (Homebrew)
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Windows 用户请从 ollama.com 下载最新安装包。


硬件要求

下载前请核对以下数据。勉强加载的模型通常不如一个运行流畅的小模型。

模型 最低 RAM / 显存 推荐配置 备注
gemma4:e2b 8 GB 16 GB 纯 CPU 机器最佳选择
gemma4:e4b 10 GB 显存或 16 GB 统一内存 16–24 GB 默认模型,适合大多数消费级 GPU
gemma4:26b 20 GB RAM 或统一内存 24–32 GB MoE 架构,实际推理负载轻于总参数量
gemma4:31b 24 GB 显存或 32 GB 统一内存 32 GB+ 质量优先,不建议作为第一次下载

在 Apple Silicon(M1/M2/M3/M4)上,统一内存对所有尺寸均适用。16 GB 内存的 Mac 轻松应对 e4b26b 模型在 24 GB 上勉强放得下,但几乎没有余量——这是上限,不是目标配置。

在 NVIDIA GPU 上,上述显存数字是硬性限制。模型必须完全放入显存才能 GPU 加速推理。若不满足,Ollama 会回退到 CPU,速度会明显下降。

纯 CPU 机器也能运行 Gemma 4,但 e4b 大约只有每秒 1–3 个 Token 的速度。如需更好的 CPU 性能,请使用 e2b


应该选哪个模型?

从硬件可以舒适承载的最小模型开始,而不是技术上能加载的最大模型。

  • RAM / 显存不足 16 GB → 从 gemma4:e2b 开始
  • 16 GB RAM 或 10 GB+ 显存gemma4:e4b 是正确的默认选择
  • 24 GB+ 统一内存或显存gemma4:26b 凭借 MoE 效率提供明显更高的质量
  • 32 GB+,质量优先gemma4:31b 适合代码、推理和长文档任务

对大多数做本地实验的开发者来说,e4b 是正确答案。只有在确认首次运行稳定流畅后,再考虑升级。


拉取与运行命令

仅拉取不运行(推荐大模型使用):

ollama pull gemma4          # 拉取 e4b(默认,9.6 GB)
ollama pull gemma4:e2b      # 7.2 GB
ollama pull gemma4:26b      # 18 GB
ollama pull gemma4:31b      # 20 GB

交互式运行:

ollama run gemma4           # 启动 e4b
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b

查看已安装的模型:

ollama list

查看当前加载到内存中的模型:

ollama ps

使用本地 API

模型运行后,Ollama 会在 http://localhost:11434 暴露本地 REST API。可以从任何 HTTP 客户端调用——无云端依赖,无需 API Key。

curl(generate 接口)

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "解释 MoE 和密集型 Transformer 架构的区别。",
    "stream": false
  }'

curl(chat 接口,兼容 OpenAI 格式)

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "user", "content": "写一个安全解析 JSON 的 Python 函数。"}
    ]
  }'

Python(ollama 库)

from ollama import chat

response = chat(
    model='gemma4',
    messages=[{'role': 'user', 'content': '什么是混合专家模型?'}],
)
print(response.message.content)

Python(OpenAI SDK,兼容替换)

由于 Ollama 的 API 兼容 OpenAI 格式,可以将官方 OpenAI SDK 指向本地实例:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # SDK 必填但 Ollama 不使用
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "system", "content": "你是一个有帮助的编程助手。"},
        {"role": "user", "content": "写一个在 Python 中展平嵌套列表的函数。"}
    ]
)

print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'gemma4',
  messages: [{role: 'user', content: '你好!'}],
})
console.log(response.message.content)

Gemma 4 相比 Gemma 3 的能力提升

这不是渐进式改进——基准测试的差距相当显著:

基准测试 Gemma 4 31B Gemma 4 E4B Gemma 3 27B
AIME 2026(数学推理) 89.2% 42.5% 20.8%
LiveCodeBench v6(编程) 80.0% 52.0% 29.1%
Codeforces ELO 2150 940 110
MMLU Pro(知识) 85.2% 69.4% 67.6%
GPQA Diamond(科学) 84.3% 58.6% 42.4%

超出基准测试,Gemma 4 还增加了 Gemma 3 没有的能力:

  • 原生函数调用 — 全部四个版本均原生支持结构化工具调用,返回符合 Schema 的有效 JSON
  • 思考模式 — 可通过系统提示中的 <|think|> Token 逐请求开关思维链推理
  • 256K 上下文 — 26B 和 31B 模型支持(Gemma 3 27B 为 128K)
  • 音频输入 — E2B 和 E4B 支持语音识别与理解,与文本、图像并行
  • 140+ 语言原生支持

思考模式

Gemma 4 支持可配置的思维链推理。在系统提示开头加入 <|think|> Token 即可启用:

from ollama import chat

response = chat(
    model='gemma4:31b',
    messages=[
        {
            'role': 'system',
            'content': '<|think|> 回答前请一步步思考。'
        },
        {
            'role': 'user',
            'content': '求 x^2 从 0 到 3 的积分。'
        }
    ],
)
print(response.message.content)

关闭思考模式,只需从系统提示中移除 <|think|> Token。对 E2B 和 E4B,没有该 Token 时思考完全关闭。对 26B 和 31B,模型仍会输出思考标签,但内容为空。

简单查询或日常对话不需要开启思考。数学、复杂编程或文档分析时开启——在较大模型上质量差异显著。


常见报错与解决方法

Error: gemma4:e4b requires a newer version of Ollama

当前 Ollama 版本低于 v0.20.0。按照上方"前提"章节的命令更新后重试。

内存不足 / 模型加载失败

ollama ps 检查可用显存或统一内存。若模型过大,切换到更小的标签。gemma4:e2b(7.2 GB)是最轻量的官方选项。

响应缓慢(每秒 1–5 个 Token)

如果 Ollama 没有使用 GPU,模型在 CPU 上运行。确认 GPU 驱动是最新版且 Ollama 能识别 GPU。在 Apple Silicon 上,请确保使用较新版本的 Ollama——MLX 加速支持在 v0.20.0 中新增。

端口 11434 已被占用

另一个 Ollama 实例正在运行,或其他程序占用了该端口。可以设置自定义端口:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

然后将 API 调用中的端口改为 11435。

输出在完成前被截断

上下文窗口可能对你的提示词来说太小。可按请求增大:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4",
    "prompt": "...",
    "options": {"num_ctx": 32768}
  }'

gemma4:26b 勉强能放下但感觉很慢

在 24 GB 机器上运行 26B 模型几乎没有内存余量。其他程序争用内存会明显降低性能。关闭其他占用 GPU 的应用,或者改用 e4b 以获得更稳定的响应速度。


在责怪模型之前先检查这些

如果输出质量低于预期,在切换更大的模型之前先排查以下几点:

  1. 确认正在使用你预期的模型大小——ollama list 显示已安装的模型
  2. 确认 GPU 推理已激活——ollama ps 显示当前使用的处理器
  3. 如果任务涉及推理或数学,尝试开启思考模式
  4. 确认上下文窗口足够容纳完整提示词
  5. 使用推荐的采样参数:temperature=1.0top_p=0.95top_k=64

大多数情况下,开启思考模式的 e4b 能处理那些看似需要 31b 才能完成的任务。


下一步

如果 Ollama 不适合你的使用场景,两个常见替代方案:

  • LM Studio — 以 GUI 为主的本地运行时,适合不喜欢命令行的用户
  • llama.cpp — 更多配置选项,更适合 CPU 密集型或资源受限的环境

如果想在不做任何本地配置的情况下体验 Gemma 4,Google AI Studio 提供了 31B 和 26B 模型的在线托管访问。

继续阅读

相关阅读

继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

还没决定下一篇看什么?

回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。