Gemma 4 指南

如何在 Ollama 中运行 GLM-5.2:Cloud 标签、本地部署与 API 指南

约 7 分钟
glm 5.2ollamalocal llmglm 5.2 ollamazhipu ai
如何在 Ollama 中运行 GLM-5.2:Cloud 标签、本地部署与 API 指南

快速回答

可以,你可以在 Ollama 中运行 GLM-5.2。Ollama 官方库通过 glm-5.2:cloud 标签提供 GLM-5.2,该标签通过 Ollama 的统一接口将推理请求路由到 Z.ai 的托管基础设施——你可以获得完整的 Ollama 开发体验,而无需在本地下载超过 241 GB 的模型权重。最快的启动方式:

ollama run glm-5.2:cloud

如果你希望完全在自己的硬件上运行 GLM-5.2,则需要相当大的内存(最小量化版本也需要 256 GB 以上)。该方式详见下方硬件章节。


前置条件

在 Ollama 中运行 GLM-5.2 之前,请确保以下条件已满足。

已安装并更新 Ollama

GLM-5.2 需要较新版本的 Ollama。安装或更新方式:

# macOS(Homebrew)
brew install ollama
# 或更新
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 从 https://ollama.com/download 下载安装程序

查看已安装版本:

ollama --version

网络连接(使用 cloud 标签时需要)

glm-5.2:cloud 标签将请求路由到 Z.ai 的推理 API,需要活跃的网络连接及 Ollama 账号。如未注册,请前往 ollama.com 登录。

硬件要求

运行模式 最低配置 推荐配置
glm-5.2:cloud(托管) 任意现代设备 任意现代设备
本地 2-bit(UD-IQ2_XXS) 256 GB 统一内存 M4 Ultra Mac Studio / 工作站
本地 4-bit(Q4_K_M) 500+ GB 内存 多 GPU 服务器
本地全精度(FP16) 1.7 TB 企业级集群

对大多数开发者而言,glm-5.2:cloud 是最实际的选择。本地部署方案在下方变体章节中单独介绍。


分步操作:在 Ollama 中运行 GLM-5.2

第一步:安装或更新 Ollama

根据你的平台执行相应的安装命令(见前置条件)。确认安装成功:

ollama --version

如果命令未找到,说明安装未完成,请重新运行安装脚本。

第二步:拉取 GLM-5.2 模型

在运行之前先拉取模型,以便在本地缓存配置(cloud 标签不会下载大型权重文件):

ollama pull glm-5.2:cloud

第三步:运行模型

启动交互式对话会话:

ollama run glm-5.2:cloud

Ollama 将打开一个提示符,你可以直接输入消息。按 Ctrl+D 或输入 /bye 退出。

第四步:使用示例提示词测试

会话打开后,尝试快速测试以确认一切正常:

>>> 用 Python 写一个读取 CSV 文件并返回字典列表的函数。

GLM-5.2 针对长周期编程任务进行了优化,可以很好地处理详细的工程类提示词。你也可以使用较大的输入来测试其 976K 上下文窗口。


Ollama 中可用的 GLM-5.2 模型变体

截至 2026 年 6 月,Ollama 库中 GLM-5.2 的可用标签如下:

标签 类型 上下文窗口 适用场景
glm-5.2:cloud 托管(Z.ai 推理) 976K tokens 大多数开发者——无本地硬件要求

注意: 截至发布时,Ollama 官方库中尚无 glm-5.2:latest 或量化本地标签。请查看 ollama.com/library/glm-5.2/tags 获取最新列表——本文发布后可能会添加本地量化标签。

完全本地运行 GLM-5.2(进阶)

GLM-5.2 是一个拥有 7440 亿参数的混合专家(MoE)模型,每个 token 约有 400 亿个活跃参数。该模型采用 MIT 许可证发布,提供开放权重。对于在 Ollama cloud 标签之外进行本地推理,来自 Unsloth 的 GGUF 量化版本是最易上手的路径:

量化级别 磁盘大小 最低内存
UD-IQ2_XXS(2-bit 动态) ~241 GB 256 GB 统一内存
UD-IQ2_M(2-bit 动态) ~239 GB 256 GB 统一内存
UD-Q4_K_XL(4-bit 动态) ~476 GB 500+ GB

这些规格使 GLM-5.2 仅在高端硬件上可行:Apple M4 Ultra Mac Studio(192 GB 或更高配置),或配备多 GPU 和大容量系统内存的工作站。对大多数开发者而言,通过 Ollama 使用 glm-5.2:cloud 是正确的起点。


通过 Ollama API 使用 GLM-5.2

一旦 GLM-5.2 运行起来(无论是拉取还是通过 ollama run 启动),Ollama 会在 http://localhost:11434 暴露一个本地 REST API。该 API 与 OpenAI 兼容,这意味着任何支持 OpenAI API 的工具也可以与 Ollama 配合使用。

curl — 生成端点

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "prompt": "为 Node.js 应用编写一个使用多阶段构建的 Dockerfile。",
    "stream": false
  }'

curl — OpenAI 兼容对话端点

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "messages": [
      {"role": "system", "content": "你是一位专业的软件工程师。"},
      {"role": "user", "content": "解释进程和线程的区别。"}
    ]
  }'

Python — Ollama 库

from ollama import chat

response = chat(
    model='glm-5.2:cloud',
    messages=[
        {'role': 'user', 'content': '审查这段 Python 代码并提出改进建议。'}
    ],
)
print(response.message.content)

Python — OpenAI SDK(直接兼容)

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # SDK 要求填写,Ollama 不使用
)

response = client.chat.completions.create(
    model="glm-5.2:cloud",
    messages=[
        {"role": "system", "content": "你是一位资深软件工程师。"},
        {"role": "user", "content": "写一个 SQL 查询来查找表中的重复行。"}
    ]
)
print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'glm-5.2:cloud',
  messages: [{ role: 'user', content: '用 Express.js 生成一个 REST API。' }],
})
console.log(response.message.content)

在 Claude Code / Cursor 中配合 Ollama 使用 GLM-5.2

由于 Ollama 暴露 OpenAI 兼容的 API,你可以将 Claude Code 或 Cursor 等编程助手指向本地 Ollama 端点,从而将 GLM-5.2 用作后端模型。

配合 Claude Code 使用

设置环境变量,将 Claude Code 的 API 调用重定向到本地 Ollama 实例:

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

在 Claude Code 会话开始前,在后台启动 Ollama 服务:

ollama serve &
ollama run glm-5.2:cloud

配合 Cursor 使用

  1. 打开 Cursor 设置(macOS 用 Cmd+,,Windows/Linux 用 Ctrl+,
  2. 导航到 ModelsAdd custom model
  3. 将模型名称设为 glm-5.2:cloud
  4. 将基础 URL 设为 http://localhost:11434/v1
  5. 将 API key 设为 ollama(任意非空字符串均可)
  6. 保存并在侧边栏聊天中选择该模型

配合 Continue(VS Code 扩展)使用

~/.continue/config.json 中添加:

{
  "models": [
    {
      "title": "GLM-5.2",
      "provider": "ollama",
      "model": "glm-5.2:cloud",
      "apiBase": "http://localhost:11434"
    }
  ]
}

常见问题排查

Error: model "glm-5.2:cloud" not found

先运行 ollama pull glm-5.2:cloud 注册模型,然后重试。如果拉取失败,请确认已登录 Ollama(ollama login)且网络连接正常。

拉取时出现身份验证错误

cloud 标签需要 Ollama 账号。前往 ollama.com 注册或登录,然后在终端运行 ollama login

响应速度慢

glm-5.2:cloud 标签将请求路由到远程推理服务,响应速度取决于网络延迟和 Z.ai 服务器负载。这是托管模型的预期行为。

端口 11434 已被占用

另一个 Ollama 实例正在运行,或其他进程占用了该端口。停止其他进程,或在自定义端口上启动 Ollama:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

相应地将 API 调用更新为使用端口 11435

安装后找不到 ollama 命令

在 Linux 上,安装脚本将二进制文件放在 /usr/local/bin。如果该路径不在 PATH 中,请添加:

export PATH=$PATH:/usr/local/bin

将该行添加到 ~/.bashrc~/.zshrc 中使其永久生效。


常见问题

可以在 Ollama 中运行 GLM-5.2 吗?

可以。GLM-5.2 已在 Ollama 库的 ollama.com/library/glm-5.2 中上线。glm-5.2:cloud 标签通过 Z.ai 的托管基础设施处理推理,你无需下载 240+ GB 的模型权重即可获得完整的 Ollama 开发体验。

GLM-5.2 的 Ollama 命令是什么?

ollama run glm-5.2:cloud

先拉取再运行:

ollama pull glm-5.2:cloud

在 Ollama 中运行 GLM-5.2 需要多少内存?

使用 glm-5.2:cloud 标签(托管推理)时,任何现代设备都可以运行,无特殊内存要求。使用 GGUF 量化权重进行完全本地推理时,最低需要约 256 GB 统一内存(2-bit UD-IQ2_XXS 量化版)。4-bit 变体需要 500+ GB。

通过 Ollama 本地运行 GLM-5.2 是免费的吗?

GLM-5.2 模型权重以 MIT 许可证发布,可免费使用。通过 glm-5.2:cloud 标签运行时,请求路由至 Z.ai 的托管 API——请查看 ollama.com 和 Z.ai 的条款了解当前云端推理的定价。使用自有硬件进行完全本地 GGUF 推理无需按 token 付费。

如何通过 Ollama 将 GLM-5.2 与 Claude Code 配合使用?

在 Claude Code 会话开始前设置以下环境变量:

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

然后通过 ollama serve & 在后台启动 Ollama 服务。Claude Code 会将补全请求路由到你的本地 Ollama 端点,再转发给 GLM-5.2。

GLM-5.2 的上下文窗口有多大?

GLM-5.2 支持 976K token 的上下文窗口(约 100 万 token),是截至 2026 年中期任何模型中最大的上下文窗口之一。这使其特别适合涉及大型代码库、长文档或多文件分析的任务。

GLM-5.2 是什么?

GLM-5.2 是 Z.ai(前身为智谱 AI)于 2026 年 6 月发布的旗舰开放权重模型。它是一个拥有 7440 亿参数的混合专家(MoE)架构,每个 token 约有 400 亿个活跃参数。该模型专门针对长周期编程、智能体任务和复杂推理进行了优化,在 28.5 万亿 token 上训练而成,以 MIT 许可证发布。


相关指南

相关阅读

继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

还没决定下一篇看什么?

回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。