如何在 Ollama 中运行 GLM-5.2：Cloud 标签、本地部署与 API 指南

快速回答

可以，你可以在 Ollama 中运行 GLM-5.2。Ollama 官方库通过 glm-5.2:cloud 标签提供 GLM-5.2，该标签通过 Ollama 的统一接口将推理请求路由到 Z.ai 的托管基础设施——你可以获得完整的 Ollama 开发体验，而无需在本地下载超过 241 GB 的模型权重。最快的启动方式：

ollama run glm-5.2:cloud

如果你希望完全在自己的硬件上运行 GLM-5.2，则需要相当大的内存（最小量化版本也需要 256 GB 以上）。该方式详见下方硬件章节。

前置条件

在 Ollama 中运行 GLM-5.2 之前，请确保以下条件已满足。

已安装并更新 Ollama

GLM-5.2 需要较新版本的 Ollama。安装或更新方式：

# macOS（Homebrew）
brew install ollama
# 或更新
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 从 https://ollama.com/download 下载安装程序

查看已安装版本：

ollama --version

网络连接（使用 cloud 标签时需要）

glm-5.2:cloud 标签将请求路由到 Z.ai 的推理 API，需要活跃的网络连接及 Ollama 账号。如未注册，请前往 ollama.com 登录。

硬件要求

运行模式	最低配置	推荐配置
`glm-5.2:cloud`（托管）	任意现代设备	任意现代设备
本地 2-bit（UD-IQ2_XXS）	256 GB 统一内存	M4 Ultra Mac Studio / 工作站
本地 4-bit（Q4_K_M）	500+ GB 内存	多 GPU 服务器
本地全精度（FP16）	1.7 TB	企业级集群

对大多数开发者而言，glm-5.2:cloud 是最实际的选择。本地部署方案在下方变体章节中单独介绍。

分步操作：在 Ollama 中运行 GLM-5.2

第一步：安装或更新 Ollama

根据你的平台执行相应的安装命令（见前置条件）。确认安装成功：

ollama --version

如果命令未找到，说明安装未完成，请重新运行安装脚本。

第二步：拉取 GLM-5.2 模型

在运行之前先拉取模型，以便在本地缓存配置（cloud 标签不会下载大型权重文件）：

ollama pull glm-5.2:cloud

第三步：运行模型

启动交互式对话会话：

ollama run glm-5.2:cloud

Ollama 将打开一个提示符，你可以直接输入消息。按 Ctrl+D 或输入 /bye 退出。

第四步：使用示例提示词测试

会话打开后，尝试快速测试以确认一切正常：

>>> 用 Python 写一个读取 CSV 文件并返回字典列表的函数。

GLM-5.2 针对长周期编程任务进行了优化，可以很好地处理详细的工程类提示词。你也可以使用较大的输入来测试其 976K 上下文窗口。

Ollama 中可用的 GLM-5.2 模型变体

截至 2026 年 6 月，Ollama 库中 GLM-5.2 的可用标签如下：

标签	类型	上下文窗口	适用场景
`glm-5.2:cloud`	托管（Z.ai 推理）	976K tokens	大多数开发者——无本地硬件要求

注意： 截至发布时，Ollama 官方库中尚无 glm-5.2:latest 或量化本地标签。请查看 ollama.com/library/glm-5.2/tags 获取最新列表——本文发布后可能会添加本地量化标签。

完全本地运行 GLM-5.2（进阶）

GLM-5.2 是一个拥有 7440 亿参数的混合专家（MoE）模型，每个 token 约有 400 亿个活跃参数。该模型采用 MIT 许可证发布，提供开放权重。对于在 Ollama cloud 标签之外进行本地推理，来自 Unsloth 的 GGUF 量化版本是最易上手的路径：

量化级别	磁盘大小	最低内存
UD-IQ2_XXS（2-bit 动态）	~241 GB	256 GB 统一内存
UD-IQ2_M（2-bit 动态）	~239 GB	256 GB 统一内存
UD-Q4_K_XL（4-bit 动态）	~476 GB	500+ GB

这些规格使 GLM-5.2 仅在高端硬件上可行：Apple M4 Ultra Mac Studio（192 GB 或更高配置），或配备多 GPU 和大容量系统内存的工作站。对大多数开发者而言，通过 Ollama 使用 glm-5.2:cloud 是正确的起点。

通过 Ollama API 使用 GLM-5.2

一旦 GLM-5.2 运行起来（无论是拉取还是通过 ollama run 启动），Ollama 会在 http://localhost:11434 暴露一个本地 REST API。该 API 与 OpenAI 兼容，这意味着任何支持 OpenAI API 的工具也可以与 Ollama 配合使用。

curl — 生成端点

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "prompt": "为 Node.js 应用编写一个使用多阶段构建的 Dockerfile。",
    "stream": false
  }'

curl — OpenAI 兼容对话端点

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "messages": [
      {"role": "system", "content": "你是一位专业的软件工程师。"},
      {"role": "user", "content": "解释进程和线程的区别。"}
    ]
  }'

Python — Ollama 库

from ollama import chat

response = chat(
    model='glm-5.2:cloud',
    messages=[
        {'role': 'user', 'content': '审查这段 Python 代码并提出改进建议。'}
    ],
)
print(response.message.content)

Python — OpenAI SDK（直接兼容）

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # SDK 要求填写，Ollama 不使用
)

response = client.chat.completions.create(
    model="glm-5.2:cloud",
    messages=[
        {"role": "system", "content": "你是一位资深软件工程师。"},
        {"role": "user", "content": "写一个 SQL 查询来查找表中的重复行。"}
    ]
)
print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'glm-5.2:cloud',
  messages: [{ role: 'user', content: '用 Express.js 生成一个 REST API。' }],
})
console.log(response.message.content)

在 Claude Code / Cursor 中配合 Ollama 使用 GLM-5.2

由于 Ollama 暴露 OpenAI 兼容的 API，你可以将 Claude Code 或 Cursor 等编程助手指向本地 Ollama 端点，从而将 GLM-5.2 用作后端模型。

配合 Claude Code 使用

设置环境变量，将 Claude Code 的 API 调用重定向到本地 Ollama 实例：

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

在 Claude Code 会话开始前，在后台启动 Ollama 服务：

ollama serve &
ollama run glm-5.2:cloud

配合 Cursor 使用

打开 Cursor 设置（macOS 用 Cmd+,，Windows/Linux 用 Ctrl+,）
导航到 Models → Add custom model
将模型名称设为 glm-5.2:cloud
将基础 URL 设为 http://localhost:11434/v1
将 API key 设为 ollama（任意非空字符串均可）
保存并在侧边栏聊天中选择该模型

配合 Continue（VS Code 扩展）使用

在 ~/.continue/config.json 中添加：

{
  "models": [
    {
      "title": "GLM-5.2",
      "provider": "ollama",
      "model": "glm-5.2:cloud",
      "apiBase": "http://localhost:11434"
    }
  ]
}

常见问题排查

Error: model "glm-5.2:cloud" not found

先运行 ollama pull glm-5.2:cloud 注册模型，然后重试。如果拉取失败，请确认已登录 Ollama（ollama login）且网络连接正常。

拉取时出现身份验证错误

cloud 标签需要 Ollama 账号。前往 ollama.com 注册或登录，然后在终端运行 ollama login。

响应速度慢

glm-5.2:cloud 标签将请求路由到远程推理服务，响应速度取决于网络延迟和 Z.ai 服务器负载。这是托管模型的预期行为。

端口 11434 已被占用

另一个 Ollama 实例正在运行，或其他进程占用了该端口。停止其他进程，或在自定义端口上启动 Ollama：

OLLAMA_HOST=0.0.0.0:11435 ollama serve

相应地将 API 调用更新为使用端口 11435。

安装后找不到 ollama 命令

在 Linux 上，安装脚本将二进制文件放在 /usr/local/bin。如果该路径不在 PATH 中，请添加：

export PATH=$PATH:/usr/local/bin

将该行添加到 ~/.bashrc 或 ~/.zshrc 中使其永久生效。

常见问题

可以在 Ollama 中运行 GLM-5.2 吗？

可以。GLM-5.2 已在 Ollama 库的 ollama.com/library/glm-5.2 中上线。glm-5.2:cloud 标签通过 Z.ai 的托管基础设施处理推理，你无需下载 240+ GB 的模型权重即可获得完整的 Ollama 开发体验。

GLM-5.2 的 Ollama 命令是什么？

ollama run glm-5.2:cloud

先拉取再运行：

ollama pull glm-5.2:cloud

在 Ollama 中运行 GLM-5.2 需要多少内存？

使用 glm-5.2:cloud 标签（托管推理）时，任何现代设备都可以运行，无特殊内存要求。使用 GGUF 量化权重进行完全本地推理时，最低需要约 256 GB 统一内存（2-bit UD-IQ2_XXS 量化版）。4-bit 变体需要 500+ GB。

通过 Ollama 本地运行 GLM-5.2 是免费的吗？

GLM-5.2 模型权重以 MIT 许可证发布，可免费使用。通过 glm-5.2:cloud 标签运行时，请求路由至 Z.ai 的托管 API——请查看 ollama.com 和 Z.ai 的条款了解当前云端推理的定价。使用自有硬件进行完全本地 GGUF 推理无需按 token 付费。

如何通过 Ollama 将 GLM-5.2 与 Claude Code 配合使用？

在 Claude Code 会话开始前设置以下环境变量：

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

然后通过 ollama serve & 在后台启动 Ollama 服务。Claude Code 会将补全请求路由到你的本地 Ollama 端点，再转发给 GLM-5.2。

GLM-5.2 的上下文窗口有多大？

GLM-5.2 支持 976K token 的上下文窗口（约 100 万 token），是截至 2026 年中期任何模型中最大的上下文窗口之一。这使其特别适合涉及大型代码库、长文档或多文件分析的任务。

GLM-5.2 是什么？

GLM-5.2 是 Z.ai（前身为智谱 AI）于 2026 年 6 月发布的旗舰开放权重模型。它是一个拥有 7440 亿参数的混合专家（MoE）架构，每个 token 约有 400 亿个活跃参数。该模型专门针对长周期编程、智能体任务和复杂推理进行了优化，在 28.5 万亿 token 上训练而成，以 MIT 许可证发布。