Gemma 4 指南
如何在 Ollama 中运行 GLM-5.2:Cloud 标签、本地部署与 API 指南

快速回答
可以,你可以在 Ollama 中运行 GLM-5.2。Ollama 官方库通过 glm-5.2:cloud 标签提供 GLM-5.2,该标签通过 Ollama 的统一接口将推理请求路由到 Z.ai 的托管基础设施——你可以获得完整的 Ollama 开发体验,而无需在本地下载超过 241 GB 的模型权重。最快的启动方式:
ollama run glm-5.2:cloud
如果你希望完全在自己的硬件上运行 GLM-5.2,则需要相当大的内存(最小量化版本也需要 256 GB 以上)。该方式详见下方硬件章节。
前置条件
在 Ollama 中运行 GLM-5.2 之前,请确保以下条件已满足。
已安装并更新 Ollama
GLM-5.2 需要较新版本的 Ollama。安装或更新方式:
# macOS(Homebrew)
brew install ollama
# 或更新
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# 从 https://ollama.com/download 下载安装程序
查看已安装版本:
ollama --version
网络连接(使用 cloud 标签时需要)
glm-5.2:cloud 标签将请求路由到 Z.ai 的推理 API,需要活跃的网络连接及 Ollama 账号。如未注册,请前往 ollama.com 登录。
硬件要求
| 运行模式 | 最低配置 | 推荐配置 |
|---|---|---|
glm-5.2:cloud(托管) |
任意现代设备 | 任意现代设备 |
| 本地 2-bit(UD-IQ2_XXS) | 256 GB 统一内存 | M4 Ultra Mac Studio / 工作站 |
| 本地 4-bit(Q4_K_M) | 500+ GB 内存 | 多 GPU 服务器 |
| 本地全精度(FP16) | 1.7 TB | 企业级集群 |
对大多数开发者而言,glm-5.2:cloud 是最实际的选择。本地部署方案在下方变体章节中单独介绍。
分步操作:在 Ollama 中运行 GLM-5.2
第一步:安装或更新 Ollama
根据你的平台执行相应的安装命令(见前置条件)。确认安装成功:
ollama --version
如果命令未找到,说明安装未完成,请重新运行安装脚本。
第二步:拉取 GLM-5.2 模型
在运行之前先拉取模型,以便在本地缓存配置(cloud 标签不会下载大型权重文件):
ollama pull glm-5.2:cloud
第三步:运行模型
启动交互式对话会话:
ollama run glm-5.2:cloud
Ollama 将打开一个提示符,你可以直接输入消息。按 Ctrl+D 或输入 /bye 退出。
第四步:使用示例提示词测试
会话打开后,尝试快速测试以确认一切正常:
>>> 用 Python 写一个读取 CSV 文件并返回字典列表的函数。
GLM-5.2 针对长周期编程任务进行了优化,可以很好地处理详细的工程类提示词。你也可以使用较大的输入来测试其 976K 上下文窗口。
Ollama 中可用的 GLM-5.2 模型变体
截至 2026 年 6 月,Ollama 库中 GLM-5.2 的可用标签如下:
| 标签 | 类型 | 上下文窗口 | 适用场景 |
|---|---|---|---|
glm-5.2:cloud |
托管(Z.ai 推理) | 976K tokens | 大多数开发者——无本地硬件要求 |
注意: 截至发布时,Ollama 官方库中尚无
glm-5.2:latest或量化本地标签。请查看 ollama.com/library/glm-5.2/tags 获取最新列表——本文发布后可能会添加本地量化标签。
完全本地运行 GLM-5.2(进阶)
GLM-5.2 是一个拥有 7440 亿参数的混合专家(MoE)模型,每个 token 约有 400 亿个活跃参数。该模型采用 MIT 许可证发布,提供开放权重。对于在 Ollama cloud 标签之外进行本地推理,来自 Unsloth 的 GGUF 量化版本是最易上手的路径:
| 量化级别 | 磁盘大小 | 最低内存 |
|---|---|---|
| UD-IQ2_XXS(2-bit 动态) | ~241 GB | 256 GB 统一内存 |
| UD-IQ2_M(2-bit 动态) | ~239 GB | 256 GB 统一内存 |
| UD-Q4_K_XL(4-bit 动态) | ~476 GB | 500+ GB |
这些规格使 GLM-5.2 仅在高端硬件上可行:Apple M4 Ultra Mac Studio(192 GB 或更高配置),或配备多 GPU 和大容量系统内存的工作站。对大多数开发者而言,通过 Ollama 使用 glm-5.2:cloud 是正确的起点。
通过 Ollama API 使用 GLM-5.2
一旦 GLM-5.2 运行起来(无论是拉取还是通过 ollama run 启动),Ollama 会在 http://localhost:11434 暴露一个本地 REST API。该 API 与 OpenAI 兼容,这意味着任何支持 OpenAI API 的工具也可以与 Ollama 配合使用。
curl — 生成端点
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2:cloud",
"prompt": "为 Node.js 应用编写一个使用多阶段构建的 Dockerfile。",
"stream": false
}'
curl — OpenAI 兼容对话端点
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2:cloud",
"messages": [
{"role": "system", "content": "你是一位专业的软件工程师。"},
{"role": "user", "content": "解释进程和线程的区别。"}
]
}'
Python — Ollama 库
from ollama import chat
response = chat(
model='glm-5.2:cloud',
messages=[
{'role': 'user', 'content': '审查这段 Python 代码并提出改进建议。'}
],
)
print(response.message.content)
Python — OpenAI SDK(直接兼容)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # SDK 要求填写,Ollama 不使用
)
response = client.chat.completions.create(
model="glm-5.2:cloud",
messages=[
{"role": "system", "content": "你是一位资深软件工程师。"},
{"role": "user", "content": "写一个 SQL 查询来查找表中的重复行。"}
]
)
print(response.choices[0].message.content)
JavaScript
import ollama from 'ollama'
const response = await ollama.chat({
model: 'glm-5.2:cloud',
messages: [{ role: 'user', content: '用 Express.js 生成一个 REST API。' }],
})
console.log(response.message.content)
在 Claude Code / Cursor 中配合 Ollama 使用 GLM-5.2
由于 Ollama 暴露 OpenAI 兼容的 API,你可以将 Claude Code 或 Cursor 等编程助手指向本地 Ollama 端点,从而将 GLM-5.2 用作后端模型。
配合 Claude Code 使用
设置环境变量,将 Claude Code 的 API 调用重定向到本地 Ollama 实例:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud
在 Claude Code 会话开始前,在后台启动 Ollama 服务:
ollama serve &
ollama run glm-5.2:cloud
配合 Cursor 使用
- 打开 Cursor 设置(macOS 用
Cmd+,,Windows/Linux 用Ctrl+,) - 导航到 Models → Add custom model
- 将模型名称设为
glm-5.2:cloud - 将基础 URL 设为
http://localhost:11434/v1 - 将 API key 设为
ollama(任意非空字符串均可) - 保存并在侧边栏聊天中选择该模型
配合 Continue(VS Code 扩展)使用
在 ~/.continue/config.json 中添加:
{
"models": [
{
"title": "GLM-5.2",
"provider": "ollama",
"model": "glm-5.2:cloud",
"apiBase": "http://localhost:11434"
}
]
}
常见问题排查
Error: model "glm-5.2:cloud" not found
先运行 ollama pull glm-5.2:cloud 注册模型,然后重试。如果拉取失败,请确认已登录 Ollama(ollama login)且网络连接正常。
拉取时出现身份验证错误
cloud 标签需要 Ollama 账号。前往 ollama.com 注册或登录,然后在终端运行 ollama login。
响应速度慢
glm-5.2:cloud 标签将请求路由到远程推理服务,响应速度取决于网络延迟和 Z.ai 服务器负载。这是托管模型的预期行为。
端口 11434 已被占用
另一个 Ollama 实例正在运行,或其他进程占用了该端口。停止其他进程,或在自定义端口上启动 Ollama:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
相应地将 API 调用更新为使用端口 11435。
安装后找不到 ollama 命令
在 Linux 上,安装脚本将二进制文件放在 /usr/local/bin。如果该路径不在 PATH 中,请添加:
export PATH=$PATH:/usr/local/bin
将该行添加到 ~/.bashrc 或 ~/.zshrc 中使其永久生效。
常见问题
可以在 Ollama 中运行 GLM-5.2 吗?
可以。GLM-5.2 已在 Ollama 库的 ollama.com/library/glm-5.2 中上线。glm-5.2:cloud 标签通过 Z.ai 的托管基础设施处理推理,你无需下载 240+ GB 的模型权重即可获得完整的 Ollama 开发体验。
GLM-5.2 的 Ollama 命令是什么?
ollama run glm-5.2:cloud
先拉取再运行:
ollama pull glm-5.2:cloud
在 Ollama 中运行 GLM-5.2 需要多少内存?
使用 glm-5.2:cloud 标签(托管推理)时,任何现代设备都可以运行,无特殊内存要求。使用 GGUF 量化权重进行完全本地推理时,最低需要约 256 GB 统一内存(2-bit UD-IQ2_XXS 量化版)。4-bit 变体需要 500+ GB。
通过 Ollama 本地运行 GLM-5.2 是免费的吗?
GLM-5.2 模型权重以 MIT 许可证发布,可免费使用。通过 glm-5.2:cloud 标签运行时,请求路由至 Z.ai 的托管 API——请查看 ollama.com 和 Z.ai 的条款了解当前云端推理的定价。使用自有硬件进行完全本地 GGUF 推理无需按 token 付费。
如何通过 Ollama 将 GLM-5.2 与 Claude Code 配合使用?
在 Claude Code 会话开始前设置以下环境变量:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud
然后通过 ollama serve & 在后台启动 Ollama 服务。Claude Code 会将补全请求路由到你的本地 Ollama 端点,再转发给 GLM-5.2。
GLM-5.2 的上下文窗口有多大?
GLM-5.2 支持 976K token 的上下文窗口(约 100 万 token),是截至 2026 年中期任何模型中最大的上下文窗口之一。这使其特别适合涉及大型代码库、长文档或多文件分析的任务。
GLM-5.2 是什么?
GLM-5.2 是 Z.ai(前身为智谱 AI)于 2026 年 6 月发布的旗舰开放权重模型。它是一个拥有 7440 亿参数的混合专家(MoE)架构,每个 token 约有 400 亿个活跃参数。该模型专门针对长周期编程、智能体任务和复杂推理进行了优化,在 28.5 万亿 token 上训练而成,以 MIT 许可证发布。
相关指南
相关阅读
继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。


GLM 5.2 价格详解:API定价、订阅套餐与免费额度(2026)
2026年GLM 5.2完整定价指南:API按Token计费详情、GLM Coding Plan订阅套餐(Lite/Pro/Max/Team)、OpenRouter价格及国内免费使用方案。

GLM 5.2 深度评测:性能测试、代码能力与是否值得使用
GLM 5.2 于2026年6月13日正式发布,744B MoE参数、100万Token上下文窗口、MIT开源协议,在多项长任务编码榜单上直追闭源前沿模型,API价格仅为GPT-5.5的约六分之一。本文带你全面了解这个模型。
还没决定下一篇看什么?
回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。
