Gemma 4 ガイド
OllamaでGLM-5.2を実行する方法:Cloudタグ、ローカル設定、APIガイド

クイックアンサー
はい、OllamaでGLM-5.2を実行できます。公式のOllamaライブラリでは、glm-5.2:cloudタグでGLM-5.2が提供されています。このタグはOllamaの統合インターフェースを通じてZ.aiのホスト型インフラストラクチャに推論リクエストをルーティングします。241GB以上のモデルウェイトをローカルにダウンロードすることなく、完全なOllamaの開発体験を得ることができます。最速の開始方法:
ollama run glm-5.2:cloud
GLM-5.2を完全に自分のハードウェアで実行したい場合は、かなりのRAMが必要です(最小の量子化でも256GB以上)。その方法については、以下のハードウェアセクションで説明します。
前提条件
OllamaでGLM-5.2を実行する前に、以下の条件が整っていることを確認してください。
Ollamaのインストールと更新
GLM-5.2には最新バージョンのOllamaが必要です。インストールまたは更新方法:
# macOS(Homebrew)
brew install ollama
# または更新
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# https://ollama.com/download からインストーラーをダウンロード
インストールされているバージョンの確認:
ollama --version
インターネット接続(cloudタグに必要)
glm-5.2:cloudタグはZ.aiの推論APIにリクエストをルーティングします。アクティブなインターネット接続とOllamaアカウントが必要です。まだの場合はollama.comでサインインしてください。
ハードウェア要件
| 実行モード | 最小構成 | 推奨構成 |
|---|---|---|
glm-5.2:cloud(ホスト型) |
一般的な現代のマシン | 一般的な現代のマシン |
| ローカル2-bit(UD-IQ2_XXS) | 256GBユニファイドメモリ | M4 Ultra Mac Studio / ワークステーション |
| ローカル4-bit(Q4_K_M) | 500GB+ RAM | マルチGPUサーバー |
| ローカル全精度(FP16) | 1.7TB | エンタープライズクラスター |
ほとんどの開発者にとって、glm-5.2:cloudが実用的な選択です。ローカルデプロイはバリアントセクションで別途説明します。
ステップバイステップ:OllamaでGLM-5.2を実行する
ステップ1:Ollamaのインストールまたは更新
プラットフォームに適したインストールコマンドを実行します(前提条件を参照)。インストールの確認:
ollama --version
コマンドが見つからない場合は、インストールが完了していません。インストールスクリプトを再実行してください。
ステップ2:GLM-5.2モデルのプル
実行前にモデルをプルして設定をローカルにキャッシュします(cloudタグでは大きなウェイトファイルはダウンロードされません):
ollama pull glm-5.2:cloud
ステップ3:モデルの実行
インタラクティブなチャットセッションを開始:
ollama run glm-5.2:cloud
Ollamaがプロンプトを開き、直接メッセージを入力できます。Ctrl+Dを押すか/byeと入力して終了します。
ステップ4:サンプルプロンプトでテスト
セッションが開いたら、すべてが正常に動作していることを確認するためにクイックテストを試してみましょう:
>>> CSVファイルを読み込んで辞書のリストを返すPython関数を書いてください。
GLM-5.2は長期的なコーディングタスクに最適化されており、詳細なエンジニアリングプロンプトをうまく処理します。976Kコンテキストウィンドウを大きな入力でテストすることもできます。
Ollamaで利用可能なGLM-5.2モデルバリアント
2026年6月時点で、OllamaライブラリにはGLM-5.2の以下のタグが掲載されています:
| タグ | タイプ | コンテキストウィンドウ | 最適な用途 |
|---|---|---|---|
glm-5.2:cloud |
ホスト型(Z.ai推論) | 976Kトークン | ほとんどの開発者 — ローカルハードウェア要件なし |
注意: 公開時点では、公式OllamaライブラリにはGLM-5.2の
latestまたは量子化されたローカルタグはありません。最新のリストはollama.com/library/glm-5.2/tagsでご確認ください。この記事の公開後にローカル量子化タグが追加される可能性があります。
GLM-5.2を完全ローカルで実行する(上級者向け)
GLM-5.2は、トークンあたり約400億のアクティブパラメータを持つ7440億パラメータのMixture-of-Experts(MoE)モデルです。MITライセンスでオープンウェイトが公開されています。OllamaのcloudタグExt外でのローカル推論には、UnslothのGGUF量子化版が最も手軽なアプローチです:
| 量子化 | ディスクサイズ | 最小メモリ |
|---|---|---|
| UD-IQ2_XXS(2-bit動的) | ~241 GB | 256GBユニファイドメモリ |
| UD-IQ2_M(2-bit動的) | ~239 GB | 256GBユニファイドメモリ |
| UD-Q4_K_XL(4-bit動的) | ~476 GB | 500GB以上 |
これらのサイズにより、GLM-5.2はハイエンドハードウェアでのみ実用的です:Apple M4 Ultra Mac Studio(192GB以上の構成)、または複数のGPUと大容量システムRAMを搭載したワークステーション。ほとんどの開発者にとって、Ollamaを通じたglm-5.2:cloudが適切な出発点です。
Ollama APIでGLM-5.2を使用する
GLM-5.2が起動すると、Ollamaはhttp://localhost:11434にローカルREST APIを提供します。このAPIはOpenAI互換なので、OpenAI APIで動作するツールはすべてOllamaでも動作します。
curl — generateエンドポイント
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2:cloud",
"prompt": "マルチステージビルドを使用したNode.jsアプリのDockerfileを書いてください。",
"stream": false
}'
curl — OpenAI互換チャットエンドポイント
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2:cloud",
"messages": [
{"role": "system", "content": "あなたはエキスパートのソフトウェアエンジニアです。"},
{"role": "user", "content": "プロセスとスレッドの違いを説明してください。"}
]
}'
Python — Ollamaライブラリ
from ollama import chat
response = chat(
model='glm-5.2:cloud',
messages=[
{'role': 'user', 'content': 'このPythonコードをレビューして改善点を提案してください。'}
],
)
print(response.message.content)
Python — OpenAI SDK(ドロップイン互換)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # SDKが要求するが、Ollamaでは未使用
)
response = client.chat.completions.create(
model="glm-5.2:cloud",
messages=[
{"role": "system", "content": "あなたはシニアソフトウェアエンジニアです。"},
{"role": "user", "content": "テーブル内の重複行を見つけるSQLクエリを書いてください。"}
]
)
print(response.choices[0].message.content)
JavaScript
import ollama from 'ollama'
const response = await ollama.chat({
model: 'glm-5.2:cloud',
messages: [{ role: 'user', content: 'Express.jsでREST APIを生成してください。' }],
})
console.log(response.message.content)
Claude Code / CursorでOllamaとGLM-5.2を使用する
OllamaはOpenAI互換APIを公開しているため、Claude CodeやCursorなどのコーディングアシスタントをローカルOllamaエンドポイントに向けて、GLM-5.2をバックエンドモデルとして使用することができます。
Claude Codeと併用する
Claude CodeのAPIコールをローカルOllamaインスタンスにリダイレクトするための環境変数を設定:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud
Claude Codeセッション開始前にOllamaをバックグラウンドで起動:
ollama serve &
ollama run glm-5.2:cloud
Cursorと併用する
- Cursorの設定を開く(macOSは
Cmd+,、Windows/LinuxはCtrl+,) - Models → Add custom modelに移動
- モデル名を
glm-5.2:cloudに設定 - ベースURLを
http://localhost:11434/v1に設定 - APIキーを
ollamaに設定(空でない文字列なら何でも可) - 保存してチャットサイドバーでモデルを選択
Continue(VS Code拡張機能)と併用する
~/.continue/config.jsonに追加:
{
"models": [
{
"title": "GLM-5.2",
"provider": "ollama",
"model": "glm-5.2:cloud",
"apiBase": "http://localhost:11434"
}
]
}
トラブルシューティング
Error: model "glm-5.2:cloud" not found
まずollama pull glm-5.2:cloudを実行してモデルを登録してから再試行してください。プルが失敗する場合は、Ollamaにログインしているか(ollama login)、インターネット接続が有効かどうかを確認してください。
プル時の認証エラー
cloudタグにはOllamaアカウントが必要です。ollama.comで登録またはログインし、ターミナルでollama loginを実行してください。
応答が遅い
glm-5.2:cloudタグはリモート推論にルーティングされるため、応答速度はネットワーク遅延とZ.aiのサーバー負荷に依存します。これはホスト型モデルの想定される動作です。
ポート11434がすでに使用中
別のOllamaインスタンスが実行中か、別のプロセスがポートを占有しています。他のプロセスを停止するか、カスタムポートでOllamaを起動してください:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
APIコールをポート11435を使用するように更新してください。
インストール後にollamaコマンドが見つからない
Linuxでは、インストールスクリプトはバイナリを/usr/local/binに配置します。そのパスがPATHにない場合は追加してください:
export PATH=$PATH:/usr/local/bin
永続的に適用するには、その行を~/.bashrcまたは~/.zshrcに追加してください。
よくある質問
OllamaでGLM-5.2を実行できますか?
はい。GLM-5.2はollama.com/library/glm-5.2のOllamaライブラリで利用可能です。glm-5.2:cloudタグはZ.aiのホスト型インフラストラクチャを通じて推論を処理します。240GB以上のモデルウェイトをダウンロードしなくても、完全なOllamaの開発体験を得ることができます。
GLM-5.2のOllamaコマンドは何ですか?
ollama run glm-5.2:cloud
先にプルしてから実行:
ollama pull glm-5.2:cloud
OllamaでGLM-5.2を実行するには、どのくらいのRAMが必要ですか?
glm-5.2:cloudタグ(ホスト型推論)の場合、一般的な現代のマシンで十分です。特別なRAM要件はありません。GGUF量子化ウェイトを使用した完全なローカル推論の場合、最小で約256GBのユニファイドメモリが必要です(2-bit UD-IQ2_XXS量子化の場合)。4-bitバリアントは500GB以上が必要です。
OllamaでGLM-5.2をローカルで実行するのは無料ですか?
GLM-5.2のモデルウェイトはMITライセンスで公開されており、無料で使用できます。glm-5.2:cloudタグを通じて実行すると、リクエストはZ.aiのホスト型APIにルーティングされます。クラウド推論の現在の価格についてはollama.comとZ.aiの利用規約を確認してください。自分のハードウェアで完全にローカルでGGUF推論を行う場合、トークンあたりのコストはかかりません。
OllamaでGLM-5.2をClaude Codeと一緒に使用するには?
Claude Codeセッションを開始する前に、これらの環境変数を設定してください:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud
次にollama serve &でOllamaをバックグラウンドで起動します。Claude Codeはローカルのollamaエンドポイントを通じて補完リクエストをGLM-5.2に転送します。
関連ガイド
関連記事
Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

GLM 5.2 ハードウェア要件:RAM・VRAM・GPU完全ガイド
GLM 5.2はMITライセンスで公開された7,440億パラメータのMoEモデルです。ローカル実行に必要なすべてのハードウェア情報をまとめました。

GLM 5.2 料金完全ガイド:API価格・サブスクリプション・無料枠(2026年)
2026年版GLM 5.2料金完全ガイド:APIトークン料金、GLM Coding Planサブスクリプション(Lite/Pro/Max/Team)、OpenRouter価格、無料アクセス方法をまとめています。

GLM 5.2 レビュー:ベンチマーク、コーディング性能、使う価値はあるか?
GLM 5.2は2026年6月13日にリリース。744BのMoEパラメータ、100万トークンのコンテキストウィンドウ、MITライセンスを持ち、GPT-5.5の約6分の1のAPI費用でクローズドソースのフロンティアモデルに匹敵するベンチマーク成績を達成したオープンウェイトモデルです。
次に何を読めばいいか迷っていますか?
ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。
