Gemma 4 ガイド

OllamaでGLM-5.2を実行する方法:Cloudタグ、ローカル設定、APIガイド

約 7 分
glm 5.2ollamalocal llmglm 5.2 ollamazhipu ai
OllamaでGLM-5.2を実行する方法:Cloudタグ、ローカル設定、APIガイド

クイックアンサー

はい、OllamaでGLM-5.2を実行できます。公式のOllamaライブラリでは、glm-5.2:cloudタグでGLM-5.2が提供されています。このタグはOllamaの統合インターフェースを通じてZ.aiのホスト型インフラストラクチャに推論リクエストをルーティングします。241GB以上のモデルウェイトをローカルにダウンロードすることなく、完全なOllamaの開発体験を得ることができます。最速の開始方法:

ollama run glm-5.2:cloud

GLM-5.2を完全に自分のハードウェアで実行したい場合は、かなりのRAMが必要です(最小の量子化でも256GB以上)。その方法については、以下のハードウェアセクションで説明します。


前提条件

OllamaでGLM-5.2を実行する前に、以下の条件が整っていることを確認してください。

Ollamaのインストールと更新

GLM-5.2には最新バージョンのOllamaが必要です。インストールまたは更新方法:

# macOS(Homebrew)
brew install ollama
# または更新
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# https://ollama.com/download からインストーラーをダウンロード

インストールされているバージョンの確認:

ollama --version

インターネット接続(cloudタグに必要)

glm-5.2:cloudタグはZ.aiの推論APIにリクエストをルーティングします。アクティブなインターネット接続とOllamaアカウントが必要です。まだの場合はollama.comでサインインしてください。

ハードウェア要件

実行モード 最小構成 推奨構成
glm-5.2:cloud(ホスト型) 一般的な現代のマシン 一般的な現代のマシン
ローカル2-bit(UD-IQ2_XXS) 256GBユニファイドメモリ M4 Ultra Mac Studio / ワークステーション
ローカル4-bit(Q4_K_M) 500GB+ RAM マルチGPUサーバー
ローカル全精度(FP16) 1.7TB エンタープライズクラスター

ほとんどの開発者にとって、glm-5.2:cloudが実用的な選択です。ローカルデプロイはバリアントセクションで別途説明します。


ステップバイステップ:OllamaでGLM-5.2を実行する

ステップ1:Ollamaのインストールまたは更新

プラットフォームに適したインストールコマンドを実行します(前提条件を参照)。インストールの確認:

ollama --version

コマンドが見つからない場合は、インストールが完了していません。インストールスクリプトを再実行してください。

ステップ2:GLM-5.2モデルのプル

実行前にモデルをプルして設定をローカルにキャッシュします(cloudタグでは大きなウェイトファイルはダウンロードされません):

ollama pull glm-5.2:cloud

ステップ3:モデルの実行

インタラクティブなチャットセッションを開始:

ollama run glm-5.2:cloud

Ollamaがプロンプトを開き、直接メッセージを入力できます。Ctrl+Dを押すか/byeと入力して終了します。

ステップ4:サンプルプロンプトでテスト

セッションが開いたら、すべてが正常に動作していることを確認するためにクイックテストを試してみましょう:

>>> CSVファイルを読み込んで辞書のリストを返すPython関数を書いてください。

GLM-5.2は長期的なコーディングタスクに最適化されており、詳細なエンジニアリングプロンプトをうまく処理します。976Kコンテキストウィンドウを大きな入力でテストすることもできます。


Ollamaで利用可能なGLM-5.2モデルバリアント

2026年6月時点で、OllamaライブラリにはGLM-5.2の以下のタグが掲載されています:

タグ タイプ コンテキストウィンドウ 最適な用途
glm-5.2:cloud ホスト型(Z.ai推論) 976Kトークン ほとんどの開発者 — ローカルハードウェア要件なし

注意: 公開時点では、公式OllamaライブラリにはGLM-5.2のlatestまたは量子化されたローカルタグはありません。最新のリストはollama.com/library/glm-5.2/tagsでご確認ください。この記事の公開後にローカル量子化タグが追加される可能性があります。

GLM-5.2を完全ローカルで実行する(上級者向け)

GLM-5.2は、トークンあたり約400億のアクティブパラメータを持つ7440億パラメータのMixture-of-Experts(MoE)モデルです。MITライセンスでオープンウェイトが公開されています。OllamaのcloudタグExt外でのローカル推論には、UnslothのGGUF量子化版が最も手軽なアプローチです:

量子化 ディスクサイズ 最小メモリ
UD-IQ2_XXS(2-bit動的) ~241 GB 256GBユニファイドメモリ
UD-IQ2_M(2-bit動的) ~239 GB 256GBユニファイドメモリ
UD-Q4_K_XL(4-bit動的) ~476 GB 500GB以上

これらのサイズにより、GLM-5.2はハイエンドハードウェアでのみ実用的です:Apple M4 Ultra Mac Studio(192GB以上の構成)、または複数のGPUと大容量システムRAMを搭載したワークステーション。ほとんどの開発者にとって、Ollamaを通じたglm-5.2:cloudが適切な出発点です。


Ollama APIでGLM-5.2を使用する

GLM-5.2が起動すると、Ollamaはhttp://localhost:11434にローカルREST APIを提供します。このAPIはOpenAI互換なので、OpenAI APIで動作するツールはすべてOllamaでも動作します。

curl — generateエンドポイント

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "prompt": "マルチステージビルドを使用したNode.jsアプリのDockerfileを書いてください。",
    "stream": false
  }'

curl — OpenAI互換チャットエンドポイント

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "messages": [
      {"role": "system", "content": "あなたはエキスパートのソフトウェアエンジニアです。"},
      {"role": "user", "content": "プロセスとスレッドの違いを説明してください。"}
    ]
  }'

Python — Ollamaライブラリ

from ollama import chat

response = chat(
    model='glm-5.2:cloud',
    messages=[
        {'role': 'user', 'content': 'このPythonコードをレビューして改善点を提案してください。'}
    ],
)
print(response.message.content)

Python — OpenAI SDK(ドロップイン互換)

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # SDKが要求するが、Ollamaでは未使用
)

response = client.chat.completions.create(
    model="glm-5.2:cloud",
    messages=[
        {"role": "system", "content": "あなたはシニアソフトウェアエンジニアです。"},
        {"role": "user", "content": "テーブル内の重複行を見つけるSQLクエリを書いてください。"}
    ]
)
print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'glm-5.2:cloud',
  messages: [{ role: 'user', content: 'Express.jsでREST APIを生成してください。' }],
})
console.log(response.message.content)

Claude Code / CursorでOllamaとGLM-5.2を使用する

OllamaはOpenAI互換APIを公開しているため、Claude CodeやCursorなどのコーディングアシスタントをローカルOllamaエンドポイントに向けて、GLM-5.2をバックエンドモデルとして使用することができます。

Claude Codeと併用する

Claude CodeのAPIコールをローカルOllamaインスタンスにリダイレクトするための環境変数を設定:

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

Claude Codeセッション開始前にOllamaをバックグラウンドで起動:

ollama serve &
ollama run glm-5.2:cloud

Cursorと併用する

  1. Cursorの設定を開く(macOSはCmd+,、Windows/LinuxはCtrl+,
  2. ModelsAdd custom modelに移動
  3. モデル名をglm-5.2:cloudに設定
  4. ベースURLをhttp://localhost:11434/v1に設定
  5. APIキーをollamaに設定(空でない文字列なら何でも可)
  6. 保存してチャットサイドバーでモデルを選択

Continue(VS Code拡張機能)と併用する

~/.continue/config.jsonに追加:

{
  "models": [
    {
      "title": "GLM-5.2",
      "provider": "ollama",
      "model": "glm-5.2:cloud",
      "apiBase": "http://localhost:11434"
    }
  ]
}

トラブルシューティング

Error: model "glm-5.2:cloud" not found

まずollama pull glm-5.2:cloudを実行してモデルを登録してから再試行してください。プルが失敗する場合は、Ollamaにログインしているか(ollama login)、インターネット接続が有効かどうかを確認してください。

プル時の認証エラー

cloudタグにはOllamaアカウントが必要です。ollama.comで登録またはログインし、ターミナルでollama loginを実行してください。

応答が遅い

glm-5.2:cloudタグはリモート推論にルーティングされるため、応答速度はネットワーク遅延とZ.aiのサーバー負荷に依存します。これはホスト型モデルの想定される動作です。

ポート11434がすでに使用中

別のOllamaインスタンスが実行中か、別のプロセスがポートを占有しています。他のプロセスを停止するか、カスタムポートでOllamaを起動してください:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

APIコールをポート11435を使用するように更新してください。

インストール後にollamaコマンドが見つからない

Linuxでは、インストールスクリプトはバイナリを/usr/local/binに配置します。そのパスがPATHにない場合は追加してください:

export PATH=$PATH:/usr/local/bin

永続的に適用するには、その行を~/.bashrcまたは~/.zshrcに追加してください。


よくある質問

OllamaでGLM-5.2を実行できますか?

はい。GLM-5.2はollama.com/library/glm-5.2のOllamaライブラリで利用可能です。glm-5.2:cloudタグはZ.aiのホスト型インフラストラクチャを通じて推論を処理します。240GB以上のモデルウェイトをダウンロードしなくても、完全なOllamaの開発体験を得ることができます。

GLM-5.2のOllamaコマンドは何ですか?

ollama run glm-5.2:cloud

先にプルしてから実行:

ollama pull glm-5.2:cloud

OllamaでGLM-5.2を実行するには、どのくらいのRAMが必要ですか?

glm-5.2:cloudタグ(ホスト型推論)の場合、一般的な現代のマシンで十分です。特別なRAM要件はありません。GGUF量子化ウェイトを使用した完全なローカル推論の場合、最小で約256GBのユニファイドメモリが必要です(2-bit UD-IQ2_XXS量子化の場合)。4-bitバリアントは500GB以上が必要です。

OllamaでGLM-5.2をローカルで実行するのは無料ですか?

GLM-5.2のモデルウェイトはMITライセンスで公開されており、無料で使用できます。glm-5.2:cloudタグを通じて実行すると、リクエストはZ.aiのホスト型APIにルーティングされます。クラウド推論の現在の価格についてはollama.comとZ.aiの利用規約を確認してください。自分のハードウェアで完全にローカルでGGUF推論を行う場合、トークンあたりのコストはかかりません。

OllamaでGLM-5.2をClaude Codeと一緒に使用するには?

Claude Codeセッションを開始する前に、これらの環境変数を設定してください:

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

次にollama serve &でOllamaをバックグラウンドで起動します。Claude Codeはローカルのollamaエンドポイントを通じて補完リクエストをGLM-5.2に転送します。


関連ガイド

関連記事

Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

次に何を読めばいいか迷っていますか?

ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。