Gemma 4 ガイド
GLM 5.2 ハードウェア要件:RAM・VRAM・GPU完全ガイド

GLM 5.2は、2026年6月13日にZhipuAIがリリースした現存する最強クラスのオープンウェイトモデルの一つです。約7,440億の総パラメータと、1トークンあたり約400億パラメータのみを活性化するMixture-of-Experts(MoE)アーキテクチャにより、最前線クラスのパフォーマンスを発揮します。しかし、ローカル実行には本格的なハードウェアが必要です。本ガイドでは、最小構成から高性能構成まで必要なものを詳しく解説します。
クイックアンサー
| 量子化方式 | ファイルサイズ | 必要RAM / VRAM | 最適ハードウェア |
|---|---|---|---|
| FP16(フル精度) | ~1.51 TB | ~1,642 GB VRAM | データセンター専用(複数H100ノード) |
| FP8 | ~744 GB | ~744 GB+ VRAM | 8× H200(計1,128 GB) |
| INT4 / Q4 | ~411 GB | ~411 GB VRAM | 8× A100 80 GB または同等品 |
| 2-bit動的(UD-IQ2_M) | ~239 GB | ~245 GB RAM/統合メモリ | M4 Ultra Mac Studio(256 GB)または256 GB+ワークステーション |
| 1-bit動的(UD-IQ1_S) | ~217 GB | ~220 GB+ RAM | 大容量RAMワークステーション;最低品質 |
結論: GLM 5.2は単一のコンシューマーGPUでは実行できません。最も現実的なローカル運用方法は、256 GB以上の統合メモリを持つMacまたは合計~256 GBのVRAM/RAMを持つマルチGPUワークステーションでUnslothの2-bit動的GGUFを使用することです。
GLM 5.2のモデルサイズとアーキテクチャ
GLM 5.2は単一モデルとして以下の仕様でリリースされています:
- 総パラメータ数: 約7,440〜7,530億
- 1トークンあたりの活性パラメータ: 約400億(MoEルーティング)
- コンテキストウィンドウ: 1,000,000トークン(1M)
- アーキテクチャ: Mixture-of-Experts(MoE)
- ライセンス: MIT(完全オープンウェイト)
- 完全ウェイトのディスクサイズ: ~1.51 TB(BF16/FP16)
MoEアーキテクチャは、積極的な量子化がローカル推論において実用的に機能する鍵です。1トークンあたり約400億パラメータしか活性化されないため、実際の計算負荷は7,440億という総パラメータ数が示すよりはるかに低くなります。ただし、7,440億のウェイト全てがメモリに常駐する必要があります。MoEが節約するのは計算量であり、メモリ使用量ではありません。
利用可能な量子化バリアント(Unsloth GGUF)
| バリアント | ファイルサイズ | BF16比精度 | 備考 |
|---|---|---|---|
| UD-Q5_K_XL(5-bit動的) | ~520 GB | ~98〜99% | ほぼ無損失;非常に大きい |
| UD-Q4_K_XL(4-bit動的) | ~411 GB | ~96〜98% | ほぼ無損失;メモリ許容なら推奨 |
| UD-IQ2_M(2-bit動的) | ~239 GB | ~82% | 256 GBシステムに最も実用的 |
| UD-IQ1_S(1-bit動的) | ~217 GB | ~76% | 最小;品質低下が顕著 |
GLM 5.2をローカル実行するための最小要件
GLM 5.2をローカル実行することは、一般コンシューマーが気軽にできることではありません。現実的な最小要件は以下の通りです:
絶対最小構成(2-bit動的GGUF):
- RAM: 245〜256 GB(統合メモリ、またはMoEオフロードを使ったシステムRAM)
- ストレージ: 240 GB以上の空きディスク容量
- CPU: AVX2対応の最新x86-64、またはApple Silicon(M3 Ultra / M4 Ultra)
- GPU(任意だが推奨): 可能な限り多くのウェイトを格納できるVRAMを持つGPU
- OS: Linux、macOS、またはWindows(vLLMはLinux推奨)
4-bit(ほぼ無損失)推論:
- RAM + VRAM: 合計~411 GB
- 例: 8× NVIDIA A100 80 GB(合計640 GB)
- ストレージ: 420 GB以上の空きディスク容量
RAM要件
| 量子化 | 最小RAM | 推奨RAM | 備考 |
|---|---|---|---|
| UD-IQ1_S(1-bit) | ~220 GB | 256 GB | 最低品質、最小フットプリント |
| UD-IQ2_M(2-bit) | ~245 GB | 256〜320 GB | 256 GBシステムの最適バランス |
| UD-Q4_K_XL(4-bit) | ~420 GB | 512 GB | 大型ワークステーションまたはマルチGPU必要 |
| FP16(フル精度) | ~1,642 GB | 2 TB以上 | データセンター専用 |
GPU / VRAM要件
| 構成 | 合計VRAM | 実行可能か | 最大量子化 | 推定速度 |
|---|---|---|---|---|
| 1× RTX 4090(24 GB) | 24 GB | 部分的(CPUオフロード) | UD-IQ2_M | ~0.5〜1 tok/s |
| 4× RTX 3090(96 GB) | 96 GB | 部分的(CPUオフロード) | UD-IQ2_M | ~2〜4 tok/s |
| 4× RTX 4090(96 GB) | 96 GB | 部分的(CPUオフロード) | UD-IQ2_M | ~3〜5 tok/s |
| 8× A100 40 GB(320 GB) | 320 GB | 可(2-bit) | UD-IQ2_M | ~5〜9 tok/s |
| 8× A100 80 GB(640 GB) | 640 GB | 可(4-bit) | UD-Q4_K_XL | ~8〜15 tok/s |
| 8× H100 80 GB(640 GB) | 640 GB | 可(4-bit) | UD-Q4_K_XL | ~15〜25 tok/s |
| 8× H200 141 GB(1,128 GB) | 1,128 GB | 可(FP8) | FP8 | ~30〜50 tok/s |
コンシューマーGPUの現実: 単一のRTX 4090(24 GB VRAM)はVRAMだけでは2-bit GGUFすら収めることができません。CPU+GPUハイブリッド構成の一部として使用できますが、PCIeの帯域幅ボトルネックにより推論速度は遅くなります。192 GBシステムRAMを持つ4× RTX 3090マシンで、毎秒約2〜4トークンが期待できます。
Apple Silicon / MacでGLM 5.2を実行できるか?
はい — Apple Siliconは実際、GLM 5.2をローカル実行する最もコスト効率の良い方法の一つです。理由は統合メモリです:Apple SiliconではCPUとGPUが同一のメモリプールを共有するため、256 GBの統合メモリを持つMacはCPU/GPU分割なしで256 GB全体をモデルウェイトに使用できます。
| Mac構成 | 統合メモリ | GLM 5.2実行可能か | 備考 |
|---|---|---|---|
| M2 / M3 / M4(8〜24 GB) | 8〜24 GB | 不可 | メモリが全く足りない |
| M2 Pro / M3 Pro / M4 Pro(36〜48 GB) | 36〜48 GB | 不可 | まだ全く足りない |
| M2 Max / M3 Max / M4 Max(64〜128 GB) | 64〜128 GB | 不可 | 最低245 GB必要 |
| M2 Ultra / M3 Ultra(192 GB) | 192 GB | ギリギリ不可 | UD-IQ2_Mには不足 |
| M3 Ultra / M4 Ultra(256 GB) | 256 GB | 可(2-bit) | UD-IQ2_M搭載;~3〜5 tok/s |
| M3 Ultra / M4 Ultra(512 GB) | 512 GB | 可(4-bit) | UD-Q4_K_XL;~5〜8 tok/s |
Mac向け推奨設定: M4 Ultra Mac Studio(256 GB統合メモリ)+ Metalバックエンドllama.cpp + UnslothのUD-IQ2_MGGUF。毎秒約3〜6トークン — 個人開発者のワークフローに十分です。
重要: 192 GB M2 Ultra / M3 Ultraは2-bit GGUFを実行するのに十分なメモリがありません(最低約245 GB必要)。192 GBのMacで動作すると思い込まないでください。
CPUのみでGLM 5.2を実行できるか?
技術的には可能ですが、実際には困難です。llama.cppを使った純粋なCPU推論はメモリ帯域幅によって制限されます。
CPUのみ推論の要件:
- 256 GB以上のDDR5 ECC RAM(最大帯域幅のためデュアルまたはクアッドチャネル)
- 高コア数CPU(AMD EPYCまたはIntel Xeon推奨)
- AVX2またはAVX-512サポート
期待されるパフォーマンス: ハイエンドデュアルソケットEPYCワークステーションで毎秒約1〜3トークン。
推奨ハードウェア構成
エントリーレベル(最小実行可能)
- Apple M4 Ultra Mac Studio、256 GB統合メモリ
- 量子化:UD-IQ2_M(2-bit動的、239 GB)
- 期待速度:~3〜6 tok/s
- 概算コスト:~$10,000〜$12,000
- 適合用途:個人開発者、個人AIアシスタント
ミドルレンジ
- 4× RTX 3090または4× RTX 4090ワークステーション + 256 GB DDR5システムRAM
- 量子化:UD-IQ2_M
- 期待速度:~3〜6 tok/s
- 適合用途:小チーム、開発サーバー
ハイパフォーマンス
- 8× A100 80 GBサーバー(合計640 GB VRAM)
- 量子化:UD-Q4_K_XL(4-bit動的、~411 GB)
- 期待速度:~8〜15 tok/s
- クラウドコスト:~$6.40/時間(Spheronなど)
最高品質
- 8× H200 141 GBノード(合計1,128 GB VRAM)
- 量子化:FP8(~744 GB)
- 期待速度:~30〜50 tok/s
GGUF vs フル精度
| フォーマット | サイズ | 品質 | 用途 |
|---|---|---|---|
| BF16 / FP16 | ~1,510 GB | 基準(100%) | データセンター専用 |
| FP8 | ~744 GB | ~99% | マルチH100/H200クラスター |
| Q4 / UD-Q4_K_XL | ~411 GB | ~96〜98% | 大型マルチGPUリグ |
| Q2 / UD-IQ2_M | ~239 GB | ~82% | 256 GB MacまたはWS |
| Q1 / UD-IQ1_S | ~217 GB | ~76% | 最後の手段 |
よくある質問
GLM 5.2に必要なRAMはどのくらいですか?
GLM 5.2の2-bit動的GGUFを実行するには、RAMとVRAMを合わせて最低約245 GBが必要です。フル精度(FP16)は1,600 GB以上が必要です — これはデータセンター領域です。
GLM 5.2に必要なGPUは何ですか?
単一のコンシューマーGPUではGLM 5.2を実行できません。最小の実用的なGPU専用構成は、2-bit GGUFのための8× A100 40 GB(合計320 GB)です。コンシューマーハードウェアでは、4× RTX 3090または4× RTX 4090に256 GB以上のシステムRAMを組み合わせてCPU/GPUハイブリッドオフロードで約3〜6 tok/sで実行できます。
ノートパソコンでGLM 5.2を実行できますか?
いいえ。最高スペックのノートパソコン(例:128 GB統合メモリのMacBook Pro M4 Max)でさえ、最低~245 GBの要件には程遠いです。GLM 5.2は厳密にデスクトップワークステーションまたはサーバーレベルのモデルです。
MacでGLM 5.2を実行できますか?
はい、ただし最高スペックのMac構成のみです。M3 UltraまたはM4 Ultraと256 GBの統合メモリを持つMac StudioまたはMac Proが最低限必要です。2-bit動的GGUF(UD-IQ2_M、約239 GB)が256 GBに収まります。
GLM 5.2に必要なストレージ容量はどのくらいですか?
- フル精度(BF16):~1,510 GB
- 4-bit動的GGUF:~411 GB
- 2-bit動的GGUF:~239 GB
- 1-bit動的GGUF:~217 GB
GLM 5.2の最小ハードウェアは何ですか?
現実的な最小構成は、256 GB統合メモリのMac(M3 UltraまたはM4 Ultra)、または256 GB DDR5 RAMと少なくとも1つのGPUを備えたワークステーションです。アクセス可能な総メモリが245 GB未満の場合、モデルは読み込まれません。
関連ガイド
関連記事
Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

OllamaでGLM-5.2を実行する方法:Cloudタグ、ローカル設定、APIガイド
GLM-5.2はglm-5.2:cloudタグでOllamaから利用可能です。コマンド一つで976Kコンテキストのコーディングモデルが使え、744Bパラメータを自分でダウンロードする必要はありません。

GLM 5.2 料金完全ガイド:API価格・サブスクリプション・無料枠(2026年)
2026年版GLM 5.2料金完全ガイド:APIトークン料金、GLM Coding Planサブスクリプション(Lite/Pro/Max/Team)、OpenRouter価格、無料アクセス方法をまとめています。

GLM 5.2 レビュー:ベンチマーク、コーディング性能、使う価値はあるか?
GLM 5.2は2026年6月13日にリリース。744BのMoEパラメータ、100万トークンのコンテキストウィンドウ、MITライセンスを持ち、GPT-5.5の約6分の1のAPI費用でクローズドソースのフロンティアモデルに匹敵するベンチマーク成績を達成したオープンウェイトモデルです。
次に何を読めばいいか迷っていますか?
ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。
