Gemma-4-Leitfäden

GLM 5.2 Hardwareanforderungen: RAM, VRAM und GPU-Leitfaden

7 Min. Lesezeit
glm 5.2hardware requirementslocal llmvramglm 5.2 requirements
GLM 5.2 Hardwareanforderungen: RAM, VRAM und GPU-Leitfaden

GLM 5.2, am 13. Juni 2026 von ZhipuAI veröffentlicht, ist eines der leistungsfähigsten Open-Weight-Modelle überhaupt. Mit ca. 744 Milliarden Gesamtparametern und einer Mixture-of-Experts (MoE)-Architektur, die pro Token nur ~40 Milliarden Parameter aktiviert, bietet es Frontier-Leistung — erfordert aber für den lokalen Betrieb ernsthafte Hardware. Dieser Leitfaden erklärt genau, was Sie benötigen: von minimalen Konfigurationen bis hin zu Hochleistungs-Setups.


Schnelle Übersicht

Quantisierung Dateigröße Benötigter RAM / VRAM Beste Hardware
FP16 (volle Präzision) ~1,51 TB ~1.642 GB VRAM Nur Rechenzentrum (mehrere H100-Knoten)
FP8 ~744 GB ~744 GB+ VRAM 8× H200 (1.128 GB gesamt)
INT4 / Q4 ~411 GB ~411 GB VRAM 8× A100 80 GB oder gleichwertig
2-Bit dynamisch (UD-IQ2_M) ~239 GB ~245 GB RAM/Unified Memory M4 Ultra Mac Studio (256 GB) oder 256-GB+-Workstation
1-Bit dynamisch (UD-IQ1_S) ~217 GB ~220 GB+ RAM Hochspeicher-Workstation; niedrigste Qualität

Fazit: GLM 5.2 ist zu groß für eine einzelne Consumer-GPU. Der zugänglichste lokale Weg ist Unsloths 2-Bit-Dynamic-GGUF auf einem Mac mit 256 GB+ Unified Memory oder einer Multi-GPU-Workstation mit ~256 GB kombiniertem VRAM/RAM.


GLM 5.2 Modellgrößen und Architektur

GLM 5.2 wird als einzelnes Modell mit folgenden Spezifikationen ausgeliefert:

  • Gesamtparameter: ~744–753 Milliarden
  • Aktive Parameter pro Token: ~40 Milliarden (MoE-Routing)
  • Kontextfenster: 1.000.000 Token (1M)
  • Architektur: Mixture-of-Experts (MoE)
  • Lizenz: MIT (vollständig offene Gewichte)
  • Vollständige Gewichte auf Disk: ~1,51 TB (BF16/FP16)

Die MoE-Architektur ist der Schlüssel dazu, dass aggressive Quantisierung für lokale Inferenz funktioniert. Da pro Token nur ~40B Parameter aktiviert werden, ist die Rechenlast deutlich geringer, als die 744B Gesamtparameter vermuten lassen. Alle 744B Gewichte müssen jedoch weiterhin im Speicher vorhanden sein — MoE spart Rechenleistung, nicht Speicherplatz.

Verfügbare Quantisierungsvarianten (Unsloth GGUF)

Variante Dateigröße Genauigkeit vs. BF16 Hinweise
UD-Q5_K_XL (5-Bit dynamisch) ~520 GB ~98–99% Annähernd verlustfrei; sehr groß
UD-Q4_K_XL (4-Bit dynamisch) ~411 GB ~96–98% Annähernd verlustfrei; empfohlen
UD-IQ2_M (2-Bit dynamisch) ~239 GB ~82% Für 256-GB-Systeme am praktischsten
UD-IQ1_S (1-Bit dynamisch) ~217 GB ~76% Kleinste; erheblicher Qualitätsverlust

Mindestanforderungen für den lokalen Betrieb von GLM 5.2

GLM 5.2 lokal zu betreiben ist keine einfache Consumer-Angelegenheit. Dies sind die realistischen Mindestanforderungen:

Absolutes Minimum (2-Bit dynamisches GGUF):

  • RAM: 245–256 GB (Unified Memory oder System-RAM mit MoE-Offloading)
  • Speicher: 240+ GB freier Festplattenplatz
  • CPU: Modernes x86-64 mit AVX2-Unterstützung oder Apple Silicon (M3 Ultra / M4 Ultra)
  • GPU (optional, aber empfohlen): Eine oder mehrere GPUs mit kombiniertem VRAM
  • Betriebssystem: Linux, macOS oder Windows (Linux bevorzugt für vLLM)

Für 4-Bit (annähernd verlustfreie) Inferenz:

  • RAM + VRAM: ~411 GB kombiniert
  • Beispiel: 8× NVIDIA A100 80 GB (640 GB gesamt)
  • Speicher: 420+ GB freier Festplattenplatz

RAM-Anforderungen

Quantisierung Mindest-RAM Empfohlener RAM Hinweise
UD-IQ1_S (1-Bit) ~220 GB 256 GB Niedrigste Qualität, kleinster Footprint
UD-IQ2_M (2-Bit) ~245 GB 256–320 GB Beste Balance für 256-GB-Systeme
UD-Q4_K_XL (4-Bit) ~420 GB 512 GB Große Workstation oder Multi-GPU erforderlich
FP16 (volle Präzision) ~1.642 GB 2 TB+ Nur Rechenzentrum

GPU / VRAM-Anforderungen

Konfiguration Gesamt-VRAM Läuft? Max. Quant Est. Geschwindigkeit
1× RTX 4090 (24 GB) 24 GB Partiell (CPU-Offload) UD-IQ2_M ~0,5–1 Tok/s
4× RTX 3090 (96 GB) 96 GB Partiell (CPU-Offload) UD-IQ2_M ~2–4 Tok/s
4× RTX 4090 (96 GB) 96 GB Partiell (CPU-Offload) UD-IQ2_M ~3–5 Tok/s
8× A100 40 GB (320 GB) 320 GB Ja (2-Bit) UD-IQ2_M ~5–9 Tok/s
8× A100 80 GB (640 GB) 640 GB Ja (4-Bit) UD-Q4_K_XL ~8–15 Tok/s
8× H100 80 GB (640 GB) 640 GB Ja (4-Bit) UD-Q4_K_XL ~15–25 Tok/s
8× H200 141 GB (1.128 GB) 1.128 GB Ja (FP8) FP8 ~30–50 Tok/s

Kann man GLM 5.2 auf Apple Silicon / Mac betreiben?

Ja — und Apple Silicon ist tatsächlich einer der kosteneffektivsten Wege zum lokalen Betrieb von GLM 5.2. Der Grund: Unified Memory. Auf Apple Silicon teilen sich CPU und GPU denselben Speicherpool.

Mac-Konfiguration Unified Memory GLM 5.2 lauffähig? Hinweise
M2 / M3 / M4 (8–24 GB) 8–24 GB Nein Viel zu wenig Speicher
M2 Pro / M3 Pro / M4 Pro (36–48 GB) 36–48 GB Nein Immer noch viel zu wenig
M2 Max / M3 Max / M4 Max (64–128 GB) 64–128 GB Nein Mindestens 245 GB erforderlich
M2 Ultra / M3 Ultra (192 GB) 192 GB Knapp nicht Nicht genug für UD-IQ2_M
M3 Ultra / M4 Ultra (256 GB) 256 GB Ja (2-Bit) UD-IQ2_M passt; ~3–5 Tok/s
M3 Ultra / M4 Ultra (512 GB) 512 GB Ja (4-Bit) UD-Q4_K_XL; ~5–8 Tok/s

Kann man GLM 5.2 nur mit CPU betreiben?

Technisch ja, praktisch aber anspruchsvoll. Reine CPU-Inferenz mit llama.cpp ist durch die Speicherbandbreite begrenzt.

Anforderungen für CPU-only-Inferenz:

  • 256 GB+ DDR5-ECC-RAM (Dual- oder Quad-Channel)
  • CPU mit hoher Kernanzahl (AMD EPYC oder Intel Xeon empfohlen)
  • AVX2 oder AVX-512-Unterstützung

Erwartete Leistung: ~1–3 Token/Sekunde auf einer High-End-Dual-Socket-EPYC-Workstation.


Empfohlene Hardware-Setups

Einsteiger (Minimum Viable)

  • Apple M4 Ultra Mac Studio, 256 GB Unified Memory
  • Quantisierung: UD-IQ2_M (2-Bit dynamisch, 239 GB)
  • Erwartete Geschwindigkeit: ~3–6 Tok/s
  • Ungefähre Kosten: ~10.000–12.000 USD
  • Für: Einzelentwickler, persönlicher KI-Assistent

Mittelklasse

  • Workstation mit 4× RTX 3090 oder 4× RTX 4090 + 256 GB DDR5-RAM
  • Quantisierung: UD-IQ2_M
  • Erwartete Geschwindigkeit: ~3–6 Tok/s
  • Für: Kleines Team, Entwicklungsserver

Hochleistung

  • Server mit 8× A100 80 GB (640 GB gesamt)
  • Quantisierung: UD-Q4_K_XL (4-Bit dynamisch, ~411 GB)
  • Erwartete Geschwindigkeit: ~8–15 Tok/s
  • Cloud-Kosten: ~6,40 $/Stunde (Spheron u. ä.)

Maximale Qualität

  • 8× H200 141-GB-Knoten (1.128 GB gesamt)
  • Quantisierung: FP8 (~744 GB)
  • Erwartete Geschwindigkeit: ~30–50 Tok/s

GGUF vs. volle Präzision

Format Größe Qualität Anwendungsfall
BF16 / FP16 ~1.510 GB Referenz (100%) Nur Rechenzentrum
FP8 ~744 GB ~99% Multi-H100/H200-Cluster
Q4 / UD-Q4_K_XL ~411 GB ~96–98% Großes Multi-GPU-Rig
Q2 / UD-IQ2_M ~239 GB ~82% 256-GB-Mac oder Workstation
Q1 / UD-IQ1_S ~217 GB ~76% Letzter Ausweg

Häufig gestellte Fragen

Wie viel RAM benötigt GLM 5.2?

GLM 5.2 benötigt mindestens ~245 GB kombinierten RAM und VRAM, um das 2-Bit-Dynamic-GGUF auszuführen. Volle Präzision (FP16) erfordert über 1.600 GB — das ist Rechenzentrumsgebiet.

Welche GPU benötige ich für GLM 5.2?

Keine einzelne Consumer-GPU kann GLM 5.2 alleine ausführen. Das kleinste praktische GPU-only-Setup sind 8× A100 40 GB (320 GB gesamt). Für Consumer-Hardware: 4× RTX 3090/4090 mit 256 GB+ System-RAM ermöglicht hybrides CPU/GPU-Offloading bei ~3–6 Tok/s.

Kann ich GLM 5.2 auf meinem Laptop betreiben?

Nein. Selbst die leistungsstärksten Laptops (z. B. MacBook Pro M4 Max mit 128 GB) haben nicht genug Speicher. GLM 5.2 ist streng ein Desktop-Workstation- oder Server-Modell.

Kann ich GLM 5.2 auf einem Mac betreiben?

Ja, aber nur auf den höchsten Mac-Konfigurationen. Sie benötigen mindestens einen Mac Studio oder Mac Pro mit M3 Ultra oder M4 Ultra und 256 GB Unified Memory.

Wie viel Speicherplatz benötigt GLM 5.2?

  • Volle Präzision (BF16): ~1.510 GB
  • 4-Bit dynamisches GGUF: ~411 GB
  • 2-Bit dynamisches GGUF: ~239 GB
  • 1-Bit dynamisches GGUF: ~217 GB

Was ist die Mindesthardware für GLM 5.2?

Ein Mac mit 256 GB Unified Memory (M3 Ultra oder M4 Ultra) oder eine Workstation mit 256 GB DDR5-RAM und mindestens einer GPU. Unterhalb von 245 GB Gesamtspeicher wird das Modell nicht geladen.


Verwandte Leitfäden

Verwandte Leitfäden

Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?

Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.