Gemma-4-Leitfäden
GLM 5.2 Hardwareanforderungen: RAM, VRAM und GPU-Leitfaden

GLM 5.2, am 13. Juni 2026 von ZhipuAI veröffentlicht, ist eines der leistungsfähigsten Open-Weight-Modelle überhaupt. Mit ca. 744 Milliarden Gesamtparametern und einer Mixture-of-Experts (MoE)-Architektur, die pro Token nur ~40 Milliarden Parameter aktiviert, bietet es Frontier-Leistung — erfordert aber für den lokalen Betrieb ernsthafte Hardware. Dieser Leitfaden erklärt genau, was Sie benötigen: von minimalen Konfigurationen bis hin zu Hochleistungs-Setups.
Schnelle Übersicht
| Quantisierung | Dateigröße | Benötigter RAM / VRAM | Beste Hardware |
|---|---|---|---|
| FP16 (volle Präzision) | ~1,51 TB | ~1.642 GB VRAM | Nur Rechenzentrum (mehrere H100-Knoten) |
| FP8 | ~744 GB | ~744 GB+ VRAM | 8× H200 (1.128 GB gesamt) |
| INT4 / Q4 | ~411 GB | ~411 GB VRAM | 8× A100 80 GB oder gleichwertig |
| 2-Bit dynamisch (UD-IQ2_M) | ~239 GB | ~245 GB RAM/Unified Memory | M4 Ultra Mac Studio (256 GB) oder 256-GB+-Workstation |
| 1-Bit dynamisch (UD-IQ1_S) | ~217 GB | ~220 GB+ RAM | Hochspeicher-Workstation; niedrigste Qualität |
Fazit: GLM 5.2 ist zu groß für eine einzelne Consumer-GPU. Der zugänglichste lokale Weg ist Unsloths 2-Bit-Dynamic-GGUF auf einem Mac mit 256 GB+ Unified Memory oder einer Multi-GPU-Workstation mit ~256 GB kombiniertem VRAM/RAM.
GLM 5.2 Modellgrößen und Architektur
GLM 5.2 wird als einzelnes Modell mit folgenden Spezifikationen ausgeliefert:
- Gesamtparameter: ~744–753 Milliarden
- Aktive Parameter pro Token: ~40 Milliarden (MoE-Routing)
- Kontextfenster: 1.000.000 Token (1M)
- Architektur: Mixture-of-Experts (MoE)
- Lizenz: MIT (vollständig offene Gewichte)
- Vollständige Gewichte auf Disk: ~1,51 TB (BF16/FP16)
Die MoE-Architektur ist der Schlüssel dazu, dass aggressive Quantisierung für lokale Inferenz funktioniert. Da pro Token nur ~40B Parameter aktiviert werden, ist die Rechenlast deutlich geringer, als die 744B Gesamtparameter vermuten lassen. Alle 744B Gewichte müssen jedoch weiterhin im Speicher vorhanden sein — MoE spart Rechenleistung, nicht Speicherplatz.
Verfügbare Quantisierungsvarianten (Unsloth GGUF)
| Variante | Dateigröße | Genauigkeit vs. BF16 | Hinweise |
|---|---|---|---|
| UD-Q5_K_XL (5-Bit dynamisch) | ~520 GB | ~98–99% | Annähernd verlustfrei; sehr groß |
| UD-Q4_K_XL (4-Bit dynamisch) | ~411 GB | ~96–98% | Annähernd verlustfrei; empfohlen |
| UD-IQ2_M (2-Bit dynamisch) | ~239 GB | ~82% | Für 256-GB-Systeme am praktischsten |
| UD-IQ1_S (1-Bit dynamisch) | ~217 GB | ~76% | Kleinste; erheblicher Qualitätsverlust |
Mindestanforderungen für den lokalen Betrieb von GLM 5.2
GLM 5.2 lokal zu betreiben ist keine einfache Consumer-Angelegenheit. Dies sind die realistischen Mindestanforderungen:
Absolutes Minimum (2-Bit dynamisches GGUF):
- RAM: 245–256 GB (Unified Memory oder System-RAM mit MoE-Offloading)
- Speicher: 240+ GB freier Festplattenplatz
- CPU: Modernes x86-64 mit AVX2-Unterstützung oder Apple Silicon (M3 Ultra / M4 Ultra)
- GPU (optional, aber empfohlen): Eine oder mehrere GPUs mit kombiniertem VRAM
- Betriebssystem: Linux, macOS oder Windows (Linux bevorzugt für vLLM)
Für 4-Bit (annähernd verlustfreie) Inferenz:
- RAM + VRAM: ~411 GB kombiniert
- Beispiel: 8× NVIDIA A100 80 GB (640 GB gesamt)
- Speicher: 420+ GB freier Festplattenplatz
RAM-Anforderungen
| Quantisierung | Mindest-RAM | Empfohlener RAM | Hinweise |
|---|---|---|---|
| UD-IQ1_S (1-Bit) | ~220 GB | 256 GB | Niedrigste Qualität, kleinster Footprint |
| UD-IQ2_M (2-Bit) | ~245 GB | 256–320 GB | Beste Balance für 256-GB-Systeme |
| UD-Q4_K_XL (4-Bit) | ~420 GB | 512 GB | Große Workstation oder Multi-GPU erforderlich |
| FP16 (volle Präzision) | ~1.642 GB | 2 TB+ | Nur Rechenzentrum |
GPU / VRAM-Anforderungen
| Konfiguration | Gesamt-VRAM | Läuft? | Max. Quant | Est. Geschwindigkeit |
|---|---|---|---|---|
| 1× RTX 4090 (24 GB) | 24 GB | Partiell (CPU-Offload) | UD-IQ2_M | ~0,5–1 Tok/s |
| 4× RTX 3090 (96 GB) | 96 GB | Partiell (CPU-Offload) | UD-IQ2_M | ~2–4 Tok/s |
| 4× RTX 4090 (96 GB) | 96 GB | Partiell (CPU-Offload) | UD-IQ2_M | ~3–5 Tok/s |
| 8× A100 40 GB (320 GB) | 320 GB | Ja (2-Bit) | UD-IQ2_M | ~5–9 Tok/s |
| 8× A100 80 GB (640 GB) | 640 GB | Ja (4-Bit) | UD-Q4_K_XL | ~8–15 Tok/s |
| 8× H100 80 GB (640 GB) | 640 GB | Ja (4-Bit) | UD-Q4_K_XL | ~15–25 Tok/s |
| 8× H200 141 GB (1.128 GB) | 1.128 GB | Ja (FP8) | FP8 | ~30–50 Tok/s |
Kann man GLM 5.2 auf Apple Silicon / Mac betreiben?
Ja — und Apple Silicon ist tatsächlich einer der kosteneffektivsten Wege zum lokalen Betrieb von GLM 5.2. Der Grund: Unified Memory. Auf Apple Silicon teilen sich CPU und GPU denselben Speicherpool.
| Mac-Konfiguration | Unified Memory | GLM 5.2 lauffähig? | Hinweise |
|---|---|---|---|
| M2 / M3 / M4 (8–24 GB) | 8–24 GB | Nein | Viel zu wenig Speicher |
| M2 Pro / M3 Pro / M4 Pro (36–48 GB) | 36–48 GB | Nein | Immer noch viel zu wenig |
| M2 Max / M3 Max / M4 Max (64–128 GB) | 64–128 GB | Nein | Mindestens 245 GB erforderlich |
| M2 Ultra / M3 Ultra (192 GB) | 192 GB | Knapp nicht | Nicht genug für UD-IQ2_M |
| M3 Ultra / M4 Ultra (256 GB) | 256 GB | Ja (2-Bit) | UD-IQ2_M passt; ~3–5 Tok/s |
| M3 Ultra / M4 Ultra (512 GB) | 512 GB | Ja (4-Bit) | UD-Q4_K_XL; ~5–8 Tok/s |
Kann man GLM 5.2 nur mit CPU betreiben?
Technisch ja, praktisch aber anspruchsvoll. Reine CPU-Inferenz mit llama.cpp ist durch die Speicherbandbreite begrenzt.
Anforderungen für CPU-only-Inferenz:
- 256 GB+ DDR5-ECC-RAM (Dual- oder Quad-Channel)
- CPU mit hoher Kernanzahl (AMD EPYC oder Intel Xeon empfohlen)
- AVX2 oder AVX-512-Unterstützung
Erwartete Leistung: ~1–3 Token/Sekunde auf einer High-End-Dual-Socket-EPYC-Workstation.
Empfohlene Hardware-Setups
Einsteiger (Minimum Viable)
- Apple M4 Ultra Mac Studio, 256 GB Unified Memory
- Quantisierung: UD-IQ2_M (2-Bit dynamisch, 239 GB)
- Erwartete Geschwindigkeit: ~3–6 Tok/s
- Ungefähre Kosten: ~10.000–12.000 USD
- Für: Einzelentwickler, persönlicher KI-Assistent
Mittelklasse
- Workstation mit 4× RTX 3090 oder 4× RTX 4090 + 256 GB DDR5-RAM
- Quantisierung: UD-IQ2_M
- Erwartete Geschwindigkeit: ~3–6 Tok/s
- Für: Kleines Team, Entwicklungsserver
Hochleistung
- Server mit 8× A100 80 GB (640 GB gesamt)
- Quantisierung: UD-Q4_K_XL (4-Bit dynamisch, ~411 GB)
- Erwartete Geschwindigkeit: ~8–15 Tok/s
- Cloud-Kosten: ~6,40 $/Stunde (Spheron u. ä.)
Maximale Qualität
- 8× H200 141-GB-Knoten (1.128 GB gesamt)
- Quantisierung: FP8 (~744 GB)
- Erwartete Geschwindigkeit: ~30–50 Tok/s
GGUF vs. volle Präzision
| Format | Größe | Qualität | Anwendungsfall |
|---|---|---|---|
| BF16 / FP16 | ~1.510 GB | Referenz (100%) | Nur Rechenzentrum |
| FP8 | ~744 GB | ~99% | Multi-H100/H200-Cluster |
| Q4 / UD-Q4_K_XL | ~411 GB | ~96–98% | Großes Multi-GPU-Rig |
| Q2 / UD-IQ2_M | ~239 GB | ~82% | 256-GB-Mac oder Workstation |
| Q1 / UD-IQ1_S | ~217 GB | ~76% | Letzter Ausweg |
Häufig gestellte Fragen
Wie viel RAM benötigt GLM 5.2?
GLM 5.2 benötigt mindestens ~245 GB kombinierten RAM und VRAM, um das 2-Bit-Dynamic-GGUF auszuführen. Volle Präzision (FP16) erfordert über 1.600 GB — das ist Rechenzentrumsgebiet.
Welche GPU benötige ich für GLM 5.2?
Keine einzelne Consumer-GPU kann GLM 5.2 alleine ausführen. Das kleinste praktische GPU-only-Setup sind 8× A100 40 GB (320 GB gesamt). Für Consumer-Hardware: 4× RTX 3090/4090 mit 256 GB+ System-RAM ermöglicht hybrides CPU/GPU-Offloading bei ~3–6 Tok/s.
Kann ich GLM 5.2 auf meinem Laptop betreiben?
Nein. Selbst die leistungsstärksten Laptops (z. B. MacBook Pro M4 Max mit 128 GB) haben nicht genug Speicher. GLM 5.2 ist streng ein Desktop-Workstation- oder Server-Modell.
Kann ich GLM 5.2 auf einem Mac betreiben?
Ja, aber nur auf den höchsten Mac-Konfigurationen. Sie benötigen mindestens einen Mac Studio oder Mac Pro mit M3 Ultra oder M4 Ultra und 256 GB Unified Memory.
Wie viel Speicherplatz benötigt GLM 5.2?
- Volle Präzision (BF16): ~1.510 GB
- 4-Bit dynamisches GGUF: ~411 GB
- 2-Bit dynamisches GGUF: ~239 GB
- 1-Bit dynamisches GGUF: ~217 GB
Was ist die Mindesthardware für GLM 5.2?
Ein Mac mit 256 GB Unified Memory (M3 Ultra oder M4 Ultra) oder eine Workstation mit 256 GB DDR5-RAM und mindestens einer GPU. Unterhalb von 245 GB Gesamtspeicher wird das Modell nicht geladen.
Verwandte Leitfäden
Verwandte Leitfäden
Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Gemma-4-26B-A4B-VRAM-Anforderungen: Q4, Q8, F16 und der Fit für 24-GB-GPUs
Ein fokussierter Leitfaden zu Gemma-4-26B-A4B-VRAM-Anforderungen mit exakten GGUF-Größen, Planungsbereichen und der Frage, warum 26B der lokale Sweet Spot ist.

Gemma-4-31B-VRAM-Anforderungen: Q4, Q8, F16 und praxisnahe Hardware
Ein fokussierter Leitfaden zu Gemma-4-31B-VRAM-Anforderungen mit exakten GGUF-Größen, Planungsbereichen und ehrlicher Einschätzung dazu, welche Hardware wirklich Sinn ergibt.

Gemma-4-E2B-VRAM-Anforderungen: Q4, Q8, F16 und Edge-Geräte-Fit
Ein fokussierter Leitfaden zu Gemma-4-E2B-VRAM-Anforderungen mit exakten Dateigrößen, praxisnahen Planungsbereichen und ehrlicher Einordnung, wann E2B die richtige Wahl ist.
Sie wissen noch nicht, was Sie als Nächstes lesen sollen?
Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
