Gemma-4-Leitfäden
GLM-5.2 in Ollama ausführen: Cloud-Tag, lokales Setup & API-Anleitung

Kurze Antwort
Ja, GLM-5.2 lässt sich in Ollama ausführen. Die offizielle Ollama-Bibliothek listet GLM-5.2 unter dem Tag glm-5.2:cloud, der Inferenzanfragen über die vereinheitlichte Ollama-Schnittstelle an die gehostete Infrastruktur von Z.ai weiterleitet — du erhältst das vollständige Ollama-Entwicklungserlebnis, ohne über 241 GB Modellgewichte lokal herunterladen zu müssen. Der schnellste Einstieg:
ollama run glm-5.2:cloud
Wenn du GLM-5.2 vollständig auf eigener Hardware ausführen möchtest, sind erhebliche RAM-Mengen erforderlich (mindestens 256 GB für die kleinste Quantisierung). Dieser Weg wird im Abschnitt zu den Hardware-Anforderungen erläutert.
Voraussetzungen
Stelle vor dem Ausführen von GLM-5.2 in Ollama sicher, dass folgendes vorhanden ist.
Ollama installiert und aktuell
GLM-5.2 benötigt eine aktuelle Version von Ollama. Installieren oder aktualisieren:
# macOS (Homebrew)
brew install ollama
# oder aktualisieren
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# Installer von https://ollama.com/download herunterladen
Installierte Version prüfen:
ollama --version
Internetverbindung (für den Cloud-Tag erforderlich)
Der glm-5.2:cloud-Tag leitet Anfragen an die Inferenz-API von Z.ai weiter. Eine aktive Internetverbindung und ein Ollama-Konto sind erforderlich. Anmelden unter ollama.com, falls noch nicht geschehen.
Hardwareanforderungen
| Ausführungsmodus | Minimum | Empfohlen |
|---|---|---|
glm-5.2:cloud (gehostet) |
Jedes moderne Gerät | Jedes moderne Gerät |
| Lokal 2-Bit (UD-IQ2_XXS) | 256 GB Unified Memory | M4 Ultra Mac Studio / Workstation |
| Lokal 4-Bit (Q4_K_M) | 500+ GB RAM | Multi-GPU-Server |
| Lokal volle Präzision (FP16) | 1,7 TB | Enterprise-Cluster |
Für die meisten Entwickler ist glm-5.2:cloud die praktische Wahl. Lokales Deployment wird im Abschnitt zu Modellvarianten separat behandelt.
Schritt für Schritt: GLM-5.2 in Ollama ausführen
Schritt 1: Ollama installieren oder aktualisieren
Führe den passenden Installationsbefehl für deine Plattform aus (siehe Voraussetzungen). Installation bestätigen:
ollama --version
Wenn der Befehl nicht gefunden wird, ist die Installation fehlgeschlagen — das Installationsskript erneut ausführen.
Schritt 2: GLM-5.2-Modell herunterladen (Pull)
Das Modell vor dem Ausführen pullen, um die Konfiguration lokal zu cachen (beim Cloud-Tag werden keine großen Gewichtsdateien heruntergeladen):
ollama pull glm-5.2:cloud
Schritt 3: Modell ausführen
Eine interaktive Chat-Sitzung starten:
ollama run glm-5.2:cloud
Ollama öffnet einen Prompt, in den Nachrichten direkt eingegeben werden können. Mit Ctrl+D oder /bye beenden.
Schritt 4: Mit einem Beispiel-Prompt testen
Nach dem Öffnen der Sitzung einen Schnelltest durchführen:
>>> Schreibe eine Python-Funktion, die eine CSV-Datei liest und eine Liste von Dictionaries zurückgibt.
GLM-5.2 ist für langfristige Coding-Aufgaben optimiert und verarbeitet detaillierte Engineering-Prompts sehr gut. Das 976K-Kontextfenster lässt sich auch mit größeren Eingaben testen.
Verfügbare GLM-5.2-Modellvarianten in Ollama
Stand Juni 2026 listet die Ollama-Bibliothek folgenden Tag für GLM-5.2:
| Tag | Typ | Kontextfenster | Geeignet für |
|---|---|---|---|
glm-5.2:cloud |
Gehostet (Z.ai-Inferenz) | 976K Tokens | Die meisten Entwickler — keine lokalen Hardwareanforderungen |
Hinweis: Zum Zeitpunkt der Veröffentlichung gibt es in der offiziellen Ollama-Bibliothek keinen
glm-5.2:latest- oder quantisierten lokalen Tag. Aktuelle Informationen unter ollama.com/library/glm-5.2/tags — lokale quantisierte Tags können nach Veröffentlichung dieses Artikels hinzugefügt werden.
GLM-5.2 vollständig lokal ausführen (fortgeschritten)
GLM-5.2 ist ein 744-Milliarden-Parameter-Mixture-of-Experts-Modell mit etwa 40 Milliarden aktiven Parametern pro Token. Das Modell wird unter der MIT-Lizenz mit offenen Gewichten veröffentlicht. Für lokale Inferenz außerhalb des Cloud-Tags sind die GGUF-Quantisierungen von Unsloth der zugänglichste Weg:
| Quantisierung | Festplattengröße | Mindest-RAM |
|---|---|---|
| UD-IQ2_XXS (2-Bit dynamisch) | ~241 GB | 256 GB Unified Memory |
| UD-IQ2_M (2-Bit dynamisch) | ~239 GB | 256 GB Unified Memory |
| UD-Q4_K_XL (4-Bit dynamisch) | ~476 GB | 500+ GB |
Diese Anforderungen machen GLM-5.2 nur auf High-End-Hardware praktikabel: Apple M4 Ultra Mac Studio (192 GB oder höhere Konfiguration) oder Workstations mit mehreren GPUs und großem Systemspeicher. Für die meisten Entwickler ist glm-5.2:cloud über Ollama der richtige Ausgangspunkt.
GLM-5.2 mit der Ollama API verwenden
Sobald GLM-5.2 läuft, stellt Ollama unter http://localhost:11434 eine lokale REST-API bereit. Die API ist OpenAI-kompatibel, d.h. alle Tools, die mit der OpenAI-API funktionieren, funktionieren auch mit Ollama.
curl — Generate-Endpunkt
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2:cloud",
"prompt": "Schreibe ein Dockerfile für eine Node.js-App mit Multi-Stage-Builds.",
"stream": false
}'
curl — OpenAI-kompatibler Chat-Endpunkt
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2:cloud",
"messages": [
{"role": "system", "content": "Du bist ein erfahrener Softwareingenieur."},
{"role": "user", "content": "Erkläre den Unterschied zwischen einem Prozess und einem Thread."}
]
}'
Python — Ollama-Bibliothek
from ollama import chat
response = chat(
model='glm-5.2:cloud',
messages=[
{'role': 'user', 'content': 'Überprüfe diesen Python-Code und schlage Verbesserungen vor.'}
],
)
print(response.message.content)
Python — OpenAI SDK (direkt kompatibel)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # vom SDK benötigt, von Ollama nicht genutzt
)
response = client.chat.completions.create(
model="glm-5.2:cloud",
messages=[
{"role": "system", "content": "Du bist ein Senior-Softwareingenieur."},
{"role": "user", "content": "Schreibe eine SQL-Abfrage zum Finden von Duplikaten in einer Tabelle."}
]
)
print(response.choices[0].message.content)
JavaScript
import ollama from 'ollama'
const response = await ollama.chat({
model: 'glm-5.2:cloud',
messages: [{ role: 'user', content: 'Erstelle eine REST-API in Express.js.' }],
})
console.log(response.message.content)
GLM-5.2 in Ollama mit Claude Code / Cursor verwenden
Da Ollama eine OpenAI-kompatible API bereitstellt, können Coding-Assistenten wie Claude Code oder Cursor auf den lokalen Ollama-Endpunkt gerichtet werden, um GLM-5.2 als Backend-Modell zu verwenden.
Mit Claude Code
Umgebungsvariablen setzen, um API-Aufrufe von Claude Code auf die lokale Ollama-Instanz umzuleiten:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud
Ollama im Hintergrund starten, bevor die Claude Code-Sitzung beginnt:
ollama serve &
ollama run glm-5.2:cloud
Mit Cursor
- Cursor-Einstellungen öffnen (
Cmd+,unter macOS,Ctrl+,unter Windows/Linux) - Zu Models → Add custom model navigieren
- Modellname auf
glm-5.2:cloudsetzen - Basis-URL auf
http://localhost:11434/v1setzen - API-Schlüssel auf
ollamasetzen (beliebiger nicht-leerer String funktioniert) - Speichern und Modell in der Chat-Seitenleiste auswählen
Mit Continue (VS Code-Erweiterung)
In ~/.continue/config.json:
{
"models": [
{
"title": "GLM-5.2",
"provider": "ollama",
"model": "glm-5.2:cloud",
"apiBase": "http://localhost:11434"
}
]
}
Fehlerbehebung
Error: model "glm-5.2:cloud" not found
Zuerst ollama pull glm-5.2:cloud ausführen, um das Modell zu registrieren, dann erneut versuchen. Wenn der Pull fehlschlägt, überprüfen, ob du bei Ollama eingeloggt bist (ollama login) und eine Internetverbindung besteht.
Authentifizierungsfehler beim Pull
Der Cloud-Tag erfordert ein Ollama-Konto. Auf ollama.com registrieren oder einloggen, dann ollama login im Terminal ausführen.
Langsame Antworten
Der glm-5.2:cloud-Tag leitet Anfragen an Remote-Inferenz weiter, daher hängt die Geschwindigkeit von der Netzwerklatenz und der Serverlast von Z.ai ab. Das ist das erwartete Verhalten für ein gehostetes Modell.
Port 11434 bereits in Verwendung
Eine andere Ollama-Instanz läuft, oder ein anderer Prozess hat den Port belegt. Den anderen Prozess beenden oder Ollama auf einem anderen Port starten:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
API-Aufrufe entsprechend auf Port 11435 aktualisieren.
ollama-Befehl nach der Installation nicht gefunden
Unter Linux legt das Installationsskript die Binärdatei in /usr/local/bin ab. Falls dieser Pfad nicht in PATH enthalten ist:
export PATH=$PATH:/usr/local/bin
Diese Zeile zur ~/.bashrc oder ~/.zshrc hinzufügen, um sie dauerhaft zu machen.
Häufig gestellte Fragen
Kann GLM-5.2 in Ollama ausgeführt werden?
Ja. GLM-5.2 ist in der Ollama-Bibliothek unter ollama.com/library/glm-5.2 verfügbar. Der glm-5.2:cloud-Tag leitet Inferenz über die gehostete Infrastruktur von Z.ai weiter — du musst keine 240+ GB Modellgewichte herunterladen und erhältst trotzdem das vollständige Ollama-Entwicklungserlebnis.
Was ist der Ollama-Befehl für GLM-5.2?
ollama run glm-5.2:cloud
Erst pullen, dann ausführen:
ollama pull glm-5.2:cloud
Wie viel RAM wird für GLM-5.2 in Ollama benötigt?
Für den glm-5.2:cloud-Tag (gehostete Inferenz) funktioniert jedes moderne Gerät — keine speziellen RAM-Anforderungen. Für vollständig lokale Inferenz mit GGUF-quantisierten Gewichten sind mindestens 256 GB Unified Memory erforderlich (für die 2-Bit UD-IQ2_XXS-Quantisierung). Die 4-Bit-Variante benötigt 500+ GB.
Ist das lokale Ausführen von GLM-5.2 über Ollama kostenlos?
Die GLM-5.2-Modellgewichte werden unter der MIT-Lizenz veröffentlicht und sind kostenlos nutzbar. Das Ausführen über den glm-5.2:cloud-Tag leitet Anfragen an die gehostete API von Z.ai weiter — aktuelle Preise für Cloud-Inferenz unter ollama.com und in Z.ais Nutzungsbedingungen. Vollständig lokale GGUF-Inferenz auf eigener Hardware entstehen keine Kosten pro Token.
Wie verwende ich GLM-5.2 mit Claude Code über Ollama?
Diese Umgebungsvariablen vor dem Start der Claude Code-Sitzung setzen:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud
Dann Ollama mit ollama serve & im Hintergrund starten. Claude Code leitet Vervollständigungsanfragen über den lokalen Ollama-Endpunkt an GLM-5.2 weiter.
Verwandte Anleitungen
Verwandte Leitfäden
Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

GLM 5.2 Hardwareanforderungen: RAM, VRAM und GPU-Leitfaden
GLM 5.2 ist ein 744-Milliarden-Parameter-MoE-Modell unter MIT-Lizenz. Hier erfahren Sie alles über die Hardware, die Sie für den lokalen Betrieb benötigen.

GLM 5.2 Preise: API-Kosten, Abonnementpläne & Gratis-Kontingent (2026)
Vollständiger Leitfaden zu GLM 5.2-Preisen 2026: API-Token-Kosten, GLM Coding Plan-Abonnements (Lite/Pro/Max/Team), OpenRouter-Tarife und kostenlose Zugangswege.

GLM 5.2 Test: Benchmarks, Coding-Leistung und lohnt sich der Einsatz?
GLM 5.2 wurde am 13. Juni 2026 veröffentlicht – 744B MoE-Parameter, 1-Million-Token-Kontextfenster, MIT-Lizenz und Benchmark-Werte, die mit geschlossenen Frontier-Modellen konkurrieren, zu etwa einem Sechstel der GPT-5.5-API-Kosten.
Sie wissen noch nicht, was Sie als Nächstes lesen sollen?
Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
