GLM-5.2 in Ollama ausführen: Cloud-Tag, lokales Setup & API-Anleitung

Kurze Antwort

Ja, GLM-5.2 lässt sich in Ollama ausführen. Die offizielle Ollama-Bibliothek listet GLM-5.2 unter dem Tag glm-5.2:cloud, der Inferenzanfragen über die vereinheitlichte Ollama-Schnittstelle an die gehostete Infrastruktur von Z.ai weiterleitet — du erhältst das vollständige Ollama-Entwicklungserlebnis, ohne über 241 GB Modellgewichte lokal herunterladen zu müssen. Der schnellste Einstieg:

ollama run glm-5.2:cloud

Wenn du GLM-5.2 vollständig auf eigener Hardware ausführen möchtest, sind erhebliche RAM-Mengen erforderlich (mindestens 256 GB für die kleinste Quantisierung). Dieser Weg wird im Abschnitt zu den Hardware-Anforderungen erläutert.

Voraussetzungen

Stelle vor dem Ausführen von GLM-5.2 in Ollama sicher, dass folgendes vorhanden ist.

Ollama installiert und aktuell

GLM-5.2 benötigt eine aktuelle Version von Ollama. Installieren oder aktualisieren:

# macOS (Homebrew)
brew install ollama
# oder aktualisieren
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# Installer von https://ollama.com/download herunterladen

Installierte Version prüfen:

ollama --version

Internetverbindung (für den Cloud-Tag erforderlich)

Der glm-5.2:cloud-Tag leitet Anfragen an die Inferenz-API von Z.ai weiter. Eine aktive Internetverbindung und ein Ollama-Konto sind erforderlich. Anmelden unter ollama.com, falls noch nicht geschehen.

Hardwareanforderungen

Ausführungsmodus	Minimum	Empfohlen
`glm-5.2:cloud` (gehostet)	Jedes moderne Gerät	Jedes moderne Gerät
Lokal 2-Bit (UD-IQ2_XXS)	256 GB Unified Memory	M4 Ultra Mac Studio / Workstation
Lokal 4-Bit (Q4_K_M)	500+ GB RAM	Multi-GPU-Server
Lokal volle Präzision (FP16)	1,7 TB	Enterprise-Cluster

Für die meisten Entwickler ist glm-5.2:cloud die praktische Wahl. Lokales Deployment wird im Abschnitt zu Modellvarianten separat behandelt.

Schritt für Schritt: GLM-5.2 in Ollama ausführen

Schritt 1: Ollama installieren oder aktualisieren

Führe den passenden Installationsbefehl für deine Plattform aus (siehe Voraussetzungen). Installation bestätigen:

ollama --version

Wenn der Befehl nicht gefunden wird, ist die Installation fehlgeschlagen — das Installationsskript erneut ausführen.

Schritt 2: GLM-5.2-Modell herunterladen (Pull)

Das Modell vor dem Ausführen pullen, um die Konfiguration lokal zu cachen (beim Cloud-Tag werden keine großen Gewichtsdateien heruntergeladen):

ollama pull glm-5.2:cloud

Schritt 3: Modell ausführen

Eine interaktive Chat-Sitzung starten:

ollama run glm-5.2:cloud

Ollama öffnet einen Prompt, in den Nachrichten direkt eingegeben werden können. Mit Ctrl+D oder /bye beenden.

Schritt 4: Mit einem Beispiel-Prompt testen

Nach dem Öffnen der Sitzung einen Schnelltest durchführen:

>>> Schreibe eine Python-Funktion, die eine CSV-Datei liest und eine Liste von Dictionaries zurückgibt.

GLM-5.2 ist für langfristige Coding-Aufgaben optimiert und verarbeitet detaillierte Engineering-Prompts sehr gut. Das 976K-Kontextfenster lässt sich auch mit größeren Eingaben testen.

Verfügbare GLM-5.2-Modellvarianten in Ollama

Stand Juni 2026 listet die Ollama-Bibliothek folgenden Tag für GLM-5.2:

Tag	Typ	Kontextfenster	Geeignet für
`glm-5.2:cloud`	Gehostet (Z.ai-Inferenz)	976K Tokens	Die meisten Entwickler — keine lokalen Hardwareanforderungen

Hinweis: Zum Zeitpunkt der Veröffentlichung gibt es in der offiziellen Ollama-Bibliothek keinen glm-5.2:latest- oder quantisierten lokalen Tag. Aktuelle Informationen unter ollama.com/library/glm-5.2/tags — lokale quantisierte Tags können nach Veröffentlichung dieses Artikels hinzugefügt werden.

GLM-5.2 vollständig lokal ausführen (fortgeschritten)

GLM-5.2 ist ein 744-Milliarden-Parameter-Mixture-of-Experts-Modell mit etwa 40 Milliarden aktiven Parametern pro Token. Das Modell wird unter der MIT-Lizenz mit offenen Gewichten veröffentlicht. Für lokale Inferenz außerhalb des Cloud-Tags sind die GGUF-Quantisierungen von Unsloth der zugänglichste Weg:

Quantisierung	Festplattengröße	Mindest-RAM
UD-IQ2_XXS (2-Bit dynamisch)	~241 GB	256 GB Unified Memory
UD-IQ2_M (2-Bit dynamisch)	~239 GB	256 GB Unified Memory
UD-Q4_K_XL (4-Bit dynamisch)	~476 GB	500+ GB

Diese Anforderungen machen GLM-5.2 nur auf High-End-Hardware praktikabel: Apple M4 Ultra Mac Studio (192 GB oder höhere Konfiguration) oder Workstations mit mehreren GPUs und großem Systemspeicher. Für die meisten Entwickler ist glm-5.2:cloud über Ollama der richtige Ausgangspunkt.

GLM-5.2 mit der Ollama API verwenden

Sobald GLM-5.2 läuft, stellt Ollama unter http://localhost:11434 eine lokale REST-API bereit. Die API ist OpenAI-kompatibel, d.h. alle Tools, die mit der OpenAI-API funktionieren, funktionieren auch mit Ollama.

curl — Generate-Endpunkt

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "prompt": "Schreibe ein Dockerfile für eine Node.js-App mit Multi-Stage-Builds.",
    "stream": false
  }'

curl — OpenAI-kompatibler Chat-Endpunkt

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "messages": [
      {"role": "system", "content": "Du bist ein erfahrener Softwareingenieur."},
      {"role": "user", "content": "Erkläre den Unterschied zwischen einem Prozess und einem Thread."}
    ]
  }'

Python — Ollama-Bibliothek

from ollama import chat

response = chat(
    model='glm-5.2:cloud',
    messages=[
        {'role': 'user', 'content': 'Überprüfe diesen Python-Code und schlage Verbesserungen vor.'}
    ],
)
print(response.message.content)

Python — OpenAI SDK (direkt kompatibel)

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # vom SDK benötigt, von Ollama nicht genutzt
)

response = client.chat.completions.create(
    model="glm-5.2:cloud",
    messages=[
        {"role": "system", "content": "Du bist ein Senior-Softwareingenieur."},
        {"role": "user", "content": "Schreibe eine SQL-Abfrage zum Finden von Duplikaten in einer Tabelle."}
    ]
)
print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'glm-5.2:cloud',
  messages: [{ role: 'user', content: 'Erstelle eine REST-API in Express.js.' }],
})
console.log(response.message.content)

GLM-5.2 in Ollama mit Claude Code / Cursor verwenden

Da Ollama eine OpenAI-kompatible API bereitstellt, können Coding-Assistenten wie Claude Code oder Cursor auf den lokalen Ollama-Endpunkt gerichtet werden, um GLM-5.2 als Backend-Modell zu verwenden.

Mit Claude Code

Umgebungsvariablen setzen, um API-Aufrufe von Claude Code auf die lokale Ollama-Instanz umzuleiten:

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

Ollama im Hintergrund starten, bevor die Claude Code-Sitzung beginnt:

ollama serve &
ollama run glm-5.2:cloud

Mit Cursor

Cursor-Einstellungen öffnen (Cmd+, unter macOS, Ctrl+, unter Windows/Linux)
Zu Models → Add custom model navigieren
Modellname auf glm-5.2:cloud setzen
Basis-URL auf http://localhost:11434/v1 setzen
API-Schlüssel auf ollama setzen (beliebiger nicht-leerer String funktioniert)
Speichern und Modell in der Chat-Seitenleiste auswählen

Mit Continue (VS Code-Erweiterung)

In ~/.continue/config.json:

{
  "models": [
    {
      "title": "GLM-5.2",
      "provider": "ollama",
      "model": "glm-5.2:cloud",
      "apiBase": "http://localhost:11434"
    }
  ]
}

Fehlerbehebung

Error: model "glm-5.2:cloud" not found

Zuerst ollama pull glm-5.2:cloud ausführen, um das Modell zu registrieren, dann erneut versuchen. Wenn der Pull fehlschlägt, überprüfen, ob du bei Ollama eingeloggt bist (ollama login) und eine Internetverbindung besteht.

Authentifizierungsfehler beim Pull

Der Cloud-Tag erfordert ein Ollama-Konto. Auf ollama.com registrieren oder einloggen, dann ollama login im Terminal ausführen.

Langsame Antworten

Der glm-5.2:cloud-Tag leitet Anfragen an Remote-Inferenz weiter, daher hängt die Geschwindigkeit von der Netzwerklatenz und der Serverlast von Z.ai ab. Das ist das erwartete Verhalten für ein gehostetes Modell.

Port 11434 bereits in Verwendung

Eine andere Ollama-Instanz läuft, oder ein anderer Prozess hat den Port belegt. Den anderen Prozess beenden oder Ollama auf einem anderen Port starten:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

API-Aufrufe entsprechend auf Port 11435 aktualisieren.

ollama-Befehl nach der Installation nicht gefunden

Unter Linux legt das Installationsskript die Binärdatei in /usr/local/bin ab. Falls dieser Pfad nicht in PATH enthalten ist:

export PATH=$PATH:/usr/local/bin

Diese Zeile zur ~/.bashrc oder ~/.zshrc hinzufügen, um sie dauerhaft zu machen.

Häufig gestellte Fragen

Kann GLM-5.2 in Ollama ausgeführt werden?

Ja. GLM-5.2 ist in der Ollama-Bibliothek unter ollama.com/library/glm-5.2 verfügbar. Der glm-5.2:cloud-Tag leitet Inferenz über die gehostete Infrastruktur von Z.ai weiter — du musst keine 240+ GB Modellgewichte herunterladen und erhältst trotzdem das vollständige Ollama-Entwicklungserlebnis.

Was ist der Ollama-Befehl für GLM-5.2?

ollama run glm-5.2:cloud

Erst pullen, dann ausführen:

ollama pull glm-5.2:cloud

Wie viel RAM wird für GLM-5.2 in Ollama benötigt?

Für den glm-5.2:cloud-Tag (gehostete Inferenz) funktioniert jedes moderne Gerät — keine speziellen RAM-Anforderungen. Für vollständig lokale Inferenz mit GGUF-quantisierten Gewichten sind mindestens 256 GB Unified Memory erforderlich (für die 2-Bit UD-IQ2_XXS-Quantisierung). Die 4-Bit-Variante benötigt 500+ GB.

Ist das lokale Ausführen von GLM-5.2 über Ollama kostenlos?

Die GLM-5.2-Modellgewichte werden unter der MIT-Lizenz veröffentlicht und sind kostenlos nutzbar. Das Ausführen über den glm-5.2:cloud-Tag leitet Anfragen an die gehostete API von Z.ai weiter — aktuelle Preise für Cloud-Inferenz unter ollama.com und in Z.ais Nutzungsbedingungen. Vollständig lokale GGUF-Inferenz auf eigener Hardware entstehen keine Kosten pro Token.

Wie verwende ich GLM-5.2 mit Claude Code über Ollama?

Diese Umgebungsvariablen vor dem Start der Claude Code-Sitzung setzen:

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

Dann Ollama mit ollama serve & im Hintergrund starten. Claude Code leitet Vervollständigungsanfragen über den lokalen Ollama-Endpunkt an GLM-5.2 weiter.