Gemma-4-Leitfäden
Wie man Gemma 4 in Ollama ausführt: Tags, Hardware und der erste Lauf

Kurze Antwort
Ja, Ollama unterstützt Gemma 4. Der Support kam mit Ollama v0.20.0 am 3. April 2026, am selben Tag wie das Google-Release. Zwei Befehle genügen:
ollama pull gemma4
ollama run gemma4
Der Standard-Tag ist gemma4:e4b, ein 9,6-GB-Modell, das auf den meisten Entwickler-Maschinen gut passt.
Alle Gemma-4-Ollama-Tags
| Tag | Größe auf Platte | Kontextfenster | Architektur | Audioeingabe | Am besten für |
|---|---|---|---|---|---|
gemma4:e2b |
7,2 GB | 128K | Dense (2,3B effektiv) | Ja | Laptops, Edge, niedrigste Hardware-Hürde |
gemma4:e4b (Standard) |
9,6 GB | 128K | Dense (4,5B effektiv) | Ja | die meisten Entwickler, bester Startpunkt |
gemma4:26b |
18 GB | 256K | MoE (3,8B aktiv) | Nein | beste Qualität pro GB, schnelle Inferenz |
gemma4:31b |
20 GB | 256K | Dense (30,7B) | Nein | maximale Qualität, Coding, Reasoning |
Wichtige Punkte:
- Das „E“ in E2B und E4B steht für „effective“ parameters.
gemma4:26bist ein Mixture-of-Experts-Modell und läuft deutlich schneller, als seine Gesamtgröße vermuten lässt.gemma4:latestlöst aufgemma4:e4bauf.
Voraussetzung: Ollama-Version prüfen
Gemma 4 braucht Ollama v0.20.0 oder neuer:
ollama --version
Bei älteren Versionen zuerst aktualisieren:
# macOS
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
Unter Windows laden Sie den aktuellen Installer von ollama.com.
Hardwareanforderungen
| Modell | Mindest-RAM / VRAM | Komfortables Setup | Hinweise |
|---|---|---|---|
gemma4:e2b |
8 GB | 16 GB | Beste Wahl für CPU-only-Maschinen |
gemma4:e4b |
10 GB VRAM oder 16 GB Unified Memory | 16–24 GB | Standardmodell |
gemma4:26b |
20 GB RAM oder Unified Memory | 24–32 GB | MoE, aktiver Inferenzdruck niedriger |
gemma4:31b |
24 GB VRAM oder 32 GB Unified Memory | 32 GB+ | Qualitätsfokus |
Welches Modell sollten Sie wählen?
- Unter 16 GB RAM / VRAM →
gemma4:e2b - 16 GB RAM oder 10+ GB VRAM →
gemma4:e4b - 24+ GB Unified Memory oder VRAM →
gemma4:26b - 32 GB+, Qualität zählt am meisten →
gemma4:31b
Für die meisten lokalen Experimente ist e4b die richtige Antwort.
Pull- und Run-Befehle
ollama pull gemma4
ollama pull gemma4:e2b
ollama pull gemma4:26b
ollama pull gemma4:31b
ollama run gemma4
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b
Prüfen, was installiert ist:
ollama list
Prüfen, was gerade im Speicher liegt:
ollama ps
Nutzung der lokalen API
Ollama stellt eine lokale REST-API auf http://localhost:11434 bereit.
curl (generate)
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"prompt": "Explain the difference between MoE and dense transformer architectures.",
"stream": false
}'
curl (chat, OpenAI-kompatibel)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"messages": [
{"role": "user", "content": "Write a Python function to parse JSON safely."}
]
}'
Python
from ollama import chat
response = chat(
model='gemma4',
messages=[{'role': 'user', 'content': 'What is mixture of experts?'}],
)
print(response.message.content)
Python mit OpenAI SDK
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama",
)
response = client.chat.completions.create(
model="gemma4",
messages=[
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a function to flatten a nested list in Python."}
]
)
print(response.choices[0].message.content)
JavaScript
import ollama from 'ollama'
const response = await ollama.chat({
model: 'gemma4',
messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)
Thinking Mode
Gemma 4 unterstützt konfigurierbares Chain-of-Thought-Reasoning. Um es zu aktivieren, setzen Sie <|think|> an den Anfang des System-Prompts:
from ollama import chat
response = chat(
model='gemma4:31b',
messages=[
{'role': 'system', 'content': '<|think|> Think step by step before answering.'},
{'role': 'user', 'content': 'What is the integral of x^2 from 0 to 3?'}
],
)
print(response.message.content)
Für einfache Lookups oder Casual Chat sollten Sie den Denkmodus eher auslassen.
Häufige Fehler und Fixes
requires a newer version of Ollama
Ihre Ollama-Version ist älter als v0.20.0. Aktualisieren Sie zuerst.
Out of memory / Modell lädt nicht
Prüfen Sie mit ollama ps verfügbaren VRAM oder Unified Memory. Wenn das Modell zu groß ist, wechseln Sie auf einen kleineren Tag.
Langsame Antworten
Wenn Ollama Ihre GPU nicht nutzt, läuft das Modell auf CPU. Treiber und Ollama-Version prüfen.
Port 11434 bereits belegt
OLLAMA_HOST=0.0.0.0:11435 ollama serve
Antworten brechen früh ab
Das Kontextfenster ist eventuell zu klein:
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4",
"prompt": "...",
"options": {"num_ctx": 32768}
}'
Was Sie prüfen sollten, bevor Sie dem Modell die Schuld geben
- Stimmt die Modellgröße wirklich?
- Ist GPU-Inferenz aktiv?
- Ist Thinking Mode für Reasoning-Aufgaben eingeschaltet?
- Ist das Kontextfenster groß genug?
- Nutzen Sie sinnvolle Sampling-Einstellungen?
Nächste Schritte
Wenn Ollama nicht der richtige Fit ist:
- LM Studio für GUI-first-Laufzeiten
- llama.cpp für mehr Konfigurationskontrolle
Wenn Sie Gemma 4 ohne lokales Setup testen möchten, bietet Google AI Studio gehosteten Zugriff auf 31B und 26B.
Verwandte Leitfäden
Verwandte Leitfäden
Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Unterstützt LM Studio Gemma 4? Kompatibilität, Modellliste und Anforderungen
Eine klare Antwort darauf, ob LM Studio Gemma 4 unterstützt, inklusive unterstützter Modellliste, Mindestarbeitsspeicher und realistischer Setup-Erwartungen.

Gemma-4-26B-A4B-VRAM-Anforderungen: Q4, Q8, F16 und der Fit für 24-GB-GPUs
Ein fokussierter Leitfaden zu Gemma-4-26B-A4B-VRAM-Anforderungen mit exakten GGUF-Größen, Planungsbereichen und der Frage, warum 26B der lokale Sweet Spot ist.

Gemma-4-31B-VRAM-Anforderungen: Q4, Q8, F16 und praxisnahe Hardware
Ein fokussierter Leitfaden zu Gemma-4-31B-VRAM-Anforderungen mit exakten GGUF-Größen, Planungsbereichen und ehrlicher Einschätzung dazu, welche Hardware wirklich Sinn ergibt.
Sie wissen noch nicht, was Sie als Nächstes lesen sollen?
Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
