Wie man Gemma 4 in Ollama ausführt: Tags, Hardware und der erste Lauf

Kurze Antwort

Ja, Ollama unterstützt Gemma 4. Der Support kam mit Ollama v0.20.0 am 3. April 2026, am selben Tag wie das Google-Release. Zwei Befehle genügen:

ollama pull gemma4
ollama run gemma4

Der Standard-Tag ist gemma4:e4b, ein 9,6-GB-Modell, das auf den meisten Entwickler-Maschinen gut passt.

Alle Gemma-4-Ollama-Tags

Tag	Größe auf Platte	Kontextfenster	Architektur	Audioeingabe	Am besten für
`gemma4:e2b`	7,2 GB	128K	Dense (2,3B effektiv)	Ja	Laptops, Edge, niedrigste Hardware-Hürde
`gemma4:e4b` (Standard)	9,6 GB	128K	Dense (4,5B effektiv)	Ja	die meisten Entwickler, bester Startpunkt
`gemma4:26b`	18 GB	256K	MoE (3,8B aktiv)	Nein	beste Qualität pro GB, schnelle Inferenz
`gemma4:31b`	20 GB	256K	Dense (30,7B)	Nein	maximale Qualität, Coding, Reasoning

Wichtige Punkte:

Das „E“ in E2B und E4B steht für „effective“ parameters.
gemma4:26b ist ein Mixture-of-Experts-Modell und läuft deutlich schneller, als seine Gesamtgröße vermuten lässt.
gemma4:latest löst auf gemma4:e4b auf.

Voraussetzung: Ollama-Version prüfen

Gemma 4 braucht Ollama v0.20.0 oder neuer:

ollama --version

Bei älteren Versionen zuerst aktualisieren:

# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Unter Windows laden Sie den aktuellen Installer von ollama.com.

Hardwareanforderungen

Modell	Mindest-RAM / VRAM	Komfortables Setup	Hinweise
`gemma4:e2b`	8 GB	16 GB	Beste Wahl für CPU-only-Maschinen
`gemma4:e4b`	10 GB VRAM oder 16 GB Unified Memory	16–24 GB	Standardmodell
`gemma4:26b`	20 GB RAM oder Unified Memory	24–32 GB	MoE, aktiver Inferenzdruck niedriger
`gemma4:31b`	24 GB VRAM oder 32 GB Unified Memory	32 GB+	Qualitätsfokus

Welches Modell sollten Sie wählen?

Unter 16 GB RAM / VRAM → gemma4:e2b
16 GB RAM oder 10+ GB VRAM → gemma4:e4b
24+ GB Unified Memory oder VRAM → gemma4:26b
32 GB+, Qualität zählt am meisten → gemma4:31b

Für die meisten lokalen Experimente ist e4b die richtige Antwort.

Pull- und Run-Befehle

ollama pull gemma4
ollama pull gemma4:e2b
ollama pull gemma4:26b
ollama pull gemma4:31b

ollama run gemma4
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b

Prüfen, was installiert ist:

ollama list

Prüfen, was gerade im Speicher liegt:

ollama ps

Nutzung der lokalen API

Ollama stellt eine lokale REST-API auf http://localhost:11434 bereit.

curl (generate)

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "Explain the difference between MoE and dense transformer architectures.",
    "stream": false
  }'

curl (chat, OpenAI-kompatibel)

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "user", "content": "Write a Python function to parse JSON safely."}
    ]
  }'

Python

from ollama import chat

response = chat(
    model='gemma4',
    messages=[{'role': 'user', 'content': 'What is mixture of experts?'}],
)
print(response.message.content)

Python mit OpenAI SDK

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "system", "content": "You are a helpful coding assistant."},
        {"role": "user", "content": "Write a function to flatten a nested list in Python."}
    ]
)

print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'gemma4',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Thinking Mode

Gemma 4 unterstützt konfigurierbares Chain-of-Thought-Reasoning. Um es zu aktivieren, setzen Sie <|think|> an den Anfang des System-Prompts:

from ollama import chat

response = chat(
    model='gemma4:31b',
    messages=[
        {'role': 'system', 'content': '<|think|> Think step by step before answering.'},
        {'role': 'user', 'content': 'What is the integral of x^2 from 0 to 3?'}
    ],
)
print(response.message.content)

Für einfache Lookups oder Casual Chat sollten Sie den Denkmodus eher auslassen.

Häufige Fehler und Fixes

requires a newer version of Ollama

Ihre Ollama-Version ist älter als v0.20.0. Aktualisieren Sie zuerst.

Out of memory / Modell lädt nicht

Prüfen Sie mit ollama ps verfügbaren VRAM oder Unified Memory. Wenn das Modell zu groß ist, wechseln Sie auf einen kleineren Tag.

Langsame Antworten

Wenn Ollama Ihre GPU nicht nutzt, läuft das Modell auf CPU. Treiber und Ollama-Version prüfen.

Port 11434 bereits belegt

OLLAMA_HOST=0.0.0.0:11435 ollama serve

Antworten brechen früh ab

Das Kontextfenster ist eventuell zu klein:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4",
    "prompt": "...",
    "options": {"num_ctx": 32768}
  }'

Was Sie prüfen sollten, bevor Sie dem Modell die Schuld geben

Stimmt die Modellgröße wirklich?
Ist GPU-Inferenz aktiv?
Ist Thinking Mode für Reasoning-Aufgaben eingeschaltet?
Ist das Kontextfenster groß genug?
Nutzen Sie sinnvolle Sampling-Einstellungen?

Nächste Schritte

Wenn Ollama nicht der richtige Fit ist:

LM Studio für GUI-first-Laufzeiten
llama.cpp für mehr Konfigurationskontrolle

Wenn Sie Gemma 4 ohne lokales Setup testen möchten, bietet Google AI Studio gehosteten Zugriff auf 31B und 26B.