Gemma-4-Leitfäden

Wie man Gemma 4 in Ollama ausführt: Tags, Hardware und der erste Lauf

9 Min. Lesezeit
gemma 4ollamalocal llmsetup guidegemma4 tagshardware requirements
Wie man Gemma 4 in Ollama ausführt: Tags, Hardware und der erste Lauf

Kurze Antwort

Ja, Ollama unterstützt Gemma 4. Der Support kam mit Ollama v0.20.0 am 3. April 2026, am selben Tag wie das Google-Release. Zwei Befehle genügen:

ollama pull gemma4
ollama run gemma4

Der Standard-Tag ist gemma4:e4b, ein 9,6-GB-Modell, das auf den meisten Entwickler-Maschinen gut passt.


Alle Gemma-4-Ollama-Tags

Tag Größe auf Platte Kontextfenster Architektur Audioeingabe Am besten für
gemma4:e2b 7,2 GB 128K Dense (2,3B effektiv) Ja Laptops, Edge, niedrigste Hardware-Hürde
gemma4:e4b (Standard) 9,6 GB 128K Dense (4,5B effektiv) Ja die meisten Entwickler, bester Startpunkt
gemma4:26b 18 GB 256K MoE (3,8B aktiv) Nein beste Qualität pro GB, schnelle Inferenz
gemma4:31b 20 GB 256K Dense (30,7B) Nein maximale Qualität, Coding, Reasoning

Wichtige Punkte:

  • Das „E“ in E2B und E4B steht für „effective“ parameters.
  • gemma4:26b ist ein Mixture-of-Experts-Modell und läuft deutlich schneller, als seine Gesamtgröße vermuten lässt.
  • gemma4:latest löst auf gemma4:e4b auf.

Voraussetzung: Ollama-Version prüfen

Gemma 4 braucht Ollama v0.20.0 oder neuer:

ollama --version

Bei älteren Versionen zuerst aktualisieren:

# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Unter Windows laden Sie den aktuellen Installer von ollama.com.


Hardwareanforderungen

Modell Mindest-RAM / VRAM Komfortables Setup Hinweise
gemma4:e2b 8 GB 16 GB Beste Wahl für CPU-only-Maschinen
gemma4:e4b 10 GB VRAM oder 16 GB Unified Memory 16–24 GB Standardmodell
gemma4:26b 20 GB RAM oder Unified Memory 24–32 GB MoE, aktiver Inferenzdruck niedriger
gemma4:31b 24 GB VRAM oder 32 GB Unified Memory 32 GB+ Qualitätsfokus

Welches Modell sollten Sie wählen?

  • Unter 16 GB RAM / VRAMgemma4:e2b
  • 16 GB RAM oder 10+ GB VRAMgemma4:e4b
  • 24+ GB Unified Memory oder VRAMgemma4:26b
  • 32 GB+, Qualität zählt am meistengemma4:31b

Für die meisten lokalen Experimente ist e4b die richtige Antwort.


Pull- und Run-Befehle

ollama pull gemma4
ollama pull gemma4:e2b
ollama pull gemma4:26b
ollama pull gemma4:31b
ollama run gemma4
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b

Prüfen, was installiert ist:

ollama list

Prüfen, was gerade im Speicher liegt:

ollama ps

Nutzung der lokalen API

Ollama stellt eine lokale REST-API auf http://localhost:11434 bereit.

curl (generate)

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "Explain the difference between MoE and dense transformer architectures.",
    "stream": false
  }'

curl (chat, OpenAI-kompatibel)

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "user", "content": "Write a Python function to parse JSON safely."}
    ]
  }'

Python

from ollama import chat

response = chat(
    model='gemma4',
    messages=[{'role': 'user', 'content': 'What is mixture of experts?'}],
)
print(response.message.content)

Python mit OpenAI SDK

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "system", "content": "You are a helpful coding assistant."},
        {"role": "user", "content": "Write a function to flatten a nested list in Python."}
    ]
)

print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'gemma4',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Thinking Mode

Gemma 4 unterstützt konfigurierbares Chain-of-Thought-Reasoning. Um es zu aktivieren, setzen Sie <|think|> an den Anfang des System-Prompts:

from ollama import chat

response = chat(
    model='gemma4:31b',
    messages=[
        {'role': 'system', 'content': '<|think|> Think step by step before answering.'},
        {'role': 'user', 'content': 'What is the integral of x^2 from 0 to 3?'}
    ],
)
print(response.message.content)

Für einfache Lookups oder Casual Chat sollten Sie den Denkmodus eher auslassen.


Häufige Fehler und Fixes

requires a newer version of Ollama

Ihre Ollama-Version ist älter als v0.20.0. Aktualisieren Sie zuerst.

Out of memory / Modell lädt nicht

Prüfen Sie mit ollama ps verfügbaren VRAM oder Unified Memory. Wenn das Modell zu groß ist, wechseln Sie auf einen kleineren Tag.

Langsame Antworten

Wenn Ollama Ihre GPU nicht nutzt, läuft das Modell auf CPU. Treiber und Ollama-Version prüfen.

Port 11434 bereits belegt

OLLAMA_HOST=0.0.0.0:11435 ollama serve

Antworten brechen früh ab

Das Kontextfenster ist eventuell zu klein:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4",
    "prompt": "...",
    "options": {"num_ctx": 32768}
  }'

Was Sie prüfen sollten, bevor Sie dem Modell die Schuld geben

  1. Stimmt die Modellgröße wirklich?
  2. Ist GPU-Inferenz aktiv?
  3. Ist Thinking Mode für Reasoning-Aufgaben eingeschaltet?
  4. Ist das Kontextfenster groß genug?
  5. Nutzen Sie sinnvolle Sampling-Einstellungen?

Nächste Schritte

Wenn Ollama nicht der richtige Fit ist:

  • LM Studio für GUI-first-Laufzeiten
  • llama.cpp für mehr Konfigurationskontrolle

Wenn Sie Gemma 4 ohne lokales Setup testen möchten, bietet Google AI Studio gehosteten Zugriff auf 31B und 26B.

Verwandte Leitfäden

Verwandte Leitfäden

Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?

Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.