Wie man Gemma 4 mit llama.cpp ausführt: GGUF-Setup, Hardware- und Quantisierungsleitfaden

Gemma 4 startete am 2. April 2026 mit Day-one-Support in llama.cpp. Wenn Sie bereits wissen, dass Sie llama.cpp möchten, nicht Ollama und nicht LM Studio, bekommen Sie hier die konkreten Befehle und Hardwarezahlen für einen stabilen ersten Lauf.

Wenn Sie noch überlegen, welche lokale Runtime Sie nutzen sollen, springen Sie zuerst zu Wann llama.cpp sinnvoll ist.

Gemma-4-Modellgrößen auf einen Blick

Variante	Architektur	Kontext	Modalitäten	4-Bit-RAM	8-Bit-RAM	FP16-RAM
E2B	Dense + PLE	128K	Text, Bild, Audio	~4 GB	~5–8 GB	~10 GB
E4B	Dense + PLE	128K	Text, Bild, Audio	~5,5–6 GB	~9–12 GB	~16 GB
26B-A4B	MoE (4B aktiv)	256K	Text, Bild	~16–18 GB	~28–30 GB	~52 GB
31B	Dense	256K	Text, Bild	~17–20 GB	~34–38 GB	~62 GB

RAM meint hier den gesamten verfügbaren Speicher: VRAM plus System-RAM bei Layer-Offload oder Unified Memory auf Apple Silicon.

Schnelle Picks:

Mac mini M4 (16 GB Unified Memory): E4B mit Q8_0 oder 26B-A4B in Q4, wenn langsamere Geschwindigkeit akzeptabel ist
16 GB VRAM: E4B in Q8_0 bequem; 26B-A4B in Q4
24 GB VRAM: 26B-A4B in Q8_0 oder 31B in Q4
8 GB VRAM: E2B oder E4B nur in Q4

Wann llama.cpp sinnvoll ist

llama.cpp passt gut, wenn Sie wollen:

rohe Kontrolle über Sampling und Servermodus
CPU-first-Inferenz
Skripting und CI-Pipelines
multimodale Inferenz über llama-mtmd-cli oder llama-server mit --mmproj

Wenn Sie den absolut einfachsten Start möchten, sind Ollama oder LM Studio reibungsärmer.

Schritt 1 — llama.cpp bauen

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

Linux mit NVIDIA GPU (CUDA)

apt-get update
apt-get install -y pciutils build-essential cmake curl libcurl4-openssl-dev

cmake llama.cpp -B llama.cpp/build \
  -DBUILD_SHARED_LIBS=OFF \
  -DGGML_CUDA=ON

cmake --build llama.cpp/build \
  --config Release -j --clean-first \
  --target llama-cli llama-mtmd-cli llama-server llama-gguf-split

cp llama.cpp/build/bin/llama-* llama.cpp/

GPU-Offload prüfen:

./llama.cpp/llama-cli -m your-model.gguf -p "Hello" -n 5 --n-gpu-layers 99

macOS (Apple Silicon — Metal)

brew install cmake

cmake llama.cpp -B llama.cpp/build \
  -DBUILD_SHARED_LIBS=OFF \
  -DGGML_CUDA=OFF

cmake --build llama.cpp/build \
  --config Release -j --clean-first \
  --target llama-cli llama-mtmd-cli llama-server

cp llama.cpp/build/bin/llama-* llama.cpp/

CPU only

cmake llama.cpp -B llama.cpp/build \
  -DBUILD_SHARED_LIBS=OFF \
  -DGGML_CUDA=OFF

cmake --build llama.cpp/build \
  --config Release -j$(nproc) \
  --target llama-cli llama-server

cp llama.cpp/build/bin/llama-* llama.cpp/

Schritt 2 — GGUF wählen und herunterladen

Welche Quantisierung wählen?

Quantisierung	Dateigröße (ca.)	Qualität	Beste Verwendung
Q8_0	~1× Q4-Größe	nahe an FP16	E2B und E4B mit genügend RAM
Q4_K_M	mittel	gute Balance	26B-A4B und 31B auf 24-GB-VRAM
UD-Q4_K_XL	etwas größer	besser als Q4_K_M	26B-A4B und 31B
Q2_K	am kleinsten	spürbarer Qualitätsverlust	nur im Notfall

Empfohlene Startpunkte:

E2B / E4B → Q8_0
26B-A4B / 31B → UD-Q4_K_XL

Download per Hugging Face CLI

pip install huggingface_hub hf_transfer

Beispiel für 26B-A4B mit UD-Q4_K_XL:

export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"

huggingface-cli download unsloth/gemma-4-26B-A4B-it-GGUF \
  --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
  --include "*UD-Q4_K_XL*"

Für multimodale Inferenz zusätzlich den Projektor:

huggingface-cli download unsloth/gemma-4-26B-A4B-it-GGUF \
  --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
  --include "*mmproj-BF16*" "*UD-Q4_K_XL*"

Schritt 3 — Text-Inferenz ausführen

Interaktiver Chat mit llama-cli

E4B (Q8_0):

export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"

./llama.cpp/llama-cli \
  -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64 \
  -cnv

OpenAI-kompatibler Server (llama-server)

./llama.cpp/llama-server \
  -m unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64 \
  --port 8080

Test:

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4",
    "messages": [{"role": "user", "content": "Explain attention in one paragraph."}]
  }'

Empfohlene Inferenzparameter

Parameter	Wert	Hinweise
`--temp`	1.0	Google-Standard
`--top-p`	0.95	Google-Standard
`--top-k`	64	Google-Standard
`--repeat-penalty`	1.0	nur aktivieren, wenn Schleifen auftreten
Kontextlänge	Auto	llama.cpp setzt sie automatisch

Thinking Mode aktivieren

Um den Denkmodus serverseitig zu deaktivieren:

./llama.cpp/llama-server \
  -m your-model.gguf \
  --chat-template-kwargs '{"enable_thinking":false}'

Schritt 4 — Multimodale Bild-Inferenz

Gemma 4 unterstützt Bild-Eingaben in llama.cpp, benötigt dafür aber zusätzlich die mmproj-Datei.

Mit llama-mtmd-cli

./llama.cpp/llama-mtmd-cli \
  --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64

Mit llama-server

./llama.cpp/llama-server \
  --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64 \
  --port 8080

Audio-Hinweis: Audio für E2B und E4B wird in llama.cpp im April 2026 noch aktiv weiterentwickelt. Text- und Bild-Inferenz sind stabil.

Fehlersuche

offloaded 0 layers

CUDA wurde nicht korrekt gelinkt. Build-Verzeichnis löschen und sauber neu bauen.

Out of memory beim Laden

Kleinere Quantisierung, kleineres Modell oder weniger GPU-Layer offloaden.

Assertion mit --image-min-tokens

Diesen Parameter bei Gemma 4 nicht setzen.

Wiederholungsschleifen

--repeat-penalty 1.05 testen.

Langsame Generierung auf macOS trotz Metal

Mit --verbose prüfen, ob Metal wirklich aktiv ist. Falls nötig --n-gpu-layers 99 setzen.

FAQ

Unterstützt llama.cpp Gemma 4 offiziell?

Ja. Support war ab Release am 2. April 2026 enthalten.

Kann ich Gemma 4 auf einem Mac mini ausführen?

Ja. Ein Mac mini M4 mit 16 GB Unified Memory kann E4B in Q8_0 gut ausführen, 26B-A4B in Q4 meist ebenfalls.

Brauche ich eine GPU?

Nein. CPU-only funktioniert, GPU-Offload verbessert die Geschwindigkeit aber stark.

Was ist der Unterschied zwischen Q4_K_M und UD-Q4_K_XL?

UD-Q4_K_XL ist Unsloths dynamisches 4-Bit-Format mit höherer Qualität bei ähnlicher Dateigröße.

Wie nutze ich Gemma 4 mit Coding-Agents wie Cursor oder Continue?

Starten Sie llama-server und richten Sie die OpenAI-Basis-URL auf http://localhost:8080/v1.

Nächste Schritte

Wenn Text-Inferenz stabil läuft:

testen Sie 26B-A4B für einen starken Qualitätssprung gegenüber E4B
experimentieren Sie mit multimodalen Eingaben
vergleichen Sie llama.cpp mit Ollama, wenn Sie eine einfachere Alltags-Runtime wollen