Gemma-4-Leitfäden
Wie man Gemma 4 mit llama.cpp ausführt: GGUF-Setup, Hardware- und Quantisierungsleitfaden

Gemma 4 startete am 2. April 2026 mit Day-one-Support in llama.cpp. Wenn Sie bereits wissen, dass Sie llama.cpp möchten, nicht Ollama und nicht LM Studio, bekommen Sie hier die konkreten Befehle und Hardwarezahlen für einen stabilen ersten Lauf.
Wenn Sie noch überlegen, welche lokale Runtime Sie nutzen sollen, springen Sie zuerst zu Wann llama.cpp sinnvoll ist.
Gemma-4-Modellgrößen auf einen Blick
| Variante | Architektur | Kontext | Modalitäten | 4-Bit-RAM | 8-Bit-RAM | FP16-RAM |
|---|---|---|---|---|---|---|
| E2B | Dense + PLE | 128K | Text, Bild, Audio | ~4 GB | ~5–8 GB | ~10 GB |
| E4B | Dense + PLE | 128K | Text, Bild, Audio | ~5,5–6 GB | ~9–12 GB | ~16 GB |
| 26B-A4B | MoE (4B aktiv) | 256K | Text, Bild | ~16–18 GB | ~28–30 GB | ~52 GB |
| 31B | Dense | 256K | Text, Bild | ~17–20 GB | ~34–38 GB | ~62 GB |
RAM meint hier den gesamten verfügbaren Speicher: VRAM plus System-RAM bei Layer-Offload oder Unified Memory auf Apple Silicon.
Schnelle Picks:
- Mac mini M4 (16 GB Unified Memory): E4B mit Q8_0 oder 26B-A4B in Q4, wenn langsamere Geschwindigkeit akzeptabel ist
- 16 GB VRAM: E4B in Q8_0 bequem; 26B-A4B in Q4
- 24 GB VRAM: 26B-A4B in Q8_0 oder 31B in Q4
- 8 GB VRAM: E2B oder E4B nur in Q4
Wann llama.cpp sinnvoll ist
llama.cpp passt gut, wenn Sie wollen:
- rohe Kontrolle über Sampling und Servermodus
- CPU-first-Inferenz
- Skripting und CI-Pipelines
- multimodale Inferenz über
llama-mtmd-clioderllama-servermit--mmproj
Wenn Sie den absolut einfachsten Start möchten, sind Ollama oder LM Studio reibungsärmer.
Schritt 1 — llama.cpp bauen
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
Linux mit NVIDIA GPU (CUDA)
apt-get update
apt-get install -y pciutils build-essential cmake curl libcurl4-openssl-dev
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF \
-DGGML_CUDA=ON
cmake --build llama.cpp/build \
--config Release -j --clean-first \
--target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp/
GPU-Offload prüfen:
./llama.cpp/llama-cli -m your-model.gguf -p "Hello" -n 5 --n-gpu-layers 99
macOS (Apple Silicon — Metal)
brew install cmake
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF \
-DGGML_CUDA=OFF
cmake --build llama.cpp/build \
--config Release -j --clean-first \
--target llama-cli llama-mtmd-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp/
CPU only
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF \
-DGGML_CUDA=OFF
cmake --build llama.cpp/build \
--config Release -j$(nproc) \
--target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp/
Schritt 2 — GGUF wählen und herunterladen
Welche Quantisierung wählen?
| Quantisierung | Dateigröße (ca.) | Qualität | Beste Verwendung |
|---|---|---|---|
| Q8_0 | ~1× Q4-Größe | nahe an FP16 | E2B und E4B mit genügend RAM |
| Q4_K_M | mittel | gute Balance | 26B-A4B und 31B auf 24-GB-VRAM |
| UD-Q4_K_XL | etwas größer | besser als Q4_K_M | 26B-A4B und 31B |
| Q2_K | am kleinsten | spürbarer Qualitätsverlust | nur im Notfall |
Empfohlene Startpunkte:
- E2B / E4B → Q8_0
- 26B-A4B / 31B → UD-Q4_K_XL
Download per Hugging Face CLI
pip install huggingface_hub hf_transfer
Beispiel für 26B-A4B mit UD-Q4_K_XL:
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
huggingface-cli download unsloth/gemma-4-26B-A4B-it-GGUF \
--local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
--include "*UD-Q4_K_XL*"
Für multimodale Inferenz zusätzlich den Projektor:
huggingface-cli download unsloth/gemma-4-26B-A4B-it-GGUF \
--local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
--include "*mmproj-BF16*" "*UD-Q4_K_XL*"
Schritt 3 — Text-Inferenz ausführen
Interaktiver Chat mit llama-cli
E4B (Q8_0):
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \
-hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \
--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
-cnv
OpenAI-kompatibler Server (llama-server)
./llama.cpp/llama-server \
-m unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
--port 8080
Test:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma-4",
"messages": [{"role": "user", "content": "Explain attention in one paragraph."}]
}'
Empfohlene Inferenzparameter
| Parameter | Wert | Hinweise |
|---|---|---|
--temp |
1.0 | Google-Standard |
--top-p |
0.95 | Google-Standard |
--top-k |
64 | Google-Standard |
--repeat-penalty |
1.0 | nur aktivieren, wenn Schleifen auftreten |
| Kontextlänge | Auto | llama.cpp setzt sie automatisch |
Thinking Mode aktivieren
Um den Denkmodus serverseitig zu deaktivieren:
./llama.cpp/llama-server \
-m your-model.gguf \
--chat-template-kwargs '{"enable_thinking":false}'
Schritt 4 — Multimodale Bild-Inferenz
Gemma 4 unterstützt Bild-Eingaben in llama.cpp, benötigt dafür aber zusätzlich die mmproj-Datei.
Mit llama-mtmd-cli
./llama.cpp/llama-mtmd-cli \
--model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
--mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
--temp 1.0 \
--top-p 0.95 \
--top-k 64
Mit llama-server
./llama.cpp/llama-server \
--model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
--mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
--port 8080
Audio-Hinweis: Audio für E2B und E4B wird in llama.cpp im April 2026 noch aktiv weiterentwickelt. Text- und Bild-Inferenz sind stabil.
Fehlersuche
offloaded 0 layers
CUDA wurde nicht korrekt gelinkt. Build-Verzeichnis löschen und sauber neu bauen.
Out of memory beim Laden
Kleinere Quantisierung, kleineres Modell oder weniger GPU-Layer offloaden.
Assertion mit --image-min-tokens
Diesen Parameter bei Gemma 4 nicht setzen.
Wiederholungsschleifen
--repeat-penalty 1.05 testen.
Langsame Generierung auf macOS trotz Metal
Mit --verbose prüfen, ob Metal wirklich aktiv ist. Falls nötig --n-gpu-layers 99 setzen.
FAQ
Unterstützt llama.cpp Gemma 4 offiziell?
Ja. Support war ab Release am 2. April 2026 enthalten.
Kann ich Gemma 4 auf einem Mac mini ausführen?
Ja. Ein Mac mini M4 mit 16 GB Unified Memory kann E4B in Q8_0 gut ausführen, 26B-A4B in Q4 meist ebenfalls.
Brauche ich eine GPU?
Nein. CPU-only funktioniert, GPU-Offload verbessert die Geschwindigkeit aber stark.
Was ist der Unterschied zwischen Q4_K_M und UD-Q4_K_XL?
UD-Q4_K_XL ist Unsloths dynamisches 4-Bit-Format mit höherer Qualität bei ähnlicher Dateigröße.
Wie nutze ich Gemma 4 mit Coding-Agents wie Cursor oder Continue?
Starten Sie llama-server und richten Sie die OpenAI-Basis-URL auf http://localhost:8080/v1.
Nächste Schritte
Wenn Text-Inferenz stabil läuft:
- testen Sie 26B-A4B für einen starken Qualitätssprung gegenüber E4B
- experimentieren Sie mit multimodalen Eingaben
- vergleichen Sie llama.cpp mit Ollama, wenn Sie eine einfachere Alltags-Runtime wollen
Verwandte Leitfäden
Verwandte Leitfäden
Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Unterstützt llama.cpp Gemma 4? GGUF-Status, Fixes und was funktioniert
Eine praxisnahe Antwort darauf, ob llama.cpp Gemma 4 unterstützt, mit offiziellen GGUF-Links, aktuellem Support-Status und der Frage, was „unterstützt“ wirklich bedeutet.

Unterstützt LM Studio Gemma 4? Kompatibilität, Modellliste und Anforderungen
Eine klare Antwort darauf, ob LM Studio Gemma 4 unterstützt, inklusive unterstützter Modellliste, Mindestarbeitsspeicher und realistischer Setup-Erwartungen.

Gemma-4-API-Leitfaden: Lokales OpenAI-kompatibles Setup
Nutzen Sie diesen Gemma-4-API-Leitfaden, um einen lokalen OpenAI-kompatiblen Endpoint zu bauen, ihn schnell zu testen und die richtige Runtime für Ihren Workflow zu wählen.
Sie wissen noch nicht, was Sie als Nächstes lesen sollen?
Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
