Gemma-4-Leitfäden

Wie man Gemma 4 mit llama.cpp ausführt: GGUF-Setup, Hardware- und Quantisierungsleitfaden

Aktualisiert 4. Apr. 202610 Min. Lesezeit
gemma 4llama.cpplocal llmggufsetup guidequantization
Wie man Gemma 4 mit llama.cpp ausführt: GGUF-Setup, Hardware- und Quantisierungsleitfaden

Gemma 4 startete am 2. April 2026 mit Day-one-Support in llama.cpp. Wenn Sie bereits wissen, dass Sie llama.cpp möchten, nicht Ollama und nicht LM Studio, bekommen Sie hier die konkreten Befehle und Hardwarezahlen für einen stabilen ersten Lauf.

Wenn Sie noch überlegen, welche lokale Runtime Sie nutzen sollen, springen Sie zuerst zu Wann llama.cpp sinnvoll ist.


Gemma-4-Modellgrößen auf einen Blick

Variante Architektur Kontext Modalitäten 4-Bit-RAM 8-Bit-RAM FP16-RAM
E2B Dense + PLE 128K Text, Bild, Audio ~4 GB ~5–8 GB ~10 GB
E4B Dense + PLE 128K Text, Bild, Audio ~5,5–6 GB ~9–12 GB ~16 GB
26B-A4B MoE (4B aktiv) 256K Text, Bild ~16–18 GB ~28–30 GB ~52 GB
31B Dense 256K Text, Bild ~17–20 GB ~34–38 GB ~62 GB

RAM meint hier den gesamten verfügbaren Speicher: VRAM plus System-RAM bei Layer-Offload oder Unified Memory auf Apple Silicon.

Schnelle Picks:

  • Mac mini M4 (16 GB Unified Memory): E4B mit Q8_0 oder 26B-A4B in Q4, wenn langsamere Geschwindigkeit akzeptabel ist
  • 16 GB VRAM: E4B in Q8_0 bequem; 26B-A4B in Q4
  • 24 GB VRAM: 26B-A4B in Q8_0 oder 31B in Q4
  • 8 GB VRAM: E2B oder E4B nur in Q4

Wann llama.cpp sinnvoll ist

llama.cpp passt gut, wenn Sie wollen:

  • rohe Kontrolle über Sampling und Servermodus
  • CPU-first-Inferenz
  • Skripting und CI-Pipelines
  • multimodale Inferenz über llama-mtmd-cli oder llama-server mit --mmproj

Wenn Sie den absolut einfachsten Start möchten, sind Ollama oder LM Studio reibungsärmer.


Schritt 1 — llama.cpp bauen

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

Linux mit NVIDIA GPU (CUDA)

apt-get update
apt-get install -y pciutils build-essential cmake curl libcurl4-openssl-dev

cmake llama.cpp -B llama.cpp/build \
  -DBUILD_SHARED_LIBS=OFF \
  -DGGML_CUDA=ON

cmake --build llama.cpp/build \
  --config Release -j --clean-first \
  --target llama-cli llama-mtmd-cli llama-server llama-gguf-split

cp llama.cpp/build/bin/llama-* llama.cpp/

GPU-Offload prüfen:

./llama.cpp/llama-cli -m your-model.gguf -p "Hello" -n 5 --n-gpu-layers 99

macOS (Apple Silicon — Metal)

brew install cmake

cmake llama.cpp -B llama.cpp/build \
  -DBUILD_SHARED_LIBS=OFF \
  -DGGML_CUDA=OFF

cmake --build llama.cpp/build \
  --config Release -j --clean-first \
  --target llama-cli llama-mtmd-cli llama-server

cp llama.cpp/build/bin/llama-* llama.cpp/

CPU only

cmake llama.cpp -B llama.cpp/build \
  -DBUILD_SHARED_LIBS=OFF \
  -DGGML_CUDA=OFF

cmake --build llama.cpp/build \
  --config Release -j$(nproc) \
  --target llama-cli llama-server

cp llama.cpp/build/bin/llama-* llama.cpp/

Schritt 2 — GGUF wählen und herunterladen

Welche Quantisierung wählen?

Quantisierung Dateigröße (ca.) Qualität Beste Verwendung
Q8_0 ~1× Q4-Größe nahe an FP16 E2B und E4B mit genügend RAM
Q4_K_M mittel gute Balance 26B-A4B und 31B auf 24-GB-VRAM
UD-Q4_K_XL etwas größer besser als Q4_K_M 26B-A4B und 31B
Q2_K am kleinsten spürbarer Qualitätsverlust nur im Notfall

Empfohlene Startpunkte:

  • E2B / E4B → Q8_0
  • 26B-A4B / 31B → UD-Q4_K_XL

Download per Hugging Face CLI

pip install huggingface_hub hf_transfer

Beispiel für 26B-A4B mit UD-Q4_K_XL:

export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"

huggingface-cli download unsloth/gemma-4-26B-A4B-it-GGUF \
  --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
  --include "*UD-Q4_K_XL*"

Für multimodale Inferenz zusätzlich den Projektor:

huggingface-cli download unsloth/gemma-4-26B-A4B-it-GGUF \
  --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
  --include "*mmproj-BF16*" "*UD-Q4_K_XL*"

Schritt 3 — Text-Inferenz ausführen

Interaktiver Chat mit llama-cli

E4B (Q8_0):

export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"

./llama.cpp/llama-cli \
  -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64 \
  -cnv

OpenAI-kompatibler Server (llama-server)

./llama.cpp/llama-server \
  -m unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64 \
  --port 8080

Test:

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4",
    "messages": [{"role": "user", "content": "Explain attention in one paragraph."}]
  }'

Empfohlene Inferenzparameter

Parameter Wert Hinweise
--temp 1.0 Google-Standard
--top-p 0.95 Google-Standard
--top-k 64 Google-Standard
--repeat-penalty 1.0 nur aktivieren, wenn Schleifen auftreten
Kontextlänge Auto llama.cpp setzt sie automatisch

Thinking Mode aktivieren

Um den Denkmodus serverseitig zu deaktivieren:

./llama.cpp/llama-server \
  -m your-model.gguf \
  --chat-template-kwargs '{"enable_thinking":false}'

Schritt 4 — Multimodale Bild-Inferenz

Gemma 4 unterstützt Bild-Eingaben in llama.cpp, benötigt dafür aber zusätzlich die mmproj-Datei.

Mit llama-mtmd-cli

./llama.cpp/llama-mtmd-cli \
  --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64

Mit llama-server

./llama.cpp/llama-server \
  --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64 \
  --port 8080

Audio-Hinweis: Audio für E2B und E4B wird in llama.cpp im April 2026 noch aktiv weiterentwickelt. Text- und Bild-Inferenz sind stabil.


Fehlersuche

offloaded 0 layers

CUDA wurde nicht korrekt gelinkt. Build-Verzeichnis löschen und sauber neu bauen.

Out of memory beim Laden

Kleinere Quantisierung, kleineres Modell oder weniger GPU-Layer offloaden.

Assertion mit --image-min-tokens

Diesen Parameter bei Gemma 4 nicht setzen.

Wiederholungsschleifen

--repeat-penalty 1.05 testen.

Langsame Generierung auf macOS trotz Metal

Mit --verbose prüfen, ob Metal wirklich aktiv ist. Falls nötig --n-gpu-layers 99 setzen.


FAQ

Unterstützt llama.cpp Gemma 4 offiziell?

Ja. Support war ab Release am 2. April 2026 enthalten.

Kann ich Gemma 4 auf einem Mac mini ausführen?

Ja. Ein Mac mini M4 mit 16 GB Unified Memory kann E4B in Q8_0 gut ausführen, 26B-A4B in Q4 meist ebenfalls.

Brauche ich eine GPU?

Nein. CPU-only funktioniert, GPU-Offload verbessert die Geschwindigkeit aber stark.

Was ist der Unterschied zwischen Q4_K_M und UD-Q4_K_XL?

UD-Q4_K_XL ist Unsloths dynamisches 4-Bit-Format mit höherer Qualität bei ähnlicher Dateigröße.

Wie nutze ich Gemma 4 mit Coding-Agents wie Cursor oder Continue?

Starten Sie llama-server und richten Sie die OpenAI-Basis-URL auf http://localhost:8080/v1.


Nächste Schritte

Wenn Text-Inferenz stabil läuft:

  • testen Sie 26B-A4B für einen starken Qualitätssprung gegenüber E4B
  • experimentieren Sie mit multimodalen Eingaben
  • vergleichen Sie llama.cpp mit Ollama, wenn Sie eine einfachere Alltags-Runtime wollen

Verwandte Leitfäden

Verwandte Leitfäden

Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?

Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.