Gemma 4 Q4 vs. Q8: Welche Quantisierung wirklich herunterladen

Wenn du ein Gemma-4-GGUF herunterlädst, wählst du einen Komprimierungsgrad. Die Zahl im Dateinamen (Q4, Q5, Q8) gibt an, wie viele Bits pro Modellgewicht gespeichert werden. Weniger Bits bedeutet kleinere Datei, weniger RAM und etwas Qualitätsverlust. Mehr Bits bedeutet größere Datei, mehr RAM und eine Ausgabe näher am Vollpräzisionsmodell.

Die richtige Wahl für die meisten: mit Q4_K_M starten. Zu Q5_K_M wechseln, wenn du merklich bessere Reasoning- oder Coding-Ausgaben möchtest und deine Hardware Platz hat. Zu Q8 nur wechseln, wenn du bestätigt hast, dass Q4 für deine Aufgabe nicht gut genug ist und Speicher kein Engpass ist.

Es gibt auch eine neuere Option — QAT — die diese Rechnung komplett ändert. Dazu unten mehr.

Das GGUF-Benennungssystem

Auf Hugging Face folgen Modelldateien einem Muster wie Q4_K_M, Q5_K_S, Q8_0. Was jeder Teil bedeutet:

Q4 = 4-Bit-Quantisierung (4 Bits pro Modellgewicht gespeichert)
K = K-Quant-Format: gemischte Präzision, hält empfindlichere Schichten bei höherer Präzision
M = Medium-Variante (S ist kleiner, L ist größer innerhalb der K-Quant-Familie)
Q8_0 = 8-Bit, das klassische Zero-Point-Format
Q4_0 = 4-Bit, das klassische Zero-Point-Format (schlechter als Q4_K_M bei gleicher Größe)

Das Wichtigste: Q4_0 und Q4_K_M sind nicht gleichwertig. K-Quant-Formate verwenden gemischte Präzision über verschiedene Schichttypen. In der Praxis produziert Q4_K_M bei im Wesentlichen gleicher Dateigröße merklich bessere Ausgaben. Bei der Wahl immer Q4_K_M nehmen.

Speicherbedarf

Googles offizielle Zahlen (mit ~20 % Overhead). Unsloths Praxismessungen legen den 26B-A4B-Q4-Load bei etwa 18 GB, höher als Googles Schätzung.

Modell	Q4_K_M	Q8_0	BF16
Gemma 4 E2B	~2,9 GB	~5,7 GB	~11,4 GB
Gemma 4 E4B	~4,5 GB	~8,9 GB	~17,9 GB
Gemma 4 12B	~6,7 GB	~13,4 GB	~26,7 GB
Gemma 4 26B A4B	~14,4–18 GB	~28 GB	~52–58 GB
Gemma 4 31B	~17,5 GB	~34,9 GB	~69,9 GB

Diese Zahlen sind Modelllast-Schätzungen. KV-Cache kommt oben drauf (wächst mit der Kontextlänge). Bei langen Kontexten kann der KV-Cache-Speicher die Modellgewichte übersteigen.

Wo der Qualitätsunterschied wirklich auftritt

Forschung zur Quantisierungsqualität ist konsistent: normaler Chat, Zusammenfassungen und Extraktion sind sehr resistent gegen Quantisierung. Der Perplexity-Unterschied zwischen Q4_K_M und Q8 bei Gesprächsaufgaben liegt im Hundertstel-Punkt-Bereich — im normalen Einsatz nicht wahrnehmbar.

Die Lücke wird sichtbar bei Aufgaben, wo Präzision über viele Schritte akkumuliert:

Mehrstufige Reasoning-Ketten (Quantisierungsfehler summiert sich pro Schritt)
Komplexe Code-Generierung und Refactoring
Mathematiklastige Aufgaben
Long-Context-Arbeit wo früher Kontext spätere Schlüsse präzise beeinflusst
Strukturierte Ausgaben die präzises Instruktionsfolgen über viele Constraints erfordern

Für die meisten lokalen Anwendungsfälle — Chat, Dokument-Q&A, Schreibhilfe, einfache Coding-Hilfe — ist Q4_K_M in der Regel ausreichend. Für Coding-Agents oder komplexe Reasoning-Pipelines lohnt es sich, Q8 zu testen.

Die unterschätzte Mitte: Q5_K_M

Q5_K_M liegt zwischen Q4 und Q8 und ist oft die richtige Wahl wenn:

Das System mehr Speicherraum hat als Q4 braucht
Man Coding- oder Reasoning-Aufgaben macht, wo Q4 gelegentlich unzuverlässig wirkt
Man nicht den vollen 2×-Speicherhit von Q8 möchte

Beispiel: Auf einem 32-GB-System mit 26B A4B braucht Q5_K_M etwa 20–22 GB und liefert deutlich bessere Ausgaben als Q4_K_M bei überschaubarem Speicherzuwachs. Q8 würde ~28 GB brauchen und kaum Raum für Kontext lassen.

Wenn Q4 das System schon füllt, passt Q5 nicht. Aber bei komfortablem Spielraum ist Q5_K_M vor dem direkten Sprung zu Q8 eine Überlegung wert.

Welche Datei für welche Hardware

Dein Setup	Hier anfangen
8 GB RAM Laptop	E2B Q4_K_M, oder E4B Q4_K_M falls es passt
16 GB System	E4B Q4_K_M
24 GB GPU	26B A4B Q4_K_M
32 GB System	26B A4B Q4_K_M bequem; Q5_K_M ausprobieren falls möglich
48 GB+	26B A4B Q8, oder 31B Q4_K_M
64 GB+ Workstation	31B Q8, oder 26B A4B Q8

Wenn das Modell bei Q4 gerade noch passt, Q8 nicht erzwingen. Stattdessen ein kleineres Modell bei Q5 oder Q6 wählen. Ein korrekt dimensioniertes Modell ohne Speicherdruck schlägt konsistent ein größeres Modell, das ständig swappt.

Gemma 4 QAT: Die Option, die die Rechnung ändert

Google hat am 5. Juni 2026 QAT-Versionen (Quantization-Aware Training) von Gemma 4 veröffentlicht. QAT-Modelle werden mit Quantisierungssimulation im Trainingsloop trainiert — das Modell lernt, Präzisionsverlust zu kompensieren, statt dass Komprimierung nachträglich angewendet wird.

Das Ergebnis: Ein QAT-Q4-Modell performt merklich besser als ein Standard-Post-Training-Q4-Modell gleicher Größe, manchmal annähernd an Q8-Standard-Qualität.

Für GGUF-Nutzung gibt es zwei relevante Wege:

Googles offizielles QAT-GGUF (Q4_0-Format): Direkt auf Hugging Face unter google/gemma-4-*-it-qat-q4_0-gguf verfügbar. Hinweis: Naive Konvertierung des QAT-Checkpoints in llama.cpps Q4_0-Format verliert etwas vom QAT-Qualitätsvorteil.
Unsloths UD-Q4_K_XL GGUFs: Unsloth hat ihre dynamische Methode auf die QAT-Checkpoints angewendet und 8–15 Prozentpunkte Top-1-Genauigkeit gegenüber naiver Konvertierung zurückgewonnen, bei gleichzeitig kleineren Dateien. Ihre Dateien heißen UD-Q4_K_XL unter unsloth/gemma-4-*-it-qat-GGUF.

Standard-Q4_K_M vs. Unsloths QAT-UD-Q4_K_XL: Die QAT-Version ist bei gleichem Speicherverbrauch besser. Das ist der erste Test für 4-Bit-Inferenz.

IQ4_XS: Die größenoptimierte Alternative

IQ4_XS verwendet Importance-Matrix-Kalibrierung, um die wichtigsten Gewichte bei höherer Präzision innerhalb einer kleineren Gesamtdatei zu bewahren. Gut kalibriert kann es Q4_K_M-Qualität bei etwa 9–10 % kleinerer Dateigröße erreichen. Nach Dateien mit "imatrix" von vertrauenswürdigen Publishern suchen.

Das ist eine sekundäre Optimierung. Erst Q4_K_M (oder QAT) von einem bekannten Publisher verwenden, bevor man imatrix-Versionen sucht.

Was man vermeiden sollte

Q3 und Q2: Unter Q4 bricht die Qualität für die meisten Aufgaben deutlich ein. Arithmetisches Reasoning zeigt besonders eine messbare Genauigkeitsklippe. Vermeiden, außer bei sehr spezifischen speicherbeschränkten Gründen.

Q8 "nur zur Sicherheit": Q8-Dateien sind etwa doppelt so groß wie Q4. Wenn unklar ist, ob Q8 für den Anwendungsfall hilft, erst Q4 testen und nur upgraden wenn die Ausgabe nicht gut genug ist.

GGUFs unbekannter Publisher: Bei ggml-org, unsloth, bartowski oder mradermacher bleiben. Unbekannte Publisher können GGUFs mit falscher Quantisierung, falschem Tokenizer oder anderen Problemen produzieren, die sich als merkwürdiges Modellverhalten zeigen.

FAQ

Ist Q8 immer besser als Q4?
Isoliert betrachtet: ja. Aber wenn Q8 das System ständig swappen lässt, wird Q4 mit komfortablem Spielraum konsistentere Ergebnisse liefern. Die beste Quantisierung ist die, die deine Hardware ohne Druck ausführen kann.

Soll ich QAT oder Standard-Quantisierung verwenden?
Wenn ein QAT-GGUF von Unsloth oder Google für die Modellgröße verfügbar ist, ist es auf 4-Bit-Ebene die bessere Wahl. Das QAT-Training verbessert speziell die 4-Bit-Präzision.

Was ist der Unterschied zwischen Q4_0 und Q4_K_M?
Q4_K_M verwendet gemischte Präzision über verschiedene Schichttypen und behält empfindliche Schichten bei höherer Präzision. Q4_0 behandelt alle Schichten einheitlich mit 4 Bits. Q4_K_M ist fast immer besser. Immer wählen wenn verfügbar.

Beeinflusst Quantisierung die Kontextfensterlänge?
Indirekt. Gewichte mit niedrigerer Präzision verwenden weniger RAM und lassen mehr Raum für den KV-Cache. Eine niedrigere Quantisierungsstufe kann auf gleicher Hardware längere effektive Kontexte unterstützen, bevor der Speicher ausgeht.

Verwandte Guides:

Gemma 4 Q4 vs. Q8: Welche Quantisierung wirklich herunterladen

Das GGUF-Benennungssystem

Speicherbedarf

Wo der Qualitätsunterschied wirklich auftritt

Die unterschätzte Mitte: Q5_K_M

Welche Datei für welche Hardware

Gemma 4 QAT: Die Option, die die Rechnung ändert

IQ4_XS: Die größenoptimierte Alternative

Was man vermeiden sollte

FAQ

Verwandte Leitfäden

Funktioniert DiffusionGemma in LM Studio? Aktueller Status (Juni 2026)

"unknown model architecture" für gemma4 und diffusion-gemma in llama.cpp beheben

Unterstützt llama.cpp Gemma 4? GGUF-Status, Fixes und was funktioniert

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?