Gemma-4-Leitfäden

Gemma 4 26B vs. 31B: Welches Modell sollten Sie ausführen?

7 Min. Lesezeit
gemma 426b31bmodel comparisonlocal llmvram
Gemma 4 26B vs. 31B: Welches Modell sollten Sie ausführen?

Wenn Sie nach Gemma 4 26B vs. 31B suchen, stellen Sie bereits die richtige Frage. Das sind die beiden ernsthaften Modelle für lokale Rechenleistung in der Gemma-4-Familie, und die Wahl zwischen ihnen ist wichtiger als die Wahl zwischen vielen anderen nahen Open-Modellen.

Die Kurzfassung ist einfach: Gemma 4 26B A4B ist die bessere Wahl bei Geschwindigkeit pro Speicher, während Gemma 4 31B die stärkere reine Qualitätswahl ist.


Gemma 4 26B vs. 31B: kurze Antwort

Wählen Sie Gemma 4 26B A4B, wenn:

  • Ihnen lokale Geschwindigkeit wichtig ist
  • Sie eine 24-GB-GPU-Klasse oder ein engeres Speicherbudget haben
  • Sie den besten Qualitäts-pro-VRAM-Trade-off möchten

Wählen Sie Gemma 4 31B, wenn:

  • Sie das stärkste Modell der Familie wollen
  • Sie sich mehr Speicher leisten können
  • Sie ein dichtes Modell dem MoE-Verhalten vorziehen

Für die meisten lokalen Nutzer endet Gemma 4 26B vs. 31B damit, dass 26B A4B in Sachen Praxis gewinnt.


Offizielle Spezifikationsunterschiede

Aus Googles offizieller Modellkarte und Unsloths gespiegelt dokumentierten Gemma-4-Seiten:

Eigenschaft Gemma 4 26B A4B Gemma 4 31B
Architektur MoE Dense
Gesamtparameter 25,2B 30,7B
Aktive Parameter 3,8B 30,7B
Layer 30 60
Kontextfenster 256K 256K
Modalitäten Text, Bild Text, Bild
Audio-Support Nein Nein

Der Schlüsselsatz bei Gemma 4 26B vs. 31B ist aktive Parameter.

26B A4B ist kein normales dichtes 26B-Modell. Es ist ein Mixture-of-Experts-Modell, das pro Token nur etwa 3,8B Parameter aktiviert, weshalb es deutlich schneller läuft, als seine Gesamtgröße vermuten lässt.

31B ist das Gegenteil: volle dichte Berechnung bei jedem Token und in jedem Layer.


Benchmark-Unterschiede: Wie viel besser ist 31B?

Diese offiziellen Werte zeigen den Qualitätsabstand:

Benchmark 26B A4B 31B
MMLU Pro 82,6 % 85,2 %
AIME 2026 (ohne Tools) 88,3 % 89,2 %
LiveCodeBench v6 77,1 % 80,0 %
GPQA Diamond 82,3 % 84,3 %
MMMU Pro 73,8 % 76,9 %
Codeforces ELO 1718 2150

Die wichtige Lesart lautet:

  • 31B ist besser
  • aber 26B A4B ist viel näher dran, als der rohe Parameterabstand vermuten lässt
  • in vielen realen lokalen Workflows zählen Geschwindigkeit und Speichereinsparung mehr als die letzten Benchmark-Punkte

Wenn Ihre Frage lautet: „Zerlegt 31B 26B im Alltag komplett?“, lautet die ehrliche Antwort meistens nein.


VRAM und Speicher: Wo die echte Entscheidung fällt

Unsloths lokaler Leitfaden vom April 2026 empfiehlt ungefähr:

Format 26B A4B 31B
4-Bit 16–18 GB 17–20 GB
8-Bit 28–30 GB 34–38 GB
BF16 / FP16 52 GB 62 GB

Stand 7. April 2026 listet LM Studio als Mindestarbeitsspeicher:

  • 17 GB für Gemma 4 26B A4B
  • 19 GB für Gemma 4 31B

Und die offiziellen ggml-org-GGUF-Seiten listen ungefähr folgende Dateigrößen:

Format 26B A4B 31B
Q4_K_M 16,8 GB 18,7 GB
Q8_0 26,9 GB 32,6 GB
F16 50,5 GB 61,4 GB

Darum ist Gemma 4 26B vs. 31B so oft eine 24-GB-GPU-Frage:

  • 26B A4B Q4 passt sauberer
  • 31B Q4 ist möglich, aber mit weniger Luft
  • 31B Q8 rutscht in deutlich teurere Hardware

Warum 26B A4B der lokale Sweet Spot ist

26B A4B gewinnt, wenn Ihnen wichtig sind:

  • bessere Geschwindigkeit als 31B
  • geringerer Speicherdruck
  • Langkontext-Arbeit auf Consumer-Hardware
  • ausreichend starke Qualität, ohne dem theoretischen Maximum hinterherzulaufen

Googles eigene Dokumentation macht die Positionierung klar: Das MoE-Design soll deutlich schneller laufen, als die Gesamtparameterzahl vermuten lässt.

Das macht Gemma 4 26B A4B besonders attraktiv für:

  • Coding-Assistenten
  • Agent-Loops
  • dokumentlastige lokale Workflows
  • lokale APIs, bei denen Durchsatz zählt

Warum 31B trotzdem wichtig bleibt

31B gewinnt, wenn Ihnen am wichtigsten sind:

  • die stärkste Benchmark-Leistung in der Familie
  • dichteres, einfacheres Modellverhalten
  • die höchste Qualitätsobergrenze für lokale Inferenz
  • eine geradlinigere Basis für fortgeschrittenes Fine-Tuning

Unsloths Fine-Tuning-Leitfaden macht ebenfalls einen praktischen Punkt deutlich: Wenn Ihr Ziel die höchstmögliche Qualität ist und Sie den Speicher haben, ist 31B das Modell dafür.

31B ist also keine schlechte Wahl. Es ist einfach die teurere Wahl.


Was sollten Besitzer von 24-GB-GPUs wählen?

Wenn Sie eine 24-GB-GPU haben, ist die sicherere Antwort weiterhin 26B A4B.

Warum:

  • es lässt mehr Raum für Runtime-Overhead
  • es liefert ein besseres Geschwindigkeits-pro-VRAM-Ergebnis
  • es bleibt näher an „komfortabler lokaler Nutzung“ statt „passt gerade so“

Wenn Sie Hardware in der 32- bis 48-GB-Klasse haben, wird 31B leichter zu rechtfertigen.


FAQ

Ist Gemma 4 31B besser als 26B?

Ja, aber nicht mit riesigem Abstand. 31B ist das stärkere Modell. 26B A4B ist für viele Nutzer der bessere lokale Trade-off.

Ist 26B schneller als 31B?

Ja. 26B A4B ist ein MoE-Modell mit etwa 3,8B aktiven Parametern und damit die schnellere lokale Wahl.

Sollte ich für eine 24-GB-GPU 26B oder 31B wählen?

Die meisten Menschen sollten 26B A4B wählen.

Sollte ich 31B nehmen, wenn ich das beste Gemma-4-Modell will?

Ja, wenn Sie sich den Speicher und die langsamere Runtime bequem leisten können.


Offizielle Referenzen


Verwandte Leitfäden

Verwandte Leitfäden

Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?

Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.