Gemma-4-LeitfÀden

Gemma-4-Modellvergleich: 31B vs. 26B A4B vs. E4B vs. E2B

‱8 Min. Lesezeit
gemma 4model comparison31b26be4be2ba4b
Gemma-4-Modellvergleich: 31B vs. 26B A4B vs. E4B vs. E2B

Google hat Gemma 4 am 3. April 2026 veröffentlicht, aber es ist kein einzelnes Modell. Es sind vier separate Modelle unter demselben Familiennamen, die jeweils andere Kompromisse bei Speicher, Geschwindigkeit, ModalitĂ€ts-Support und Reasoning-QualitĂ€t eingehen. Das falsche Modell zu wĂ€hlen bedeutet, Gigabytes herunterzuladen, die Sie nicht ausfĂŒhren können, oder ein zu schwaches Modell zu fahren, obwohl Ihre Hardware mehr könnte.

Dieser Leitfaden entschlĂŒsselt das Benennungssystem, zeigt die realen Unterschiede und gibt Ihnen einen klaren Entscheidungsweg, bevor Sie auch nur eine einzige Weight-Datei ziehen.


Was die Namen tatsÀchlich bedeuten

Die Benennung von Gemma 4 verwirrt fast jeden beim ersten Mal. Hier ist, was PrÀfixe und Suffixe wirklich kodieren.

E2B und E4B — „Effective Parameters“, fĂŒr Edge gebaut

Das „E“ steht fĂŒr effective parameters. E2B hat 2,3 Milliarden effektive Parameter wĂ€hrend der Inferenz, aber insgesamt 5,1 Milliarden Parameter. E4B funktioniert genauso. Die LĂŒcke entsteht, weil Google eine Technik namens Per-Layer Embeddings (PLE) verwendet: Jede Decoder-Schicht trĂ€gt ihre eigene kleine Embedding-Tabelle, die ein Residualsignal in diese Schicht einspeist. Diese Tabellen sind groß auf der Platte, aber gĂŒnstig in der Berechnung. Deshalb verhĂ€lt sich das Modell zur Laufzeit wie ein 2B-Modell, obwohl es technisch schwerer ist. Das Ergebnis ist ein Modell fĂŒr Smartphones und Laptops mit mehr ReprĂ€sentationstiefe, als die Zahl vermuten lĂ€sst.

26B A4B — „Active Parameters“, MoE-Architektur

Das „A“ steht fĂŒr active parameters. 26B A4B ist ein Mixture-of-Experts-Modell mit 25,2 Milliarden Gesamtparametern, von denen aber nur 3,8 Milliarden bei einem einzelnen Inferenzschritt aktiv sind. Google baut dieses Modell mit 128 kleinen Experten auf, wobei pro Token 8 plus ein immer aktiver gemeinsamer Experte aktiviert werden. Das praktische Ergebnis: Es lĂ€uft fast so schnell wie ein dichtes 4B-Modell, erzeugt aber QualitĂ€t deutlich nĂ€her an 31B. „26B“ sagt Ihnen etwas ĂŒber den Speicherbedarf; „A4B“ sagt Ihnen etwas ĂŒber die Rechenkosten.

31B — dicht, ohne Tricks

Jeder Parameter feuert bei jedem Forward Pass. Sie bezahlen die volle Rechenrechnung, bekommen dafĂŒr aber das einfachste Verhalten, die höchste QualitĂ€tsgrenze der Familie und die sauberste Basis fĂŒr Fine-Tuning.


Die vier Modelle auf einen Blick

E2B E4B 26B A4B 31B
Architektur Dense (Edge) Dense (Edge) Mixture-of-Experts Dense
Effektive / aktive Parameter ~2,3B ~4B ~3,8B aktiv 30,7B
Gesamtparameter 5,1B ~9B 25,2B 30,7B
Kontextfenster 128K 128K 256K 256K
Audioeingabe ✅ ✅ ❌ ❌
Bild- / Videoeingabe ✅ ✅ ✅ ✅
Zielhardware Smartphone / IoT Laptop Consumer-GPU H100 / High-End-GPU
Speicher (4-Bit-Quant) ~5 GB ~8 GB ~18 GB ~20 GB
Speicher (8-Bit / 16-Bit) ~15 GB — ~28 GB ~34 GB
LMArena Elo (Text) — — 1441 1452
Open-Model-Rang — — #6 #3

Die Speicherwerte sind ungefÀhre Planungswerte aus Unsloths Deployment-Leitfaden. Der reale Verbrauch variiert je nach KontextlÀnge, Quantisierung und System-Overhead.


Benchmark-Zahlen

Alle Werte unten stammen aus Googles offizieller Gemma-4-Modellkarte und instruction-tuned Varianten, sofern nicht anders angegeben.

31B Dense

Benchmark Wert
AIME 2026 (Mathe) 89,2 %
LiveCodeBench v6 (Coding) 80,0 %
GPQA Diamond (wissenschaftliches Reasoning) 84,3 %
MMLU Pro (Wissen) 85,2 %
MMMU Pro (Vision) 76,9 %
MATH-Vision 85,6 %
Codeforces ELO 2.150
Multi-needle retrieval (langer Kontext) 66,4 %

26B A4B (MoE)

Benchmark Wert
AIME 2026 88,3 %
LiveCodeBench v6 77,1 %
GPQA Diamond 82,3 %
MMLU Pro 82,6 %

26B A4B erreicht etwa 97 % der QualitĂ€t des dichten 31B-Modells und aktiviert pro Token nur 3,8B Parameter. Auf dem LMArena-Leaderboard steht es bei 1441 Elo gegenĂŒber 1452 fĂŒr 31B, ein Abstand, den man in vielen realen Aufgaben kaum spĂŒrt.

E4B

Benchmark Wert
AIME 2026 42,5 %
LiveCodeBench v6 52,0 %
MMLU Pro 69,4 %
MMMU Pro (Vision) 52,6 %

E2B

Benchmark Wert
AIME 2026 37,5 %
LiveCodeBench v6 44,0 %
MMLU Pro 60,0 %
MMMU Pro (Vision) 44,2 %

E2B ist das untere Ende der Familie. Es funktioniert auf Smartphones und Raspberry-Pi-Klasse-Hardware.


Die Unterschiede, die wirklich zÀhlen

Audio ist kein familienweites Feature

Nur E2B und E4B unterstĂŒtzen Audioeingabe. Wenn Ihr Use Case Spracheingabe verlangt, ist die Wahl getroffen, bevor Sie sich irgendetwas anderes ansehen.

Die KontextlÀnge teilt die Familie in zwei HÀlften

E2B und E4B enden bei 128K Tokens. 26B A4B und 31B erreichen 256K. Das ist wichtiger, als die Zahl allein vermuten lÀsst.

MoE vs. Dense ist ein Trade-off zwischen Geschwindigkeit und Fine-Tuning

26B A4B lĂ€uft bei der Inferenz ungefĂ€hr wie ein dichtes 4B-Modell, weil nur 3,8B Parameter pro Token aktiv sind. Bei agentischen Workflows mit vielen Tool-Calls summiert sich dieser Vorteil massiv. 31B Dense ist langsamer, liefert aber berechenbareres Verhalten und ist die stĂ€rkere Basis fĂŒr Fine-Tuning.

Video-Support hat harte Grenzen

Alle vier Modelle können Video verarbeiten, aber als Frame-Sequenz mit einem Frame pro Sekunde und maximal 60 Sekunden.

Wissensstichtag ist Januar 2025

Das Vortraining von Gemma 4 endet im Januar 2025. Ein 256K-Kontextfenster Ă€ndert daran nichts. FĂŒr DomĂ€nen, die sich seitdem verĂ€ndert haben, brauchen Sie Retrieval oder Toolzugriff.


Hardwareanforderungen

Dies sind ungefĂ€hre Werte fĂŒr quantisierte Inferenz:

Modell 4-Bit quantisiert 8-Bit quantisiert Unquantisiert (BF16)
E2B ~5 GB ~15 GB —
E4B ~8 GB — —
26B A4B ~18 GB ~28 GB —
31B ~20 GB ~34 GB ~80 GB (einzelne H100)

Praktische Übersetzung:

  • Smartphone oder Raspberry Pi — E2B
  • MacBook Air (8 GB Unified Memory) — E4B in 4-Bit lĂ€uft komfortabel
  • Laptop oder Desktop mit 16 GB RAM — 26B A4B in 4-Bit ist das richtige Ziel
  • RTX 3090 / RTX 4090 (24 GB VRAM) — 26B A4B lĂ€uft vollstĂ€ndig mit 256K Kontext; 31B in 4-Bit ist machbar
  • NVIDIA H100 (80 GB) — 31B in vollem BF16

Welches Modell sollten Sie ausfĂŒhren?

WĂ€hlen Sie E2B, wenn: Sie On-Device-Mobile-Apps, IoT-Agenten oder generell alles bauen, was ohne Netzwerk auf einem Telefon laufen soll.

WĂ€hlen Sie E4B, wenn: Sie Audio-Support mit spĂŒrbar besserem Reasoning als E2B wollen und ein 8- bis 16-GB-Laptop oder eine mittlere GPU haben.

WĂ€hlen Sie 26B A4B, wenn: Sie eine Consumer-GPU mit 16–24 GB Speicher besitzen und nahezu 31B-QualitĂ€t mit schnellerer Inferenz möchten.

WÀhlen Sie 31B, wenn: Sie die höchste AusgabequalitÀt in der Familie wollen, Fine-Tuning planen oder Hardware besitzen, die das locker trÀgt.


Wo Sie Gemma 4 bekommen

  • Google AI Studio — gehostete 31B- und 26B-A4B-ZugĂ€nge
  • Google AI Edge Gallery — gehostete E4B- und E2B-ZugĂ€nge
  • Hugging Face — alle vier Modelle
  • Ollama — ollama run gemma4:e4b, gemma4:26b usw.
  • LM Studio — GUI-basiertes lokales Setup
  • llama.cpp — plattformĂŒbergreifende CPU-/GPU-Inferenz
  • MLX — Apple-Silicon-optimierte Inferenz

Alle Gewichte stehen unter Apache 2.0.


FAQ

Was bedeutet „A4B“ in Gemma 4 26B A4B?

Das „A“ steht fĂŒr aktive Parameter. Das Modell hat 25,2 Milliarden Gesamtparameter, aber nur 3,8 Milliarden werden pro Inferenzschritt aktiviert.

Was bedeuten „E2B“ und „E4B“?

Das „E“ steht fĂŒr effective parameters. Diese Modelle nutzen Per-Layer Embeddings und verhalten sich zur Laufzeit nĂ€her an ihrer effektiven GrĂ¶ĂŸe.

UnterstĂŒtzt Gemma 4 Audio?

Nur bei E2B und E4B.

Wie viel VRAM braucht Gemma 4 31B?

Etwa 20 GB fĂŒr 4-Bit, 34 GB fĂŒr 8-Bit und 80 GB fĂŒr unquantisiertes BF16.

Was ist der Unterschied zwischen E2B und E4B?

Beide sind Edge-Modelle mit Audio und 128K Kontext. E4B hat aber klar mehr KapazitÀt.

Kann ich Gemma 4 26B A4B auf einem Laptop mit 16 GB RAM ausfĂŒhren?

Ja, in 4-Bit-Quantisierung liegt es an der Grenze, auf 24 GB Unified Memory lÀuft es deutlich angenehmer.

Ist Gemma 4 besser als Gemma 3?

Ja, deutlich. Die Unterschiede bei AIME, LiveCodeBench und Long-Context-Retrieval sind generational, nicht nur inkrementell.

Verwandte LeitfÀden

Verwandte LeitfÀden

Gehen Sie im Gemma-4-Cluster mit dem nÀchsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als NĂ€chstes lesen sollen?

Gehen Sie zurĂŒck zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.