Gemma-4-Modellvergleich: 31B vs. 26B A4B vs. E4B vs. E2B

Google hat Gemma 4 am 3. April 2026 veröffentlicht, aber es ist kein einzelnes Modell. Es sind vier separate Modelle unter demselben Familiennamen, die jeweils andere Kompromisse bei Speicher, Geschwindigkeit, Modalitäts-Support und Reasoning-Qualität eingehen. Das falsche Modell zu wählen bedeutet, Gigabytes herunterzuladen, die Sie nicht ausführen können, oder ein zu schwaches Modell zu fahren, obwohl Ihre Hardware mehr könnte.

Dieser Leitfaden entschlüsselt das Benennungssystem, zeigt die realen Unterschiede und gibt Ihnen einen klaren Entscheidungsweg, bevor Sie auch nur eine einzige Weight-Datei ziehen.

Was die Namen tatsächlich bedeuten

Die Benennung von Gemma 4 verwirrt fast jeden beim ersten Mal. Hier ist, was Präfixe und Suffixe wirklich kodieren.

E2B und E4B — „Effective Parameters“, für Edge gebaut

Das „E“ steht für effective parameters. E2B hat 2,3 Milliarden effektive Parameter während der Inferenz, aber insgesamt 5,1 Milliarden Parameter. E4B funktioniert genauso. Die Lücke entsteht, weil Google eine Technik namens Per-Layer Embeddings (PLE) verwendet: Jede Decoder-Schicht trägt ihre eigene kleine Embedding-Tabelle, die ein Residualsignal in diese Schicht einspeist. Diese Tabellen sind groß auf der Platte, aber günstig in der Berechnung. Deshalb verhält sich das Modell zur Laufzeit wie ein 2B-Modell, obwohl es technisch schwerer ist. Das Ergebnis ist ein Modell für Smartphones und Laptops mit mehr Repräsentationstiefe, als die Zahl vermuten lässt.

26B A4B — „Active Parameters“, MoE-Architektur

Das „A“ steht für active parameters. 26B A4B ist ein Mixture-of-Experts-Modell mit 25,2 Milliarden Gesamtparametern, von denen aber nur 3,8 Milliarden bei einem einzelnen Inferenzschritt aktiv sind. Google baut dieses Modell mit 128 kleinen Experten auf, wobei pro Token 8 plus ein immer aktiver gemeinsamer Experte aktiviert werden. Das praktische Ergebnis: Es läuft fast so schnell wie ein dichtes 4B-Modell, erzeugt aber Qualität deutlich näher an 31B. „26B“ sagt Ihnen etwas über den Speicherbedarf; „A4B“ sagt Ihnen etwas über die Rechenkosten.

31B — dicht, ohne Tricks

Jeder Parameter feuert bei jedem Forward Pass. Sie bezahlen die volle Rechenrechnung, bekommen dafür aber das einfachste Verhalten, die höchste Qualitätsgrenze der Familie und die sauberste Basis für Fine-Tuning.

Die vier Modelle auf einen Blick

	E2B	E4B	26B A4B	31B
Architektur	Dense (Edge)	Dense (Edge)	Mixture-of-Experts	Dense
Effektive / aktive Parameter	~2,3B	~4B	~3,8B aktiv	30,7B
Gesamtparameter	5,1B	~9B	25,2B	30,7B
Kontextfenster	128K	128K	256K	256K
Audioeingabe	✅	✅	❌	❌
Bild- / Videoeingabe	✅	✅	✅	✅
Zielhardware	Smartphone / IoT	Laptop	Consumer-GPU	H100 / High-End-GPU
Speicher (4-Bit-Quant)	~5 GB	~8 GB	~18 GB	~20 GB
Speicher (8-Bit / 16-Bit)	~15 GB	—	~28 GB	~34 GB
LMArena Elo (Text)	—	—	1441	1452
Open-Model-Rang	—	—	#6	#3

Die Speicherwerte sind ungefähre Planungswerte aus Unsloths Deployment-Leitfaden. Der reale Verbrauch variiert je nach Kontextlänge, Quantisierung und System-Overhead.

Benchmark-Zahlen

Alle Werte unten stammen aus Googles offizieller Gemma-4-Modellkarte und instruction-tuned Varianten, sofern nicht anders angegeben.

31B Dense

Benchmark	Wert
AIME 2026 (Mathe)	89,2 %
LiveCodeBench v6 (Coding)	80,0 %
GPQA Diamond (wissenschaftliches Reasoning)	84,3 %
MMLU Pro (Wissen)	85,2 %
MMMU Pro (Vision)	76,9 %
MATH-Vision	85,6 %
Codeforces ELO	2.150
Multi-needle retrieval (langer Kontext)	66,4 %

26B A4B (MoE)

Benchmark	Wert
AIME 2026	88,3 %
LiveCodeBench v6	77,1 %
GPQA Diamond	82,3 %
MMLU Pro	82,6 %

26B A4B erreicht etwa 97 % der Qualität des dichten 31B-Modells und aktiviert pro Token nur 3,8B Parameter. Auf dem LMArena-Leaderboard steht es bei 1441 Elo gegenüber 1452 für 31B, ein Abstand, den man in vielen realen Aufgaben kaum spürt.

E4B

Benchmark	Wert
AIME 2026	42,5 %
LiveCodeBench v6	52,0 %
MMLU Pro	69,4 %
MMMU Pro (Vision)	52,6 %

E2B

Benchmark	Wert
AIME 2026	37,5 %
LiveCodeBench v6	44,0 %
MMLU Pro	60,0 %
MMMU Pro (Vision)	44,2 %

E2B ist das untere Ende der Familie. Es funktioniert auf Smartphones und Raspberry-Pi-Klasse-Hardware.

Die Unterschiede, die wirklich zählen

Audio ist kein familienweites Feature

Nur E2B und E4B unterstützen Audioeingabe. Wenn Ihr Use Case Spracheingabe verlangt, ist die Wahl getroffen, bevor Sie sich irgendetwas anderes ansehen.

Die Kontextlänge teilt die Familie in zwei Hälften

E2B und E4B enden bei 128K Tokens. 26B A4B und 31B erreichen 256K. Das ist wichtiger, als die Zahl allein vermuten lässt.

MoE vs. Dense ist ein Trade-off zwischen Geschwindigkeit und Fine-Tuning

26B A4B läuft bei der Inferenz ungefähr wie ein dichtes 4B-Modell, weil nur 3,8B Parameter pro Token aktiv sind. Bei agentischen Workflows mit vielen Tool-Calls summiert sich dieser Vorteil massiv. 31B Dense ist langsamer, liefert aber berechenbareres Verhalten und ist die stärkere Basis für Fine-Tuning.

Video-Support hat harte Grenzen

Alle vier Modelle können Video verarbeiten, aber als Frame-Sequenz mit einem Frame pro Sekunde und maximal 60 Sekunden.

Wissensstichtag ist Januar 2025

Das Vortraining von Gemma 4 endet im Januar 2025. Ein 256K-Kontextfenster ändert daran nichts. Für Domänen, die sich seitdem verändert haben, brauchen Sie Retrieval oder Toolzugriff.

Hardwareanforderungen

Dies sind ungefähre Werte für quantisierte Inferenz:

Modell	4-Bit quantisiert	8-Bit quantisiert	Unquantisiert (BF16)
E2B	~5 GB	~15 GB	—
E4B	~8 GB	—	—
26B A4B	~18 GB	~28 GB	—
31B	~20 GB	~34 GB	~80 GB (einzelne H100)

Praktische Übersetzung:

Smartphone oder Raspberry Pi — E2B
MacBook Air (8 GB Unified Memory) — E4B in 4-Bit läuft komfortabel
Laptop oder Desktop mit 16 GB RAM — 26B A4B in 4-Bit ist das richtige Ziel
RTX 3090 / RTX 4090 (24 GB VRAM) — 26B A4B läuft vollständig mit 256K Kontext; 31B in 4-Bit ist machbar
NVIDIA H100 (80 GB) — 31B in vollem BF16

Welches Modell sollten Sie ausführen?

Wählen Sie E2B, wenn: Sie On-Device-Mobile-Apps, IoT-Agenten oder generell alles bauen, was ohne Netzwerk auf einem Telefon laufen soll.

Wählen Sie E4B, wenn: Sie Audio-Support mit spürbar besserem Reasoning als E2B wollen und ein 8- bis 16-GB-Laptop oder eine mittlere GPU haben.

Wählen Sie 26B A4B, wenn: Sie eine Consumer-GPU mit 16–24 GB Speicher besitzen und nahezu 31B-Qualität mit schnellerer Inferenz möchten.

Wählen Sie 31B, wenn: Sie die höchste Ausgabequalität in der Familie wollen, Fine-Tuning planen oder Hardware besitzen, die das locker trägt.

Wo Sie Gemma 4 bekommen

Google AI Studio — gehostete 31B- und 26B-A4B-Zugänge
Google AI Edge Gallery — gehostete E4B- und E2B-Zugänge
Hugging Face — alle vier Modelle
Ollama — ollama run gemma4:e4b, gemma4:26b usw.
LM Studio — GUI-basiertes lokales Setup
llama.cpp — plattformübergreifende CPU-/GPU-Inferenz
MLX — Apple-Silicon-optimierte Inferenz

Alle Gewichte stehen unter Apache 2.0.

FAQ

Was bedeutet „A4B“ in Gemma 4 26B A4B?

Das „A“ steht für aktive Parameter. Das Modell hat 25,2 Milliarden Gesamtparameter, aber nur 3,8 Milliarden werden pro Inferenzschritt aktiviert.

Was bedeuten „E2B“ und „E4B“?

Das „E“ steht für effective parameters. Diese Modelle nutzen Per-Layer Embeddings und verhalten sich zur Laufzeit näher an ihrer effektiven Größe.

Unterstützt Gemma 4 Audio?

Nur bei E2B und E4B.

Wie viel VRAM braucht Gemma 4 31B?

Etwa 20 GB für 4-Bit, 34 GB für 8-Bit und 80 GB für unquantisiertes BF16.

Was ist der Unterschied zwischen E2B und E4B?

Beide sind Edge-Modelle mit Audio und 128K Kontext. E4B hat aber klar mehr Kapazität.

Kann ich Gemma 4 26B A4B auf einem Laptop mit 16 GB RAM ausführen?

Ja, in 4-Bit-Quantisierung liegt es an der Grenze, auf 24 GB Unified Memory läuft es deutlich angenehmer.

Ist Gemma 4 besser als Gemma 3?

Ja, deutlich. Die Unterschiede bei AIME, LiveCodeBench und Long-Context-Retrieval sind generational, nicht nur inkrementell.