Gemma-4-LeitfÀden
Gemma-4-Modellvergleich: 31B vs. 26B A4B vs. E4B vs. E2B

Google hat Gemma 4 am 3. April 2026 veröffentlicht, aber es ist kein einzelnes Modell. Es sind vier separate Modelle unter demselben Familiennamen, die jeweils andere Kompromisse bei Speicher, Geschwindigkeit, ModalitĂ€ts-Support und Reasoning-QualitĂ€t eingehen. Das falsche Modell zu wĂ€hlen bedeutet, Gigabytes herunterzuladen, die Sie nicht ausfĂŒhren können, oder ein zu schwaches Modell zu fahren, obwohl Ihre Hardware mehr könnte.
Dieser Leitfaden entschlĂŒsselt das Benennungssystem, zeigt die realen Unterschiede und gibt Ihnen einen klaren Entscheidungsweg, bevor Sie auch nur eine einzige Weight-Datei ziehen.
Was die Namen tatsÀchlich bedeuten
Die Benennung von Gemma 4 verwirrt fast jeden beim ersten Mal. Hier ist, was PrÀfixe und Suffixe wirklich kodieren.
E2B und E4B â âEffective Parametersâ, fĂŒr Edge gebaut
Das âEâ steht fĂŒr effective parameters. E2B hat 2,3 Milliarden effektive Parameter wĂ€hrend der Inferenz, aber insgesamt 5,1 Milliarden Parameter. E4B funktioniert genauso. Die LĂŒcke entsteht, weil Google eine Technik namens Per-Layer Embeddings (PLE) verwendet: Jede Decoder-Schicht trĂ€gt ihre eigene kleine Embedding-Tabelle, die ein Residualsignal in diese Schicht einspeist. Diese Tabellen sind groĂ auf der Platte, aber gĂŒnstig in der Berechnung. Deshalb verhĂ€lt sich das Modell zur Laufzeit wie ein 2B-Modell, obwohl es technisch schwerer ist. Das Ergebnis ist ein Modell fĂŒr Smartphones und Laptops mit mehr ReprĂ€sentationstiefe, als die Zahl vermuten lĂ€sst.
26B A4B â âActive Parametersâ, MoE-Architektur
Das âAâ steht fĂŒr active parameters. 26B A4B ist ein Mixture-of-Experts-Modell mit 25,2 Milliarden Gesamtparametern, von denen aber nur 3,8 Milliarden bei einem einzelnen Inferenzschritt aktiv sind. Google baut dieses Modell mit 128 kleinen Experten auf, wobei pro Token 8 plus ein immer aktiver gemeinsamer Experte aktiviert werden. Das praktische Ergebnis: Es lĂ€uft fast so schnell wie ein dichtes 4B-Modell, erzeugt aber QualitĂ€t deutlich nĂ€her an 31B. â26Bâ sagt Ihnen etwas ĂŒber den Speicherbedarf; âA4Bâ sagt Ihnen etwas ĂŒber die Rechenkosten.
31B â dicht, ohne Tricks
Jeder Parameter feuert bei jedem Forward Pass. Sie bezahlen die volle Rechenrechnung, bekommen dafĂŒr aber das einfachste Verhalten, die höchste QualitĂ€tsgrenze der Familie und die sauberste Basis fĂŒr Fine-Tuning.
Die vier Modelle auf einen Blick
| E2B | E4B | 26B A4B | 31B | |
|---|---|---|---|---|
| Architektur | Dense (Edge) | Dense (Edge) | Mixture-of-Experts | Dense |
| Effektive / aktive Parameter | ~2,3B | ~4B | ~3,8B aktiv | 30,7B |
| Gesamtparameter | 5,1B | ~9B | 25,2B | 30,7B |
| Kontextfenster | 128K | 128K | 256K | 256K |
| Audioeingabe | â | â | â | â |
| Bild- / Videoeingabe | â | â | â | â |
| Zielhardware | Smartphone / IoT | Laptop | Consumer-GPU | H100 / High-End-GPU |
| Speicher (4-Bit-Quant) | ~5 GB | ~8 GB | ~18 GB | ~20 GB |
| Speicher (8-Bit / 16-Bit) | ~15 GB | â | ~28 GB | ~34 GB |
| LMArena Elo (Text) | â | â | 1441 | 1452 |
| Open-Model-Rang | â | â | #6 | #3 |
Die Speicherwerte sind ungefÀhre Planungswerte aus Unsloths Deployment-Leitfaden. Der reale Verbrauch variiert je nach KontextlÀnge, Quantisierung und System-Overhead.
Benchmark-Zahlen
Alle Werte unten stammen aus Googles offizieller Gemma-4-Modellkarte und instruction-tuned Varianten, sofern nicht anders angegeben.
31B Dense
| Benchmark | Wert |
|---|---|
| AIME 2026 (Mathe) | 89,2 % |
| LiveCodeBench v6 (Coding) | 80,0 % |
| GPQA Diamond (wissenschaftliches Reasoning) | 84,3 % |
| MMLU Pro (Wissen) | 85,2 % |
| MMMU Pro (Vision) | 76,9 % |
| MATH-Vision | 85,6 % |
| Codeforces ELO | 2.150 |
| Multi-needle retrieval (langer Kontext) | 66,4 % |
26B A4B (MoE)
| Benchmark | Wert |
|---|---|
| AIME 2026 | 88,3 % |
| LiveCodeBench v6 | 77,1 % |
| GPQA Diamond | 82,3 % |
| MMLU Pro | 82,6 % |
26B A4B erreicht etwa 97 % der QualitĂ€t des dichten 31B-Modells und aktiviert pro Token nur 3,8B Parameter. Auf dem LMArena-Leaderboard steht es bei 1441 Elo gegenĂŒber 1452 fĂŒr 31B, ein Abstand, den man in vielen realen Aufgaben kaum spĂŒrt.
E4B
| Benchmark | Wert |
|---|---|
| AIME 2026 | 42,5 % |
| LiveCodeBench v6 | 52,0 % |
| MMLU Pro | 69,4 % |
| MMMU Pro (Vision) | 52,6 % |
E2B
| Benchmark | Wert |
|---|---|
| AIME 2026 | 37,5 % |
| LiveCodeBench v6 | 44,0 % |
| MMLU Pro | 60,0 % |
| MMMU Pro (Vision) | 44,2 % |
E2B ist das untere Ende der Familie. Es funktioniert auf Smartphones und Raspberry-Pi-Klasse-Hardware.
Die Unterschiede, die wirklich zÀhlen
Audio ist kein familienweites Feature
Nur E2B und E4B unterstĂŒtzen Audioeingabe. Wenn Ihr Use Case Spracheingabe verlangt, ist die Wahl getroffen, bevor Sie sich irgendetwas anderes ansehen.
Die KontextlÀnge teilt die Familie in zwei HÀlften
E2B und E4B enden bei 128K Tokens. 26B A4B und 31B erreichen 256K. Das ist wichtiger, als die Zahl allein vermuten lÀsst.
MoE vs. Dense ist ein Trade-off zwischen Geschwindigkeit und Fine-Tuning
26B A4B lĂ€uft bei der Inferenz ungefĂ€hr wie ein dichtes 4B-Modell, weil nur 3,8B Parameter pro Token aktiv sind. Bei agentischen Workflows mit vielen Tool-Calls summiert sich dieser Vorteil massiv. 31B Dense ist langsamer, liefert aber berechenbareres Verhalten und ist die stĂ€rkere Basis fĂŒr Fine-Tuning.
Video-Support hat harte Grenzen
Alle vier Modelle können Video verarbeiten, aber als Frame-Sequenz mit einem Frame pro Sekunde und maximal 60 Sekunden.
Wissensstichtag ist Januar 2025
Das Vortraining von Gemma 4 endet im Januar 2025. Ein 256K-Kontextfenster Ă€ndert daran nichts. FĂŒr DomĂ€nen, die sich seitdem verĂ€ndert haben, brauchen Sie Retrieval oder Toolzugriff.
Hardwareanforderungen
Dies sind ungefĂ€hre Werte fĂŒr quantisierte Inferenz:
| Modell | 4-Bit quantisiert | 8-Bit quantisiert | Unquantisiert (BF16) |
|---|---|---|---|
| E2B | ~5 GB | ~15 GB | â |
| E4B | ~8 GB | â | â |
| 26B A4B | ~18 GB | ~28 GB | â |
| 31B | ~20 GB | ~34 GB | ~80 GB (einzelne H100) |
Praktische Ăbersetzung:
- Smartphone oder Raspberry Pi â E2B
- MacBook Air (8 GB Unified Memory) â E4B in 4-Bit lĂ€uft komfortabel
- Laptop oder Desktop mit 16 GB RAM â 26B A4B in 4-Bit ist das richtige Ziel
- RTX 3090 / RTX 4090 (24 GB VRAM) â 26B A4B lĂ€uft vollstĂ€ndig mit 256K Kontext; 31B in 4-Bit ist machbar
- NVIDIA H100 (80 GB) â 31B in vollem BF16
Welches Modell sollten Sie ausfĂŒhren?
WĂ€hlen Sie E2B, wenn: Sie On-Device-Mobile-Apps, IoT-Agenten oder generell alles bauen, was ohne Netzwerk auf einem Telefon laufen soll.
WĂ€hlen Sie E4B, wenn: Sie Audio-Support mit spĂŒrbar besserem Reasoning als E2B wollen und ein 8- bis 16-GB-Laptop oder eine mittlere GPU haben.
WĂ€hlen Sie 26B A4B, wenn: Sie eine Consumer-GPU mit 16â24 GB Speicher besitzen und nahezu 31B-QualitĂ€t mit schnellerer Inferenz möchten.
WÀhlen Sie 31B, wenn: Sie die höchste AusgabequalitÀt in der Familie wollen, Fine-Tuning planen oder Hardware besitzen, die das locker trÀgt.
Wo Sie Gemma 4 bekommen
- Google AI Studio â gehostete 31B- und 26B-A4B-ZugĂ€nge
- Google AI Edge Gallery â gehostete E4B- und E2B-ZugĂ€nge
- Hugging Face â alle vier Modelle
- Ollama â
ollama run gemma4:e4b,gemma4:26busw. - LM Studio â GUI-basiertes lokales Setup
- llama.cpp â plattformĂŒbergreifende CPU-/GPU-Inferenz
- MLX â Apple-Silicon-optimierte Inferenz
Alle Gewichte stehen unter Apache 2.0.
FAQ
Was bedeutet âA4Bâ in Gemma 4 26B A4B?
Das âAâ steht fĂŒr aktive Parameter. Das Modell hat 25,2 Milliarden Gesamtparameter, aber nur 3,8 Milliarden werden pro Inferenzschritt aktiviert.
Was bedeuten âE2Bâ und âE4Bâ?
Das âEâ steht fĂŒr effective parameters. Diese Modelle nutzen Per-Layer Embeddings und verhalten sich zur Laufzeit nĂ€her an ihrer effektiven GröĂe.
UnterstĂŒtzt Gemma 4 Audio?
Nur bei E2B und E4B.
Wie viel VRAM braucht Gemma 4 31B?
Etwa 20 GB fĂŒr 4-Bit, 34 GB fĂŒr 8-Bit und 80 GB fĂŒr unquantisiertes BF16.
Was ist der Unterschied zwischen E2B und E4B?
Beide sind Edge-Modelle mit Audio und 128K Kontext. E4B hat aber klar mehr KapazitÀt.
Kann ich Gemma 4 26B A4B auf einem Laptop mit 16 GB RAM ausfĂŒhren?
Ja, in 4-Bit-Quantisierung liegt es an der Grenze, auf 24 GB Unified Memory lÀuft es deutlich angenehmer.
Ist Gemma 4 besser als Gemma 3?
Ja, deutlich. Die Unterschiede bei AIME, LiveCodeBench und Long-Context-Retrieval sind generational, nicht nur inkrementell.
Verwandte LeitfÀden
Verwandte LeitfÀden
Gehen Sie im Gemma-4-Cluster mit dem nÀchsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Gemma 4 26B vs. 31B: Welches Modell sollten Sie ausfĂŒhren?
Ein praxisnaher Vergleich von Gemma 4 26B vs. 31B fĂŒr alle, die zwischen dem MoE-Sweet-Spot und dem stĂ€rksten dichten Modell der Familie entscheiden.

Gemma 4 E2B vs. E4B: Welches kleine Modell sollten Sie wÀhlen?
Ein praxisnaher Leitfaden zu Gemma 4 E2B vs. E4B fĂŒr alle, die zwischen den beiden kleinen Modellen wĂ€hlen, inklusive echter Benchmark-AbstĂ€nde und Speicherhinweisen.

Gemma-4-26B-A4B-VRAM-Anforderungen: Q4, Q8, F16 und der Fit fĂŒr 24-GB-GPUs
Ein fokussierter Leitfaden zu Gemma-4-26B-A4B-VRAM-Anforderungen mit exakten GGUF-GröĂen, Planungsbereichen und der Frage, warum 26B der lokale Sweet Spot ist.
Sie wissen noch nicht, was Sie als NĂ€chstes lesen sollen?
Gehen Sie zurĂŒck zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
