Gemma-4-Leitfäden
Gemma 4 A4B vs. E4B: Was die Namen wirklich bedeuten und welches Modell du verwenden solltest

Die Bezeichnung verwirrt fast jeden. Beide Modelle enthalten „4B" im Namen, aber dieses „4B" bedeutet in jedem Fall etwas anderes — und die beiden Modelle haben völlig unterschiedliche Architekturen. Hier ist, was du wirklich wissen musst.
Was E4B bedeutet
Das „E" in E4B steht für effective parameters (effektive Parameter), nicht für Edge oder Efficient. Google verwendet eine Technik namens Per-Layer Embeddings (PLE): Jede Decoder-Schicht hat eine eigene kleine Embedding-Tabelle, die ein Residualsignal in die Berechnung dieser Schicht einspeist. Diese Tabellen sind zwar auf der Festplatte groß, aber rechengünstig — weshalb das Modell zur Laufzeit wie ein 4,5B-Parameter-Modell arbeitet, obwohl der Gesamtgewichtsanteil mit Embeddings etwa 8B erreicht.
Das Ergebnis ist ein kompaktes Modell mit mehr Repräsentationstiefe, als sein Parameteranzahl vermuten lässt. E4B ist für Smartphones und Laptops konzipiert — es zielt auf den 8–16 GB RAM-Bereich.
E4B unterstützt außerdem Audio-Eingaben nativ, was das größere 26B A4B nicht tut. Wenn Audio Teil deines Anwendungsfalls ist, ist E4B derzeit das größte lokale Modell, das es unterstützt.
Kontextfenster: 128K Token.
Was 26B A4B bedeutet
Das „A" in 26B A4B steht für active parameters (aktive Parameter). Das 26B A4B ist ein Mixture-of-Experts (MoE)-Modell mit etwa 25,2 Milliarden Gesamtparametern, von denen bei jedem Inferenzschritt nur etwa 3,8 Milliarden aktiv sind. Es verhält sich zur Laufzeit fast so schnell wie ein 4B-Modell, greift aber auf einen viel reichhaltigeren Satz erlernter Expertengewichte zurück.
Deshalb wirkt A4B bei komplexen Aufgaben deutlich stärker als E4B: Das Modell hat viel mehr Gesamtwissen, auch wenn bei jeder Inferenz nur ein kleiner Teil aktiviert wird. Der Speicherpreis ist jedoch real — alle 26B Gewichte müssen geladen werden, auch wenn pro Token nur ein Bruchteil aktiviert wird.
Kontextfenster: 256K Token. Kein nativer Audio-Eingang.
Speicherbedarf
Diese Zahlen stammen aus Googles offiziellem Modell-Überblick (mit ~20 % Overhead angenommen). Unsloths Praxismessungen ergeben für 26B A4B Q4 etwa 18 GB, was höher ist als Googles Basisschätzung.
| Modell | Q4 | Q8 | BF16 |
|---|---|---|---|
| Gemma 4 E2B | ~2,9 GB | ~5,7 GB | ~11,4 GB |
| Gemma 4 E4B | ~4,5 GB | ~8,9 GB | ~17,9 GB |
| Gemma 4 12B | ~6,7 GB | ~13,4 GB | ~26,7 GB |
| Gemma 4 26B A4B | ~14,4–18 GB | ~28 GB | ~52–58 GB |
| Gemma 4 31B | ~17,5 GB | ~34,9 GB | ~69,9 GB |
Dies sind Modelllast-Schätzungen. Dazu kommt der KV-Cache (wächst mit der Kontextlänge). Bei langen Kontexten kann der KV-Cache-Speicher den der Modellgewichte übersteigen.
Qualitätsunterschiede in der Praxis
E4B ist ein fähiges Modell für Chat, Zusammenfassungen, Extraktion und einfache Agents. Es ist kein schwaches Modell — PLE sorgt dafür, dass es in seiner Gewichtsklasse über sich hinauswächst. Aber bei Aufgaben, die mehrstufiges Schlussfolgern, komplexes Coding und das Verständnis langer Dokumente erfordern, schneidet 26B A4B konstant besser ab als E4B.
Der Unterschied wird am deutlichsten bei:
- Coding-Aufgaben, die viele Abhängigkeiten über eine große Datei hinweg verfolgen
- Reasoning-Aufgaben, die mehrere Inferenzschritte benötigen
- Dokumenten, bei denen frühere Kontextinhalte spätere Schlussfolgerungen präzise beeinflussen
- Strukturierten Ausgaben, die bei vielen Constraints präzises Instruktionsfolgen erfordern
Für alltägliche Chat-Nutzung, schnelle Zusammenfassungen und Prompt-Exploration ist der praktische Unterschied oft gering genug, dass E4B die bessere Wahl ist — es läuft schneller und mit weniger Speicherdruck.
Welches Modell für welche Hardware
| Deine Maschine | Hier anfangen |
|---|---|
| 8 GB RAM Laptop | E2B Q4, oder E4B Q4, wenn es bequem passt |
| 16 GB Mac oder PC | E4B Q4 — 26B A4B ist auf dieser Speicherebene zu eng |
| 24 GB GPU | 26B A4B Q4 passt; das ist die Zielhardware |
| 32 GB System | 26B A4B Q4 bequem; mehr Spielraum für Kontext |
| 48 GB+ | 26B A4B Q8, oder 31B Q4 |
| 64 GB+ Workstation | 31B Q8, oder 26B A4B Q8 vs. 31B Q4 vergleichen |
Versuche nicht, 26B A4B auf einem 16 GB System mit Q4 zu betreiben, es sei denn, du weißt, was du akzeptierst: Der Modellladevorgang allein belegt fast den gesamten Speicher, bevor Kontext und Laufzeit-Overhead hinzukommen, was zu langsamem Memory-Swapping führt.
Geschwindigkeit
Da pro Inferenzschritt nur ~3,8B Parameter aktiv sind, läuft 26B A4B in etwa mit der Geschwindigkeit eines 4B dichten Modells — trotz 26B Gesamtparameter. Auf gleicher Hardware ist es typischerweise schneller als das dichte 31B und deutlich schneller als jedes dichte 26B-Modell wäre.
E4B ist in der Wanduhrzeit noch schneller, schlicht weil es ein kleineres Modell ist und schneller lädt.
Welches wählen
Wenn du Gemma 4 zum ersten Mal ausprobierst und dein Rechner 8–16 GB RAM hat: Fang mit E4B Q4 an. Es lädt schnell, bewältigt die meisten Alltagsaufgaben gut und hilft dir herauszufinden, ob Gemma 4 zu deinem Workflow passt.
Wenn du eine 24 GB GPU oder mehr hast und stärkeres Schlussfolgern, Coding-Hilfe oder Long-Context-Arbeit benötigst: Verwende 26B A4B Q4.
Wenn Qualität oberste Priorität hat und Speicher kein Engpass ist: 31B ist nach wie vor das beste Modell der Familie.
Das 26B A4B ist kein Kompromissmodell. Es ist die empfohlene Wahl für lokale Power-User mit ausreichend Speicher. E4B ist die empfohlene Wahl für alle mit Consumer-Laptops und Smartphones.
FAQ
Unterstützt E4B Audio-Eingaben?
Ja. E4B (sowie E2B und 12B) unterstützen Audio-Eingaben nativ. 26B A4B und 31B nicht.
Warum benötigt E4B mehr Speicher als sein Parameteranzahl vermuten lässt?
Wegen Per-Layer Embeddings. Die Embedding-Tabellen erhöhen die Dateigröße und den Speicherbedarf, obwohl sie nicht in die von Google beworbene „effektive" Parameteranzahl einfließen.
Warum heißt 26B A4B so, wenn nur ~3,8B Parameter aktiv sind?
Weil das Modell 26B Gesamtparameter über viele Expertennetze verteilt in den Speicher lädt, aber bei jedem Forward Pass nur eine Teilmenge aktiviert. So funktionieren MoE-Modelle.
Kann ich 26B A4B auf einem 16 GB System ausführen?
Technisch in manchen Konfigurationen möglich, aber nicht empfohlen. Bei Q4 nähert sich der Modellladevorgang allein deiner Speichergrenze, noch ohne Kontext, KV-Cache oder Laufzeit-Overhead. Langsames Memory-Swapping ist die wahrscheinliche Folge.
Verwandte Guides:
Verwandte Leitfäden
Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Gemma-4-Modellvergleich: 31B vs. 26B A4B vs. E4B vs. E2B
Entschlüsseln Sie Gemma 4s Benennungssystem, vergleichen Sie Benchmarks über alle fünf Varianten hinweg und finden Sie das richtige Modell für Ihre Hardware, bevor Sie irgendetwas herunterladen.

Funktioniert DiffusionGemma in LM Studio? Aktueller Status (Juni 2026)
Sowohl LM Studios llama.cpp- als auch MLX-Engine scheitern im Juni 2026 beim Laden von DiffusionGemma. Hier erkläre ich, was die Fehler bedeuten, wo sie verfolgt werden und welche Tools wirklich funktionieren.

"unknown model architecture" für gemma4 und diffusion-gemma in llama.cpp beheben
Die gemma4- und diffusion-gemma-Architekturfehler haben unterschiedliche Ursachen und unterschiedliche Fixes. Beide gleich zu behandeln verschwendet Zeit.
Sie wissen noch nicht, was Sie als Nächstes lesen sollen?
Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
