Gemma 4 A4B vs. E4B: Was die Namen wirklich bedeuten und welches Modell du verwenden solltest

Die Bezeichnung verwirrt fast jeden. Beide Modelle enthalten „4B" im Namen, aber dieses „4B" bedeutet in jedem Fall etwas anderes — und die beiden Modelle haben völlig unterschiedliche Architekturen. Hier ist, was du wirklich wissen musst.

Was E4B bedeutet

Das „E" in E4B steht für effective parameters (effektive Parameter), nicht für Edge oder Efficient. Google verwendet eine Technik namens Per-Layer Embeddings (PLE): Jede Decoder-Schicht hat eine eigene kleine Embedding-Tabelle, die ein Residualsignal in die Berechnung dieser Schicht einspeist. Diese Tabellen sind zwar auf der Festplatte groß, aber rechengünstig — weshalb das Modell zur Laufzeit wie ein 4,5B-Parameter-Modell arbeitet, obwohl der Gesamtgewichtsanteil mit Embeddings etwa 8B erreicht.

Das Ergebnis ist ein kompaktes Modell mit mehr Repräsentationstiefe, als sein Parameteranzahl vermuten lässt. E4B ist für Smartphones und Laptops konzipiert — es zielt auf den 8–16 GB RAM-Bereich.

E4B unterstützt außerdem Audio-Eingaben nativ, was das größere 26B A4B nicht tut. Wenn Audio Teil deines Anwendungsfalls ist, ist E4B derzeit das größte lokale Modell, das es unterstützt.

Kontextfenster: 128K Token.

Was 26B A4B bedeutet

Das „A" in 26B A4B steht für active parameters (aktive Parameter). Das 26B A4B ist ein Mixture-of-Experts (MoE)-Modell mit etwa 25,2 Milliarden Gesamtparametern, von denen bei jedem Inferenzschritt nur etwa 3,8 Milliarden aktiv sind. Es verhält sich zur Laufzeit fast so schnell wie ein 4B-Modell, greift aber auf einen viel reichhaltigeren Satz erlernter Expertengewichte zurück.

Deshalb wirkt A4B bei komplexen Aufgaben deutlich stärker als E4B: Das Modell hat viel mehr Gesamtwissen, auch wenn bei jeder Inferenz nur ein kleiner Teil aktiviert wird. Der Speicherpreis ist jedoch real — alle 26B Gewichte müssen geladen werden, auch wenn pro Token nur ein Bruchteil aktiviert wird.

Kontextfenster: 256K Token. Kein nativer Audio-Eingang.

Speicherbedarf

Diese Zahlen stammen aus Googles offiziellem Modell-Überblick (mit ~20 % Overhead angenommen). Unsloths Praxismessungen ergeben für 26B A4B Q4 etwa 18 GB, was höher ist als Googles Basisschätzung.

Modell	Q4	Q8	BF16
Gemma 4 E2B	~2,9 GB	~5,7 GB	~11,4 GB
Gemma 4 E4B	~4,5 GB	~8,9 GB	~17,9 GB
Gemma 4 12B	~6,7 GB	~13,4 GB	~26,7 GB
Gemma 4 26B A4B	~14,4–18 GB	~28 GB	~52–58 GB
Gemma 4 31B	~17,5 GB	~34,9 GB	~69,9 GB

Dies sind Modelllast-Schätzungen. Dazu kommt der KV-Cache (wächst mit der Kontextlänge). Bei langen Kontexten kann der KV-Cache-Speicher den der Modellgewichte übersteigen.

Qualitätsunterschiede in der Praxis

E4B ist ein fähiges Modell für Chat, Zusammenfassungen, Extraktion und einfache Agents. Es ist kein schwaches Modell — PLE sorgt dafür, dass es in seiner Gewichtsklasse über sich hinauswächst. Aber bei Aufgaben, die mehrstufiges Schlussfolgern, komplexes Coding und das Verständnis langer Dokumente erfordern, schneidet 26B A4B konstant besser ab als E4B.

Der Unterschied wird am deutlichsten bei:

Coding-Aufgaben, die viele Abhängigkeiten über eine große Datei hinweg verfolgen
Reasoning-Aufgaben, die mehrere Inferenzschritte benötigen
Dokumenten, bei denen frühere Kontextinhalte spätere Schlussfolgerungen präzise beeinflussen
Strukturierten Ausgaben, die bei vielen Constraints präzises Instruktionsfolgen erfordern

Für alltägliche Chat-Nutzung, schnelle Zusammenfassungen und Prompt-Exploration ist der praktische Unterschied oft gering genug, dass E4B die bessere Wahl ist — es läuft schneller und mit weniger Speicherdruck.

Welches Modell für welche Hardware

Deine Maschine	Hier anfangen
8 GB RAM Laptop	E2B Q4, oder E4B Q4, wenn es bequem passt
16 GB Mac oder PC	E4B Q4 — 26B A4B ist auf dieser Speicherebene zu eng
24 GB GPU	26B A4B Q4 passt; das ist die Zielhardware
32 GB System	26B A4B Q4 bequem; mehr Spielraum für Kontext
48 GB+	26B A4B Q8, oder 31B Q4
64 GB+ Workstation	31B Q8, oder 26B A4B Q8 vs. 31B Q4 vergleichen

Versuche nicht, 26B A4B auf einem 16 GB System mit Q4 zu betreiben, es sei denn, du weißt, was du akzeptierst: Der Modellladevorgang allein belegt fast den gesamten Speicher, bevor Kontext und Laufzeit-Overhead hinzukommen, was zu langsamem Memory-Swapping führt.

Geschwindigkeit

Da pro Inferenzschritt nur ~3,8B Parameter aktiv sind, läuft 26B A4B in etwa mit der Geschwindigkeit eines 4B dichten Modells — trotz 26B Gesamtparameter. Auf gleicher Hardware ist es typischerweise schneller als das dichte 31B und deutlich schneller als jedes dichte 26B-Modell wäre.

E4B ist in der Wanduhrzeit noch schneller, schlicht weil es ein kleineres Modell ist und schneller lädt.

Welches wählen

Wenn du Gemma 4 zum ersten Mal ausprobierst und dein Rechner 8–16 GB RAM hat: Fang mit E4B Q4 an. Es lädt schnell, bewältigt die meisten Alltagsaufgaben gut und hilft dir herauszufinden, ob Gemma 4 zu deinem Workflow passt.

Wenn du eine 24 GB GPU oder mehr hast und stärkeres Schlussfolgern, Coding-Hilfe oder Long-Context-Arbeit benötigst: Verwende 26B A4B Q4.

Wenn Qualität oberste Priorität hat und Speicher kein Engpass ist: 31B ist nach wie vor das beste Modell der Familie.

Das 26B A4B ist kein Kompromissmodell. Es ist die empfohlene Wahl für lokale Power-User mit ausreichend Speicher. E4B ist die empfohlene Wahl für alle mit Consumer-Laptops und Smartphones.

FAQ

Unterstützt E4B Audio-Eingaben?
Ja. E4B (sowie E2B und 12B) unterstützen Audio-Eingaben nativ. 26B A4B und 31B nicht.

Warum benötigt E4B mehr Speicher als sein Parameteranzahl vermuten lässt?
Wegen Per-Layer Embeddings. Die Embedding-Tabellen erhöhen die Dateigröße und den Speicherbedarf, obwohl sie nicht in die von Google beworbene „effektive" Parameteranzahl einfließen.

Warum heißt 26B A4B so, wenn nur ~3,8B Parameter aktiv sind?
Weil das Modell 26B Gesamtparameter über viele Expertennetze verteilt in den Speicher lädt, aber bei jedem Forward Pass nur eine Teilmenge aktiviert. So funktionieren MoE-Modelle.

Kann ich 26B A4B auf einem 16 GB System ausführen?
Technisch in manchen Konfigurationen möglich, aber nicht empfohlen. Bei Q4 nähert sich der Modellladevorgang allein deiner Speichergrenze, noch ohne Kontext, KV-Cache oder Laufzeit-Overhead. Langsames Memory-Swapping ist die wahrscheinliche Folge.

Verwandte Guides:

Gemma 4 A4B vs. E4B: Was die Namen wirklich bedeuten und welches Modell du verwenden solltest

Was E4B bedeutet

Was 26B A4B bedeutet

Speicherbedarf

Qualitätsunterschiede in der Praxis

Welches Modell für welche Hardware

Geschwindigkeit

Welches wählen

FAQ

Verwandte Leitfäden

Gemma-4-Modellvergleich: 31B vs. 26B A4B vs. E4B vs. E2B

Funktioniert DiffusionGemma in LM Studio? Aktueller Status (Juni 2026)

"unknown model architecture" für gemma4 und diffusion-gemma in llama.cpp beheben

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?