Gemma-4-Hardwareanforderungen: RAM-, VRAM- und Modellgrößen-Leitfaden

Google DeepMind hat Gemma 4 am 2. April 2026 veröffentlicht: vier Open-Weight-Modelle unter Apache 2.0, basierend auf derselben Forschungsbasis wie Gemini 3. Bevor Sie irgendetwas herunterladen, ist die wichtigste Frage: Welches Modell passt zu Ihrer Hardware?

Dieser Leitfaden beantwortet genau das. Sie finden Speichertabellen nach Modell und Quantisierung, VRAM-Skalierung nach Kontextlänge, echte GPU-Benchmarks und einen einfachen Entscheidungsbaum, damit Sie wissen, mit welcher Variante Sie beginnen sollten.

Überblick über die Gemma-4-Modellfamilie

Gemma 4 gibt es in vier Größen, jeweils als Base- und Instruction-Tuned-Variante:

Modell	Architektur	Gesamtparameter	Aktive Parameter	Kontextfenster	Modalitäten
E2B	Dense (PLE)	~5,1B	~2,3B	128K	Text, Bild, Audio, Video
E4B	Dense (PLE)	~5,1B	~4B	128K	Text, Bild, Audio, Video
26B A4B	MoE	26B	4B aktiv	256K	Text, Bild, Video
31B	Dense	31B	31B	256K	Text, Bild, Video

Das Präfix „E“ steht für Effective Parameters. E2B und E4B nutzen Per-Layer Embeddings (PLE), um mehr Repräsentationstiefe bei relativ niedrigem Speicherverbrauch zu erreichen. 26B A4B ist Gemmas erstes Mixture-of-Experts-Modell: Es aktiviert bei der Inferenz nur 4 Milliarden seiner 26 Milliarden Parameter und reduziert so den VRAM-Druck deutlich.

Gemma-4-VRAM-Anforderungen nach Modell und Quantisierung

Das ist die Tabelle, die die meisten Menschen suchen. Diese Zahlen sind die ungefähren Mindestwerte zum Laden des Modells. Die tatsächliche Laufzeitnutzung steigt je nach Kontextlänge und System-Overhead.

Modell	4-Bit (Q4)	8-Bit (Q8)	BF16 (volle Präzision)
E2B	~2 GB	~5 GB	~15 GB
E4B	~5 GB	~8 GB	~15 GB
26B A4B	~18 GB	~28 GB	~52 GB
31B	~20 GB	~34 GB	~62 GB

Hinweis: Die BF16-31B-Gewichte passen auf eine einzelne NVIDIA H100 mit 80 GB. Für lokale Consumer-Inferenz sind quantisierte Versionen (Q4 oder Q8) der realistische Weg.

Kurze Einordnung:

E2B und E4B in 4-Bit laufen auf Laptops mit 8 GB RAM oder Unified Memory, auch auf kleineren Apple-Silicon-Macs.
26B A4B in Q4 braucht etwa 18 GB, profitiert aber deutlich von der MoE-Effizienz.
31B in Q4 braucht ungefähr 20 GB zum Laden. Eine 24-GB-GPU kann es bei kürzerem Kontext ausführen.

Gemma 4 26B A4B: VRAM nach Kontextlänge

26B A4B ist das herausragende Modell für lokale Nutzer. Seine hybride Attention-Architektur skaliert deutlich effizienter mit langem Kontext als frühere Generationen.

26B A4B @ Q4 — VRAM nach Kontextlänge (gemessen mit llama.cpp auf Debian 12, CUDA 12.8):

Kontextlänge	Benötigter VRAM
4K	17,98 GB
8K	18 GB
16K	18 GB
32K	18 GB
64K	19 GB
128K	20 GB
256K	23 GB

Eine 24-GB-GPU wie RTX 3090 oder RTX 4090 kann das volle 256K-Kontextfenster mit etwas Spielraum ausführen. Genau deshalb ist 26B A4B die Top-Empfehlung für viele lokale Nutzer.

Gemma 4 31B: VRAM nach Kontextlänge

31B ist ein vollständig dichtes Modell. Der Speicherverbrauch wächst mit der Kontextlänge deutlich aggressiver als beim MoE-26B.

31B @ Q4 — VRAM nach Kontextlänge:

Kontextlänge	Benötigter VRAM
4K	20 GB
8K	21 GB
16K	21 GB
32K	22 GB
64K	25 GB
128K	30 GB
256K	40 GB

Eine 24-GB-GPU kann 31B bis ungefähr 45K Tokens Kontext tragen, bevor die VRAM-Grenze erreicht wird. Für volles 256K-Kontextfenster auf 31B brauchen Sie 40 GB oder mehr.

GPU-Leistungsbenchmarks

Echte Benchmark-Daten aus llama.cpp (Build 8639) auf demselben Testsystem (AMD EPYC 7513, 64 GB RAM, Debian 12, CUDA 12.8). pp = Prompt-Verarbeitung Token/s, tg = Textgenerierung Token/s.

26B A4B @ Q4

GPU	Kontext	pp (t/s)	tg (t/s)
RTX 3090	4K	3.625	119
RTX 3090	128K	1.147	82
RTX 3090	256K	671	64
RTX 5090	4K	8.799	180
RTX 5090	128K	2.839	130
RTX 5090	256K	1.707	106

26B A4B liefert auf einer RTX 3090 bei 128K Kontext über 1.000 Token/s Prompt-Verarbeitung, schnell genug für praxisnahe Agent-Workflows.

31B @ Q4

GPU	Kontext	pp (t/s)	tg (t/s)
RTX 3090	4K	1.155	34
RTX 3090	32K	723	31
RTX 3090	~45K	629	30
RTX 5090	4K	3.395	61
RTX 5090	64K	1.459	51
RTX 5090	128K	900	43

31B ist auf Consumer-Hardware deutlich langsamer als 26B. Wenn Geschwindigkeit in Ihrem Workflow wichtig ist, ist 26B A4B in der Regel die bessere Wahl.

Hardware-Empfehlungen nach Setup

Nach GPU- / Speichergröße

Ihre Hardware	Empfohlenes Modell	Hinweise
6–8 GB VRAM	E2B oder E4B @ Q4	läuft auch auf CPU+RAM, aber langsamer
10–16 GB VRAM	E4B @ Q8 oder E2B @ BF16	26B A4B in Q4 meist noch zu groß
20–24 GB VRAM	26B A4B @ Q4 (volle 256K)	Sweet Spot für viele lokale Nutzer
24 GB VRAM	31B @ Q4 (bis ~45K Kontext)	26B A4B ist hier meist die bessere Wahl
32 GB VRAM	31B @ Q4 (bis 128K Kontext)	gutes 31B-Erlebnis
48–96 GB VRAM	31B @ Q4 oder Q8 (volle 256K)	volle Qualität und voller Kontext

Apple Silicon

Apple Silicon nutzt Unified Memory gemeinsam für CPU und GPU, was für lokale LLM-Inferenz sehr gut funktioniert.

Mac-Konfiguration	Empfohlenes Modell
M1 / M2 (8 GB)	E2B oder E4B @ Q4
M2 Pro / M3 Pro (18–36 GB)	26B A4B @ Q4
M2 Max / M3 Max (48–64 GB)	31B @ Q4 oder Q8
M2 Ultra / M3 Ultra (96–192 GB)	31B @ BF16

Praxisnotiz: 26B A4B auf einem Mac Mini mit 24 GB Unified Memory läuft in Q4 gut mit etwas Luft. Vollgröße ohne ausreichenden Puffer macht das System dagegen schnell träge.

Wie Sie Gemma 4 lokal ausführen

Drei Werkzeuge decken die meisten lokalen Setups ab:

Ollama — am einfachsten für den Einstieg:

ollama run gemma4:e4b
ollama run gemma4:26b-a4b
ollama run gemma4:31b

llama.cpp — am besten für CPU-Inferenz und benutzerdefinierte Quantisierung:

llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL

Unsloth Studio — Open-Source-Web-UI für macOS, Windows und Linux:

curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888

LM Studio unterstützt Gemma-4-GGUF-Dateien ebenfalls direkt und ist eine gute Wahl, wenn Sie eine GUI möchten.

26B A4B vs. 31B: Welches sollten Sie wählen?

Die Wahl hängt von Ihrem Hardware-Budget und Ihren Prioritäten ab.

Nehmen Sie 26B A4B, wenn:

Sie eine 24-GB-GPU haben und vollen 256K-Kontext möchten
Geschwindigkeit wichtig ist
Sie Agent-Workflows, Coding-Assistenten oder lange Dokument-Spuren ausführen

Nehmen Sie 31B, wenn:

Sie 32 GB+ VRAM oder einen Mac mit großem Unified Memory haben
Sie ein voll dichtes Modell mit berechenbarem Verhalten wollen
Sie Fine-Tuning mit maximaler Qualität anstreben

Für die meisten lokalen Nutzer auf Consumer-Hardware ist 26B A4B die klar bessere Wahl.

Häufige Fragen

Kann ich Gemma 4 ohne GPU ausführen?

Ja. Alle Varianten laufen CPU-only über llama.cpp. Die Leistung fällt dabei auf etwa 5–10 Token/s, also brauchbar für Tests, aber langsam für den Alltag.

Was ist der Unterschied zwischen Q4 und Q8?

Q4 reduziert den Speicherbedarf grob um 60 % gegenüber BF16. Q8 liegt näher an voller Präzision, kostet aber deutlich mehr Speicher.

Unterstützt Gemma 4 Fine-Tuning auf Consumer-Hardware?

Ja, mit QLoRA oder LoRA. 31B kann mit QLoRA und ungefähr 16 GB VRAM feinabgestimmt werden, echtes Full Fine-Tuning braucht deutlich mehr.

Was ist der Unterschied zwischen E2B, E4B und den größeren Modellen?

E2B und E4B sind für On-Device- und Mobile-Nutzung gedacht und unterstützen Audio. 26B und 31B zielen auf Workstations und Server mit 256K Kontext und stärkerem Reasoning.

Ist Gemma 4 für kommerzielle Nutzung frei?

Ja. Gemma 4 steht unter Apache 2.0 und erlaubt kommerzielle Nutzung, Fine-Tuning, Redistribution und Modifikation.

Muss ich extra VRAM für das Kontextfenster einplanen?

Ja. Die Tabellen oben betreffen primär das Laden der Gewichte. Langer Kontext erhöht den Bedarf zusätzlich.

Zusammenfassung

Wenn Sie nur wissen wollen, wo Sie anfangen sollten:

Leichte Maschine (8 GB RAM/VRAM): E2B oder E4B in Q4
Mittelklasse (16–20 GB): E4B in Q8 oder 26B A4B mit aggressiver Quantisierung
24-GB-GPU: 26B A4B in Q4, der Sweet Spot
32-GB-GPU oder 48-GB-Mac: 31B in Q4

Die Gemma-4-Familie gehört zu den hardwareeffizientesten offenen Modellreleases der letzten Jahre. Gerade das 26B-MoE macht 256K-Kontext lokal auf Hardware möglich, die vorher kaum in diese Nähe kam.