Gemma-4-Leitfäden
Gemma-4-Hardwareanforderungen: RAM-, VRAM- und Modellgrößen-Leitfaden

Google DeepMind hat Gemma 4 am 2. April 2026 veröffentlicht: vier Open-Weight-Modelle unter Apache 2.0, basierend auf derselben Forschungsbasis wie Gemini 3. Bevor Sie irgendetwas herunterladen, ist die wichtigste Frage: Welches Modell passt zu Ihrer Hardware?
Dieser Leitfaden beantwortet genau das. Sie finden Speichertabellen nach Modell und Quantisierung, VRAM-Skalierung nach Kontextlänge, echte GPU-Benchmarks und einen einfachen Entscheidungsbaum, damit Sie wissen, mit welcher Variante Sie beginnen sollten.
Überblick über die Gemma-4-Modellfamilie
Gemma 4 gibt es in vier Größen, jeweils als Base- und Instruction-Tuned-Variante:
| Modell | Architektur | Gesamtparameter | Aktive Parameter | Kontextfenster | Modalitäten |
|---|---|---|---|---|---|
| E2B | Dense (PLE) | ~5,1B | ~2,3B | 128K | Text, Bild, Audio, Video |
| E4B | Dense (PLE) | ~5,1B | ~4B | 128K | Text, Bild, Audio, Video |
| 26B A4B | MoE | 26B | 4B aktiv | 256K | Text, Bild, Video |
| 31B | Dense | 31B | 31B | 256K | Text, Bild, Video |
Das Präfix „E“ steht für Effective Parameters. E2B und E4B nutzen Per-Layer Embeddings (PLE), um mehr Repräsentationstiefe bei relativ niedrigem Speicherverbrauch zu erreichen. 26B A4B ist Gemmas erstes Mixture-of-Experts-Modell: Es aktiviert bei der Inferenz nur 4 Milliarden seiner 26 Milliarden Parameter und reduziert so den VRAM-Druck deutlich.
Gemma-4-VRAM-Anforderungen nach Modell und Quantisierung
Das ist die Tabelle, die die meisten Menschen suchen. Diese Zahlen sind die ungefähren Mindestwerte zum Laden des Modells. Die tatsächliche Laufzeitnutzung steigt je nach Kontextlänge und System-Overhead.
| Modell | 4-Bit (Q4) | 8-Bit (Q8) | BF16 (volle Präzision) |
|---|---|---|---|
| E2B | ~2 GB | ~5 GB | ~15 GB |
| E4B | ~5 GB | ~8 GB | ~15 GB |
| 26B A4B | ~18 GB | ~28 GB | ~52 GB |
| 31B | ~20 GB | ~34 GB | ~62 GB |
Hinweis: Die BF16-31B-Gewichte passen auf eine einzelne NVIDIA H100 mit 80 GB. Für lokale Consumer-Inferenz sind quantisierte Versionen (Q4 oder Q8) der realistische Weg.
Kurze Einordnung:
- E2B und E4B in 4-Bit laufen auf Laptops mit 8 GB RAM oder Unified Memory, auch auf kleineren Apple-Silicon-Macs.
- 26B A4B in Q4 braucht etwa 18 GB, profitiert aber deutlich von der MoE-Effizienz.
- 31B in Q4 braucht ungefähr 20 GB zum Laden. Eine 24-GB-GPU kann es bei kürzerem Kontext ausführen.
Gemma 4 26B A4B: VRAM nach Kontextlänge
26B A4B ist das herausragende Modell für lokale Nutzer. Seine hybride Attention-Architektur skaliert deutlich effizienter mit langem Kontext als frühere Generationen.
26B A4B @ Q4 — VRAM nach Kontextlänge (gemessen mit llama.cpp auf Debian 12, CUDA 12.8):
| Kontextlänge | Benötigter VRAM |
|---|---|
| 4K | 17,98 GB |
| 8K | 18 GB |
| 16K | 18 GB |
| 32K | 18 GB |
| 64K | 19 GB |
| 128K | 20 GB |
| 256K | 23 GB |
Eine 24-GB-GPU wie RTX 3090 oder RTX 4090 kann das volle 256K-Kontextfenster mit etwas Spielraum ausführen. Genau deshalb ist 26B A4B die Top-Empfehlung für viele lokale Nutzer.
Gemma 4 31B: VRAM nach Kontextlänge
31B ist ein vollständig dichtes Modell. Der Speicherverbrauch wächst mit der Kontextlänge deutlich aggressiver als beim MoE-26B.
31B @ Q4 — VRAM nach Kontextlänge:
| Kontextlänge | Benötigter VRAM |
|---|---|
| 4K | 20 GB |
| 8K | 21 GB |
| 16K | 21 GB |
| 32K | 22 GB |
| 64K | 25 GB |
| 128K | 30 GB |
| 256K | 40 GB |
Eine 24-GB-GPU kann 31B bis ungefähr 45K Tokens Kontext tragen, bevor die VRAM-Grenze erreicht wird. Für volles 256K-Kontextfenster auf 31B brauchen Sie 40 GB oder mehr.
GPU-Leistungsbenchmarks
Echte Benchmark-Daten aus llama.cpp (Build 8639) auf demselben Testsystem (AMD EPYC 7513, 64 GB RAM, Debian 12, CUDA 12.8). pp = Prompt-Verarbeitung Token/s, tg = Textgenerierung Token/s.
26B A4B @ Q4
| GPU | Kontext | pp (t/s) | tg (t/s) |
|---|---|---|---|
| RTX 3090 | 4K | 3.625 | 119 |
| RTX 3090 | 128K | 1.147 | 82 |
| RTX 3090 | 256K | 671 | 64 |
| RTX 5090 | 4K | 8.799 | 180 |
| RTX 5090 | 128K | 2.839 | 130 |
| RTX 5090 | 256K | 1.707 | 106 |
26B A4B liefert auf einer RTX 3090 bei 128K Kontext über 1.000 Token/s Prompt-Verarbeitung, schnell genug für praxisnahe Agent-Workflows.
31B @ Q4
| GPU | Kontext | pp (t/s) | tg (t/s) |
|---|---|---|---|
| RTX 3090 | 4K | 1.155 | 34 |
| RTX 3090 | 32K | 723 | 31 |
| RTX 3090 | ~45K | 629 | 30 |
| RTX 5090 | 4K | 3.395 | 61 |
| RTX 5090 | 64K | 1.459 | 51 |
| RTX 5090 | 128K | 900 | 43 |
31B ist auf Consumer-Hardware deutlich langsamer als 26B. Wenn Geschwindigkeit in Ihrem Workflow wichtig ist, ist 26B A4B in der Regel die bessere Wahl.
Hardware-Empfehlungen nach Setup
Nach GPU- / Speichergröße
| Ihre Hardware | Empfohlenes Modell | Hinweise |
|---|---|---|
| 6–8 GB VRAM | E2B oder E4B @ Q4 | läuft auch auf CPU+RAM, aber langsamer |
| 10–16 GB VRAM | E4B @ Q8 oder E2B @ BF16 | 26B A4B in Q4 meist noch zu groß |
| 20–24 GB VRAM | 26B A4B @ Q4 (volle 256K) | Sweet Spot für viele lokale Nutzer |
| 24 GB VRAM | 31B @ Q4 (bis ~45K Kontext) | 26B A4B ist hier meist die bessere Wahl |
| 32 GB VRAM | 31B @ Q4 (bis 128K Kontext) | gutes 31B-Erlebnis |
| 48–96 GB VRAM | 31B @ Q4 oder Q8 (volle 256K) | volle Qualität und voller Kontext |
Apple Silicon
Apple Silicon nutzt Unified Memory gemeinsam für CPU und GPU, was für lokale LLM-Inferenz sehr gut funktioniert.
| Mac-Konfiguration | Empfohlenes Modell |
|---|---|
| M1 / M2 (8 GB) | E2B oder E4B @ Q4 |
| M2 Pro / M3 Pro (18–36 GB) | 26B A4B @ Q4 |
| M2 Max / M3 Max (48–64 GB) | 31B @ Q4 oder Q8 |
| M2 Ultra / M3 Ultra (96–192 GB) | 31B @ BF16 |
Praxisnotiz: 26B A4B auf einem Mac Mini mit 24 GB Unified Memory läuft in Q4 gut mit etwas Luft. Vollgröße ohne ausreichenden Puffer macht das System dagegen schnell träge.
Wie Sie Gemma 4 lokal ausführen
Drei Werkzeuge decken die meisten lokalen Setups ab:
Ollama — am einfachsten für den Einstieg:
ollama run gemma4:e4b
ollama run gemma4:26b-a4b
ollama run gemma4:31b
llama.cpp — am besten für CPU-Inferenz und benutzerdefinierte Quantisierung:
llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL
Unsloth Studio — Open-Source-Web-UI für macOS, Windows und Linux:
curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888
LM Studio unterstützt Gemma-4-GGUF-Dateien ebenfalls direkt und ist eine gute Wahl, wenn Sie eine GUI möchten.
26B A4B vs. 31B: Welches sollten Sie wählen?
Die Wahl hängt von Ihrem Hardware-Budget und Ihren Prioritäten ab.
Nehmen Sie 26B A4B, wenn:
- Sie eine 24-GB-GPU haben und vollen 256K-Kontext möchten
- Geschwindigkeit wichtig ist
- Sie Agent-Workflows, Coding-Assistenten oder lange Dokument-Spuren ausführen
Nehmen Sie 31B, wenn:
- Sie 32 GB+ VRAM oder einen Mac mit großem Unified Memory haben
- Sie ein voll dichtes Modell mit berechenbarem Verhalten wollen
- Sie Fine-Tuning mit maximaler Qualität anstreben
Für die meisten lokalen Nutzer auf Consumer-Hardware ist 26B A4B die klar bessere Wahl.
Häufige Fragen
Kann ich Gemma 4 ohne GPU ausführen?
Ja. Alle Varianten laufen CPU-only über llama.cpp. Die Leistung fällt dabei auf etwa 5–10 Token/s, also brauchbar für Tests, aber langsam für den Alltag.
Was ist der Unterschied zwischen Q4 und Q8?
Q4 reduziert den Speicherbedarf grob um 60 % gegenüber BF16. Q8 liegt näher an voller Präzision, kostet aber deutlich mehr Speicher.
Unterstützt Gemma 4 Fine-Tuning auf Consumer-Hardware?
Ja, mit QLoRA oder LoRA. 31B kann mit QLoRA und ungefähr 16 GB VRAM feinabgestimmt werden, echtes Full Fine-Tuning braucht deutlich mehr.
Was ist der Unterschied zwischen E2B, E4B und den größeren Modellen?
E2B und E4B sind für On-Device- und Mobile-Nutzung gedacht und unterstützen Audio. 26B und 31B zielen auf Workstations und Server mit 256K Kontext und stärkerem Reasoning.
Ist Gemma 4 für kommerzielle Nutzung frei?
Ja. Gemma 4 steht unter Apache 2.0 und erlaubt kommerzielle Nutzung, Fine-Tuning, Redistribution und Modifikation.
Muss ich extra VRAM für das Kontextfenster einplanen?
Ja. Die Tabellen oben betreffen primär das Laden der Gewichte. Langer Kontext erhöht den Bedarf zusätzlich.
Zusammenfassung
Wenn Sie nur wissen wollen, wo Sie anfangen sollten:
- Leichte Maschine (8 GB RAM/VRAM): E2B oder E4B in Q4
- Mittelklasse (16–20 GB): E4B in Q8 oder 26B A4B mit aggressiver Quantisierung
- 24-GB-GPU: 26B A4B in Q4, der Sweet Spot
- 32-GB-GPU oder 48-GB-Mac: 31B in Q4
Die Gemma-4-Familie gehört zu den hardwareeffizientesten offenen Modellreleases der letzten Jahre. Gerade das 26B-MoE macht 256K-Kontext lokal auf Hardware möglich, die vorher kaum in diese Nähe kam.
Empfohlene nächste Artikel
Verwandte Leitfäden
Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Gemma-4-26B-A4B-VRAM-Anforderungen: Q4, Q8, F16 und der Fit für 24-GB-GPUs
Ein fokussierter Leitfaden zu Gemma-4-26B-A4B-VRAM-Anforderungen mit exakten GGUF-Größen, Planungsbereichen und der Frage, warum 26B der lokale Sweet Spot ist.

Gemma-4-31B-VRAM-Anforderungen: Q4, Q8, F16 und praxisnahe Hardware
Ein fokussierter Leitfaden zu Gemma-4-31B-VRAM-Anforderungen mit exakten GGUF-Größen, Planungsbereichen und ehrlicher Einschätzung dazu, welche Hardware wirklich Sinn ergibt.

Gemma-4-E2B-VRAM-Anforderungen: Q4, Q8, F16 und Edge-Geräte-Fit
Ein fokussierter Leitfaden zu Gemma-4-E2B-VRAM-Anforderungen mit exakten Dateigrößen, praxisnahen Planungsbereichen und ehrlicher Einordnung, wann E2B die richtige Wahl ist.
Sie wissen noch nicht, was Sie als Nächstes lesen sollen?
Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
