Gemma-4-Leitfäden

Gemma-4-Hardwareanforderungen: RAM-, VRAM- und Modellgrößen-Leitfaden

6 Min. Lesezeit
gemma 4hardware requirementsvramram
Gemma-4-Hardwareanforderungen: RAM-, VRAM- und Modellgrößen-Leitfaden

Google DeepMind hat Gemma 4 am 2. April 2026 veröffentlicht: vier Open-Weight-Modelle unter Apache 2.0, basierend auf derselben Forschungsbasis wie Gemini 3. Bevor Sie irgendetwas herunterladen, ist die wichtigste Frage: Welches Modell passt zu Ihrer Hardware?

Dieser Leitfaden beantwortet genau das. Sie finden Speichertabellen nach Modell und Quantisierung, VRAM-Skalierung nach Kontextlänge, echte GPU-Benchmarks und einen einfachen Entscheidungsbaum, damit Sie wissen, mit welcher Variante Sie beginnen sollten.


Überblick über die Gemma-4-Modellfamilie

Gemma 4 gibt es in vier Größen, jeweils als Base- und Instruction-Tuned-Variante:

Modell Architektur Gesamtparameter Aktive Parameter Kontextfenster Modalitäten
E2B Dense (PLE) ~5,1B ~2,3B 128K Text, Bild, Audio, Video
E4B Dense (PLE) ~5,1B ~4B 128K Text, Bild, Audio, Video
26B A4B MoE 26B 4B aktiv 256K Text, Bild, Video
31B Dense 31B 31B 256K Text, Bild, Video

Das Präfix „E“ steht für Effective Parameters. E2B und E4B nutzen Per-Layer Embeddings (PLE), um mehr Repräsentationstiefe bei relativ niedrigem Speicherverbrauch zu erreichen. 26B A4B ist Gemmas erstes Mixture-of-Experts-Modell: Es aktiviert bei der Inferenz nur 4 Milliarden seiner 26 Milliarden Parameter und reduziert so den VRAM-Druck deutlich.


Gemma-4-VRAM-Anforderungen nach Modell und Quantisierung

Das ist die Tabelle, die die meisten Menschen suchen. Diese Zahlen sind die ungefähren Mindestwerte zum Laden des Modells. Die tatsächliche Laufzeitnutzung steigt je nach Kontextlänge und System-Overhead.

Modell 4-Bit (Q4) 8-Bit (Q8) BF16 (volle Präzision)
E2B ~2 GB ~5 GB ~15 GB
E4B ~5 GB ~8 GB ~15 GB
26B A4B ~18 GB ~28 GB ~52 GB
31B ~20 GB ~34 GB ~62 GB

Hinweis: Die BF16-31B-Gewichte passen auf eine einzelne NVIDIA H100 mit 80 GB. Für lokale Consumer-Inferenz sind quantisierte Versionen (Q4 oder Q8) der realistische Weg.

Kurze Einordnung:

  • E2B und E4B in 4-Bit laufen auf Laptops mit 8 GB RAM oder Unified Memory, auch auf kleineren Apple-Silicon-Macs.
  • 26B A4B in Q4 braucht etwa 18 GB, profitiert aber deutlich von der MoE-Effizienz.
  • 31B in Q4 braucht ungefähr 20 GB zum Laden. Eine 24-GB-GPU kann es bei kürzerem Kontext ausführen.

Gemma 4 26B A4B: VRAM nach Kontextlänge

26B A4B ist das herausragende Modell für lokale Nutzer. Seine hybride Attention-Architektur skaliert deutlich effizienter mit langem Kontext als frühere Generationen.

26B A4B @ Q4 — VRAM nach Kontextlänge (gemessen mit llama.cpp auf Debian 12, CUDA 12.8):

Kontextlänge Benötigter VRAM
4K 17,98 GB
8K 18 GB
16K 18 GB
32K 18 GB
64K 19 GB
128K 20 GB
256K 23 GB

Eine 24-GB-GPU wie RTX 3090 oder RTX 4090 kann das volle 256K-Kontextfenster mit etwas Spielraum ausführen. Genau deshalb ist 26B A4B die Top-Empfehlung für viele lokale Nutzer.


Gemma 4 31B: VRAM nach Kontextlänge

31B ist ein vollständig dichtes Modell. Der Speicherverbrauch wächst mit der Kontextlänge deutlich aggressiver als beim MoE-26B.

31B @ Q4 — VRAM nach Kontextlänge:

Kontextlänge Benötigter VRAM
4K 20 GB
8K 21 GB
16K 21 GB
32K 22 GB
64K 25 GB
128K 30 GB
256K 40 GB

Eine 24-GB-GPU kann 31B bis ungefähr 45K Tokens Kontext tragen, bevor die VRAM-Grenze erreicht wird. Für volles 256K-Kontextfenster auf 31B brauchen Sie 40 GB oder mehr.


GPU-Leistungsbenchmarks

Echte Benchmark-Daten aus llama.cpp (Build 8639) auf demselben Testsystem (AMD EPYC 7513, 64 GB RAM, Debian 12, CUDA 12.8). pp = Prompt-Verarbeitung Token/s, tg = Textgenerierung Token/s.

26B A4B @ Q4

GPU Kontext pp (t/s) tg (t/s)
RTX 3090 4K 3.625 119
RTX 3090 128K 1.147 82
RTX 3090 256K 671 64
RTX 5090 4K 8.799 180
RTX 5090 128K 2.839 130
RTX 5090 256K 1.707 106

26B A4B liefert auf einer RTX 3090 bei 128K Kontext über 1.000 Token/s Prompt-Verarbeitung, schnell genug für praxisnahe Agent-Workflows.

31B @ Q4

GPU Kontext pp (t/s) tg (t/s)
RTX 3090 4K 1.155 34
RTX 3090 32K 723 31
RTX 3090 ~45K 629 30
RTX 5090 4K 3.395 61
RTX 5090 64K 1.459 51
RTX 5090 128K 900 43

31B ist auf Consumer-Hardware deutlich langsamer als 26B. Wenn Geschwindigkeit in Ihrem Workflow wichtig ist, ist 26B A4B in der Regel die bessere Wahl.


Hardware-Empfehlungen nach Setup

Nach GPU- / Speichergröße

Ihre Hardware Empfohlenes Modell Hinweise
6–8 GB VRAM E2B oder E4B @ Q4 läuft auch auf CPU+RAM, aber langsamer
10–16 GB VRAM E4B @ Q8 oder E2B @ BF16 26B A4B in Q4 meist noch zu groß
20–24 GB VRAM 26B A4B @ Q4 (volle 256K) Sweet Spot für viele lokale Nutzer
24 GB VRAM 31B @ Q4 (bis ~45K Kontext) 26B A4B ist hier meist die bessere Wahl
32 GB VRAM 31B @ Q4 (bis 128K Kontext) gutes 31B-Erlebnis
48–96 GB VRAM 31B @ Q4 oder Q8 (volle 256K) volle Qualität und voller Kontext

Apple Silicon

Apple Silicon nutzt Unified Memory gemeinsam für CPU und GPU, was für lokale LLM-Inferenz sehr gut funktioniert.

Mac-Konfiguration Empfohlenes Modell
M1 / M2 (8 GB) E2B oder E4B @ Q4
M2 Pro / M3 Pro (18–36 GB) 26B A4B @ Q4
M2 Max / M3 Max (48–64 GB) 31B @ Q4 oder Q8
M2 Ultra / M3 Ultra (96–192 GB) 31B @ BF16

Praxisnotiz: 26B A4B auf einem Mac Mini mit 24 GB Unified Memory läuft in Q4 gut mit etwas Luft. Vollgröße ohne ausreichenden Puffer macht das System dagegen schnell träge.


Wie Sie Gemma 4 lokal ausführen

Drei Werkzeuge decken die meisten lokalen Setups ab:

Ollama — am einfachsten für den Einstieg:

ollama run gemma4:e4b
ollama run gemma4:26b-a4b
ollama run gemma4:31b

llama.cpp — am besten für CPU-Inferenz und benutzerdefinierte Quantisierung:

llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL

Unsloth Studio — Open-Source-Web-UI für macOS, Windows und Linux:

curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888

LM Studio unterstützt Gemma-4-GGUF-Dateien ebenfalls direkt und ist eine gute Wahl, wenn Sie eine GUI möchten.


26B A4B vs. 31B: Welches sollten Sie wählen?

Die Wahl hängt von Ihrem Hardware-Budget und Ihren Prioritäten ab.

Nehmen Sie 26B A4B, wenn:

  • Sie eine 24-GB-GPU haben und vollen 256K-Kontext möchten
  • Geschwindigkeit wichtig ist
  • Sie Agent-Workflows, Coding-Assistenten oder lange Dokument-Spuren ausführen

Nehmen Sie 31B, wenn:

  • Sie 32 GB+ VRAM oder einen Mac mit großem Unified Memory haben
  • Sie ein voll dichtes Modell mit berechenbarem Verhalten wollen
  • Sie Fine-Tuning mit maximaler Qualität anstreben

Für die meisten lokalen Nutzer auf Consumer-Hardware ist 26B A4B die klar bessere Wahl.


Häufige Fragen

Kann ich Gemma 4 ohne GPU ausführen?

Ja. Alle Varianten laufen CPU-only über llama.cpp. Die Leistung fällt dabei auf etwa 5–10 Token/s, also brauchbar für Tests, aber langsam für den Alltag.

Was ist der Unterschied zwischen Q4 und Q8?

Q4 reduziert den Speicherbedarf grob um 60 % gegenüber BF16. Q8 liegt näher an voller Präzision, kostet aber deutlich mehr Speicher.

Unterstützt Gemma 4 Fine-Tuning auf Consumer-Hardware?

Ja, mit QLoRA oder LoRA. 31B kann mit QLoRA und ungefähr 16 GB VRAM feinabgestimmt werden, echtes Full Fine-Tuning braucht deutlich mehr.

Was ist der Unterschied zwischen E2B, E4B und den größeren Modellen?

E2B und E4B sind für On-Device- und Mobile-Nutzung gedacht und unterstützen Audio. 26B und 31B zielen auf Workstations und Server mit 256K Kontext und stärkerem Reasoning.

Ist Gemma 4 für kommerzielle Nutzung frei?

Ja. Gemma 4 steht unter Apache 2.0 und erlaubt kommerzielle Nutzung, Fine-Tuning, Redistribution und Modifikation.

Muss ich extra VRAM für das Kontextfenster einplanen?

Ja. Die Tabellen oben betreffen primär das Laden der Gewichte. Langer Kontext erhöht den Bedarf zusätzlich.


Zusammenfassung

Wenn Sie nur wissen wollen, wo Sie anfangen sollten:

  • Leichte Maschine (8 GB RAM/VRAM): E2B oder E4B in Q4
  • Mittelklasse (16–20 GB): E4B in Q8 oder 26B A4B mit aggressiver Quantisierung
  • 24-GB-GPU: 26B A4B in Q4, der Sweet Spot
  • 32-GB-GPU oder 48-GB-Mac: 31B in Q4

Die Gemma-4-Familie gehört zu den hardwareeffizientesten offenen Modellreleases der letzten Jahre. Gerade das 26B-MoE macht 256K-Kontext lokal auf Hardware möglich, die vorher kaum in diese Nähe kam.

Empfohlene nächste Artikel

Verwandte Leitfäden

Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?

Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.