Gemma 4 ハードウェア要件：RAM、VRAM、およびモデルサイズ別ガイド

Google DeepMind は 2026年4月2日に Gemma 4 をリリースしました。Gemini 3 の研究成果を基に構築された、Apache 2.0 ライセンスの下で提供される 4 つのオープンウェイトモデルです。ダウンロードを始める前に、最も重要な問いはこれです：「どのモデルがあなたのハードウェアに適合するか？」

このガイドではその問いに直接答えます。モデル別・量子化別のメモリ対応表、コンテキスト長による VRAM スケーリングデータ、実際の GPU ベンチマーク、そしてどのバリアントから始めるべきかを示すシンプルな意思決定フローを掲載しています。

Gemma 4 モデルファミリーの概要

Gemma 4 には 4 つのサイズがあり、それぞれにベースモデルと指示調整済み（instruction-tuned）モデルが用意されています。

モデル	アーキテクチャ	総パラメータ数	アクティブパラメータ数	コンテキスト	モダリティ
E2B	Dense (PLE)	約 5.1B	約 2.3B	128K	テキスト, 画像, 音声, 動画
E4B	Dense (PLE)	約 5.1B	約 4B	128K	テキスト, 画像, 音声, 動画
26B A4B	MoE	26B	4B active	256K	テキスト, 画像, 動画
31B	Dense	31B	31B	256K	テキスト, 画像, 動画

「E」というプレフィックスは Effective parameters（有効パラメータ） を意味します。E2B と E4B は Per-Layer Embeddings (PLE) という技術を使用しており、メモリ使用量を抑えつつ、より大きなモデルに近い表現力を備えています。26B A4B は Gemma 初の Mixture-of-Experts (MoE) モデルで、推論時に 260億パラメータのうち 40億パラメータのみをアクティブにするため、VRAM への負荷を劇的に軽減しています。

量子化別の Gemma 4 VRAM 要件

多くのユーザーが探している、モデル別の最小メモリ要件です。これらはモデルのロードに必要な最小限のメモリであり、実際の運用ではコンテキスト長やシステムのオーバーヘッドに応じてより多くのメモリが必要になります。

モデル	4-bit (Q4)	8-bit (Q8)	BF16 (フル精度)
E2B	約 2 GB	約 5 GB	約 15 GB
E4B	約 5 GB	約 8 GB	約 15 GB
26B A4B	約 18 GB	約 28 GB	約 52 GB
31B	約 20 GB	約 34 GB	約 62 GB

注: BF16 精度の 31B モデルは、80 GB の NVIDIA H100 GPU 1 枚に収まります。コンシューマー向けのローカル推論では、量子化版（Q4 または Q8）が現実的な選択肢となります。

ポイント：

4-bit 量子化の E2B と E4B は、8 GB の RAM またはユニファイドメモリを搭載したノート PC（エントリークラスの Apple Silicon Mac を含む）で動作可能です。
Q4 の 26B A4B は約 18 GB を必要としますが、MoE の効率性により、通常の 26B dense モデルよりも動作が軽快です。
Q4 の 31B は約 20 GB でロード可能です。24 GB 搭載の GPU であれば、短いコンテキスト長で動作させることができます。

Gemma 4 26B A4B：コンテキスト長による VRAM 要件

26B A4B は、ローカルユーザーにとって際立った存在です。ハイブリッド・アテンション・アーキテクチャにより、以前の世代よりもコンテキストのスケーリングがはるかに効率的になっています。

26B A4B @ Q4 — コンテキスト長別 VRAM 使用量:

コンテキスト長	必要 VRAM
4K	17.98 GB
32K	18 GB
128K	20 GB
256K	23 GB

24 GB GPU (RTX 3090 / 4090) であれば、最大限の 256K コンテキストを使用してもメモリに余裕があります。この品質のモデルとしては異例の効率であり、26B A4B がローカルユーザーに最も推奨される理由です。

Gemma 4 31B：コンテキスト長による VRAM 要件

31B は、推論時にすべてのパラメータがアクティブになる完全な Dense モデルです。26B MoE と比較して、コンテキスト長に応じたメモリ使用量の増加が顕著です。

31B @ Q4 — コンテキスト長別 VRAM 使用量:

コンテキスト長	必要 VRAM
4K	20 GB
64K	25 GB
128K	30 GB
256K	40 GB

24 GB GPU では、VRAM の限界に達する前に実行できるコンテキスト長は約 4.5万トークンまでです。31B で 256K のコンテキストをフルに活用するには、40 GB 以上のメモリ、つまり 48 GB 搭載のワークステーション GPU、GPU 2 枚挿し、または大容量メモリ搭載の Mac が必要になります。

GPU パフォーマンス・ベンチマーク

llama.cpp を使用した実際の数値です。pp = プロンプト処理（トークン/秒）、tg = テキスト生成（トークン/秒）。

26B A4B @ Q4

RTX 3090 では、4K コンテキストで pp: 3,625 t/s, tg: 119 t/s という高速なレスポンスを実現します。256K の最大コンテキスト時でも、tg: 64 t/s という実用的な速度を維持します。

31B @ Q4

一方、31B は MoE モデルに比べて大幅に低速になります。RTX 3090 での生成速度は 30〜34 t/s 程度に留まります。ワークフローにおいて速度を重視する場合は、26B A4B の方が優れた選択肢となります。

構成別のおすすめハードウェア

GPU / メモリ容量別

6–8 GB VRAM (RTX 3070 等): E2B または E4B @ Q4。
24 GB VRAM (RTX 3090 / 4090): 26B A4B @ Q4 (256K 全開)。これがローカルユーザーの最適解です。
32 GB VRAM (RTX 5090): 31B @ Q4 (128K コンテキストまで) が快適に動作します。
48 GB以上 (RTX PRO 6000 / マルチ GPU): 31B @ Q4 または Q8 (256K 全開) で真の力を発揮します。

Apple Silicon (Mac)

ユニファイドメモリを搭載した Mac はローカル LLM に非常に適しています。

8 GB メモリ: E2B または E4B @ Q4。
24–36 GB メモリ: 26B A4B @ Q4。
48–64 GB メモリ: 31B @ Q4 または Q8。

よくある質問 (FAQ)

GPU なしでも Gemma 4 は動きますか？ はい。llama.cpp を介して CPU のみでも動作します。速度は低下しますが、検証用としては十分に実用的です。E2B や E4B は CPU のみでも比較的スムーズに動きます。

Q4 と Q8 量子化の違いは何ですか？ Q4 (4-bit) はメモリを約 60% 削減します。ベンチマーク上の精度は数パーセント低下しますが、動作は非常に軽快になります。多くの用途では Q4_K_M が推奨のスタート地点です。VRAM に余裕があるなら Q8 を検討してください。

Gemma 4 は商用利用無料ですか？ はい。Apache 2.0 ライセンスでリリースされているため、商用利用、ファインチューニング、再配布などが自由に行えます。

まとめ：どこから始めるか

軽量マシン (8 GB RAM): E2B または E4B @ Q4 から始めましょう。
24 GB GPU (RTX 3090 / 4090): 26B A4B @ Q4。256K コンテキストを使いこなせる、このモデルが現在の「スイートスポット」です。
ハイエンド構成 (48 GB以上): 31B @ Q4 で、一切の妥協なしに最高品質を体験してください。

Gemma 4 ファミリーは、現在のオープンモデルの中で最もハードウェア効率に優れたリリースの一つです。特に 26B MoE は、これまで限定的なハードウェアでは不可能だった 256K コンテキストの推論を現実のものにしました。