Gemma 4 ガイド

Gemma 4 モデル比較：31B vs 26B A4B vs E4B vs E2B

2026年4月3日•約 8 分

gemma 4モデル比較31b26be4be2ba4b

利用できる言語English Deutsch 日本語中文 Tiếng Việt Português 한국어

Google は 2026年4月3日に Gemma 4 をリリースしました。しかし、これは単一のモデルではありません。一つのファミリー名の下に、メモリ、速度、モダリティ、推論品質のトレードオフが異なる 4 つの独立したモデルが存在します。

誤った選択をすると、実行できない巨大なファイルをダウンロードしてしまったり、ハードウェアの性能を十分に活かせない非力なモデルを動かしてしまったりすることになります。本ガイドでは、命名体系を紐解き、各モデルの真の違いを明らかにします。

名称が実際に意味すること

Gemma 4 の命名規則は少し複雑です。各プレフィックスとサフィックスが何を意味しているのかを説明します。

E2B / E4B — エッジ向け「Effective」パラメータ

「E」は Effective parameters（有効パラメータ） を意味します。例えば E2B は、推論時には 23億の有効パラメータとして動作しますが、総パラメータ数は 51億あります。これは Per-Layer Embeddings (PLE) という技術を使用しているためです。ディスク上のサイズは大きいものの、計算コストは低いため、スマホやノート PC 向けでありながら、パラメータ数以上の表現力を備えています。

26B A4B — MoE アーキテクチャ「Active」パラメータ

「A」は Active parameters（アクティブパラメータ） を意味します。26B A4B は Mixture-of-Experts (MoE) モデルであり、総パラメータ数は 252億ですが、1 トークンあたりの推論時にアクティブになるのは 38億のみです。実用面では、4B dense モデルに近い速度で動作しながら、31B に迫る品質を提供します。「26B」はストレージ要件を、「A4B」は推論コストを表しています。

31B — 高密度（Dense）モデル

すべてのパラメータが、すべての推論パスで動作します。計算コストは最も高いですが、ファミリー内で最高の品質天井（ポテンシャル）を持ち、ファインチューニングのベースとしても最もクリーンなモデルです。

4 モデルの比較（一覧表）

	E2B	E4B	26B A4B	31B
アーキテクチャ	Dense (Edge)	Dense (Edge)	MoE	Dense
有効 / アクティブ	~2.3B	~4B	~3.8B active	30.7B
総パラメータ数	5.1B	~9B	25.2B	30.7B
コンテキスト	128K	128K	256K	256K
音声入力	✅	✅	❌	❌
画像 / 動画入力	✅	✅	✅	✅
ターゲット	スマホ / IoT	ノート PC	一般 GPU	ハイエンド GPU
メモリ (Q4)	~5 GB	~8 GB	~18 GB	~20 GB
LMArena Elo	—	—	1441	1452

ベンチマーク・スコア

公式の命令調整済み（instruction-tuned）モデルの数値です。

ベンチマーク	31B IT	26B A4B IT	E4B IT	E2B IT
AIME 2026	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%
MMLU Pro	85.2%	82.6%	69.4%	60.0%
GPQA Diamond	84.3%	82.3%	58.6%	43.4%

26B A4B (MoE) は、dense 31B モデルの約 97% の品質を維持しつつ、アクティブパラメータを 38億に抑えることで約 8倍の推論効率を実現しています。LMArena のスコア差も僅差であり、実務上は 26B A4B で十分なケースが多いでしょう。

実務に影響する「決定的な違い」

1. 音声機能の有無

E2B と E4B のみが音声入力（最大30秒）をサポートしています。 26B A4B と 31B は音声をサポートしていません。

2. コンテキスト長

E2B/E4B は 128K、26B/31B は 256K です。Gemma 4 では、長いドキュメントの中から情報を探し出す能力（Needle In A Haystack）が大幅に向上しており、256K のコンテキストが「実用的」なものになっています。

3. スピードか、究極の品質か

26B A4B は、多くのツールコールが発生するエージェントワークフローで大きな速度の優位性を持ちます。一方、31B は予測可能性が高く、高度なファインチューニングを行う場合の最強の候補です。

ハードウェア要件（量子化推論時）

モデル	4-bit 量子化	推奨ハードウェア
E2B	~5 GB	スマホ / Raspberry Pi
E4B	~8 GB	8 GB RAM ノート PC
26B A4B	~18 GB	24 GB VRAM GPU / 16 GB+ RAM
31B	~20 GB	24 GB VRAM GPU / ワークステーション

まとめ：どのモデルを選ぶべきか

E2B: オフラインのモバイルアプリや、極めてリソースの限られたエッジデバイス。
E4B: 音声サポートが必要で、8～16 GB のノート PC やミドルレンジ GPU を使っている開発者のデフォルト。
26B A4B: 一般的な GPU (16–24 GB) を持ち、31B に近い品質と高速なレスポンスを求める人への「最適解」。
31B: 最高の品質が不可欠で、かつそれを支える十分なハードウェアがある場合。

Gemma 4 ファミリーは、単にパラメータが増えただけでなく、用途に応じた賢い選択ができるようになっています。