Gemma 4 ガイド

Gemma 4 モデル比較:31B vs 26B A4B vs E4B vs E2B

約 8 分
gemma 4モデル比較31b26be4be2ba4b
Gemma 4 モデル比較:31B vs 26B A4B vs E4B vs E2B

Google は 2026年4月3日に Gemma 4 をリリースしました。しかし、これは単一のモデルではありません。一つのファミリー名の下に、メモリ、速度、モダリティ、推論品質のトレードオフが異なる 4 つの独立したモデルが存在します。

誤った選択をすると、実行できない巨大なファイルをダウンロードしてしまったり、ハードウェアの性能を十分に活かせない非力なモデルを動かしてしまったりすることになります。本ガイドでは、命名体系を紐解き、各モデルの真の違いを明らかにします。


名称が実際に意味すること

Gemma 4 の命名規則は少し複雑です。各プレフィックスとサフィックスが何を意味しているのかを説明します。

E2B / E4B — エッジ向け「Effective」パラメータ

「E」は Effective parameters(有効パラメータ) を意味します。例えば E2B は、推論時には 23億の有効パラメータとして動作しますが、総パラメータ数は 51億あります。これは Per-Layer Embeddings (PLE) という技術を使用しているためです。ディスク上のサイズは大きいものの、計算コストは低いため、スマホやノート PC 向けでありながら、パラメータ数以上の表現力を備えています。

26B A4B — MoE アーキテクチャ「Active」パラメータ

「A」は Active parameters(アクティブパラメータ) を意味します。26B A4B は Mixture-of-Experts (MoE) モデルであり、総パラメータ数は 252億ですが、1 トークンあたりの推論時にアクティブになるのは 38億のみです。実用面では、4B dense モデルに近い速度で動作しながら、31B に迫る品質を提供します。「26B」はストレージ要件を、「A4B」は推論コストを表しています。

31B — 高密度(Dense)モデル

すべてのパラメータが、すべての推論パスで動作します。計算コストは最も高いですが、ファミリー内で最高の品質天井(ポテンシャル)を持ち、ファインチューニングのベースとしても最もクリーンなモデルです。


4 モデルの比較(一覧表)

E2B E4B 26B A4B 31B
アーキテクチャ Dense (Edge) Dense (Edge) MoE Dense
有効 / アクティブ ~2.3B ~4B ~3.8B active 30.7B
総パラメータ数 5.1B ~9B 25.2B 30.7B
コンテキスト 128K 128K 256K 256K
音声入力
画像 / 動画入力
ターゲット スマホ / IoT ノート PC 一般 GPU ハイエンド GPU
メモリ (Q4) ~5 GB ~8 GB ~18 GB ~20 GB
LMArena Elo 1441 1452

ベンチマーク・スコア

公式の命令調整済み(instruction-tuned)モデルの数値です。

ベンチマーク 31B IT 26B A4B IT E4B IT E2B IT
AIME 2026 89.2% 88.3% 42.5% 37.5%
LiveCodeBench v6 80.0% 77.1% 52.0% 44.0%
MMLU Pro 85.2% 82.6% 69.4% 60.0%
GPQA Diamond 84.3% 82.3% 58.6% 43.4%

26B A4B (MoE) は、dense 31B モデルの約 97% の品質を維持しつつ、アクティブパラメータを 38億に抑えることで約 8倍の推論効率を実現しています。LMArena のスコア差も僅差であり、実務上は 26B A4B で十分なケースが多いでしょう。


実務に影響する「決定的な違い」

1. 音声機能の有無

E2B と E4B のみが音声入力(最大30秒)をサポートしています。 26B A4B と 31B は音声をサポートしていません。

2. コンテキスト長

E2B/E4B は 128K、26B/31B は 256K です。Gemma 4 では、長いドキュメントの中から情報を探し出す能力(Needle In A Haystack)が大幅に向上しており、256K のコンテキストが「実用的」なものになっています。

3. スピードか、究極の品質か

26B A4B は、多くのツールコールが発生するエージェントワークフローで大きな速度の優位性を持ちます。一方、31B は予測可能性が高く、高度なファインチューニングを行う場合の最強の候補です。


ハードウェア要件(量子化推論時)

モデル 4-bit 量子化 推奨ハードウェア
E2B ~5 GB スマホ / Raspberry Pi
E4B ~8 GB 8 GB RAM ノート PC
26B A4B ~18 GB 24 GB VRAM GPU / 16 GB+ RAM
31B ~20 GB 24 GB VRAM GPU / ワークステーション

まとめ:どのモデルを選ぶべきか

  • E2B: オフラインのモバイルアプリや、極めてリソースの限られたエッジデバイス。
  • E4B: 音声サポートが必要で、8~16 GB のノート PC やミドルレンジ GPU を使っている開発者のデフォルト。
  • 26B A4B: 一般的な GPU (16–24 GB) を持ち、31B に近い品質と高速なレスポンスを求める人への「最適解」。
  • 31B: 最高の品質が不可欠で、かつそれを支える十分なハードウェアがある場合。

Gemma 4 ファミリーは、単にパラメータが増えただけでなく、用途に応じた賢い選択ができるようになっています。

関連記事

関連記事

Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

次に何を読めばいいか迷っていますか?

ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。