Gemma 4 ガイド

Gemma 4 A4BとE4Bの違い:名前の意味と選び方

約 7 分
gemma 4a4be4bモデル比較ローカルllm
Gemma 4 A4BとE4Bの違い:名前の意味と選び方

この命名はほぼ誰でも最初は混乱します。E4Bと26B A4Bはどちらも「4B」を含んでいますが、この「4B」は全く異なる意味を持ち、2つのモデルはアーキテクチャも根本的に異なります。本当に知っておくべきことを解説します。

E4Bの意味

E4Bの「E」は**effective parameters(有効パラメータ)**の略で、edgeやefficientではありません。GoogleはPer-Layer Embeddings(PLE、レイヤーごとの埋め込み)という技術を使用しています。各デコーダーレイヤーが専用の小さな埋め込みテーブルを持ち、そのレイヤーの計算に残差信号を与えます。これらのテーブルはディスク上では大きいですが計算コストは低く、そのため総重量数が埋め込みを含めると約8Bに達するにもかかわらず、ランタイムでは4.5Bパラメータモデルのように動作します。

結果として、パラメータ数が示唆する以上の表現深度を持つコンパクトなモデルが実現されています。E4Bはスマートフォンやノートパソコン向けに設計されており、8〜16GB RAMの範囲をターゲットにしています。

E4BはオーディオもネイティブサポートしていますがE4Bの上位の26B A4Bはそうではありません。音声入力が必要な場合、E4Bは現在それをサポートする最大のローカルモデルです。

コンテキストウィンドウ:128Kトークン。

26B A4Bの意味

26B A4Bの「A」は**active parameters(アクティブパラメータ)**の略です。26B A4BはMixture-of-Experts(MoE)モデルで、総パラメータ数は約25.2Bですが、各推論ステップでアクティブになるのは約3.8Bのみです。実行時は4Bモデルとほぼ同じ速度で動作しますが、より豊富な専門家の重みにアクセスできます。

これがA4BがE4Bより複雑なタスクで優れている理由です。総知識量ははるかに多く、各推論では一部だけが使われます。ただしメモリコストは現実的です。全26Bの重みをメモリに読み込む必要があり、各トークンでアクティブになるのは一部だけでも全部をロードしなければなりません。

コンテキストウィンドウ:256Kトークン。 ネイティブオーディオ入力なし。

メモリ要件

以下のデータはGoogleの公式モデル概要(約20%のオーバーヘッドを想定)から引用。Unsloths の実測値では26B A4B Q4の読み込みに約18GBが必要で、Googleの基準推定より高い数値です。

モデル Q4 Q8 BF16
Gemma 4 E2B 約2.9 GB 約5.7 GB 約11.4 GB
Gemma 4 E4B 約4.5 GB 約8.9 GB 約17.9 GB
Gemma 4 12B 約6.7 GB 約13.4 GB 約26.7 GB
Gemma 4 26B A4B 約14.4〜18 GB 約28 GB 約52〜58 GB
Gemma 4 31B 約17.5 GB 約34.9 GB 約69.9 GB

これらはモデル読み込みの推定値です。KVキャッシュ(コンテキスト長とともに増加)を加算する必要があります。長いコンテキストでは、KVキャッシュのメモリがモデルの重みを超えることもあります。

実際の品質の違い

E4Bはチャット、要約、情報抽出、シンプルなエージェントに十分な性能を持つモデルです。PLE技術がクラスを超えた性能を実現します。しかし多段階の推論、複雑なコーディング、長文書の理解が必要なタスクでは、26B A4Bが一貫してE4Bを上回ります。

差が最も顕著なのは以下のような場面です:

  • 大きなファイル全体で多くの依存関係を追跡するコーディングタスク
  • 結論に達するまで複数の推論ステップが必要な作業
  • 早期のコンテキストが後の結論に正確に影響する長文書
  • 多くの制約にわたる正確な指示追従が必要な構造化出力

日常的なチャット、クイック要約、プロンプト探索の場合、実際の差は小さいことが多く、E4Bの方が良い選択です。読み込みが速く、メモリプレッシャーが少ないためです。

ハードウェア別の選択

あなたのマシン まずはここから
8GB RAMノートPC E2B Q4、またはE4B Q4(余裕があれば)
16GB MacまたはPC E4B Q4 — 26B A4Bはこのメモリ量では厳しい
24GB GPU 26B A4B Q4が入る;これが想定ハードウェア
32GBシステム 26B A4B Q4で余裕;コンテキストのための余地も
48GB以上 26B A4B Q8、またはQ4の31B
64GB以上ワークステーション 31B Q8、またはA4B Q8対31B Q4を比較

16GBシステムで26B A4B Q4を無理に動かさないでください。 何を受け入れるかを理解していない限り:モデルの読み込みだけでRAMのほとんどを使い切り、コンテキストとランタイムのオーバーヘッドで遅いメモリスワップが発生します。

速度

各推論ステップでアクティブになるのは約3.8Bパラメータのみなので、26B A4Bは総パラメータ26Bにもかかわらず4B密モデルとほぼ同じ速度で動作します。同じハードウェアでは、密な31Bより速く、密な26Bモデルより大幅に速いです。

E4Bは絶対的な処理時間ではさらに速く、単純に小さいモデルで読み込みも速いためです。

どちらを選ぶか

Gemma 4を初めて試す場合でRAMが8〜16GB:E4B Q4から始めてください。 素早く読み込み、ほとんどの日常タスクをこなし、Gemma 4があなたのワークフローに合うかどうか確認できます。

24GB以上のGPUがあり、より強力な推論、コーディング支援、長いコンテキスト処理が必要:26B A4B Q4を使用してください。

品質が最優先でメモリが制約でない場合:31B が依然としてシリーズ最高のモデルです。

26B A4Bは妥協案ではありません。十分なメモリを持つローカルパワーユーザーにとって推奨の選択です。E4Bはコンシューマーノートパソコンとスマートフォンユーザーにとって推奨の選択です。

よくある質問

E4Bはオーディオ入力をサポートしていますか?
はい。E4B(およびE2BとE4Bの上の12B)はオーディオ入力をネイティブサポートしています。26B A4Bと31Bはサポートしていません。

E4Bがパラメータ数から想定されるより多くのメモリを必要とするのはなぜですか?
Per-Layer Embeddingsが原因です。埋め込みテーブルはディスクサイズとメモリフットプリントを増加させますが、Googleが宣伝する「有効」パラメータ数には含まれません。

26B A4Bは約3.8Bしかアクティブにならないのに、なぜ26Bと呼ばれるのですか?
モデルは多くの専門家ネットワークに分散した26B総パラメータをメモリに読み込みますが、各フォワードパスではサブセットのみアクティブになります。これがMoEモデルの仕組みです。

16GBのマシンで26B A4Bを実行できますか?
一部の構成では技術的に可能ですが、推奨されません。Q4では、モデルの読み込みだけでメモリの上限に近づき、コンテキスト、KVキャッシュ、ランタイムのオーバーヘッドを考慮する前から厳しい状況になります。

関連ガイド:

関連記事

Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

次に何を読めばいいか迷っていますか?

ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。