Gemma 4 ガイド
Gemma 4 Q4対Q8:実際にダウンロードすべき量子化はどれか

Gemma 4 GGUFをダウンロードする際は、圧縮レベルを選んでいます。ファイル名の数字(Q4、Q5、Q8)はモデルの重み1つあたりに使用されるビット数です。ビット数が少ないほど、ファイルが小さく、RAMが少なく、多少の品質低下があります。ビット数が多いほど、ファイルが大きく、RAMが多く、フル精度モデルに近い出力になります。
ほとんどの人への正しい選択:Q4_K_Mから始める。 推論やコーディングの出力を明らかに改善したく、ハードウェアに余裕があるなら、Q5_K_Mへ。Q4があなたのタスクに十分でなく、メモリが制約でないと確認した場合にのみQ8へ移る。
計算を完全に変えるQATという新しいオプションもあります。以下で詳しく説明します。
GGUFの命名システム
Hugging Faceでは、Q4_K_M、Q5_K_S、Q8_0のようなパターンのファイル名が使用されます。各部分の意味:
- Q4 = 4ビット量子化(モデルの重みごとに4ビット格納)
- K = Kクオントフォーマット:混合精度で、デリケートな層をより高精度に保つ
- M = Mediumバリアント(Kクオントファミリー内でSが小さく、Lが大きい)
- Q8_0 = 8ビット、従来のゼロポイントフォーマット
- Q4_0 = 4ビット、従来のゼロポイントフォーマット(同じサイズでQ4_K_Mより劣る)
最重要点:Q4_0とQ4_K_Mは同等ではありません。 Kクオントフォーマットは異なるレイヤータイプにわたって混合精度を使用します。実践的には、Q4_K_MはQ4_0と本質的に同じファイルサイズで明らかに良い出力を生成します。選択肢があれば常にQ4_K_Mを選んでください。
メモリ要件
Google公式データ(約20%のオーバーヘッドを含む)。Unsloths実測では26B A4B Q4の読み込みに約18GBが必要で、Googleの推定より高い数値です。
| モデル | Q4_K_M | Q8_0 | BF16 |
|---|---|---|---|
| Gemma 4 E2B | 約2.9 GB | 約5.7 GB | 約11.4 GB |
| Gemma 4 E4B | 約4.5 GB | 約8.9 GB | 約17.9 GB |
| Gemma 4 12B | 約6.7 GB | 約13.4 GB | 約26.7 GB |
| Gemma 4 26B A4B | 約14.4〜18 GB | 約28 GB | 約52〜58 GB |
| Gemma 4 31B | 約17.5 GB | 約34.9 GB | 約69.9 GB |
これらはモデル読み込みの推定値です。KVキャッシュ(コンテキスト長とともに増加)を追加する必要があります。長いコンテキストではKVキャッシュがモデルの重みを超える可能性があります。
品質の差が実際に現れる場所
量子化品質の研究は一致しています:日常的なチャット、要約、情報抽出は量子化に非常に強い。 Q4_K_MとQ8の会話タスクでのパープレキシティ差は小数点以下の数値 — 通常使用では知覚できません。
差が見え始めるのは精度が多くのステップにわたって累積する作業:
- 多段階の推論チェーン(量子化誤差が各ステップで積み重なる)
- 複雑なコード生成とリファクタリング
- 数学的に重い作業
- 早期コンテキストが後の結論に正確に影響を与える長いコンテキスト作業
- 多くの制約にわたる厳密なスキーマに従う必要がある構造化出力
ほとんどのローカル使用例 — チャット、文書Q&A、文章作成補助、簡単なコーディング — ではQ4_K_Mで十分です。コーディングエージェントや複雑な推論パイプラインを実行している場合は、最終決定前にQ8をテストする価値があります。
過小評価されている中間オプション:Q5_K_M
Q5_K_MはQ4とQ8の間にあり、以下の場合にしばしば正しい選択です:
- システムのメモリがQ4が必要とする以上に余裕がある
- Q4が時々信頼できないと感じるコーディングや推論作業をしている
- Q8の2倍のメモリコストを全て負担したくない
例:26B A4BをQ5_K_Mで実行する32GBシステムは約20〜22GBを使用し、Q4_K_Mより明らかに良い出力を適度なメモリ増加で提供します。Q8は約28GB必要でコンテキストのための余地がほとんどなくなります。
Q4でシステムがいっぱいなら、Q5は入りません。しかし余裕があれば、Q8に直接飛び込む前にQ5_K_Mを検討する価値があります。
ハードウェア別のダウンロード推奨
| セットアップ | まずはここから |
|---|---|
| 8 GB RAMのラップトップ | E2B Q4_K_M、またはE4B Q4_K_M(入るなら) |
| 16 GBシステム | E4B Q4_K_M |
| 24 GB GPU | 26B A4B Q4_K_M |
| 32 GBシステム | 26B A4B Q4_K_M。Q5_K_Mも試してみる |
| 48 GB以上 | 26B A4B Q8、または31B Q4_K_M |
| 64 GB以上ワークステーション | 31B Q8、または26B A4B Q8 |
Q4でギリギリ入るならQ8を無理に使わない。 代わりにQ5かQ6で小さいモデルを選んでください。メモリプレッシャーなしで快適に動くモデルは、常にスワップしている大きなモデルを一貫して上回ります。
Gemma 4 QAT:計算を変えるオプション
Googleは2026年6月5日にGemma 4のQAT(量子化認識訓練)バージョンをリリースしました。QATモデルは訓練ループに量子化シミュレーションが組み込まれており、モデルは精度損失を補正することを学習します。後から圧縮するのではありません。
結果:QAT Q4モデルは同じサイズの標準ポスト訓練Q4モデルよりも明らかに良いパフォーマンスを発揮し、Q8標準品質に近づくこともあります。
GGUF使用の場合、2つの関連するパスがあります:
-
GoogleのオフィシャルQAT GGUF(Q4_0フォーマット):Hugging Faceの
google/gemma-4-*-it-qat-q4_0-ggufで直接利用可能。注意:QATチェックポイントをllama.cppのQ4_0フォーマットに単純に変換するとQATの品質向上の一部が失われます。 -
UnslothのUD-Q4_K_XL GGUF:UnslothはQATチェックポイントに独自の動的メソッドを適用し、単純変換と比べてトップ1精度を8〜15ポイント回復しながらファイルサイズも小さくしています。ファイルは
UD-Q4_K_XLという名前でunsloth/gemma-4-*-it-qat-GGUFで公開されています。
標準Q4_K_M対UnslothのQAT UD-Q4_K_XL:同じメモリ使用量でQATバージョンの方が優れています。 これが4ビット推論で最初に試すべきものです。
IQ4_XS:サイズ最適化の代替
IQ4_XSは重要性行列校正を使用して、より小さな全体ファイルの中で最も重要な重みを高精度で保持します。適切に校正されると、約9〜10%小さいファイルサイズでQ4_K_M品質に匹敵することがあります。信頼できるパブリッシャーからの"imatrix"タグのファイルを探してください。
これは二次的な最適化です。imatrixバージョンを探す前に、まず既知のパブリッシャーからのQ4_K_M(またはQAT)を使ってください。
避けるべきこと
Q3とQ2:ほとんどのタスクでQ4以下では品質が急激に低下します。特に算術推論は精度の崖があります。非常に特殊なメモリ制限がない限り避けてください。
「念のため」のQ8:Q8ファイルはQ4の約2倍のサイズです。Q8が使用例に役立つか不明な場合は、まずQ4でテストし、出力が不十分な場合のみアップグレードしてください。
不明なパブリッシャーのGGUF:ggml-org、unsloth、bartowski、mradermacherにとどめてください。未知のパブリッシャーは量子化が不正確なGGUFを生成する可能性があります。
よくある質問
Q8は常にQ4より良いですか?
単独では、はい。しかしQ8でシステムが常にスワップするなら、余裕のあるQ4の方が一貫した結果を出します。最良の量子化はハードウェアがプレッシャーなく実行できるものです。
QATか標準量子化か、どちらを使うべきですか?
あなたのモデルサイズのQAT GGUFがUnslothまたはGoogleから利用可能であれば、4ビットレベルではより良い選択です。QAT訓練は特に4ビット精度を改善します。
Q4_0とQ4_K_Mの違いは何ですか?
Q4_K_Mは異なるレイヤータイプにわたって混合精度を使用し、敏感な層を高精度に保ちます。Q4_0は全てのレイヤーを均一に4ビットで扱います。Q4_K_Mはほぼ常に優れています。利用可能な場合は常に選んでください。
量子化はコンテキストウィンドウ長に影響しますか?
間接的に。精度の低い重みはRAMを少なく使用し、KVキャッシュにより多くの余地を残します。低い量子化レベルはメモリが尽きる前に同じハードウェアでより長い有効コンテキストをサポートできます。
関連ガイド:
関連記事
Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

llama.cpp で Gemma 4 を実行する方法: GGUF 設定、ハードウェア、量子化ガイド
Gemma 4 を llama.cpp でローカル実行するために必要なすべて:ハードウェア対応表、コピー&ペーストで使えるビルドコマンド、量子化ガイド、マルチモーダルセットアップ。

DiffusionGemmaはLM Studioで動作するか?現在の状況(2026年6月)
LM StudioのllaMa.cppとMLXエンジンはどちらも2026年6月時点でDiffusionGemmaのロードに失敗します。エラーの意味、追跡場所、実際に動作するツールを説明します。

llama.cppで「unknown model architecture」を修正する:gemma4とdiffusion-gemma
gemma4とdiffusion-gemmaのアーキテクチャエラーは原因が異なり、修正方法も異なります。同じ方法で対処しようとすると時間を無駄にします。
次に何を読めばいいか迷っていますか?
ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。
