Gemma 4 Q4対Q8：実際にダウンロードすべき量子化はどれか

Gemma 4 GGUFをダウンロードする際は、圧縮レベルを選んでいます。ファイル名の数字（Q4、Q5、Q8）はモデルの重み1つあたりに使用されるビット数です。ビット数が少ないほど、ファイルが小さく、RAMが少なく、多少の品質低下があります。ビット数が多いほど、ファイルが大きく、RAMが多く、フル精度モデルに近い出力になります。

ほとんどの人への正しい選択：Q4_K_Mから始める。 推論やコーディングの出力を明らかに改善したく、ハードウェアに余裕があるなら、Q5_K_Mへ。Q4があなたのタスクに十分でなく、メモリが制約でないと確認した場合にのみQ8へ移る。

計算を完全に変えるQATという新しいオプションもあります。以下で詳しく説明します。

GGUFの命名システム

Hugging Faceでは、Q4_K_M、Q5_K_S、Q8_0のようなパターンのファイル名が使用されます。各部分の意味：

Q4 = 4ビット量子化（モデルの重みごとに4ビット格納）
K = Kクオントフォーマット：混合精度で、デリケートな層をより高精度に保つ
M = Mediumバリアント（Kクオントファミリー内でSが小さく、Lが大きい）
Q8_0 = 8ビット、従来のゼロポイントフォーマット
Q4_0 = 4ビット、従来のゼロポイントフォーマット（同じサイズでQ4_K_Mより劣る）

最重要点：Q4_0とQ4_K_Mは同等ではありません。 Kクオントフォーマットは異なるレイヤータイプにわたって混合精度を使用します。実践的には、Q4_K_MはQ4_0と本質的に同じファイルサイズで明らかに良い出力を生成します。選択肢があれば常にQ4_K_Mを選んでください。

メモリ要件

Google公式データ（約20%のオーバーヘッドを含む）。Unsloths実測では26B A4B Q4の読み込みに約18GBが必要で、Googleの推定より高い数値です。

モデル	Q4_K_M	Q8_0	BF16
Gemma 4 E2B	約2.9 GB	約5.7 GB	約11.4 GB
Gemma 4 E4B	約4.5 GB	約8.9 GB	約17.9 GB
Gemma 4 12B	約6.7 GB	約13.4 GB	約26.7 GB
Gemma 4 26B A4B	約14.4〜18 GB	約28 GB	約52〜58 GB
Gemma 4 31B	約17.5 GB	約34.9 GB	約69.9 GB

これらはモデル読み込みの推定値です。KVキャッシュ（コンテキスト長とともに増加）を追加する必要があります。長いコンテキストではKVキャッシュがモデルの重みを超える可能性があります。

品質の差が実際に現れる場所

量子化品質の研究は一致しています：日常的なチャット、要約、情報抽出は量子化に非常に強い。 Q4_K_MとQ8の会話タスクでのパープレキシティ差は小数点以下の数値 — 通常使用では知覚できません。

差が見え始めるのは精度が多くのステップにわたって累積する作業：

多段階の推論チェーン（量子化誤差が各ステップで積み重なる）
複雑なコード生成とリファクタリング
数学的に重い作業
早期コンテキストが後の結論に正確に影響を与える長いコンテキスト作業
多くの制約にわたる厳密なスキーマに従う必要がある構造化出力

ほとんどのローカル使用例 — チャット、文書Q&A、文章作成補助、簡単なコーディング — ではQ4_K_Mで十分です。コーディングエージェントや複雑な推論パイプラインを実行している場合は、最終決定前にQ8をテストする価値があります。

過小評価されている中間オプション：Q5_K_M

Q5_K_MはQ4とQ8の間にあり、以下の場合にしばしば正しい選択です：

システムのメモリがQ4が必要とする以上に余裕がある
Q4が時々信頼できないと感じるコーディングや推論作業をしている
Q8の2倍のメモリコストを全て負担したくない

例：26B A4BをQ5_K_Mで実行する32GBシステムは約20〜22GBを使用し、Q4_K_Mより明らかに良い出力を適度なメモリ増加で提供します。Q8は約28GB必要でコンテキストのための余地がほとんどなくなります。

Q4でシステムがいっぱいなら、Q5は入りません。しかし余裕があれば、Q8に直接飛び込む前にQ5_K_Mを検討する価値があります。

ハードウェア別のダウンロード推奨

セットアップ	まずはここから
8 GB RAMのラップトップ	E2B Q4_K_M、またはE4B Q4_K_M（入るなら）
16 GBシステム	E4B Q4_K_M
24 GB GPU	26B A4B Q4_K_M
32 GBシステム	26B A4B Q4_K_M。Q5_K_Mも試してみる
48 GB以上	26B A4B Q8、または31B Q4_K_M
64 GB以上ワークステーション	31B Q8、または26B A4B Q8

Q4でギリギリ入るならQ8を無理に使わない。 代わりにQ5かQ6で小さいモデルを選んでください。メモリプレッシャーなしで快適に動くモデルは、常にスワップしている大きなモデルを一貫して上回ります。

Gemma 4 QAT：計算を変えるオプション

Googleは2026年6月5日にGemma 4のQAT（量子化認識訓練）バージョンをリリースしました。QATモデルは訓練ループに量子化シミュレーションが組み込まれており、モデルは精度損失を補正することを学習します。後から圧縮するのではありません。

結果：QAT Q4モデルは同じサイズの標準ポスト訓練Q4モデルよりも明らかに良いパフォーマンスを発揮し、Q8標準品質に近づくこともあります。

GGUF使用の場合、2つの関連するパスがあります：

GoogleのオフィシャルQAT GGUF（Q4_0フォーマット）：Hugging Faceのgoogle/gemma-4-*-it-qat-q4_0-ggufで直接利用可能。注意：QATチェックポイントをllama.cppのQ4_0フォーマットに単純に変換するとQATの品質向上の一部が失われます。
UnslothのUD-Q4_K_XL GGUF：UnslothはQATチェックポイントに独自の動的メソッドを適用し、単純変換と比べてトップ1精度を8〜15ポイント回復しながらファイルサイズも小さくしています。ファイルはUD-Q4_K_XLという名前でunsloth/gemma-4-*-it-qat-GGUFで公開されています。

標準Q4_K_M対UnslothのQAT UD-Q4_K_XL：同じメモリ使用量でQATバージョンの方が優れています。 これが4ビット推論で最初に試すべきものです。

IQ4_XS：サイズ最適化の代替

IQ4_XSは重要性行列校正を使用して、より小さな全体ファイルの中で最も重要な重みを高精度で保持します。適切に校正されると、約9〜10%小さいファイルサイズでQ4_K_M品質に匹敵することがあります。信頼できるパブリッシャーからの"imatrix"タグのファイルを探してください。

これは二次的な最適化です。imatrixバージョンを探す前に、まず既知のパブリッシャーからのQ4_K_M（またはQAT）を使ってください。

避けるべきこと

Q3とQ2：ほとんどのタスクでQ4以下では品質が急激に低下します。特に算術推論は精度の崖があります。非常に特殊なメモリ制限がない限り避けてください。

「念のため」のQ8：Q8ファイルはQ4の約2倍のサイズです。Q8が使用例に役立つか不明な場合は、まずQ4でテストし、出力が不十分な場合のみアップグレードしてください。

不明なパブリッシャーのGGUF：ggml-org、unsloth、bartowski、mradermacherにとどめてください。未知のパブリッシャーは量子化が不正確なGGUFを生成する可能性があります。

よくある質問

Q8は常にQ4より良いですか？
単独では、はい。しかしQ8でシステムが常にスワップするなら、余裕のあるQ4の方が一貫した結果を出します。最良の量子化はハードウェアがプレッシャーなく実行できるものです。

QATか標準量子化か、どちらを使うべきですか？
あなたのモデルサイズのQAT GGUFがUnslothまたはGoogleから利用可能であれば、4ビットレベルではより良い選択です。QAT訓練は特に4ビット精度を改善します。

Q4_0とQ4_K_Mの違いは何ですか？
Q4_K_Mは異なるレイヤータイプにわたって混合精度を使用し、敏感な層を高精度に保ちます。Q4_0は全てのレイヤーを均一に4ビットで扱います。Q4_K_Mはほぼ常に優れています。利用可能な場合は常に選んでください。

量子化はコンテキストウィンドウ長に影響しますか？
間接的に。精度の低い重みはRAMを少なく使用し、KVキャッシュにより多くの余地を残します。低い量子化レベルはメモリが尽きる前に同じハードウェアでより長い有効コンテキストをサポートできます。

Gemma 4 Q4対Q8：実際にダウンロードすべき量子化はどれか

GGUFの命名システム

メモリ要件

品質の差が実際に現れる場所

過小評価されている中間オプション：Q5_K_M

ハードウェア別のダウンロード推奨

Gemma 4 QAT：計算を変えるオプション

IQ4_XS：サイズ最適化の代替

避けるべきこと

よくある質問

関連記事

llama.cpp で Gemma 4 を実行する：完全 GGUF セットアップガイド（2026年）

DiffusionGemmaはLM Studioで動作するか？現在の状況（2026年6月）

llama.cppで「unknown model architecture」を修正する：gemma4とdiffusion-gemma

次に何を読めばいいか迷っていますか？