Gemma 4 Q4 vs Q8: Qual quantização baixar de verdade

Ao baixar um GGUF do Gemma 4, você está escolhendo um nível de compressão. O número no nome do arquivo (Q4, Q5, Q8) é quantos bits são usados por peso do modelo. Menos bits significa arquivo menor, menos RAM e alguma perda de qualidade. Mais bits significa arquivo maior, mais RAM e saída mais próxima do modelo em precisão completa.

A escolha certa para a maioria: comece com Q4_K_M. Mude para Q5_K_M se quiser saídas notavelmente melhores para raciocínio ou codificação e seu hardware tiver espaço. Vá para Q8 apenas quando confirmar que Q4 não é bom o suficiente para sua tarefa e memória não é um limitante.

Há também uma opção mais recente — QAT — que muda completamente esse cálculo. Mais sobre isso abaixo.

O sistema de nomenclatura GGUF

No Hugging Face, os arquivos de modelo seguem um padrão como Q4_K_M, Q5_K_S, Q8_0. O que cada parte significa:

Q4 = quantização de 4 bits (4 bits armazenados por peso do modelo)
K = formato K-quant: precisão mista que mantém camadas mais sensíveis em maior precisão
M = variante médium (S é menor, L é maior dentro da família K-quant)
Q8_0 = 8 bits, o formato legado zero-point
Q4_0 = 4 bits, o formato legado zero-point (pior que Q4_K_M no mesmo tamanho)

O mais importante: Q4_0 e Q4_K_M não são equivalentes. Formatos K-quant usam precisão mista em diferentes tipos de camadas. Na prática, Q4_K_M produz saídas notavelmente melhores que Q4_0 com essencialmente o mesmo tamanho de arquivo. Se tiver escolha, sempre prefira Q4_K_M.

Requisitos de memória

Dados oficiais do Google (com ~20% de overhead). As medições práticas do Unsloth colocam o carregamento do 26B A4B Q4 em cerca de 18 GB, acima da estimativa do Google.

Modelo	Q4_K_M	Q8_0	BF16
Gemma 4 E2B	~2,9 GB	~5,7 GB	~11,4 GB
Gemma 4 E4B	~4,5 GB	~8,9 GB	~17,9 GB
Gemma 4 12B	~6,7 GB	~13,4 GB	~26,7 GB
Gemma 4 26B A4B	~14,4–18 GB	~28 GB	~52–58 GB
Gemma 4 31B	~17,5 GB	~34,9 GB	~69,9 GB

Esses são valores estimados de carregamento do modelo. Adicione o KV cache por cima (cresce com o comprimento do contexto). Em contextos longos, o KV cache pode superar os pesos do modelo.

Onde a diferença de qualidade realmente aparece

A pesquisa sobre qualidade de quantização é consistente: chat casual, resumo e extração são altamente resistentes à quantização. A diferença de perplexidade entre Q4_K_M e Q8 em tarefas conversacionais é de centésimos de ponto — imperceptível no uso normal.

A diferença fica visível em tarefas onde a precisão acumula em muitos passos:

Cadeias de raciocínio de múltiplas etapas (erro de quantização se acumula a cada passo)
Geração e refatoração de código complexo
Tarefas com muita matemática
Trabalho com contexto longo onde o contexto anterior influencia precisamente conclusões posteriores
Saídas estruturadas que exigem seguimento preciso de instruções em muitos constraints

Para a maioria dos casos de uso locais — chat, Q&A de documentos, auxílio de escrita, ajuda simples de codificação — Q4_K_M é geralmente suficiente. Se você roda um agente de codificação ou pipeline de raciocínio complexo, vale testar Q8 antes de decidir.

A opção intermediária subestimada: Q5_K_M

Q5_K_M fica entre Q4 e Q8 e frequentemente é a escolha certa quando:

O sistema tem espaço de memória além do que Q4 precisa
Você faz trabalho de codificação ou raciocínio onde Q4 ocasionalmente parece pouco confiável
Não quer o custo total de 2× memória do Q8

Exemplo: em um sistema de 32 GB rodando 26B A4B, Q5_K_M usa cerca de 20–22 GB e entrega saídas notavelmente melhores que Q4_K_M com um aumento de memória gerenciável. Q8 exigiria ~28 GB, deixando pouca margem para contexto.

Se Q4 já está lotando o sistema, Q5 não vai caber. Mas com margem confortável, Q5_K_M vale considerar antes de pular diretamente para Q8.

Qual arquivo baixar para o seu hardware

Seu setup	Comece com
Laptop com 8 GB de RAM	E2B Q4_K_M, ou E4B Q4_K_M se couber confortavelmente
Sistema com 16 GB	E4B Q4_K_M
GPU de 24 GB	26B A4B Q4_K_M
Sistema com 32 GB	26B A4B Q4_K_M confortavelmente; tentar Q5_K_M se couber
48 GB ou mais	26B A4B Q8, ou 31B Q4_K_M
Workstation com 64 GB ou mais	31B Q8, ou 26B A4B Q8

Se o modelo mal cabe em Q4, não force Q8. Escolha um modelo menor em Q5 ou Q6. Um modelo bem dimensionado sem pressão de memória supera consistentemente um modelo maior que está constantemente em swap.

Gemma 4 QAT: A opção que muda o cálculo

O Google lançou versões QAT (Quantization-Aware Training) do Gemma 4 em 5 de junho de 2026. Modelos QAT são treinados com simulação de quantização integrada no loop de treinamento — o modelo aprende a compensar a perda de precisão em vez de ter compressão aplicada depois.

Resultado: um modelo QAT Q4 performa notavelmente melhor que um modelo Q4 padrão pós-treinamento do mesmo tamanho, às vezes se aproximando da qualidade Q8 padrão.

Para uso com GGUF, há dois caminhos relevantes:

GGUF QAT oficial do Google (formato Q4_0): Disponível diretamente no Hugging Face em google/gemma-4-*-it-qat-q4_0-gguf. Atenção: conversão ingênua do checkpoint QAT para o formato Q4_0 do llama.cpp perde parte do benefício de qualidade do QAT.
GGUFs UD-Q4_K_XL do Unsloth: O Unsloth aplicou seu método dinâmico nos checkpoints QAT e recuperou 8–15 pontos percentuais de precisão top-1 versus conversão ingênua, com arquivos ainda menores. Os arquivos se chamam UD-Q4_K_XL e estão publicados em unsloth/gemma-4-*-it-qat-GGUF.

Comparando Q4_K_M padrão com o QAT UD-Q4_K_XL do Unsloth: a versão QAT é melhor com o mesmo uso de memória. É a primeira coisa a tentar para inferência de 4 bits.

IQ4_XS: A alternativa otimizada para tamanho

IQ4_XS usa calibração de matriz de importância para preservar os pesos mais críticos em maior precisão dentro de um arquivo menor. Bem calibrado, pode igualar a qualidade do Q4_K_M com cerca de 9–10% menos tamanho de arquivo. Procure arquivos com a tag "imatrix" de publishers confiáveis.

Esta é uma otimização secundária. Use Q4_K_M (ou QAT) de um publisher conhecido antes de procurar versões imatrix.

O que evitar

Q3 e Q2: Abaixo de Q4, a qualidade degrada acentuadamente para a maioria das tarefas. Raciocínio aritmético tem especialmente uma queda mensurável de precisão. Evite a menos que tenha uma razão muito específica de restrição de memória.

Q8 "só para garantir": Arquivos Q8 têm aproximadamente o dobro do tamanho do Q4. Se não tiver certeza se Q8 ajuda no seu caso de uso, teste Q4 primeiro e faça upgrade apenas se a saída não for boa o suficiente.

GGUFs de publishers desconhecidos: Mantenha-se com ggml-org, unsloth, bartowski ou mradermacher. Publishers desconhecidos podem produzir GGUFs com quantização incorreta ou configuração errada do tokenizer.

Perguntas frequentes

Q8 é sempre melhor que Q4?
Isoladamente, sim. Mas se Q8 fizer o sistema entrar em swap constantemente, Q4 com margem confortável produzirá resultados mais consistentes. A melhor quantização é a que seu hardware consegue executar sem pressão.

Devo usar QAT ou quantização padrão?
Se um GGUF QAT do Unsloth ou Google estiver disponível para o tamanho do seu modelo, é a melhor escolha no nível de 4 bits. O treinamento QAT melhora especificamente a precisão de 4 bits.

Qual é a diferença entre Q4_0 e Q4_K_M?
Q4_K_M usa precisão mista em diferentes tipos de camada, mantendo camadas sensíveis em maior precisão. Q4_0 trata todas as camadas uniformemente em 4 bits. Q4_K_M é quase sempre melhor. Sempre escolha quando disponível.

Quantização afeta o comprimento da janela de contexto?
Indiretamente. Pesos com menor precisão usam menos RAM, deixando mais espaço para o KV cache. Um nível de quantização menor pode suportar contextos efetivos mais longos no mesmo hardware antes de ficar sem memória.

Guias relacionados:

Gemma 4 Q4 vs Q8: Qual quantização baixar de verdade

O sistema de nomenclatura GGUF

Requisitos de memória

Onde a diferença de qualidade realmente aparece

A opção intermediária subestimada: Q5_K_M

Qual arquivo baixar para o seu hardware

Gemma 4 QAT: A opção que muda o cálculo

IQ4_XS: A alternativa otimizada para tamanho

O que evitar

Perguntas frequentes

Guias relacionados

Rodar o Gemma 4 com llama.cpp: Guia Completo de Configuração GGUF (2026)

DiffusionGemma funciona no LM Studio? Status atual (junho 2026)

Corrigir "unknown model architecture" para gemma4 e diffusion-gemma no llama.cpp

Ainda decidindo o que ler depois?