Guias do Gemma 4
Gemma 4 Q4 vs Q8: Qual quantização baixar de verdade

Ao baixar um GGUF do Gemma 4, você está escolhendo um nível de compressão. O número no nome do arquivo (Q4, Q5, Q8) é quantos bits são usados por peso do modelo. Menos bits significa arquivo menor, menos RAM e alguma perda de qualidade. Mais bits significa arquivo maior, mais RAM e saída mais próxima do modelo em precisão completa.
A escolha certa para a maioria: comece com Q4_K_M. Mude para Q5_K_M se quiser saídas notavelmente melhores para raciocínio ou codificação e seu hardware tiver espaço. Vá para Q8 apenas quando confirmar que Q4 não é bom o suficiente para sua tarefa e memória não é um limitante.
Há também uma opção mais recente — QAT — que muda completamente esse cálculo. Mais sobre isso abaixo.
O sistema de nomenclatura GGUF
No Hugging Face, os arquivos de modelo seguem um padrão como Q4_K_M, Q5_K_S, Q8_0. O que cada parte significa:
- Q4 = quantização de 4 bits (4 bits armazenados por peso do modelo)
- K = formato K-quant: precisão mista que mantém camadas mais sensíveis em maior precisão
- M = variante médium (S é menor, L é maior dentro da família K-quant)
- Q8_0 = 8 bits, o formato legado zero-point
- Q4_0 = 4 bits, o formato legado zero-point (pior que Q4_K_M no mesmo tamanho)
O mais importante: Q4_0 e Q4_K_M não são equivalentes. Formatos K-quant usam precisão mista em diferentes tipos de camadas. Na prática, Q4_K_M produz saídas notavelmente melhores que Q4_0 com essencialmente o mesmo tamanho de arquivo. Se tiver escolha, sempre prefira Q4_K_M.
Requisitos de memória
Dados oficiais do Google (com ~20% de overhead). As medições práticas do Unsloth colocam o carregamento do 26B A4B Q4 em cerca de 18 GB, acima da estimativa do Google.
| Modelo | Q4_K_M | Q8_0 | BF16 |
|---|---|---|---|
| Gemma 4 E2B | ~2,9 GB | ~5,7 GB | ~11,4 GB |
| Gemma 4 E4B | ~4,5 GB | ~8,9 GB | ~17,9 GB |
| Gemma 4 12B | ~6,7 GB | ~13,4 GB | ~26,7 GB |
| Gemma 4 26B A4B | ~14,4–18 GB | ~28 GB | ~52–58 GB |
| Gemma 4 31B | ~17,5 GB | ~34,9 GB | ~69,9 GB |
Esses são valores estimados de carregamento do modelo. Adicione o KV cache por cima (cresce com o comprimento do contexto). Em contextos longos, o KV cache pode superar os pesos do modelo.
Onde a diferença de qualidade realmente aparece
A pesquisa sobre qualidade de quantização é consistente: chat casual, resumo e extração são altamente resistentes à quantização. A diferença de perplexidade entre Q4_K_M e Q8 em tarefas conversacionais é de centésimos de ponto — imperceptível no uso normal.
A diferença fica visível em tarefas onde a precisão acumula em muitos passos:
- Cadeias de raciocínio de múltiplas etapas (erro de quantização se acumula a cada passo)
- Geração e refatoração de código complexo
- Tarefas com muita matemática
- Trabalho com contexto longo onde o contexto anterior influencia precisamente conclusões posteriores
- Saídas estruturadas que exigem seguimento preciso de instruções em muitos constraints
Para a maioria dos casos de uso locais — chat, Q&A de documentos, auxílio de escrita, ajuda simples de codificação — Q4_K_M é geralmente suficiente. Se você roda um agente de codificação ou pipeline de raciocínio complexo, vale testar Q8 antes de decidir.
A opção intermediária subestimada: Q5_K_M
Q5_K_M fica entre Q4 e Q8 e frequentemente é a escolha certa quando:
- O sistema tem espaço de memória além do que Q4 precisa
- Você faz trabalho de codificação ou raciocínio onde Q4 ocasionalmente parece pouco confiável
- Não quer o custo total de 2× memória do Q8
Exemplo: em um sistema de 32 GB rodando 26B A4B, Q5_K_M usa cerca de 20–22 GB e entrega saídas notavelmente melhores que Q4_K_M com um aumento de memória gerenciável. Q8 exigiria ~28 GB, deixando pouca margem para contexto.
Se Q4 já está lotando o sistema, Q5 não vai caber. Mas com margem confortável, Q5_K_M vale considerar antes de pular diretamente para Q8.
Qual arquivo baixar para o seu hardware
| Seu setup | Comece com |
|---|---|
| Laptop com 8 GB de RAM | E2B Q4_K_M, ou E4B Q4_K_M se couber confortavelmente |
| Sistema com 16 GB | E4B Q4_K_M |
| GPU de 24 GB | 26B A4B Q4_K_M |
| Sistema com 32 GB | 26B A4B Q4_K_M confortavelmente; tentar Q5_K_M se couber |
| 48 GB ou mais | 26B A4B Q8, ou 31B Q4_K_M |
| Workstation com 64 GB ou mais | 31B Q8, ou 26B A4B Q8 |
Se o modelo mal cabe em Q4, não force Q8. Escolha um modelo menor em Q5 ou Q6. Um modelo bem dimensionado sem pressão de memória supera consistentemente um modelo maior que está constantemente em swap.
Gemma 4 QAT: A opção que muda o cálculo
O Google lançou versões QAT (Quantization-Aware Training) do Gemma 4 em 5 de junho de 2026. Modelos QAT são treinados com simulação de quantização integrada no loop de treinamento — o modelo aprende a compensar a perda de precisão em vez de ter compressão aplicada depois.
Resultado: um modelo QAT Q4 performa notavelmente melhor que um modelo Q4 padrão pós-treinamento do mesmo tamanho, às vezes se aproximando da qualidade Q8 padrão.
Para uso com GGUF, há dois caminhos relevantes:
-
GGUF QAT oficial do Google (formato Q4_0): Disponível diretamente no Hugging Face em
google/gemma-4-*-it-qat-q4_0-gguf. Atenção: conversão ingênua do checkpoint QAT para o formato Q4_0 do llama.cpp perde parte do benefício de qualidade do QAT. -
GGUFs UD-Q4_K_XL do Unsloth: O Unsloth aplicou seu método dinâmico nos checkpoints QAT e recuperou 8–15 pontos percentuais de precisão top-1 versus conversão ingênua, com arquivos ainda menores. Os arquivos se chamam
UD-Q4_K_XLe estão publicados emunsloth/gemma-4-*-it-qat-GGUF.
Comparando Q4_K_M padrão com o QAT UD-Q4_K_XL do Unsloth: a versão QAT é melhor com o mesmo uso de memória. É a primeira coisa a tentar para inferência de 4 bits.
IQ4_XS: A alternativa otimizada para tamanho
IQ4_XS usa calibração de matriz de importância para preservar os pesos mais críticos em maior precisão dentro de um arquivo menor. Bem calibrado, pode igualar a qualidade do Q4_K_M com cerca de 9–10% menos tamanho de arquivo. Procure arquivos com a tag "imatrix" de publishers confiáveis.
Esta é uma otimização secundária. Use Q4_K_M (ou QAT) de um publisher conhecido antes de procurar versões imatrix.
O que evitar
Q3 e Q2: Abaixo de Q4, a qualidade degrada acentuadamente para a maioria das tarefas. Raciocínio aritmético tem especialmente uma queda mensurável de precisão. Evite a menos que tenha uma razão muito específica de restrição de memória.
Q8 "só para garantir": Arquivos Q8 têm aproximadamente o dobro do tamanho do Q4. Se não tiver certeza se Q8 ajuda no seu caso de uso, teste Q4 primeiro e faça upgrade apenas se a saída não for boa o suficiente.
GGUFs de publishers desconhecidos: Mantenha-se com ggml-org, unsloth, bartowski ou mradermacher. Publishers desconhecidos podem produzir GGUFs com quantização incorreta ou configuração errada do tokenizer.
Perguntas frequentes
Q8 é sempre melhor que Q4?
Isoladamente, sim. Mas se Q8 fizer o sistema entrar em swap constantemente, Q4 com margem confortável produzirá resultados mais consistentes. A melhor quantização é a que seu hardware consegue executar sem pressão.
Devo usar QAT ou quantização padrão?
Se um GGUF QAT do Unsloth ou Google estiver disponível para o tamanho do seu modelo, é a melhor escolha no nível de 4 bits. O treinamento QAT melhora especificamente a precisão de 4 bits.
Qual é a diferença entre Q4_0 e Q4_K_M?
Q4_K_M usa precisão mista em diferentes tipos de camada, mantendo camadas sensíveis em maior precisão. Q4_0 trata todas as camadas uniformemente em 4 bits. Q4_K_M é quase sempre melhor. Sempre escolha quando disponível.
Quantização afeta o comprimento da janela de contexto?
Indiretamente. Pesos com menor precisão usam menos RAM, deixando mais espaço para o KV cache. Um nível de quantização menor pode suportar contextos efetivos mais longos no mesmo hardware antes de ficar sem memória.
Guias relacionados:
Guias relacionados
Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Como rodar o Gemma 4 com llama.cpp: Configuração de GGUF, Hardware e Guia de Quantização
Tudo o que você precisa para rodar o Gemma 4 localmente com o llama.cpp: tabelas de hardware, comandos de build prontos para copiar e colar, guia de quantização e configuração multimodal.

DiffusionGemma funciona no LM Studio? Status atual (junho 2026)
Os engines llama.cpp e MLX do LM Studio falham ao carregar DiffusionGemma em junho de 2026. Explicamos o que os erros significam, onde estão sendo rastreados e quais ferramentas realmente funcionam.

Corrigir "unknown model architecture" para gemma4 e diffusion-gemma no llama.cpp
Os erros de arquitetura gemma4 e diffusion-gemma têm causas diferentes e correções diferentes. Tratá-los da mesma forma vai desperdiçar seu tempo.
Ainda decidindo o que ler depois?
Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.
