Guias do Gemma 4
Requisitos de Hardware do Gemma 4: Guia de RAM, VRAM e Tamanho do Modelo

O Google DeepMind lançou o Gemma 4 em 2 de abril de 2026 — quatro modelos de pesos abertos sob a licença Apache 2.0, construídos a partir da mesma pesquisa por trás do Gemini 3. Antes de baixar qualquer coisa, a pergunta mais importante é: qual modelo cabe no seu hardware?
Este guia responde a isso diretamente. Você encontrará tabelas de memória por modelo e quantização, dados de dimensionamento de VRAM por comprimento de contexto, benchmarks reais de GPU e uma árvore de decisão simples para saber por qual variante começar.
Visão Geral da Família de Modelos Gemma 4
O Gemma 4 é lançado em quatro tamanhos, cada um disponível como uma variante base e uma ajustada para instrução (instruction-tuned):
| Modelo | Arquitetura | Parâmetros Totais | Parâmetros Ativos | Janela de Contexto | Modalidades |
|---|---|---|---|---|---|
| E2B | Dense (PLE) | ~5.1B | ~2.3B | 128K | Texto, Imagem, Áudio, Vídeo |
| E4B | Dense (PLE) | ~5.1B | ~4B | 128K | Texto, Imagem, Áudio, Vídeo |
| 26B A4B | MoE | 26B | 4B ativos | 256K | Texto, Imagem, Vídeo |
| 31B | Dense | 31B | 31B | 256K | Texto, Imagem, Vídeo |
O prefixo "E" significa Parâmetros Efetivos (Effective parameters). O E2B e o E4B usam Per-Layer Embeddings (PLE) — uma técnica que lhes dá a profundidade representacional de um modelo muito maior, mantendo o uso de memória baixo. O 26B A4B é o primeiro modelo Mixture-of-Experts (MoE) do Gemma, ativando apenas 4 bilhões de seus 26 bilhões de parâmetros durante a inferência, o que reduz drasticamente a pressão de VRAM em comparação com seu tamanho total.
Requisitos de VRAM do Gemma 4 por Modelo e Quantização
Esta é a tabela que a maioria das pessoas procura. Estes números representam a memória mínima necessária para carregar o modelo — seu uso real em tempo de execução será maior dependendo do comprimento do contexto e da sobrecarga do sistema.
| Modelo | 4-bit (Q4) | 8-bit (Q8) | BF16 (precisão total) |
|---|---|---|---|
| E2B | ~2 GB | ~5 GB | ~15 GB |
| E4B | ~5 GB | ~8 GB | ~15 GB |
| 26B A4B | ~18 GB | ~28 GB | ~52 GB |
| 31B | ~20 GB | ~34 GB | ~62 GB |
Nota: Os pesos BF16 do 31B cabem em uma única GPU NVIDIA H100 de 80 GB. Para inferência local de consumo, versões quantizadas (Q4 ou Q8) são a escolha prática.
Conclusões rápidas:
- E2B e E4B em 4 bits rodam em laptops com 8 GB de RAM ou memória unificada — incluindo Macs com Apple Silicon de entrada.
- 26B A4B em Q4 precisa de aproximadamente 18 GB, mas se beneficia da eficiência MoE — a pressão de memória ativa é muito menor que a de um modelo denso de 26B.
- 31B em Q4 precisa de aproximadamente 20 GB para carregar; uma GPU de 24 GB pode rodá-lo em comprimentos de contexto curtos.
Gemma 4 26B A4B: Requisitos de VRAM por Comprimento de Contexto
O 26B A4B é o modelo de destaque para usuários locais. Sua arquitetura de atenção híbrida significa que o dimensionamento do contexto é muito mais eficiente do que em gerações anteriores — o contexto longo não explode o uso de VRAM agressivamente.
26B A4B @ Q4 — VRAM por comprimento de contexto (medido com llama.cpp no Debian 12, CUDA 12.8):
| Comprimento de Contexto | VRAM Necessária |
|---|---|
| 4K | 17.98 GB |
| 8K | 18 GB |
| 16K | 18 GB |
| 32K | 18 GB |
| 64K | 19 GB |
| 128K | 20 GB |
| 256K | 23 GB |
Uma GPU de 24 GB (RTX 3090, RTX 4090) pode rodar a janela de contexto completa de 256K com folga. Isso é incomum para um modelo desta qualidade, e é o principal motivo pelo qual o 26B A4B é a principal recomendação para a maioria dos usuários locais.
Gemma 4 31B: Requisitos de VRAM por Comprimento de Contexto
O 31B é um modelo totalmente denso — cada parâmetro está ativo durante a inferência. O uso de memória escala de forma mais agressiva com o comprimento do contexto em comparação com o MoE 26B.
31B @ Q4 — VRAM por comprimento de contexto:
| Comprimento de Contexto | VRAM Necessária |
|---|---|
| 4K | 20 GB |
| 8K | 21 GB |
| 16K | 21 GB |
| 32K | 22 GB |
| 64K | 25 GB |
| 128K | 30 GB |
| 256K | 40 GB |
Uma GPU de 24 GB pode rodar o 31B em comprimentos de contexto de até aproximadamente 45K tokens antes de atingir seu teto de VRAM. Para o contexto completo de 256K no 31B, você precisa de 40 GB ou mais — isso significa uma GPU de estação de trabalho de 48 GB, uma configuração multi-GPU ou um Mac Apple Silicon com 48–64 GB de memória unificada.
Benchmarks de Desempenho de GPU
Dados reais de benchmark do llama.cpp (build 8639) no mesmo sistema de teste (AMD EPYC 7513, 64 GB RAM, Debian 12, CUDA 12.8). pp = processamento de prompt tokens/seg, tg = geração de texto tokens/seg.
26B A4B @ Q4
| GPU | Contexto | pp (t/s) | tg (t/s) |
|---|---|---|---|
| RTX 3090 | 4K | 3.625 | 119 |
| RTX 3090 | 128K | 1.147 | 82 |
| RTX 3090 | 256K | 671 | 64 |
| RTX 5090 | 4K | 8.799 | 180 |
| RTX 5090 | 128K | 2.839 | 130 |
| RTX 5090 | 256K | 1.707 | 106 |
| RTX PRO 6000 Blackwell | 4K | 9.437 | 196 |
| RTX PRO 6000 Blackwell | 256K | 2.245 | 112 |
O 26B A4B entrega mais de 1.000 tokens/seg de processamento de prompt em 128K de contexto na RTX 3090 — rápido o suficiente para fluxos de trabalho práticos de agentes.
31B @ Q4
| GPU | Contexto | pp (t/s) | tg (t/s) |
|---|---|---|---|
| RTX 3090 | 4K | 1.155 | 34 |
| RTX 3090 | 32K | 723 | 31 |
| RTX 3090 | ~45K | 629 | 30 |
| RTX 5090 | 4K | 3.395 | 61 |
| RTX 5090 | 64K | 1.459 | 51 |
| RTX 5090 | 128K | 900 | 43 |
| RTX PRO 6000 Blackwell | 4K | 3.749 | 61 |
| RTX PRO 6000 Blackwell | 256K | 506 | 34 |
O 31B é significativamente mais lento que o 26B — a geração em uma RTX 3090 fica em torno de 30–34 tokens/seg contra 64–119 para o modelo MoE. Se a velocidade importa para seu fluxo de trabalho, o 26B A4B é a melhor escolha em hardware de consumo.
Recomendações de Hardware por Configuração
Por GPU / Tamanho de Memória
| Seu Hardware | Modelo Recomendado | Notas |
|---|---|---|
| 6–8 GB VRAM (GTX 1080, RTX 3070, laptops de entrada) | E2B ou E4B @ Q4 | Estes rodam bem em CPU+RAM também, apenas mais devagar |
| 10–16 GB VRAM (RTX 3080, M2 Pro 16 GB) | E4B @ Q8 ou E2B @ BF16 | 26B A4B ainda é muito grande para Q4 |
| 20–24 GB VRAM (RTX 3090, RTX 4090) | 26B A4B @ Q4 (contexto completo 256K) | Ponto ideal para a maioria dos usuários locais |
| 24 GB VRAM | 31B @ Q4 (até ~45K de contexto) | Contexto limitado; 26B A4B costuma ser melhor aqui |
| 32 GB VRAM (RTX 5090) | 31B @ Q4 (até 128K de contexto) | Experiência confortável com 31B |
| 48–96 GB VRAM (RTX PRO 6000 / multi-GPU) | 31B @ Q4 ou Q8 (contexto completo 256K) | Contexto total, qualidade máxima |
Apple Silicon
O Apple Silicon usa memória unificada compartilhada entre CPU e GPU, o que o torna bem adequado para inferência local de LLMs. Todos os modelos Gemma 4 suportam MLX e llama.cpp com aceleração Metal.
| Configuração do Mac | Modelo Recomendado |
|---|---|
| M1 / M2 (8 GB) | E2B ou E4B @ Q4 |
| M2 Pro / M3 Pro (18–36 GB) | 26B A4B @ Q4 |
| M2 Max / M3 Max (48–64 GB) | 31B @ Q4 ou Q8 |
| M2 Ultra / M3 Ultra (96–192 GB) | 31B @ BF16 (precisão total) |
Nota do mundo real: O 26B A4B em um Mac Mini com 24 GB de memória unificada (Q4_K_M via Ollama, ~9,6 GB) roda bem com folga. Rodar o 26B em tamanho real em um Mac de 24 GB pode deixar o sistema pouco responsivo sob solicitações simultâneas — fique no Q4 e deixe margem de memória.
Como Realmente Rodar o Gemma 4 Localmente
Três ferramentas cobrem a maioria das configurações locais:
Ollama — mais fácil para começar:
ollama run gemma4:e4b # E4B (padrão Q4_K_M)
ollama run gemma4:26b-a4b # 26B MoE
ollama run gemma4:31b # 31B Denso
llama.cpp — melhor para inferência em CPU e quantização personalizada:
# Baixe e compile o llama.cpp, então:
llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL
Unsloth Studio — UI web de código aberto, funciona em macOS/Windows/Linux com instalação de uma linha:
# macOS / Linux
curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888
O LM Studio também suporta arquivos GGUF do Gemma 4 nativamente e é uma boa opção se você prefere uma GUI sem qualquer configuração de terminal.
26B A4B vs 31B: Qual Você Deve Escolher?
A escolha depende do orçamento de hardware e do que você valoriza mais.
Escolha o 26B A4B se:
- Você tem uma GPU de 24 GB e quer o contexto completo de 256K
- A velocidade importa — ele gera 2–3 vezes mais tokens por segundo que o 31B no mesmo hardware
- Você está rodando fluxos de trabalho de agentes, assistentes de codificação ou qualquer coisa com rastros de contexto longos
Escolha o 31B se:
- Você tem 32 GB+ de VRAM ou um Mac com grande memória unificada
- Você quer un modelo totalmente denso com comportamento previsível
- Você está fazendo ajuste fino (fine-tuning) e precisa de acesso total aos parâmetros
- A qualidade bruta da saída em contextos curtos é sua prioridade máxima
Para a maioria dos usuários locais em hardware de consumo, o 26B A4B é o vencedor claro. Ele cabe perfeitamente em uma GPU de 24 GB, escala para a janela de contexto completa de 256K e entrega um rendimento que faz os fluxos de trabalho agentic parecerem responsivos.
Perguntas Frequentes
Posso rodar o Gemma 4 sem uma GPU? Sim. Todas as variantes rodam apenas em CPU via llama.cpp. O desempenho cai para cerca de 5–10 tokens/segundo para geração de texto, o que é usável para testes, mas lento para uso regular. E2B e E4B são as escolhas mais práticas para configurações apenas com CPU.
Qual é a diferença entre a quantização Q4 e Q8? Q4 (4 bits) reduz a memória em aproximadamente 60% em comparação com BF16. Q8 (8 bits) reduz em aproximadamente 50%. Q4 perde uma pequena quantidade de precisão (aproximadamente 2–5% em benchmarks), mas torna os modelos muito mais acessíveis. Para a maioria das tarefas de inferência, Q4_K_M é o ponto de partida recomendado. Use Q8 se você tiver VRAM e quiser uma saída mais próxima da precisão total.
O Gemma 4 suporta ajuste fino (fine-tuning) em hardware de consumo? Sim, usando QLoRA (Quantized LoRA). O modelo 31B pode ser ajustado com apenas 16 GB de VRAM usando QLoRA via Unsloth ou TRL. O ajuste fino total requer significativamente mais — pelo menos 80 GB de VRAM para o 31B.
Qual é a diferença entre E2B, E4B e os modelos maiores? E2B e E4B são projetados para uso no dispositivo e móvel. Eles usam Per-Layer Embeddings (PLE) para superar sua contagem de parâmetros e suportam entrada de áudio (até 30 segundos). O 26B e o 31B são projetados para estações de trabalho e servidores, com 256K de contexto e raciocínio mais forte. Todos os quatro modelos suportam entrada de imagens e vídeo.
O Gemma 4 é gratuito para uso comercial? Sim. O Gemma 4 é lançado sob a licença Apache 2.0, que permite o uso comercial gratuito, ajuste fino, redistribuição e modificação sem limites de MAU (usuários ativos mensais) ou restrições de caso de uso.
Preciso adicionar VRAM extra para a janela de contexto? Sim. Os números neste guia são a memória necessária apenas para carregar os pesos do modelo. Rodar com uma janela de contexto maior aumenta isso. Para o 26B A4B, a adição é modesta (18 GB em 4K → 23 GB em 256K). Para o 31B, o aumento é maior (20 GB em 4K → 40 GB em 256K). Sempre deixe pelo menos 2–4 GB de margem acima do tamanho do modelo para o tempo de execução, cache KV e sobrecarga do sistema.
Resumo
Se você está decidindo por onde começar, aqui está a versão curta:
- Máquina leve (8 GB RAM/VRAM): Comece com E2B ou E4B em Q4.
- Máquina de gama média (16–20 GB): E4B em Q8 ou tente 26B A4B com quantização agressiva.
- GPU de 24 GB (RTX 3090 / 4090): 26B A4B em Q4 — rode o contexto completo de 256K confortavelmente. Este é o ponto ideal.
- GPU de 32 GB (RTX 5090) ou Mac de 48 GB+: 31B em Q4 para contexto total e qualidade máxima.
A família Gemma 4 é um dos lançamentos de modelos abertos mais eficientes em termos de hardware até o momento. O 26B MoE, em particular, torna o contexto total de 256K acessível em hardware que anteriormente não chegava perto desses números.
Próximas leituras recomendadas
Guias relacionados
Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Requisitos de VRAM do Gemma 4 26B A4B: Q4, Q8, F16 e Placas de 24 GB
Um guia focado nos requisitos de VRAM do Gemma 4 26B A4B com tamanhos exatos de GGUF, faixas de planejamento e por que o 26B é o ponto ideal para uso local.

Requisitos de VRAM do Gemma 4 31B: Q4, Q8, F16 e Hardware Prático
Um guia focado nos requisitos de VRAM do Gemma 4 31B com tamanhos exatos de GGUF, faixas de planejamento e conselhos realistas sobre qual hardware faz sentido.

Requisitos de VRAM do Gemma 4 E2B: Q4, Q8, F16 e Dispositivos de Borda
Um guia focado nos requisitos de VRAM do Gemma 4 E2B com tamanhos exatos de arquivo, faixas de planejamento prático e conselhos realistas sobre quando o E2B é a escolha certa.
Ainda decidindo o que ler depois?
Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.
