Requisitos de Hardware do Gemma 4: Guia de RAM, VRAM e Tamanho do Modelo

O Google DeepMind lançou o Gemma 4 em 2 de abril de 2026 — quatro modelos de pesos abertos sob a licença Apache 2.0, construídos a partir da mesma pesquisa por trás do Gemini 3. Antes de baixar qualquer coisa, a pergunta mais importante é: qual modelo cabe no seu hardware?

Este guia responde a isso diretamente. Você encontrará tabelas de memória por modelo e quantização, dados de dimensionamento de VRAM por comprimento de contexto, benchmarks reais de GPU e uma árvore de decisão simples para saber por qual variante começar.

Visão Geral da Família de Modelos Gemma 4

O Gemma 4 é lançado em quatro tamanhos, cada um disponível como uma variante base e uma ajustada para instrução (instruction-tuned):

Modelo	Arquitetura	Parâmetros Totais	Parâmetros Ativos	Janela de Contexto	Modalidades
E2B	Dense (PLE)	~5.1B	~2.3B	128K	Texto, Imagem, Áudio, Vídeo
E4B	Dense (PLE)	~5.1B	~4B	128K	Texto, Imagem, Áudio, Vídeo
26B A4B	MoE	26B	4B ativos	256K	Texto, Imagem, Vídeo
31B	Dense	31B	31B	256K	Texto, Imagem, Vídeo

O prefixo "E" significa Parâmetros Efetivos (Effective parameters). O E2B e o E4B usam Per-Layer Embeddings (PLE) — uma técnica que lhes dá a profundidade representacional de um modelo muito maior, mantendo o uso de memória baixo. O 26B A4B é o primeiro modelo Mixture-of-Experts (MoE) do Gemma, ativando apenas 4 bilhões de seus 26 bilhões de parâmetros durante a inferência, o que reduz drasticamente a pressão de VRAM em comparação com seu tamanho total.

Requisitos de VRAM do Gemma 4 por Modelo e Quantização

Esta é a tabela que a maioria das pessoas procura. Estes números representam a memória mínima necessária para carregar o modelo — seu uso real em tempo de execução será maior dependendo do comprimento do contexto e da sobrecarga do sistema.

Modelo	4-bit (Q4)	8-bit (Q8)	BF16 (precisão total)
E2B	~2 GB	~5 GB	~15 GB
E4B	~5 GB	~8 GB	~15 GB
26B A4B	~18 GB	~28 GB	~52 GB
31B	~20 GB	~34 GB	~62 GB

Nota: Os pesos BF16 do 31B cabem em uma única GPU NVIDIA H100 de 80 GB. Para inferência local de consumo, versões quantizadas (Q4 ou Q8) são a escolha prática.

Conclusões rápidas:

E2B e E4B em 4 bits rodam em laptops com 8 GB de RAM ou memória unificada — incluindo Macs com Apple Silicon de entrada.
26B A4B em Q4 precisa de aproximadamente 18 GB, mas se beneficia da eficiência MoE — a pressão de memória ativa é muito menor que a de um modelo denso de 26B.
31B em Q4 precisa de aproximadamente 20 GB para carregar; uma GPU de 24 GB pode rodá-lo em comprimentos de contexto curtos.

Gemma 4 26B A4B: Requisitos de VRAM por Comprimento de Contexto

O 26B A4B é o modelo de destaque para usuários locais. Sua arquitetura de atenção híbrida significa que o dimensionamento do contexto é muito mais eficiente do que em gerações anteriores — o contexto longo não explode o uso de VRAM agressivamente.

26B A4B @ Q4 — VRAM por comprimento de contexto (medido com llama.cpp no Debian 12, CUDA 12.8):

Comprimento de Contexto	VRAM Necessária
4K	17.98 GB
8K	18 GB
16K	18 GB
32K	18 GB
64K	19 GB
128K	20 GB
256K	23 GB

Uma GPU de 24 GB (RTX 3090, RTX 4090) pode rodar a janela de contexto completa de 256K com folga. Isso é incomum para um modelo desta qualidade, e é o principal motivo pelo qual o 26B A4B é a principal recomendação para a maioria dos usuários locais.

Gemma 4 31B: Requisitos de VRAM por Comprimento de Contexto

O 31B é um modelo totalmente denso — cada parâmetro está ativo durante a inferência. O uso de memória escala de forma mais agressiva com o comprimento do contexto em comparação com o MoE 26B.

31B @ Q4 — VRAM por comprimento de contexto:

Comprimento de Contexto	VRAM Necessária
4K	20 GB
8K	21 GB
16K	21 GB
32K	22 GB
64K	25 GB
128K	30 GB
256K	40 GB

Uma GPU de 24 GB pode rodar o 31B em comprimentos de contexto de até aproximadamente 45K tokens antes de atingir seu teto de VRAM. Para o contexto completo de 256K no 31B, você precisa de 40 GB ou mais — isso significa uma GPU de estação de trabalho de 48 GB, uma configuração multi-GPU ou um Mac Apple Silicon com 48–64 GB de memória unificada.

Benchmarks de Desempenho de GPU

Dados reais de benchmark do llama.cpp (build 8639) no mesmo sistema de teste (AMD EPYC 7513, 64 GB RAM, Debian 12, CUDA 12.8). pp = processamento de prompt tokens/seg, tg = geração de texto tokens/seg.

26B A4B @ Q4

GPU	Contexto	pp (t/s)	tg (t/s)
RTX 3090	4K	3.625	119
RTX 3090	128K	1.147	82
RTX 3090	256K	671	64
RTX 5090	4K	8.799	180
RTX 5090	128K	2.839	130
RTX 5090	256K	1.707	106
RTX PRO 6000 Blackwell	4K	9.437	196
RTX PRO 6000 Blackwell	256K	2.245	112

O 26B A4B entrega mais de 1.000 tokens/seg de processamento de prompt em 128K de contexto na RTX 3090 — rápido o suficiente para fluxos de trabalho práticos de agentes.

31B @ Q4

GPU	Contexto	pp (t/s)	tg (t/s)
RTX 3090	4K	1.155	34
RTX 3090	32K	723	31
RTX 3090	~45K	629	30
RTX 5090	4K	3.395	61
RTX 5090	64K	1.459	51
RTX 5090	128K	900	43
RTX PRO 6000 Blackwell	4K	3.749	61
RTX PRO 6000 Blackwell	256K	506	34

O 31B é significativamente mais lento que o 26B — a geração em uma RTX 3090 fica em torno de 30–34 tokens/seg contra 64–119 para o modelo MoE. Se a velocidade importa para seu fluxo de trabalho, o 26B A4B é a melhor escolha em hardware de consumo.

Recomendações de Hardware por Configuração

Por GPU / Tamanho de Memória

Seu Hardware	Modelo Recomendado	Notas
6–8 GB VRAM (GTX 1080, RTX 3070, laptops de entrada)	E2B ou E4B @ Q4	Estes rodam bem em CPU+RAM também, apenas mais devagar
10–16 GB VRAM (RTX 3080, M2 Pro 16 GB)	E4B @ Q8 ou E2B @ BF16	26B A4B ainda é muito grande para Q4
20–24 GB VRAM (RTX 3090, RTX 4090)	26B A4B @ Q4 (contexto completo 256K)	Ponto ideal para a maioria dos usuários locais
24 GB VRAM	31B @ Q4 (até ~45K de contexto)	Contexto limitado; 26B A4B costuma ser melhor aqui
32 GB VRAM (RTX 5090)	31B @ Q4 (até 128K de contexto)	Experiência confortável com 31B
48–96 GB VRAM (RTX PRO 6000 / multi-GPU)	31B @ Q4 ou Q8 (contexto completo 256K)	Contexto total, qualidade máxima

Apple Silicon

O Apple Silicon usa memória unificada compartilhada entre CPU e GPU, o que o torna bem adequado para inferência local de LLMs. Todos os modelos Gemma 4 suportam MLX e llama.cpp com aceleração Metal.

Configuração do Mac	Modelo Recomendado
M1 / M2 (8 GB)	E2B ou E4B @ Q4
M2 Pro / M3 Pro (18–36 GB)	26B A4B @ Q4
M2 Max / M3 Max (48–64 GB)	31B @ Q4 ou Q8
M2 Ultra / M3 Ultra (96–192 GB)	31B @ BF16 (precisão total)

Nota do mundo real: O 26B A4B em um Mac Mini com 24 GB de memória unificada (Q4_K_M via Ollama, ~9,6 GB) roda bem com folga. Rodar o 26B em tamanho real em um Mac de 24 GB pode deixar o sistema pouco responsivo sob solicitações simultâneas — fique no Q4 e deixe margem de memória.

Como Realmente Rodar o Gemma 4 Localmente

Três ferramentas cobrem a maioria das configurações locais:

Ollama — mais fácil para começar:

ollama run gemma4:e4b          # E4B (padrão Q4_K_M)
ollama run gemma4:26b-a4b      # 26B MoE
ollama run gemma4:31b          # 31B Denso

llama.cpp — melhor para inferência em CPU e quantização personalizada:

# Baixe e compile o llama.cpp, então:
llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL

Unsloth Studio — UI web de código aberto, funciona em macOS/Windows/Linux com instalação de uma linha:

# macOS / Linux
curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888

O LM Studio também suporta arquivos GGUF do Gemma 4 nativamente e é uma boa opção se você prefere uma GUI sem qualquer configuração de terminal.

26B A4B vs 31B: Qual Você Deve Escolher?

A escolha depende do orçamento de hardware e do que você valoriza mais.

Escolha o 26B A4B se:

Você tem uma GPU de 24 GB e quer o contexto completo de 256K
A velocidade importa — ele gera 2–3 vezes mais tokens por segundo que o 31B no mesmo hardware
Você está rodando fluxos de trabalho de agentes, assistentes de codificação ou qualquer coisa com rastros de contexto longos

Escolha o 31B se:

Você tem 32 GB+ de VRAM ou um Mac com grande memória unificada
Você quer un modelo totalmente denso com comportamento previsível
Você está fazendo ajuste fino (fine-tuning) e precisa de acesso total aos parâmetros
A qualidade bruta da saída em contextos curtos é sua prioridade máxima

Para a maioria dos usuários locais em hardware de consumo, o 26B A4B é o vencedor claro. Ele cabe perfeitamente em uma GPU de 24 GB, escala para a janela de contexto completa de 256K e entrega um rendimento que faz os fluxos de trabalho agentic parecerem responsivos.

Perguntas Frequentes

Posso rodar o Gemma 4 sem uma GPU? Sim. Todas as variantes rodam apenas em CPU via llama.cpp. O desempenho cai para cerca de 5–10 tokens/segundo para geração de texto, o que é usável para testes, mas lento para uso regular. E2B e E4B são as escolhas mais práticas para configurações apenas com CPU.

Qual é a diferença entre a quantização Q4 e Q8? Q4 (4 bits) reduz a memória em aproximadamente 60% em comparação com BF16. Q8 (8 bits) reduz em aproximadamente 50%. Q4 perde uma pequena quantidade de precisão (aproximadamente 2–5% em benchmarks), mas torna os modelos muito mais acessíveis. Para a maioria das tarefas de inferência, Q4_K_M é o ponto de partida recomendado. Use Q8 se você tiver VRAM e quiser uma saída mais próxima da precisão total.

O Gemma 4 suporta ajuste fino (fine-tuning) em hardware de consumo? Sim, usando QLoRA (Quantized LoRA). O modelo 31B pode ser ajustado com apenas 16 GB de VRAM usando QLoRA via Unsloth ou TRL. O ajuste fino total requer significativamente mais — pelo menos 80 GB de VRAM para o 31B.

Qual é a diferença entre E2B, E4B e os modelos maiores? E2B e E4B são projetados para uso no dispositivo e móvel. Eles usam Per-Layer Embeddings (PLE) para superar sua contagem de parâmetros e suportam entrada de áudio (até 30 segundos). O 26B e o 31B são projetados para estações de trabalho e servidores, com 256K de contexto e raciocínio mais forte. Todos os quatro modelos suportam entrada de imagens e vídeo.

O Gemma 4 é gratuito para uso comercial? Sim. O Gemma 4 é lançado sob a licença Apache 2.0, que permite o uso comercial gratuito, ajuste fino, redistribuição e modificação sem limites de MAU (usuários ativos mensais) ou restrições de caso de uso.

Preciso adicionar VRAM extra para a janela de contexto? Sim. Os números neste guia são a memória necessária apenas para carregar os pesos do modelo. Rodar com uma janela de contexto maior aumenta isso. Para o 26B A4B, a adição é modesta (18 GB em 4K → 23 GB em 256K). Para o 31B, o aumento é maior (20 GB em 4K → 40 GB em 256K). Sempre deixe pelo menos 2–4 GB de margem acima do tamanho do modelo para o tempo de execução, cache KV e sobrecarga do sistema.

Resumo

Se você está decidindo por onde começar, aqui está a versão curta:

Máquina leve (8 GB RAM/VRAM): Comece com E2B ou E4B em Q4.
Máquina de gama média (16–20 GB): E4B em Q8 ou tente 26B A4B com quantização agressiva.
GPU de 24 GB (RTX 3090 / 4090): 26B A4B em Q4 — rode o contexto completo de 256K confortavelmente. Este é o ponto ideal.
GPU de 32 GB (RTX 5090) ou Mac de 48 GB+: 31B em Q4 para contexto total e qualidade máxima.

A família Gemma 4 é um dos lançamentos de modelos abertos mais eficientes em termos de hardware até o momento. O 26B MoE, em particular, torna o contexto total de 256K acessível em hardware que anteriormente não chegava perto desses números.