Guias do Gemma 4
Como rodar o Gemma 4 no Ollama: Tags, Hardware e Primeira Execução

Resposta rápida
Sim, o Ollama suporta o Gemma 4. O suporte chegou com o Ollama v0.20.0 em 3 de abril de 2026 — no mesmo dia em que o Google lançou o modelo. Dois comandos colocam você para rodar:
ollama pull gemma4
ollama run gemma4
A tag padrão é gemma4:e4b — um modelo de 9.6 GB que cabe confortavelmente na maioria das máquinas de desenvolvedores. Se você deseja um tamanho diferente, consulte a tabela de tags abaixo antes de baixar qualquer coisa.
Todas as tags do Gemma 4 no Ollama
Esta é a pergunta mais comum, então vamos direto ao ponto.
| Tag | Tamanho em disco | Janela de contexto | Arquitetura | Entrada de áudio | Ideal para |
|---|---|---|---|---|---|
gemma4:e2b |
7.2 GB | 128K | Densa (2.3B efetivos) | Sim | Laptops, dispositivos de borda, hardware limitado |
gemma4:e4b (padrão) |
9.6 GB | 128K | Densa (4.5B efetivos) | Sim | Maioria dos devs, melhor ponto de partida |
gemma4:26b |
18 GB | 256K | MoE (3.8B ativos) | Não | Melhor qualidade por GB, inferência rápida |
gemma4:31b |
20 GB | 256K | Densa (30.7B) | Não | Qualidade máxima, codificação, raciocínio |
Alguns pontos dignos de nota:
- O "E" em E2B e E4B significa parâmetros "efetivos" — estes são os modelos focados em borda (edge), projetados para laptops e dispositivos móveis.
- O
gemma4:26bé um modelo Mixture-of-Experts. Apenas 3,8 bilhões de parâmetros são ativado durante a inferência, por isso ele roda mais rápido do que seu tamanho total sugere — muitas vezes comparável em velocidade a um modelo denso de 4B, entregando qualidade próxima a um modelo de 13B. - A tag
gemma4:latestaponta paragemma4:e4b. Quando você executaollama run gemma4sem uma tag, é este o modelo carregado.
Pré-requisito: Verificação da versão do Ollama
O Gemma 4 exige o Ollama v0.20.0 ou superior. Versões anteriores falharão ao tentar baixar o modelo. Verifique sua versão primeiro:
ollama --version
Se estiver em uma versão antiga, atualize antes de tentar o download:
# macOS (Homebrew)
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
No Windows, baixe o instalador mais recente em ollama.com.
Requisitos de hardware
Verifique estes números antes de baixar. Um modelo que mal cabe costuma ser pior do que um modelo menor que roda suavemente.
| Modelo | RAM / VRAM mínima | Configuração confortável | Notas |
|---|---|---|---|
gemma4:e2b |
8 GB | 16 GB | Ideal para máquinas apenas com CPU |
gemma4:e4b |
10 GB VRAM ou 16 GB memória unificada | 16–24 GB | Modelo padrão, cabe na maioria das GPUs de consumo |
gemma4:26b |
20 GB RAM ou memória unificada | 24–32 GB | MoE — a inferência ativa é mais leve que seu tamanho |
gemma4:31b |
24 GB VRAM ou 32 GB memória unificada | 32 GB+ | Foco em qualidade, não é para um primeiro download casual |
No Apple Silicon (M1/M2/M3/M4), a memória unificada funciona bem para todos os tamanhos. Um Mac com 16 GB lida com o e4b confortavelmente. O modelo 26b cabe em 24 GB, mas deixa pouca margem — trate-o como o teto, não o alvo ideal.
Em GPUs NVIDIA, os números de VRAM acima são limites rígidos. O modelo precisa caber inteiramente na VRAM para inferência acelerada por GPU. Se não couber, o Ollama recorre à CPU, o que é significativamente mais lento.
Máquinas apenas com CPU podem rodar o Gemma 4, mas espere cerca de 1–3 tokens por segundo no e4b. Use o e2b para um melhor desempenho de CPU.
Qual modelo você deve escolher?
Comece com o menor modelo que cabe confortavelmente no seu hardware, não com o maior que tecnicamente carrega.
- Menos de 16 GB de RAM / VRAM → comece com o
gemma4:e2b - 16 GB de RAM ou 10+ GB de VRAM → o
gemma4:e4bé o padrão correto - 24+ GB de memória unificada ou VRAM → o
gemma4:26boferece qualidade superior com a eficiência MoE - 32 GB+, e a qualidade é o mais importante → use o
gemma4:31bpara codificação, raciocínio e síntese de documentos
Para a maioria dos desenvolvedores que fazem experimentação local, o e4b é a resposta certa. Suba de nível apenas após confirmar que a primeira execução parece estável e responsiva.
Comandos de Download (Pull) e Execução
Baixar sem rodar (recomendado para modelos grandes):
ollama pull gemma4 # baixa o e4b (padrão, 9.6 GB)
ollama pull gemma4:e2b # 7.2 GB
ollama pull gemma4:26b # 18 GB
ollama pull gemma4:31b # 20 GB
Executar de forma interativa:
ollama run gemma4 # inicia o e4b
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b
Verificar o que você tem instalado:
ollama list
Verificar quais modelos estão carregados na memória:
ollama ps
Usando a API local
O Ollama expõe uma API REST local em http://localhost:11434 uma vez que o modelo esteja rodando. Você pode chamá-la de qualquer cliente HTTP — sem dependência de nuvem, sem chave de API.
curl (gerar)
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"prompt": "Explique a diferença entre arquiteturas MoE e transformadores densos.",
"stream": false
}'
curl (chat, compatível com OpenAI)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"messages": [
{"role": "user", "content": "Escreva uma função em Python para analisar JSON com segurança."}
]
}'
Python (biblioteca ollama)
from ollama import chat
response = chat(
model='gemma4',
messages=[{'role': 'user', 'content': 'O que é Mixture of Experts?'}],
)
print(response.message.content)
Python (SDK da OpenAI, compatível)
Como a API do Ollama é compatível com a da OpenAI, você pode apontar o SDK oficial da OpenAI para sua instância local:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # exigido pelo SDK, mas não utilizado pelo Ollama
)
response = client.chat.completions.create(
model="gemma4",
messages=[
{"role": "system", "content": "Você é um assistente de programação útil."},
{"role": "user", "content": "Escreva uma função em Python para achatar uma lista aninhada."}
]
)
print(response.choices[0].message.content)
O que o Gemma 4 faz que o Gemma 3 não fazia
Estas não são melhorias incrementais — as lacunas de benchmark são substanciais:
| Benchmark | Gemma 4 31B | Gemma 4 E4B | Gemma 3 27B |
|---|---|---|---|
| AIME 2026 (raciocínio matemático) | 89.2% | 42.5% | 20.8% |
| LiveCodeBench v6 (codificação) | 80.0% | 52.0% | 29.1% |
| Codeforces ELO | 2150 | 940 | 110 |
| MMLU Pro (conhecimento) | 85.2% | 69.4% | 67.6% |
| GPQA Diamond (ciências) | 84.3% | 58.6% | 42.4% |
Além dos benchmarks, o Gemma 4 adiciona capacidades que não existiam no Gemma 3:
- Chamada de função nativa (Function calling) — todas as quatro variantes suportam uso estruturado de ferramentas nativamente, retornando JSONs válidos de acordo com o seu esquema.
- Modos de pensamento (Thinking modes) — você pode ativar ou desativar o raciocínio chain-of-thought por requisição usando o token
<|think|>no prompt de sistema. - 256K de contexto nos modelos 26B e 31B (acima dos 128K do Gemma 3 27B).
- Entrada de áudio nos modelos E2B e E4B — reconhecimento e compreensão de fala ao lado de texto e imagens.
- Mais de 140 idiomas suportados nativamente.
Modo de pensamento (Thinking mode)
O Gemma 4 suporta raciocínio chain-of-thought configurável. Para ativá-lo, inclua o token <|think|> no início do seu prompt de sistema:
from ollama import chat
response = chat(
model='gemma4:31b',
messages=[
{
'role': 'system',
'content': '<|think|> Pense passo a passo antes de responder.'
},
{
'role': 'user',
'content': 'Qual é a integral de x^2 de 0 a 3?'
}
],
)
print(response.message.content)
Para desativar o pensamento, remova o token <|think|> do prompt de sistema. Para os modelos E2B e E4B, o pensamento fica totalmente desligado sem o token. Nos modelos 26B e 31B, o modelo ainda gera as tags de pensamento, mas com um bloco de pensamento vazio.
Para consultas simples ou chat casual, pule o pensamento. Para matemática, codificação complexa ou análise de documentos, ative-o — a diferença de qualidade é significativa nos modelos maiores.
Erros comuns e correções
Error: gemma4:e4b requires a newer version of Ollama
Sua versão do Ollama é anterior à v0.20.0. Execute o comando de atualização para seu sistema operacional (consulte a seção de pré-requisitos acima) e tente novamente.
Falta de memória (Out of memory) / modelo não carrega
Verifique a VRAM ou memória unificada disponível com ollama ps. Se o modelo for grande demais, mude para uma tag menor. O gemma4:e2b (7.2 GB) é a opção oficial mais leve.
Respostas lentas (1–5 tokens/segundo)
Se o Ollama não estiver usando sua GPU, o modelo estará rodando na CPU. Verifique se os drivers da GPU estão atualizados e se o Ollama consegue enxergar sua GPU. No Apple Silicon, certifique-se de estar em uma versão recente do Ollama — o suporte à aceleração MLX foi adicionado na v0.20.0.
A porta 11434 já está em uso
Outra instância do Ollama está rodando ou outro processo ocupou a porta. Você pode definir uma porta personalizada:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
Em seguida, atualize suas chamadas de API para usar a porta 11435.
O que verificar antes de culpar o modelo
Se a qualidade da saída parecer pior do que o esperado, verifique esta lista antes de mudar para um modelo maior:
- Confirme se você está rodando o tamanho de modelo pretendido —
ollama listmostra o que está instalado. - Verifique se a inferência por GPU está ativa —
ollama psmostra qual processador está sendo usado. - Tente ativar o modo de pensamento se a tarefa envolver raciocínio ou matemática.
- Verifique se sua janela de contexto é grande o suficiente para o prompt completo.
- Use as configurações de amostragem recomendadas:
temperature=1.0,top_p=0.95,top_k=64.
Em muitos casos, o e4b com o modo de pensamento ativado lida com tarefas que inicialmente pareciam exigir o 31b.
Próximos passos
Se o Ollama não for a escolha ideal para o seu setup, aqui estão duas alternativas comuns:
- LM Studio — um runtime local com interface gráfica, bom se você preferir não trabalhar no terminal.
- llama.cpp — oferece maior controle de configuração, ideal para ambientes focados em CPU ou limitados.
Se você quiser experimentar o Gemma 4 sem qualquer configuração local, o Google AI Studio oferece acesso hospedado aos modelos 31B e 26B.
Guias relacionados
Guias relacionados
Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

O LM Studio Suporta o Gemma 4? Compatibilidade, Lista de Modelos e Requisitos
Uma resposta clara sobre se o LM Studio suporta o Gemma 4, com a lista de modelos suportados, memória mínima e expectativas práticas de configuração.

Requisitos de VRAM do Gemma 4 26B A4B: Q4, Q8, F16 e Placas de 24 GB
Um guia focado nos requisitos de VRAM do Gemma 4 26B A4B com tamanhos exatos de GGUF, faixas de planejamento e por que o 26B é o ponto ideal para uso local.

Requisitos de VRAM do Gemma 4 31B: Q4, Q8, F16 e Hardware Prático
Um guia focado nos requisitos de VRAM do Gemma 4 31B com tamanhos exatos de GGUF, faixas de planejamento e conselhos realistas sobre qual hardware faz sentido.
Ainda decidindo o que ler depois?
Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.
