Como rodar o Gemma 4 no Ollama: Tags, Hardware e Primeira Execução

Resposta rápida

Sim, o Ollama suporta o Gemma 4. O suporte chegou com o Ollama v0.20.0 em 3 de abril de 2026 — no mesmo dia em que o Google lançou o modelo. Dois comandos colocam você para rodar:

ollama pull gemma4
ollama run gemma4

A tag padrão é gemma4:e4b — um modelo de 9.6 GB que cabe confortavelmente na maioria das máquinas de desenvolvedores. Se você deseja um tamanho diferente, consulte a tabela de tags abaixo antes de baixar qualquer coisa.

Todas as tags do Gemma 4 no Ollama

Esta é a pergunta mais comum, então vamos direto ao ponto.

Tag	Tamanho em disco	Janela de contexto	Arquitetura	Entrada de áudio	Ideal para
`gemma4:e2b`	7.2 GB	128K	Densa (2.3B efetivos)	Sim	Laptops, dispositivos de borda, hardware limitado
`gemma4:e4b` (padrão)	9.6 GB	128K	Densa (4.5B efetivos)	Sim	Maioria dos devs, melhor ponto de partida
`gemma4:26b`	18 GB	256K	MoE (3.8B ativos)	Não	Melhor qualidade por GB, inferência rápida
`gemma4:31b`	20 GB	256K	Densa (30.7B)	Não	Qualidade máxima, codificação, raciocínio

Alguns pontos dignos de nota:

O "E" em E2B e E4B significa parâmetros "efetivos" — estes são os modelos focados em borda (edge), projetados para laptops e dispositivos móveis.
O gemma4:26b é um modelo Mixture-of-Experts. Apenas 3,8 bilhões de parâmetros são ativado durante a inferência, por isso ele roda mais rápido do que seu tamanho total sugere — muitas vezes comparável em velocidade a um modelo denso de 4B, entregando qualidade próxima a um modelo de 13B.
A tag gemma4:latest aponta para gemma4:e4b. Quando você executa ollama run gemma4 sem uma tag, é este o modelo carregado.

Pré-requisito: Verificação da versão do Ollama

O Gemma 4 exige o Ollama v0.20.0 ou superior. Versões anteriores falharão ao tentar baixar o modelo. Verifique sua versão primeiro:

ollama --version

Se estiver em uma versão antiga, atualize antes de tentar o download:

# macOS (Homebrew)
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

No Windows, baixe o instalador mais recente em ollama.com.

Requisitos de hardware

Verifique estes números antes de baixar. Um modelo que mal cabe costuma ser pior do que um modelo menor que roda suavemente.

Modelo	RAM / VRAM mínima	Configuração confortável	Notas
`gemma4:e2b`	8 GB	16 GB	Ideal para máquinas apenas com CPU
`gemma4:e4b`	10 GB VRAM ou 16 GB memória unificada	16–24 GB	Modelo padrão, cabe na maioria das GPUs de consumo
`gemma4:26b`	20 GB RAM ou memória unificada	24–32 GB	MoE — a inferência ativa é mais leve que seu tamanho
`gemma4:31b`	24 GB VRAM ou 32 GB memória unificada	32 GB+	Foco em qualidade, não é para um primeiro download casual

No Apple Silicon (M1/M2/M3/M4), a memória unificada funciona bem para todos os tamanhos. Um Mac com 16 GB lida com o e4b confortavelmente. O modelo 26b cabe em 24 GB, mas deixa pouca margem — trate-o como o teto, não o alvo ideal.

Em GPUs NVIDIA, os números de VRAM acima são limites rígidos. O modelo precisa caber inteiramente na VRAM para inferência acelerada por GPU. Se não couber, o Ollama recorre à CPU, o que é significativamente mais lento.

Máquinas apenas com CPU podem rodar o Gemma 4, mas espere cerca de 1–3 tokens por segundo no e4b. Use o e2b para um melhor desempenho de CPU.

Qual modelo você deve escolher?

Comece com o menor modelo que cabe confortavelmente no seu hardware, não com o maior que tecnicamente carrega.

Menos de 16 GB de RAM / VRAM → comece com o gemma4:e2b
16 GB de RAM ou 10+ GB de VRAM → o gemma4:e4b é o padrão correto
24+ GB de memória unificada ou VRAM → o gemma4:26b oferece qualidade superior com a eficiência MoE
32 GB+, e a qualidade é o mais importante → use o gemma4:31b para codificação, raciocínio e síntese de documentos

Para a maioria dos desenvolvedores que fazem experimentação local, o e4b é a resposta certa. Suba de nível apenas após confirmar que a primeira execução parece estável e responsiva.

Comandos de Download (Pull) e Execução

Baixar sem rodar (recomendado para modelos grandes):

ollama pull gemma4          # baixa o e4b (padrão, 9.6 GB)
ollama pull gemma4:e2b      # 7.2 GB
ollama pull gemma4:26b      # 18 GB
ollama pull gemma4:31b      # 20 GB

Executar de forma interativa:

ollama run gemma4           # inicia o e4b
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b

Verificar o que você tem instalado:

ollama list

Verificar quais modelos estão carregados na memória:

ollama ps

Usando a API local

O Ollama expõe uma API REST local em http://localhost:11434 uma vez que o modelo esteja rodando. Você pode chamá-la de qualquer cliente HTTP — sem dependência de nuvem, sem chave de API.

curl (gerar)

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "Explique a diferença entre arquiteturas MoE e transformadores densos.",
    "stream": false
  }'

curl (chat, compatível com OpenAI)

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "user", "content": "Escreva uma função em Python para analisar JSON com segurança."}
    ]
  }'

Python (biblioteca ollama)

from ollama import chat

response = chat(
    model='gemma4',
    messages=[{'role': 'user', 'content': 'O que é Mixture of Experts?'}],
)
print(response.message.content)

Python (SDK da OpenAI, compatível)

Como a API do Ollama é compatível com a da OpenAI, você pode apontar o SDK oficial da OpenAI para sua instância local:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # exigido pelo SDK, mas não utilizado pelo Ollama
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "system", "content": "Você é um assistente de programação útil."},
        {"role": "user", "content": "Escreva uma função em Python para achatar uma lista aninhada."}
    ]
)

print(response.choices[0].message.content)

O que o Gemma 4 faz que o Gemma 3 não fazia

Estas não são melhorias incrementais — as lacunas de benchmark são substanciais:

Benchmark	Gemma 4 31B	Gemma 4 E4B	Gemma 3 27B
AIME 2026 (raciocínio matemático)	89.2%	42.5%	20.8%
LiveCodeBench v6 (codificação)	80.0%	52.0%	29.1%
Codeforces ELO	2150	940	110
MMLU Pro (conhecimento)	85.2%	69.4%	67.6%
GPQA Diamond (ciências)	84.3%	58.6%	42.4%

Além dos benchmarks, o Gemma 4 adiciona capacidades que não existiam no Gemma 3:

Chamada de função nativa (Function calling) — todas as quatro variantes suportam uso estruturado de ferramentas nativamente, retornando JSONs válidos de acordo com o seu esquema.
Modos de pensamento (Thinking modes) — você pode ativar ou desativar o raciocínio chain-of-thought por requisição usando o token <|think|> no prompt de sistema.
256K de contexto nos modelos 26B e 31B (acima dos 128K do Gemma 3 27B).
Entrada de áudio nos modelos E2B e E4B — reconhecimento e compreensão de fala ao lado de texto e imagens.
Mais de 140 idiomas suportados nativamente.

Modo de pensamento (Thinking mode)

O Gemma 4 suporta raciocínio chain-of-thought configurável. Para ativá-lo, inclua o token <|think|> no início do seu prompt de sistema:

from ollama import chat

response = chat(
    model='gemma4:31b',
    messages=[
        {
            'role': 'system',
            'content': '<|think|> Pense passo a passo antes de responder.'
        },
        {
            'role': 'user',
            'content': 'Qual é a integral de x^2 de 0 a 3?'
        }
    ],
)
print(response.message.content)

Para desativar o pensamento, remova o token <|think|> do prompt de sistema. Para os modelos E2B e E4B, o pensamento fica totalmente desligado sem o token. Nos modelos 26B e 31B, o modelo ainda gera as tags de pensamento, mas com um bloco de pensamento vazio.

Para consultas simples ou chat casual, pule o pensamento. Para matemática, codificação complexa ou análise de documentos, ative-o — a diferença de qualidade é significativa nos modelos maiores.

Erros comuns e correções

Error: gemma4:e4b requires a newer version of Ollama

Sua versão do Ollama é anterior à v0.20.0. Execute o comando de atualização para seu sistema operacional (consulte a seção de pré-requisitos acima) e tente novamente.

Falta de memória (Out of memory) / modelo não carrega

Verifique a VRAM ou memória unificada disponível com ollama ps. Se o modelo for grande demais, mude para uma tag menor. O gemma4:e2b (7.2 GB) é a opção oficial mais leve.

Respostas lentas (1–5 tokens/segundo)

Se o Ollama não estiver usando sua GPU, o modelo estará rodando na CPU. Verifique se os drivers da GPU estão atualizados e se o Ollama consegue enxergar sua GPU. No Apple Silicon, certifique-se de estar em uma versão recente do Ollama — o suporte à aceleração MLX foi adicionado na v0.20.0.

A porta 11434 já está em uso

Outra instância do Ollama está rodando ou outro processo ocupou a porta. Você pode definir uma porta personalizada:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

Em seguida, atualize suas chamadas de API para usar a porta 11435.

O que verificar antes de culpar o modelo

Se a qualidade da saída parecer pior do que o esperado, verifique esta lista antes de mudar para um modelo maior:

Confirme se você está rodando o tamanho de modelo pretendido — ollama list mostra o que está instalado.
Verifique se a inferência por GPU está ativa — ollama ps mostra qual processador está sendo usado.
Tente ativar o modo de pensamento se a tarefa envolver raciocínio ou matemática.
Verifique se sua janela de contexto é grande o suficiente para o prompt completo.
Use as configurações de amostragem recomendadas: temperature=1.0, top_p=0.95, top_k=64.

Em muitos casos, o e4b com o modo de pensamento ativado lida com tarefas que inicialmente pareciam exigir o 31b.

Próximos passos

Se o Ollama não for a escolha ideal para o seu setup, aqui estão duas alternativas comuns:

LM Studio — um runtime local com interface gráfica, bom se você preferir não trabalhar no terminal.
llama.cpp — oferece maior controle de configuração, ideal para ambientes focados em CPU ou limitados.

Se você quiser experimentar o Gemma 4 sem qualquer configuração local, o Google AI Studio oferece acesso hospedado aos modelos 31B e 26B.