Comparação de Modelos Gemma 4: 31B vs 26B A4B vs E4B vs E2B

O Google lançou o Gemma 4 em 3 de abril de 2026 — mas não é apenas um modelo. São quatro modelos separados compartilhando um nome de família, cada um fazendo diferentes concessões em termos de memória, velocidade, suporte a modalidades e qualidade de raciocínio. Escolher o errado significa baixar gigabytes que você não consegue rodar, ou rodar algo com pouca potência quando seu hardware poderia aguentar mais.

Este guia decifra o sistema de nomenclatura, expõe as diferenças reais e oferece um caminho de decisão claro antes de você baixar um único arquivo de pesos.

O que os Nomes Realmente Significam

A convenção de nomenclatura do Gemma 4 confunde quase todo mundo na primeira vez. Aqui está o que cada prefixo e sufixo realmente codifica.

E2B e E4B — Parâmetros "Efetivos", construídos para dispositivos de borda (edge)

O "E" significa parâmetros efetivos (effective parameters). O E2B possui 2,3 bilhões de parâmetros efetivos durante a inferência, mas seu número total de parâmetros é de 5,1 bilhões. O E4B funciona da mesma maneira. Essa diferença existe porque o Google utiliza uma técnica chamada Per-Layer Embeddings (PLE): cada camada do decodificador carrega sua própria pequena tabela de incorporação (embedding) que alimenta um sinal residual na computação dessa camada. Essas tabelas são grandes no disco, mas baratas para computar, e é por isso que o modelo se comporta como um 2B em tempo de execução, embora tecnicamente pese mais. O resultado é um modelo dimensionado para telefones e laptops que carrega mais profundidade representacional do que o número de parâmetros sugere.

26B A4B — Parâmetros "Ativos", arquitetura MoE

O "A" significa parâmetros ativos (active parameters). O 26B A4B é um modelo Mixture-of-Experts (MoE) com 25,2 bilhões de parâmetros totais, mas apenas 3,8 bilhões ativos durante qualquer etapa individual de inferência. O Google construiu este modelo com 128 pequenos especialistas (experts), ativando 8 mais um especialista compartilhado sempre ativo por token. O resultado prático: ele roda quase tão rápido quanto um modelo denso de 4B, mas produz uma qualidade muito mais próxima do 31B. O "26B" informa os requisitos de armazenamento; o "A4B" informa o custo computacional.

31B — Denso, sem truques

Cada parâmetro é acionado em cada passagem direta. Você paga a conta computacional completa, mas obtém o comportamento mais simples, o teto de qualidade mais alto da família e a base mais limpa para ajuste fino (fine-tuning).

Os Quatro Modelos em um Relance

	E2B	E4B	26B A4B	31B
Arquitetura	Denso (Edge)	Denso (Edge)	MoE	Denso
Params Efetivos / Ativos	~2.3B	~4B	~3.8B ativos	30.7B
Params Totais	5.1B	~9B	25.2B	30.7B
Janela de contexto	128K	128K	256K	256K
Entrada de Áudio	✅	✅	❌	❌
Entrada de Imagem / Vídeo	✅	✅	✅	✅
Hardware alvo	Celular / IoT	Laptop	GPU de Consumo	H100 / GPU High-end
Memória (quant. 4-bit)	~5 GB	~8 GB	~18 GB	~20 GB
Memória (8-bit / 16-bit)	~15 GB	—	~28 GB	~34 GB
LMArena Elo (texto)	—	—	1441	1452
Ranking de modelo aberto	—	—	#6	#3

Os valores de memória são valores de planejamento aproximados do guia de implantação da Unsloth. O uso real varia com o comprimento do contexto, método de quantização e sobrecarga do sistema.

Números de Benchmark

Todas as pontuações abaixo são do cartão de modelo oficial do Google Gemma 4 e de variantes ajustadas para instruções, a menos que indicado. Os benchmarks utilizam AIME 2026, LiveCodeBench v6 e MMLU Pro — versões mais recentes do que os testes usados para o Gemma 3, portanto, comparações geracionais diretas devem ser lidas como tendenciais.

31B Denso

Benchmark	Pontuação
AIME 2026 (matemática)	89.2%
LiveCodeBench v6 (codificação)	80.0%
GPQA Diamond (raciocínio científico)	84.3%
MMLU Pro (conhecimento)	85.2%
MMMU Pro (visão)	76.9%
MATH-Vision	85.6%
Codeforces ELO	2.150
Recuperação multi-agulha (contexto longo)	66.4%

Para contexto: o Gemma 3 27B pontuou 20,8% no AIME e 29,1% no LiveCodeBench. A melhoria é geracional, não incremental.

26B A4B (MoE)

Benchmark	Pontuação
AIME 2026	88.3%
LiveCodeBench v6	77.1%
GPQA Diamond	82.3%
MMLU Pro	82.6%

O 26B A4B atinge cerca de 97% da qualidade do modelo denso 31B, ativando apenas 3,8B de parâmetros por token — cerca de 8 vezes menos computação por etapa de inferência. No ranking da LMArena, ele marca 1441 Elo contra 1452 para o 31B, uma diferença que será invisível na maioria das tarefas do mundo real.

E4B

Benchmark	Pontuação
AIME 2026	42.5%
LiveCodeBench v6	52.0%
MMLU Pro	69.4%
MMMU Pro (visão)	52.6%

Forte para um modelo que roda em uma GPU T4 ou MacBook Air. A lacuna de raciocínio em relação aos modelos de estação de trabalho é real, mas o E4B lida com OCR, reconhecimento de imagem (grounding) e assistência de codificação em um nível que justifica sua posição em uma implantação de borda (edge).

E2B

Benchmark	Pontuação
AIME 2026	37.5%
LiveCodeBench v6	44.0%
MMLU Pro	60.0%
MMMU Pro (visão)	44.2%

E2B é a base da família. Funciona em smartphones e hardware da classe Raspberry Pi. Os próprios testes do Google mostram o Gemma 4 E2B rodando em um Raspberry Pi 5 via LiteRT-LM a cerca de 7,6 tokens por segundo de velocidade de decodificação — lento, mas funcional para fluxos de trabalho de agentes de borda.

As Principais Diferenças que Realmente Importam

Áudio não é um recurso de toda a família

Apenas o E2B e o E4B suportam entrada de áudio — reconhecimento de fala e tradução de áudio para texto. O áudio é limitado a 30 segundos por clipe. O 26B A4B e o 31B não suportam áudio de forma alguma. Se o seu caso de uso exigir entrada de fala, a escolha já está feita antes mesmo de você olhar para qualquer outra coisa.

Janela de contexto divide a família em duas

E2B e E4B chegam ao limite de 128K tokens. O 26B A4B e o 31B atingem 256K. Isso importa mais do que o número bruto sugere. A janela de contexto de 128K do Gemma 3 era majoritariamente teórica — a confiabilidade da recuperação falhava em longos alcances. A janela de contexto de 256K do Gemma 4 é funcional: o 31B passou de 13,5% para 66,4% nos testes de recuperação multi-agulha (needle-in-a-haystack), o que significa que o modelo pode realmente encontrar e raciocinar sobre informações enterradas profundamente em um documento longo, e não apenas aceitá-las.

MoE vs Denso é uma troca de velocidade por ajuste fino

O 26B A4B roda aproximadamente na velocidade de um modelo denso de 4B durante a inferência porque apenas 3,8B de parâmetros são ativados por token. Para fluxos de trabalho de agentes onde você está gerando centenas de tokens em muitas chamadas de ferramentas, essa vantagem de velocidade se acumula significativamente. O 31B Denso é mais lento, mas oferece um comportamento mais previsível e é o candidato mais forte para ajuste fino — cada camada é acionada todas as vezes, o que simplifica o fluxo do gradiente durante o treinamento.

O suporte a vídeo tem limites rígidos

Todos os quatro modelos podem processar vídeo, mas o vídeo é tratado como uma sequência de quadros a um quadro por segundo, limitado a 60 segundos. Isso é útil para clipes curtos, gravações de interface de usuário ou para resumir uma pequena demonstração — não para análise de vídeo em tempo real ou conteúdo de longa duração.

O corte de conhecimento é Janeiro de 2025

Os dados de pré-treinamento do Gemma 4 têm como data de corte janeiro de 2025. Uma janela de contexto de 256K não altera isso. Para domínios que mudaram desde então, você precisa de recuperação aumentada por geração (RAG) ou acesso a ferramentas, em vez de confiar no conhecimento interno do modelo.

Requisitos de Hardware

Estes são valores aproximados para inferência quantizada. "Memória total" significa RAM + VRAM combinadas para sistemas de memória unificada (Apple Silicon, configurações integradas) ou VRAM disponível para configurações de GPU dedicada.

Modelo	Quant. 4-bit	Quant. 8-bit	Não quantizado (BF16)
E2B	~5 GB	~15 GB	—
E4B	~8 GB	—	—
26B A4B	~18 GB	~28 GB	—
31B	~20 GB	~34 GB	~80 GB (única H100)

Tradução prática:

Smartphone ou Raspberry Pi — E2B via LiteRT-LM ou AI Edge Gallery
MacBook Air (8 GB memória unificada) — E4B em 4-bit roda confortavelmente
Laptop ou desktop com 16 GB RAM — 26B A4B em 4-bit é o alvo certo
RTX 3090 / RTX 4090 (24 GB VRAM) — 26B A4B roda totalmente com contexto de 256K; 31B em 4-bit é viável
NVIDIA H100 (80 GB) — 31B em precisão total BF16, sem necessidade de quantização
NVIDIA DGX Spark (128 GB unificada) — 31B em BF16 com margem de folga

Algo que vale a pena destacar: os 25,2B de parâmetros totais do 26B A4B ainda precisam residir na memória, mesmo que apenas 3,8B sejam ativados por etapa. Você paga pelo armazenamento uma vez ao carregar; você paga por 3,8B de computação em cada token. Planeje o hardware considerando o primeiro ponto.

Qual Modelo Você Deve Rodar?

Escolha o E2B se: você estiver construindo aplicativos móveis integrados ao dispositivo, agentes de IoT ou qualquer coisa que precise rodar em um smartphone sem conexão de rede. Também é a escolha certa se você precisar de entrada de áudio e tiver memória severamente limitada.

Escolha o E4B se: você deseja suporte para entrada de áudio com um raciocínio visivelmente melhor do que o E2B, e possui um laptop ou GPU intermediária de 8 a 16 GB. Esta é a escolha padrão de borda (edge) para a maioria dos desenvolvedores que não estão restritos à memória mínima absoluta.

Escolha o 26B A4B se: você tem uma GPU de consumo com 16 a 24 GB de memória e deseja uma qualidade próxima à do 31B com inferência mais rápida. Este é o ponto ideal para fluxos de trabalho de agentes locais, assistentes de codificação e processamento de documentos onde a velocidade importa. É também a escolha certa para qualquer implantação onde a latência afeta a experiência do usuário.

Escolha o 31B se: você deseja a saída de maior qualidade da família, planeja fazer ajuste fino ou está operando em hardware que pode lidar com isso confortavelmente. Não escolha o 31B apenas porque "mais parâmetros" soa melhor — o 26B A4B é tão próximo em qualidade que muitos usuários não notarão a diferença na prática.

Onde Acessar o Gemma 4

Google AI Studio — Hospeda 31B e 26B A4B, sem necessidade de configuração local
Google AI Edge Gallery — Hospeda E4B e E2B, otimizado para testes móveis
Hugging Face — Todos os quatro modelos como google/gemma-4-31B-it, google/gemma-4-26B-A4B-it, google/gemma-4-E4B-it, google/gemma-4-E2B-it
Ollama — ollama run gemma4:e4b, gemma4:26b, etc.
LM Studio — Configuração local baseada em GUI para 26B e 31B
llama.cpp — Inferência multiplataforma CPU/GPU
MLX — Inferência otimizada para Apple Silicon

Todos os pesos são licenciados sob Apache 2.0 — sem limites de MAU, sem restrições de uso, uso comercial permitido sem termos adicionais.

Perguntas Frequentes

O que significa "A4B" no Gemma 4 26B A4B? O "A" significa parâmetros ativos (active parameters). O 26B A4B é um modelo Mixture-of-Experts com 25,2 bilhões de parâmetros totais, mas apenas 3,8 bilhões ativos por etapa de inferência. Ele funciona como um modelo 4B em termos de computação, entregando qualidade próxima ao 26B total.

O que significa "E2B" e "E4B"? O "E" significa parâmetros efetivos (effective parameters). Esses modelos usam Per-Layer Embeddings (PLE) — uma técnica onde cada camada do decodificador tem sua própria pequena tabela de incorporação. Os modelos têm mais parâmetros totais do que o seu número "E" sugere, mas sua pegada computacional em execução corresponde à contagem de parâmetros efetivos. O E2B comporta-se como um modelo 2B em execução.

O Gemma 4 suporta áudio? Apenas no E2B e E4B. Ambos suportam entrada de áudio para reconhecimento de fala e tradução de áudio para texto, até 30 segundos por clipe. O 26B A4B e o 31B não suportam entrada de áudio.

Quanta VRAM o Gemma 4 31B precisa? Cerca de 20 GB para inferência quantizada de 4 bits, 34 GB para 8 bits e uma única H100 de 80 GB para BF16 não quantizado. Para a maioria dos usuários locais, 4 bits em uma RTX 3090 ou RTX 4090 (24 GB de VRAM) é o caminho prático.

Qual é a diferença entre o E2B e o E4B? Ambos são modelos de borda com suporte a áudio e uma janela de contexto de 128K. O E4B tem mais capacidade: pontua 69,4% vs 60,0% no MMLU Pro, 52,0% vs 44,0% no LiveCodeBench e 52,6% vs 44,2% no MMMU Pro (visão). O E4B requer cerca de 8 GB em 4 bits contra 5 GB para o E2B. Se o seu hardware suportar o E4B, ele é a melhor escolha padrão.

Posso rodar o Gemma 4 26B A4B em um laptop com 16 GB de RAM? Sim, em quantização de 4 bits com aproximadamente 18 GB de memória total necessária. Em um sistema com 16 GB de RAM e uma GPU dedicada compartilhando memória, você pode estar no limite. No Apple Silicon com 24 GB de memória unificada, roda confortavelmente.

O Gemma 4 é melhor que o Gemma 3? Significativamente. As pontuações de matemática do AIME 2026 subiram de 20,8% (Gemma 3 27B) para 89,2% (Gemma 4 31B). O LiveCodeBench subiu de 29,1% para 80,0%. A recuperação multi-agulha de contexto longo subiu de 13,5% para 66,4%. Estas são melhorias geracionais, não incrementais.