Guias do Gemma 4

Gemma 4 A4B vs E4B: O que os nomes realmente significam e qual modelo usar

7 min de leitura
gemma 4a4be4bcomparação de modelosllm local
Gemma 4 A4B vs E4B: O que os nomes realmente significam e qual modelo usar

A nomenclatura confunde quase todo mundo. Os dois modelos têm "4B" no nome, mas esse "4B" significa coisas diferentes em cada caso, e os dois modelos têm arquiteturas completamente distintas. Aqui está o que você realmente precisa saber.

O que E4B significa

O "E" em E4B significa effective parameters (parâmetros efetivos), não edge ou efficient. O Google usa uma técnica chamada Per-Layer Embeddings (PLE): cada camada do decoder tem sua própria pequena tabela de embeddings que fornece um sinal residual para o cálculo daquela camada. Essas tabelas são grandes no disco, mas baratas computacionalmente — por isso o modelo se comporta como um modelo de 4,5B parâmetros em tempo de execução, mesmo que o total de pesos com os embeddings chegue a aproximadamente 8B.

O resultado é um modelo compacto com mais profundidade de representação do que o número de parâmetros sugere. O E4B é projetado para smartphones e laptops — tem como alvo a faixa de 8 a 16 GB de RAM.

O E4B também oferece suporte nativo a entradas de áudio, o que o 26B A4B não faz. Se áudio faz parte do seu caso de uso, o E4B é atualmente o maior modelo local que oferece esse suporte.

Janela de contexto: 128K tokens.

O que 26B A4B significa

O "A" em 26B A4B significa active parameters (parâmetros ativos). O 26B A4B é um modelo Mixture-of-Experts (MoE) com aproximadamente 25,2 bilhões de parâmetros totais, mas apenas cerca de 3,8 bilhões são ativados em cada etapa de inferência. Em tempo de execução, ele se comporta quase tão rápido quanto um modelo de 4B, mas acessa um conjunto muito mais rico de pesos especializados.

É por isso que o A4B parece muito mais forte que o E4B em tarefas complexas: o modelo tem muito mais conhecimento total, mesmo que apenas uma fração seja ativada em cada inferência. O custo em memória, porém, é real — todos os 26B de pesos precisam estar na RAM, mesmo que apenas uma fração seja ativada por token.

Janela de contexto: 256K tokens. Sem entrada de áudio nativa.

Requisitos de memória

Os números abaixo são do resumo oficial de modelos do Google (com ~20% de overhead assumido). As medições práticas do Unsloth colocam a carga do 26B A4B Q4 em cerca de 18 GB, acima da estimativa base do Google.

Modelo Q4 Q8 BF16
Gemma 4 E2B ~2,9 GB ~5,7 GB ~11,4 GB
Gemma 4 E4B ~4,5 GB ~8,9 GB ~17,9 GB
Gemma 4 12B ~6,7 GB ~13,4 GB ~26,7 GB
Gemma 4 26B A4B ~14,4–18 GB ~28 GB ~52–58 GB
Gemma 4 31B ~17,5 GB ~34,9 GB ~69,9 GB

Esses são valores estimados para carregamento do modelo. Adicione o KV cache por cima (que cresce com o comprimento do contexto). Em casos de contexto longo, a memória do KV cache pode superar a dos pesos do modelo.

Diferenças de qualidade na prática

O E4B é um modelo capaz para chat, resumo, extração e agentes simples. Não é um modelo fraco — o PLE o faz superar sua classe de peso. Mas em tarefas que exigem raciocínio em múltiplas etapas, codificação complexa e compreensão de documentos longos, o 26B A4B supera consistentemente o E4B.

A diferença fica mais evidente quando:

  • Uma tarefa de codificação requer rastrear muitas dependências em um arquivo grande
  • Uma tarefa de raciocínio requer várias etapas de inferência antes de chegar a uma conclusão
  • Um documento é longo o suficiente para que o contexto anterior influencie materialmente uma conclusão posterior
  • Saídas estruturadas exigem seguimento preciso de instruções em muitas restrições

Para uso cotidiano em chat, resumos rápidos e exploração de prompts, a diferença prática é muitas vezes pequena o suficiente para que o E4B seja a melhor escolha — ele carrega mais rápido e com menos pressão na memória.

Qual modelo para qual hardware

Sua máquina Comece por aqui
Laptop com 8 GB de RAM E2B Q4, ou E4B Q4 se couber confortavelmente
16 GB Mac ou PC E4B Q4 — o 26B A4B está apertado demais nesse nível de memória
GPU de 24 GB 26B A4B Q4 cabe; esse é o hardware alvo
Sistema com 32 GB 26B A4B Q4 confortavelmente; mais espaço para contexto
48 GB ou mais 26B A4B Q8, ou 31B Q4
Workstation com 64 GB ou mais 31B Q8, ou comparar 26B A4B Q8 vs 31B Q4

Não tente rodar o 26B A4B em um sistema de 16 GB com Q4 a menos que entenda o que está aceitando: apenas o carregamento do modelo usa quase toda a sua RAM antes de considerar contexto e overhead em tempo de execução, o que empurrará para swap lento de memória.

Velocidade

Como apenas ~3,8B parâmetros são ativados por etapa de inferência, o 26B A4B roda com velocidade próxima à de um modelo denso de 4B — apesar de ter 26B de parâmetros totais. No mesmo hardware, ele é tipicamente mais rápido que o 31B denso e significativamente mais rápido do que qualquer modelo denso de 26B seria.

O E4B é mais rápido ainda em tempo de parede simplesmente porque é um modelo menor e carrega mais rápido.

Qual escolher

Se você está experimentando o Gemma 4 pela primeira vez e sua máquina tem 8–16 GB de RAM: comece com E4B Q4. Carrega rapidamente, lida bem com a maioria das tarefas do dia a dia e permite descobrir se o Gemma 4 se encaixa no seu fluxo de trabalho.

Se você tem uma GPU de 24 GB ou mais e precisa de raciocínio mais forte, assistência em codificação ou trabalho com contexto longo: use o 26B A4B Q4.

Se qualidade é a prioridade máxima e memória não é uma restrição: 31B ainda é o melhor modelo da família.

O 26B A4B não é um modelo de compromisso. É a escolha recomendada para usuários avançados locais com memória suficiente. O E4B é a escolha recomendada para todos com laptops e celulares de consumo.

Perguntas frequentes

O E4B tem suporte a entrada de áudio?
Sim. E4B (assim como E2B e 12B) suporta entrada de áudio nativamente. 26B A4B e 31B não suportam.

Por que o E4B precisa de mais memória do que seu número de parâmetros sugere?
Por causa dos Per-Layer Embeddings. As tabelas de embeddings aumentam o tamanho no disco e o consumo de memória, embora não contabilizem no número de parâmetros "efetivos" anunciado pelo Google.

Por que o 26B A4B se chama 26B se apenas ~3,8B são ativados?
Porque o modelo carrega 26B de parâmetros totais distribuídos em muitas redes de especialistas na memória, mas ativa apenas um subconjunto em cada passagem direta. É assim que os modelos MoE funcionam.

Posso rodar o 26B A4B em uma máquina com 16 GB?
Tecnicamente possível em algumas configurações, mas não recomendado. No Q4, o carregamento do modelo sozinho já se aproxima do limite de memória antes de considerar contexto, KV cache ou overhead em tempo de execução.

Guias relacionados:

Guias relacionados

Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Ainda decidindo o que ler depois?

Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.