Guias do Gemma 4
Corrigir "unknown model architecture" para gemma4 e diffusion-gemma no llama.cpp

Se você está vendo um destes erros:
error loading model: unknown model architecture: 'gemma4'
error loading model: unknown model architecture: 'diffusion-gemma'
eles parecem similares, mas têm causas completamente diferentes. Não aplique a mesma correção para os dois.
Qual erro você tem?
| String de erro | Significado | Correção |
|---|---|---|
unknown model architecture: 'gemma4' |
Seu runtime é mais antigo que o lançamento do Gemma 4. | Atualizar llama.cpp, Ollama ou o aplicativo. |
unknown model architecture: 'diffusion-gemma' |
DiffusionGemma não existe em nenhuma versão lançada do llama.cpp. | Compilar do PR #24423 ou usar um runtime diferente. |
A diferença fundamental: suporte ao gemma4 existe no branch main do llama.cpp e nos releases atuais do Ollama/LM Studio. Atualizar resolve. Suporte ao diffusion-gemma não existe em nenhum release oficial — só existe em um pull request não mesclado (#24423). Atualizar para o release oficial mais recente não vai corrigir.
Correção para unknown model architecture: 'gemma4'
Este erro significa que seu runtime é mais antigo que a data de lançamento do Gemma 4 em abril de 2026. A correção é atualizar.
llama.cpp
cd llama.cpp
git pull
cmake -B build
cmake --build build --config Release -j
# Verificar o novo binário
./build/bin/llama-cli --version
Confirmar que o shell está usando o binário correto:
which llama-cli
llama-cli --version
Se a versão for antiga, o sistema está encontrando uma cópia instalada mais antiga. Chamar o binário diretamente da pasta build ou atualizar a versão instalada.
Homebrew
brew update && brew upgrade llama.cpp
llama-cli --version
Se o pacote Homebrew ainda estiver atrás do upstream, compilar temporariamente do código-fonte.
Ollama
ollama pull gemma4
ollama run gemma4
O Ollama mantém um modelo gemma4 gerenciado. Para rodar o Gemma 4 padrão, usar via Ollama é mais simples do que gerenciar um GGUF personalizado.
LM Studio
Atualizar o LM Studio pelo atualizador integrado. As versões atuais suportam a arquitetura gemma4.
Correção para unknown model architecture: 'diffusion-gemma'
Este erro é diferente. O suporte ao DiffusionGemma não foi mesclado no branch main do llama.cpp até o momento deste artigo. Ele existe apenas no PR #24423, que também introduz um binário dedicado separado chamado llama-diffusion-cli.
Atualizar o llama.cpp para o release oficial mais recente não vai corrigir isto. Você precisa de uma das opções:
- Compilar do branch do PR #24423, ou
- Usar outro runtime que já suporte DiffusionGemma
Opção A: Compilar do PR #24423
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/24423/head:diffusion-gemma-pr
git checkout diffusion-gemma-pr
# Apenas CPU:
cmake -B build
cmake --build build --config Release -j
# NVIDIA CUDA:
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j
# O binário necessário:
./build/bin/llama-diffusion-cli
Atenção: mesmo neste branch você deve usar llama-diffusion-cli, não llama-cli. Rodar llama-cli contra um GGUF do DiffusionGemma ainda vai falhar.
Opção B: Usar um runtime diferente
| Runtime | Suporte ao DiffusionGemma |
|---|---|
| Unsloth Studio | Sim, desde 12 de junho de 2026 (v0.1.463-beta). Opção mais fácil. |
| vLLM | Sim, desde 10 de junho de 2026. Melhor para serving. |
| HF Transformers | Sim, via pesos oficiais do Google. |
| Ollama | Não. Issue #16664 aberta. |
| LM Studio | Não. Bug #2037 aberto. |
O que não vai funcionar
- Renomear o arquivo GGUF. Os metadados de arquitetura ficam dentro do arquivo, não no nome.
- Mudar o comprimento de contexto ou configurações de sampling. O loader falha antes da inferência começar.
- Tentar um prompt diferente. Mesmo motivo.
Como confirmar se o arquivo do modelo é válido
./build/bin/llama-cli -m /caminho/para/modelo.gguf -p "Olá." -n 10
| Resultado | Significado |
|---|---|
| Carrega com sucesso | Runtime está atualizado. Se outro app falha, o runtime desse app está desatualizado. |
unknown model architecture: 'gemma4' |
Atualizar o runtime. |
unknown model architecture: 'diffusion-gemma' |
PR #24423 ou outro runtime necessário. |
| Outro erro | Arquivo pode estar incompleto ou de fonte não confiável. |
Fontes confiáveis de GGUF: ggml-org, Unsloth, bartowski, mradermacher.
Perguntas frequentes
Atualizei para o llama.cpp mais recente e ainda tenho o erro diffusion-gemma. Por quê?
Porque o PR não foi mesclado. O main mais recente não tem suporte ao DiffusionGemma. Você precisa especificamente do branch do PR.
É seguro compilar de um branch de PR?
Para testes pessoais, sim. Para produção, trate como código pré-release que ainda não passou pelo processo completo de revisão do projeto.
Posso usar o mesmo GGUF para llama-cli e llama-diffusion-cli?
Não. Eles lidam com arquiteturas diferentes. GGUF do DiffusionGemma requer llama-diffusion-cli. GGUF do Gemma 4 padrão usa o llama-cli padrão.
Guias relacionados:
Guias relacionados
Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

DiffusionGemma funciona com llama.cpp? O status atual
O llama.cpp padrão não consegue executar DiffusionGemma. O suporte está no PR #24423, que fornece um binário separado llama-diffusion-cli. Veja o que realmente funciona agora.

DiffusionGemma funciona no LM Studio? Status atual (junho 2026)
Os engines llama.cpp e MLX do LM Studio falham ao carregar DiffusionGemma em junho de 2026. Explicamos o que os erros significam, onde estão sendo rastreados e quais ferramentas realmente funcionam.

O llama.cpp Suporta o Gemma 4? Status do GGUF, Correções e o que Funciona
Uma resposta prática sobre se o llama.cpp suporta o Gemma 4, com links oficiais do GGUF, status de suporte atual e o que 'suportado' realmente significa.
Ainda decidindo o que ler depois?
Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.
