Corrigir "unknown model architecture" para gemma4 e diffusion-gemma no llama.cpp

Se você está vendo um destes erros:

error loading model: unknown model architecture: 'gemma4'

error loading model: unknown model architecture: 'diffusion-gemma'

eles parecem similares, mas têm causas completamente diferentes. Não aplique a mesma correção para os dois.

Qual erro você tem?

String de erro	Significado	Correção
`unknown model architecture: 'gemma4'`	Seu runtime é mais antigo que o lançamento do Gemma 4.	Atualizar llama.cpp, Ollama ou o aplicativo.
`unknown model architecture: 'diffusion-gemma'`	DiffusionGemma não existe em nenhuma versão lançada do llama.cpp.	Compilar do PR #24423 ou usar um runtime diferente.

A diferença fundamental: suporte ao gemma4 existe no branch main do llama.cpp e nos releases atuais do Ollama/LM Studio. Atualizar resolve. Suporte ao diffusion-gemma não existe em nenhum release oficial — só existe em um pull request não mesclado (#24423). Atualizar para o release oficial mais recente não vai corrigir.

Correção para `unknown model architecture: 'gemma4'`

Este erro significa que seu runtime é mais antigo que a data de lançamento do Gemma 4 em abril de 2026. A correção é atualizar.

llama.cpp

cd llama.cpp
git pull
cmake -B build
cmake --build build --config Release -j

# Verificar o novo binário
./build/bin/llama-cli --version

Confirmar que o shell está usando o binário correto:

which llama-cli
llama-cli --version

Se a versão for antiga, o sistema está encontrando uma cópia instalada mais antiga. Chamar o binário diretamente da pasta build ou atualizar a versão instalada.

Homebrew

brew update && brew upgrade llama.cpp
llama-cli --version

Se o pacote Homebrew ainda estiver atrás do upstream, compilar temporariamente do código-fonte.

Ollama

ollama pull gemma4
ollama run gemma4

O Ollama mantém um modelo gemma4 gerenciado. Para rodar o Gemma 4 padrão, usar via Ollama é mais simples do que gerenciar um GGUF personalizado.

LM Studio

Atualizar o LM Studio pelo atualizador integrado. As versões atuais suportam a arquitetura gemma4.

Correção para `unknown model architecture: 'diffusion-gemma'`

Este erro é diferente. O suporte ao DiffusionGemma não foi mesclado no branch main do llama.cpp até o momento deste artigo. Ele existe apenas no PR #24423, que também introduz um binário dedicado separado chamado llama-diffusion-cli.

Atualizar o llama.cpp para o release oficial mais recente não vai corrigir isto. Você precisa de uma das opções:

Compilar do branch do PR #24423, ou
Usar outro runtime que já suporte DiffusionGemma

Opção A: Compilar do PR #24423

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/24423/head:diffusion-gemma-pr
git checkout diffusion-gemma-pr

# Apenas CPU:
cmake -B build
cmake --build build --config Release -j

# NVIDIA CUDA:
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# O binário necessário:
./build/bin/llama-diffusion-cli

Atenção: mesmo neste branch você deve usar llama-diffusion-cli, não llama-cli. Rodar llama-cli contra um GGUF do DiffusionGemma ainda vai falhar.

Opção B: Usar um runtime diferente

Runtime	Suporte ao DiffusionGemma
Unsloth Studio	Sim, desde 12 de junho de 2026 (v0.1.463-beta). Opção mais fácil.
vLLM	Sim, desde 10 de junho de 2026. Melhor para serving.
HF Transformers	Sim, via pesos oficiais do Google.
Ollama	Não. Issue #16664 aberta.
LM Studio	Não. Bug #2037 aberto.

O que não vai funcionar

Renomear o arquivo GGUF. Os metadados de arquitetura ficam dentro do arquivo, não no nome.
Mudar o comprimento de contexto ou configurações de sampling. O loader falha antes da inferência começar.
Tentar um prompt diferente. Mesmo motivo.

Como confirmar se o arquivo do modelo é válido

./build/bin/llama-cli -m /caminho/para/modelo.gguf -p "Olá." -n 10

Resultado	Significado
Carrega com sucesso	Runtime está atualizado. Se outro app falha, o runtime desse app está desatualizado.
`unknown model architecture: 'gemma4'`	Atualizar o runtime.
`unknown model architecture: 'diffusion-gemma'`	PR #24423 ou outro runtime necessário.
Outro erro	Arquivo pode estar incompleto ou de fonte não confiável.

Fontes confiáveis de GGUF: ggml-org, Unsloth, bartowski, mradermacher.

Perguntas frequentes

Atualizei para o llama.cpp mais recente e ainda tenho o erro diffusion-gemma. Por quê?
Porque o PR não foi mesclado. O main mais recente não tem suporte ao DiffusionGemma. Você precisa especificamente do branch do PR.

É seguro compilar de um branch de PR?
Para testes pessoais, sim. Para produção, trate como código pré-release que ainda não passou pelo processo completo de revisão do projeto.

Posso usar o mesmo GGUF para llama-cli e llama-diffusion-cli?
Não. Eles lidam com arquiteturas diferentes. GGUF do DiffusionGemma requer llama-diffusion-cli. GGUF do Gemma 4 padrão usa o llama-cli padrão.

Guias relacionados:

Corrigir "unknown model architecture" para gemma4 e diffusion-gemma no llama.cpp

Qual erro você tem?

Correção para `unknown model architecture: 'gemma4'`

llama.cpp

Homebrew

Ollama

LM Studio

Correção para `unknown model architecture: 'diffusion-gemma'`

Opção A: Compilar do PR #24423

Opção B: Usar um runtime diferente

O que não vai funcionar

Como confirmar se o arquivo do modelo é válido

Perguntas frequentes

Guias relacionados

DiffusionGemma + llama.cpp: Sim, Veja Como Executar (2026)

DiffusionGemma funciona no LM Studio? Status atual (junho 2026)

O llama.cpp Suporta o Gemma 4? Status do GGUF, Correções e o que Funciona

Ainda decidindo o que ler depois?

Corrigir "unknown model architecture" para gemma4 e diffusion-gemma no llama.cpp

Qual erro você tem?

Correção para unknown model architecture: 'gemma4'

llama.cpp

Homebrew

Ollama

LM Studio

Correção para unknown model architecture: 'diffusion-gemma'

Opção A: Compilar do PR #24423

Opção B: Usar um runtime diferente

O que não vai funcionar

Como confirmar se o arquivo do modelo é válido

Perguntas frequentes

Guias relacionados

DiffusionGemma + llama.cpp: Sim, Veja Como Executar (2026)

DiffusionGemma funciona no LM Studio? Status atual (junho 2026)

O llama.cpp Suporta o Gemma 4? Status do GGUF, Correções e o que Funciona

Ainda decidindo o que ler depois?

Correção para `unknown model architecture: 'gemma4'`

Correção para `unknown model architecture: 'diffusion-gemma'`