Guias do Gemma 4

Corrigir "unknown model architecture" para gemma4 e diffusion-gemma no llama.cpp

6 min de leitura
gemma 4llama.cppggufsolução de problemasllm local
Corrigir "unknown model architecture" para gemma4 e diffusion-gemma no llama.cpp

Se você está vendo um destes erros:

error loading model: unknown model architecture: 'gemma4'
error loading model: unknown model architecture: 'diffusion-gemma'

eles parecem similares, mas têm causas completamente diferentes. Não aplique a mesma correção para os dois.

Qual erro você tem?

String de erro Significado Correção
unknown model architecture: 'gemma4' Seu runtime é mais antigo que o lançamento do Gemma 4. Atualizar llama.cpp, Ollama ou o aplicativo.
unknown model architecture: 'diffusion-gemma' DiffusionGemma não existe em nenhuma versão lançada do llama.cpp. Compilar do PR #24423 ou usar um runtime diferente.

A diferença fundamental: suporte ao gemma4 existe no branch main do llama.cpp e nos releases atuais do Ollama/LM Studio. Atualizar resolve. Suporte ao diffusion-gemma não existe em nenhum release oficial — só existe em um pull request não mesclado (#24423). Atualizar para o release oficial mais recente não vai corrigir.


Correção para unknown model architecture: 'gemma4'

Este erro significa que seu runtime é mais antigo que a data de lançamento do Gemma 4 em abril de 2026. A correção é atualizar.

llama.cpp

cd llama.cpp
git pull
cmake -B build
cmake --build build --config Release -j

# Verificar o novo binário
./build/bin/llama-cli --version

Confirmar que o shell está usando o binário correto:

which llama-cli
llama-cli --version

Se a versão for antiga, o sistema está encontrando uma cópia instalada mais antiga. Chamar o binário diretamente da pasta build ou atualizar a versão instalada.

Homebrew

brew update && brew upgrade llama.cpp
llama-cli --version

Se o pacote Homebrew ainda estiver atrás do upstream, compilar temporariamente do código-fonte.

Ollama

ollama pull gemma4
ollama run gemma4

O Ollama mantém um modelo gemma4 gerenciado. Para rodar o Gemma 4 padrão, usar via Ollama é mais simples do que gerenciar um GGUF personalizado.

LM Studio

Atualizar o LM Studio pelo atualizador integrado. As versões atuais suportam a arquitetura gemma4.


Correção para unknown model architecture: 'diffusion-gemma'

Este erro é diferente. O suporte ao DiffusionGemma não foi mesclado no branch main do llama.cpp até o momento deste artigo. Ele existe apenas no PR #24423, que também introduz um binário dedicado separado chamado llama-diffusion-cli.

Atualizar o llama.cpp para o release oficial mais recente não vai corrigir isto. Você precisa de uma das opções:

  1. Compilar do branch do PR #24423, ou
  2. Usar outro runtime que já suporte DiffusionGemma

Opção A: Compilar do PR #24423

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/24423/head:diffusion-gemma-pr
git checkout diffusion-gemma-pr

# Apenas CPU:
cmake -B build
cmake --build build --config Release -j

# NVIDIA CUDA:
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# O binário necessário:
./build/bin/llama-diffusion-cli

Atenção: mesmo neste branch você deve usar llama-diffusion-cli, não llama-cli. Rodar llama-cli contra um GGUF do DiffusionGemma ainda vai falhar.

Opção B: Usar um runtime diferente

Runtime Suporte ao DiffusionGemma
Unsloth Studio Sim, desde 12 de junho de 2026 (v0.1.463-beta). Opção mais fácil.
vLLM Sim, desde 10 de junho de 2026. Melhor para serving.
HF Transformers Sim, via pesos oficiais do Google.
Ollama Não. Issue #16664 aberta.
LM Studio Não. Bug #2037 aberto.

O que não vai funcionar

  • Renomear o arquivo GGUF. Os metadados de arquitetura ficam dentro do arquivo, não no nome.
  • Mudar o comprimento de contexto ou configurações de sampling. O loader falha antes da inferência começar.
  • Tentar um prompt diferente. Mesmo motivo.

Como confirmar se o arquivo do modelo é válido

./build/bin/llama-cli -m /caminho/para/modelo.gguf -p "Olá." -n 10
Resultado Significado
Carrega com sucesso Runtime está atualizado. Se outro app falha, o runtime desse app está desatualizado.
unknown model architecture: 'gemma4' Atualizar o runtime.
unknown model architecture: 'diffusion-gemma' PR #24423 ou outro runtime necessário.
Outro erro Arquivo pode estar incompleto ou de fonte não confiável.

Fontes confiáveis de GGUF: ggml-org, Unsloth, bartowski, mradermacher.


Perguntas frequentes

Atualizei para o llama.cpp mais recente e ainda tenho o erro diffusion-gemma. Por quê?
Porque o PR não foi mesclado. O main mais recente não tem suporte ao DiffusionGemma. Você precisa especificamente do branch do PR.

É seguro compilar de um branch de PR?
Para testes pessoais, sim. Para produção, trate como código pré-release que ainda não passou pelo processo completo de revisão do projeto.

Posso usar o mesmo GGUF para llama-cli e llama-diffusion-cli?
Não. Eles lidam com arquiteturas diferentes. GGUF do DiffusionGemma requer llama-diffusion-cli. GGUF do Gemma 4 padrão usa o llama-cli padrão.

Guias relacionados:

Guias relacionados

Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Ainda decidindo o que ler depois?

Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.