Gemma-4-Leitfäden

"unknown model architecture" für gemma4 und diffusion-gemma in llama.cpp beheben

6 Min. Lesezeit
gemma 4llama.cppgguffehlerbehebunglokales llm
"unknown model architecture" für gemma4 und diffusion-gemma in llama.cpp beheben

Wenn du einen dieser Fehler siehst:

error loading model: unknown model architecture: 'gemma4'
error loading model: unknown model architecture: 'diffusion-gemma'

sehen sie ähnlich aus, haben aber völlig unterschiedliche Ursachen. Wende nicht denselben Fix auf beide an.

Welchen Fehler hast du?

Fehlerstring Bedeutung Fix
unknown model architecture: 'gemma4' Deine Runtime ist älter als Gemma 4s Release. llama.cpp, Ollama oder die App aktualisieren.
unknown model architecture: 'diffusion-gemma' DiffusionGemma ist in keiner veröffentlichten llama.cpp-Version. Aus PR #24423 bauen oder eine andere Runtime nutzen.

Der entscheidende Unterschied: gemma4-Unterstützung gibt es im llama.cpp-Main-Branch und in aktuellen Ollama/LM-Studio-Releases. Aktualisieren löst es. diffusion-gemma-Unterstützung gibt es in keinem offiziellen Release — sie liegt in einem ungemergten Pull Request (#24423). Ein Update auf die neueste offizielle Version behebt es nicht.


Fix für unknown model architecture: 'gemma4'

Dieser Fehler bedeutet, dass deine Runtime älter als Gemma 4s Release-Datum im April 2026 ist. Der Fix: aktualisieren.

llama.cpp

cd llama.cpp
git pull
cmake -B build
cmake --build build --config Release -j

# Neue Binärdatei überprüfen
./build/bin/llama-cli --version

Dann prüfen, ob die Shell die richtige Binärdatei verwendet:

which llama-cli
llama-cli --version

Wenn die Version alt ist, findet das System noch eine ältere installierte Kopie. Die Binärdatei direkt aus dem Build-Ordner aufrufen oder die installierte Version aktualisieren.

Homebrew

brew update && brew upgrade llama.cpp
llama-cli --version

Wenn das Homebrew-Paket noch hinter Upstream liegt, temporär aus dem Quellcode bauen.

Ollama

ollama pull gemma4
ollama run gemma4

Ollama pflegt ein verwaltetes gemma4-Modell. Wenn du nur Standard-Gemma-4 laufen lassen willst, ist das einfacher als eine benutzerdefinierte GGUF zu verwalten.

LM Studio

LM Studio über den integrierten Updater aktualisieren. Aktuelle Versionen unterstützen die gemma4-Architektur.


Fix für unknown model architecture: 'diffusion-gemma'

Dieser Fehler ist anders. DiffusionGemma-Unterstützung ist zum Zeitpunkt dieses Artikels nicht in den llama.cpp-Main-Branch gemergt. Sie existiert nur in PR #24423, der auch eine separate Binärdatei llama-diffusion-cli einführt.

llama.cpp auf das neueste offizielle Release zu aktualisieren behebt das nicht. Du brauchst entweder:

  1. Aus dem PR-#24423-Branch bauen, oder
  2. Eine andere Runtime verwenden, die DiffusionGemma bereits unterstützt

Option A: Aus PR #24423 bauen

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/24423/head:diffusion-gemma-pr
git checkout diffusion-gemma-pr

# Nur CPU:
cmake -B build
cmake --build build --config Release -j

# NVIDIA CUDA:
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# Die benötigte Binärdatei:
./build/bin/llama-diffusion-cli

Wichtig: Du musst llama-diffusion-cli verwenden, nicht llama-cli. Ein DiffusionGemma-GGUF mit llama-cli auf diesem Branch ausführen schlägt immer noch fehl.

Option B: Eine andere Runtime verwenden

Runtime DiffusionGemma-Unterstützung
Unsloth Studio Ja, seit 12. Juni 2026 (v0.1.463-beta). Einfachste Option.
vLLM Ja, seit 10. Juni 2026. Bestes Serving.
HF Transformers Ja, via offizielle Google-Gewichte.
Ollama Nein. Issue #16664 offen.
LM Studio Nein. Bug #2037 offen.

Was nicht hilft

  • Die GGUF-Datei umbenennen. Die Architektur-Metadaten sind in der Datei, nicht im Dateinamen.
  • Kontextlänge oder Sampling-Einstellungen ändern. Der Loader schlägt vor dem Inferenzstart fehl.
  • Andere Runtime verwenden, wenn das Problem diffusion-gemma ist. Ollamas gebündelte Runtime hat dieselbe Einschränkung.

Wie man bestätigt, ob eine Modelldatei gültig ist

Mit dem neuesten llama.cpp-Main testen:

./build/bin/llama-cli -m /pfad/zum/modell.gguf -p "Hallo." -n 10
Ergebnis Bedeutung
Lädt erfolgreich Runtime ist aktuell. Wenn eine andere App fehlschlägt, liegt deren Runtime zurück.
unknown model architecture: 'gemma4' Runtime aktualisieren.
unknown model architecture: 'diffusion-gemma' PR #24423 oder andere Runtime notwendig.
Anderer Fehler Datei könnte unvollständig oder aus unseriöser Quelle sein.

Vertrauenswürdige GGUF-Quellen: ggml-org, Unsloth, bartowski, mradermacher.


FAQ

Ich habe auf die neueste llama.cpp aktualisiert und bekomme immer noch diffusion-gemma. Warum?
Weil der PR nicht gemergt ist. Der aktuelle Main enthält keine DiffusionGemma-Unterstützung. Du brauchst speziell den PR-Branch.

Ist es sicher, aus einem PR-Branch zu bauen?
Für persönliche Tests: ja. Für die Produktion: als Vorversionsscode behandeln, der noch nicht durch den vollständigen Review-Prozess des Projekts gegangen ist.

Kann ich dieselbe GGUF für llama-cli und llama-diffusion-cli verwenden?
Nein. Sie verarbeiten unterschiedliche Architekturen. DiffusionGemma-GGUF benötigt llama-diffusion-cli. Standard-Gemma-4-GGUF verwendet das Standard-llama-cli.

Verwandte Guides:

Verwandte Leitfäden

Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?

Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.