Gemma-4-Leitfäden

Kimi K2.6 auf Hugging Face: Model Card, Deployment und empfohlene Inference-Engines

8 Min. Lesezeit
kimi k2.6hugging facevllmsglangmodel deployment
Kimi K2.6 auf Hugging Face: Model Card, Deployment und empfohlene Inference-Engines

Kimi K2.6 auf Hugging Face: Model Card, Deployment und empfohlene Inference-Engines

Moonshot AI veröffentlicht die offiziellen Kimi-K2.6-Gewichte auf Hugging Face unter moonshotai/Kimi-K2.6 mit einer Modified-MIT-Lizenz. Das ist die maßgebliche Quelle für das echte Modell — kein Reupload, kein quantisierter Fork, kein Cloud-Proxy. Wenn Sie K2.6 selbst hosten, Fähigkeiten aus Primärquellen bewerten oder vor einer Entscheidung erst die Spezifikation lesen möchten, ist dieses Repository der richtige Startpunkt.

Diese Anleitung erklärt, was die Model Card tatsächlich enthält, was die Architekturzahlen für Ihr Deployment bedeuten, welche Inference-Engines Moonshot empfiehlt und wann Self-Hosting sinnvoller ist als die offizielle API.

Deployment-Illustration für Kimi K2.6 auf Hugging Face mit Modell-Shards, GPU-Servern und Logos von Inference-Engines in einer technischen Umgebung

Kurzantwort

  • Offizielles Repo: huggingface.co/moonshotai/Kimi-K2.6
  • Architektur: Mixture-of-Experts, ~1T Gesamtparameter, ~32B aktiv pro Token
  • Kontextfenster: 256K (262.144 Tokens auf der API-Preiseseite)
  • Modalitäten: Text, Bild und Video über den MoonViT-Vision-Encoder mit 400M Parametern
  • Empfohlene Engines: vLLM, SGLang und KTransformers
  • Lizenz: Modified MIT
  • Thinking ist standardmäßig aktiv. Für korrektes Verhalten ist der Flag --reasoning-parser kimi_k2 nötig.

Was die offizielle Hugging-Face-Seite enthält

Das Repo moonshotai/Kimi-K2.6 ist ähnlich aufgebaut wie frühere K2-Releases:

  • eine Model Card mit kanonischer Beschreibung, Architektur und Capability-Claims
  • Benchmark-Tabellen, wie Moonshot sie auch im Blog verwendet
  • eine Deployment-Anleitung unter docs/deploy_guidance.md mit Beispielen für vLLM, SGLang und KTransformers
  • Nutzungsbeispiele in Python für Thinking vs. Instant, Bild- und Videoeingabe, Tool-Calling und den Umgang mit reasoning_content
  • die safetensors-Shards, Tokenizer- und Konfigurationsdateien
  • ein figures/-Verzeichnis mit Assets aus der Model Card

Wenn Sie schon mit K2.5 auf Hugging Face gearbeitet haben, kommt Ihnen die Struktur bekannt vor. Moonshot hält die Integrationsmuster absichtlich stabil, damit bestehende Infrastruktur mit minimalen Änderungen auf K2.6 umgestellt werden kann.

Modellzusammenfassung

Die wichtigsten Architekturwerte:

Spezifikation Wert
Architektur Mixture-of-Experts (MoE)
Gesamtparameter ~1 Billion
Aktivierte Parameter pro Token ~32 Milliarden
Experten 384 geroutet, 8 aktiv + 1 shared
Layer 61
Kontextfenster 256K Tokens
Vision-Encoder MoonViT, 400M Parameter
Attention Multi-head Latent Attention (MLA)
Aktivierung SwiGLU

Wichtige Punkte dazu:

Gesamt- und Aktivparameter sind unterschiedliche Größen. Die 1T bestimmen die Speicheranforderung, die 32B eher die Rechenkosten pro Token.

MLA ist eine bewusste KV-Cache-Entscheidung. Schlüssel und Werte werden in einen niedrigdimensionalen latenten Raum komprimiert, was bei langem Kontext deutlich Speicher spart.

384 Experten mit 8+1 aktiv pro Token bedeuten sparsames Routing. Deshalb empfiehlt Moonshot Engines mit expliziter K2-Unterstützung statt generischem MoE-Support.

MoonViT ist nativ integriert. Vision wurde nicht nachträglich „angeflanscht“, was Screenshot-zu-Code und visiongesteuerte Toolnutzung deutlich robuster macht.

Was der Benchmark-Abschnitt sagt

Die Model Card enthält Moonshots komplette Evaluierungstabellen. Die Highlights:

Coding: SWE-Bench Pro 58.6, SWE-Bench Verified 80.2, SWE-Bench Multilingual 76.7, LiveCodeBench v6 89.6, Terminal-Bench 2.0 66.7.

Agentisch / Tool-Nutzung: Humanity's Last Exam mit Tools 54.0, BrowseComp 83.2, DeepSearchQA F1 92.5, Toolathlon 50.0.

Vision: Charxiv with Python 86.7, Math Vision with Python 93.2, V* 96.9.

Zwei Einschränkungen nennt Moonshot selbst:

  1. Die Zahlen sind selbst berichtet und hängen vom gewählten Harness und den Systemprompts ab.
  2. Terminal-Bench 2.0 wurde im Non-Thinking-Modus evaluiert, weil die aktuelle Kontextstrategie von Moonshot im Thinking-Modus nicht zum Terminus-2-Framework passt.

Empfohlene Deployment-Engines

Moonshot nennt ausdrücklich drei Engines.

vLLM

vLLM ist die verbreitetste Serving-Engine mit PagedAttention, Continuous Batching und OpenAI-kompatibler API.

vllm serve $MODEL_PATH -tp 8 \
  --mm-encoder-tp-mode data \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

Wichtige Flags:

  • --tool-call-parser kimi_k2
  • --reasoning-parser kimi_k2
  • --mm-encoder-tp-mode data
  • -tp 8

Moonshot nennt vLLM 0.19.1 als manuell verifizierte stabile Version für die K2-Serie.

SGLang

SGLang ist besonders attraktiv für strukturierte Generierung, Tool-Calling-Ketten und Multi-Turn-Konversation mit Prefix-Reuse.

sglang serve \
  --model-path $MODEL_PATH \
  --tp 8 \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

Für sehr neue Features empfiehlt Moonshot eine Installation direkt aus dem Quellcode.

KTransformers

KTransformers ist Moonshots eigene Inference-Engine, speziell für die K2-Familie optimiert. Im Vergleich zu vLLM und SGLang ist sie weniger universell, dafür oft effizienter für K2-spezifisches Routing, MLA und CPU-Offloading.

Warum nicht irgendeine MoE-Engine?

K2.6 verwendet spezifisches Expertenrouting, ein eigenes Tool-Call-Format, einen K2-spezifischen Reasoning-Parser und einen integrierten Vision-Encoder. Ohne K2-spezifische Unterstützung laden Engines das Modell gar nicht, liefern fehlerhafte Tool-Calls oder verlieren Reasoning-Inhalte.

Offizielle API vs. Self-Hosting

Nutzen Sie die offizielle Moonshot-API, wenn:

  • Sie in Validierung oder früher Produktion sind
  • Ihr Tokenvolumen noch unterhalb des wirtschaftlichen Break-even für dedizierte GPUs liegt
  • Sie Videoeingabe sofort produktiv brauchen
  • Sie First-Party-Support und Herstellerverhalten wollen

Hosten Sie selbst von Hugging Face, wenn:

  • Compliance Air-Gap oder On-Prem verlangt
  • Ihr Volumen groß genug ist, dass dedizierte GPUs günstiger werden
  • Sie Quantisierung, Batching und Routing selbst steuern wollen
  • Sie fixe Infrastrukturkosten statt variabler Tokenkosten bevorzugen
  • Sie ein Forschungsartefakt oder Open-Source-Projekt ohne Dritt-API-Abhängigkeit bauen

Für die meisten Teams ist der beste Weg: erst mit der API prototypen, reale Latenz- und Tokenmuster messen, dann über Self-Hosting entscheiden.

Checkliste vor dem Deployment

  • Versionen pinnen. vLLM 0.19.1 ist Moonshots verifizierte stabile Version.
  • Hardware prüfen. Für volle Präzision werden typischerweise 8× H200 oder ähnlich angenommen.
  • Thinking-Modus beachten. Er ist standardmäßig aktiv und muss explizit deaktiviert werden, wenn Sie keine Reasoning-Tokens wollen.
  • Tool-Calling + Thinking zusammendenken. Bei aktivem Thinking muss tool_choice auto oder none sein, und reasoning_content muss in Multi-Turn-Tool-Loops erhalten bleiben.
  • Multimodale Limits respektieren. Bilder idealerweise bis 4K, Videos bis etwa 2K.
  • Websuche + Thinking. Das offizielle $web_search ist derzeit mit Thinking auf K2.6 und K2.5 nicht kompatibel.
  • Temperatur und top_p. Moonshot empfiehlt Temperatur 1.0 für Thinking, 0.6 für Instant und top_p 0.95.

Abschließende Empfehlung

Die Hugging-Face-Model-Card ist das technisch wichtigste Dokument zu Kimi K2.6. Alles, was darüber entscheidet, ob Ihr Deployment funktioniert, steckt eher in der Deploy-Anleitung und den Usage-Beispielen als in Marketing-Material. Für Entwickler ist die sinnvolle Reihenfolge: Model Card lesen, docs/deploy_guidance.md durcharbeiten und dann die Codebeispiele sauber umsetzen.

Wenn Sie Self-Hosting planen, rechnen Sie mit fest gepinnten Versionen, K2-spezifischen Parsern und H200-Klasse-Hardware in voller Präzision. Wenn Sie dafür noch nicht bereit sind, ist die offizielle Moonshot-API meist der bessere Startpunkt (siehe unseren API- und Preisleitfaden).

FAQ

Ist Kimi K2.6 auf Hugging Face offiziell?
Ja. moonshotai/Kimi-K2.6 ist die offizielle Organisation von Moonshot AI und die kanonische Quelle der Gewichte.

Wie viele Parameter hat Kimi K2.6?
Ungefähr 1 Billion Gesamtparameter und rund 32 Milliarden aktivierte Parameter pro Token.

Wie lang ist das Kontextfenster?
256K Tokens laut Model Card, exakt 262.144 laut Moonshots API-Preisseite.

Welche Engines werden empfohlen?
Moonshot empfiehlt vLLM, SGLang und KTransformers.

Unterstützt Self-Hosting Video?
Die Gewichte unterstützen Videoeingabe, aber Moonshot markiert sie auf Third-Party-Deployments als experimentell.

Sollten Sie die API oder Self-Hosting nutzen?
Für Validierung und kleinere Workloads die API, für Air-Gap, großes Volumen oder maximale Kontrolle Self-Hosting.

Unter welcher Lizenz steht Kimi K2.6?
Unter Modified MIT. Für die meisten Teams ist sie praktisch permissiv, mit Attributionspflicht nur bei sehr großen Deployments.

Verwandte Leitfäden

Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?

Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.