Gemma-4-Leitfäden
Kimi K2.6 auf Hugging Face: Model Card, Deployment und empfohlene Inference-Engines

Kimi K2.6 auf Hugging Face: Model Card, Deployment und empfohlene Inference-Engines
Moonshot AI veröffentlicht die offiziellen Kimi-K2.6-Gewichte auf Hugging Face unter moonshotai/Kimi-K2.6 mit einer Modified-MIT-Lizenz. Das ist die maßgebliche Quelle für das echte Modell — kein Reupload, kein quantisierter Fork, kein Cloud-Proxy. Wenn Sie K2.6 selbst hosten, Fähigkeiten aus Primärquellen bewerten oder vor einer Entscheidung erst die Spezifikation lesen möchten, ist dieses Repository der richtige Startpunkt.
Diese Anleitung erklärt, was die Model Card tatsächlich enthält, was die Architekturzahlen für Ihr Deployment bedeuten, welche Inference-Engines Moonshot empfiehlt und wann Self-Hosting sinnvoller ist als die offizielle API.

Kurzantwort
- Offizielles Repo:
huggingface.co/moonshotai/Kimi-K2.6 - Architektur: Mixture-of-Experts, ~1T Gesamtparameter, ~32B aktiv pro Token
- Kontextfenster: 256K (262.144 Tokens auf der API-Preiseseite)
- Modalitäten: Text, Bild und Video über den MoonViT-Vision-Encoder mit 400M Parametern
- Empfohlene Engines: vLLM, SGLang und KTransformers
- Lizenz: Modified MIT
- Thinking ist standardmäßig aktiv. Für korrektes Verhalten ist der Flag
--reasoning-parser kimi_k2nötig.
Was die offizielle Hugging-Face-Seite enthält
Das Repo moonshotai/Kimi-K2.6 ist ähnlich aufgebaut wie frühere K2-Releases:
- eine Model Card mit kanonischer Beschreibung, Architektur und Capability-Claims
- Benchmark-Tabellen, wie Moonshot sie auch im Blog verwendet
- eine Deployment-Anleitung unter
docs/deploy_guidance.mdmit Beispielen für vLLM, SGLang und KTransformers - Nutzungsbeispiele in Python für Thinking vs. Instant, Bild- und Videoeingabe, Tool-Calling und den Umgang mit
reasoning_content - die safetensors-Shards, Tokenizer- und Konfigurationsdateien
- ein
figures/-Verzeichnis mit Assets aus der Model Card
Wenn Sie schon mit K2.5 auf Hugging Face gearbeitet haben, kommt Ihnen die Struktur bekannt vor. Moonshot hält die Integrationsmuster absichtlich stabil, damit bestehende Infrastruktur mit minimalen Änderungen auf K2.6 umgestellt werden kann.
Modellzusammenfassung
Die wichtigsten Architekturwerte:
| Spezifikation | Wert |
|---|---|
| Architektur | Mixture-of-Experts (MoE) |
| Gesamtparameter | ~1 Billion |
| Aktivierte Parameter pro Token | ~32 Milliarden |
| Experten | 384 geroutet, 8 aktiv + 1 shared |
| Layer | 61 |
| Kontextfenster | 256K Tokens |
| Vision-Encoder | MoonViT, 400M Parameter |
| Attention | Multi-head Latent Attention (MLA) |
| Aktivierung | SwiGLU |
Wichtige Punkte dazu:
Gesamt- und Aktivparameter sind unterschiedliche Größen. Die 1T bestimmen die Speicheranforderung, die 32B eher die Rechenkosten pro Token.
MLA ist eine bewusste KV-Cache-Entscheidung. Schlüssel und Werte werden in einen niedrigdimensionalen latenten Raum komprimiert, was bei langem Kontext deutlich Speicher spart.
384 Experten mit 8+1 aktiv pro Token bedeuten sparsames Routing. Deshalb empfiehlt Moonshot Engines mit expliziter K2-Unterstützung statt generischem MoE-Support.
MoonViT ist nativ integriert. Vision wurde nicht nachträglich „angeflanscht“, was Screenshot-zu-Code und visiongesteuerte Toolnutzung deutlich robuster macht.
Was der Benchmark-Abschnitt sagt
Die Model Card enthält Moonshots komplette Evaluierungstabellen. Die Highlights:
Coding: SWE-Bench Pro 58.6, SWE-Bench Verified 80.2, SWE-Bench Multilingual 76.7, LiveCodeBench v6 89.6, Terminal-Bench 2.0 66.7.
Agentisch / Tool-Nutzung: Humanity's Last Exam mit Tools 54.0, BrowseComp 83.2, DeepSearchQA F1 92.5, Toolathlon 50.0.
Vision: Charxiv with Python 86.7, Math Vision with Python 93.2, V* 96.9.
Zwei Einschränkungen nennt Moonshot selbst:
- Die Zahlen sind selbst berichtet und hängen vom gewählten Harness und den Systemprompts ab.
- Terminal-Bench 2.0 wurde im Non-Thinking-Modus evaluiert, weil die aktuelle Kontextstrategie von Moonshot im Thinking-Modus nicht zum Terminus-2-Framework passt.
Empfohlene Deployment-Engines
Moonshot nennt ausdrücklich drei Engines.
vLLM
vLLM ist die verbreitetste Serving-Engine mit PagedAttention, Continuous Batching und OpenAI-kompatibler API.
vllm serve $MODEL_PATH -tp 8 \
--mm-encoder-tp-mode data \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2
Wichtige Flags:
--tool-call-parser kimi_k2--reasoning-parser kimi_k2--mm-encoder-tp-mode data-tp 8
Moonshot nennt vLLM 0.19.1 als manuell verifizierte stabile Version für die K2-Serie.
SGLang
SGLang ist besonders attraktiv für strukturierte Generierung, Tool-Calling-Ketten und Multi-Turn-Konversation mit Prefix-Reuse.
sglang serve \
--model-path $MODEL_PATH \
--tp 8 \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2
Für sehr neue Features empfiehlt Moonshot eine Installation direkt aus dem Quellcode.
KTransformers
KTransformers ist Moonshots eigene Inference-Engine, speziell für die K2-Familie optimiert. Im Vergleich zu vLLM und SGLang ist sie weniger universell, dafür oft effizienter für K2-spezifisches Routing, MLA und CPU-Offloading.
Warum nicht irgendeine MoE-Engine?
K2.6 verwendet spezifisches Expertenrouting, ein eigenes Tool-Call-Format, einen K2-spezifischen Reasoning-Parser und einen integrierten Vision-Encoder. Ohne K2-spezifische Unterstützung laden Engines das Modell gar nicht, liefern fehlerhafte Tool-Calls oder verlieren Reasoning-Inhalte.
Offizielle API vs. Self-Hosting
Nutzen Sie die offizielle Moonshot-API, wenn:
- Sie in Validierung oder früher Produktion sind
- Ihr Tokenvolumen noch unterhalb des wirtschaftlichen Break-even für dedizierte GPUs liegt
- Sie Videoeingabe sofort produktiv brauchen
- Sie First-Party-Support und Herstellerverhalten wollen
Hosten Sie selbst von Hugging Face, wenn:
- Compliance Air-Gap oder On-Prem verlangt
- Ihr Volumen groß genug ist, dass dedizierte GPUs günstiger werden
- Sie Quantisierung, Batching und Routing selbst steuern wollen
- Sie fixe Infrastrukturkosten statt variabler Tokenkosten bevorzugen
- Sie ein Forschungsartefakt oder Open-Source-Projekt ohne Dritt-API-Abhängigkeit bauen
Für die meisten Teams ist der beste Weg: erst mit der API prototypen, reale Latenz- und Tokenmuster messen, dann über Self-Hosting entscheiden.
Checkliste vor dem Deployment
- Versionen pinnen. vLLM 0.19.1 ist Moonshots verifizierte stabile Version.
- Hardware prüfen. Für volle Präzision werden typischerweise 8× H200 oder ähnlich angenommen.
- Thinking-Modus beachten. Er ist standardmäßig aktiv und muss explizit deaktiviert werden, wenn Sie keine Reasoning-Tokens wollen.
- Tool-Calling + Thinking zusammendenken. Bei aktivem Thinking muss
tool_choiceautoodernonesein, undreasoning_contentmuss in Multi-Turn-Tool-Loops erhalten bleiben. - Multimodale Limits respektieren. Bilder idealerweise bis 4K, Videos bis etwa 2K.
- Websuche + Thinking. Das offizielle
$web_searchist derzeit mit Thinking auf K2.6 und K2.5 nicht kompatibel. - Temperatur und top_p. Moonshot empfiehlt Temperatur 1.0 für Thinking, 0.6 für Instant und
top_p0.95.
Abschließende Empfehlung
Die Hugging-Face-Model-Card ist das technisch wichtigste Dokument zu Kimi K2.6. Alles, was darüber entscheidet, ob Ihr Deployment funktioniert, steckt eher in der Deploy-Anleitung und den Usage-Beispielen als in Marketing-Material. Für Entwickler ist die sinnvolle Reihenfolge: Model Card lesen, docs/deploy_guidance.md durcharbeiten und dann die Codebeispiele sauber umsetzen.
Wenn Sie Self-Hosting planen, rechnen Sie mit fest gepinnten Versionen, K2-spezifischen Parsern und H200-Klasse-Hardware in voller Präzision. Wenn Sie dafür noch nicht bereit sind, ist die offizielle Moonshot-API meist der bessere Startpunkt (siehe unseren API- und Preisleitfaden).
FAQ
Ist Kimi K2.6 auf Hugging Face offiziell?
Ja. moonshotai/Kimi-K2.6 ist die offizielle Organisation von Moonshot AI und die kanonische Quelle der Gewichte.
Wie viele Parameter hat Kimi K2.6?
Ungefähr 1 Billion Gesamtparameter und rund 32 Milliarden aktivierte Parameter pro Token.
Wie lang ist das Kontextfenster?
256K Tokens laut Model Card, exakt 262.144 laut Moonshots API-Preisseite.
Welche Engines werden empfohlen?
Moonshot empfiehlt vLLM, SGLang und KTransformers.
Unterstützt Self-Hosting Video?
Die Gewichte unterstützen Videoeingabe, aber Moonshot markiert sie auf Third-Party-Deployments als experimentell.
Sollten Sie die API oder Self-Hosting nutzen?
Für Validierung und kleinere Workloads die API, für Air-Gap, großes Volumen oder maximale Kontrolle Self-Hosting.
Unter welcher Lizenz steht Kimi K2.6?
Unter Modified MIT. Für die meisten Teams ist sie praktisch permissiv, mit Attributionspflicht nur bei sehr großen Deployments.
Verwandte Leitfäden
Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Kimi K2.6 API-Schlüssel und Preise: Offizielle Kosten, Rate Limits und Web-Suchgebühren
Die offiziellen Token-Preise für Kimi K2.6, was gecachte und ungecachte Eingaben bedeuten, wie die Rate-Limit-Stufen wirklich funktionieren und welche Zusatzkosten – etwa Websuche – beim Budgetieren oft übersehen werden.

Kimi K2.6 Review: Benchmarks, Preise, API und ob sich der Einsatz lohnt
Kimi K2.6 erschien am 20. April 2026 als Open-Weight-Modell für agentisches Coding mit 256K Kontext, nativer Bild- und Videoeingabe und einer aggressiven Agent-Swarm-Story. Dieses Review trennt Substanz von Marketing.

Kimi K2.6 vs. GLM-5.1: Benchmarks, Kontextfenster, Preise und welches Modell besser passt
Zwei der stärksten Open-Weight-Modelle aus China im Jahr 2026, im Abstand von zwei Wochen veröffentlicht und auf ähnliche Coding-Workloads ausgerichtet — aber mit realen Unterschieden bei Modalität, Kontext und Preisstruktur.
Sie wissen noch nicht, was Sie als Nächstes lesen sollen?
Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
