Gemma-4-Leitfäden
Kimi K2.6 API-Schlüssel und Preise: Offizielle Kosten, Rate Limits und Web-Suchgebühren

Kimi K2.6 API-Schlüssel und Preise: Offizielle Kosten, Rate Limits und Web-Suchgebühren
Wenn Sie gerade dabei sind, einen Kimi-API-Schlüssel für K2.6 einzurichten, ist der Token-Preis nur ein Teil des Gesamtbilds. Caching, Rate-Limit-Stufen, Web-Suchgebühren und agentenartige Retries prägen still und leise Ihre Monatsrechnung. Dieser Leitfaden geht jeden Punkt durch und verwendet dabei die Zahlen, die Moonshot aktuell auf den eigenen Plattformseiten veröffentlicht.

Kurzantwort
- Kimi K2.6 nutzt die OpenAI-kompatible API von Moonshot unter
https://api.moonshot.ai/v1— jedes OpenAI-SDK funktioniert als Drop-in-Client. - Offizielle K2.6-Preise auf der Moonshot-Plattformseite:
- Gecachte Eingabe: ¥1.10 / 1M Tokens
- Ungecachte Eingabe: ¥6.50 / 1M Tokens
- Ausgabe: ¥27.00 / 1M Tokens
- Kontextfenster: 262.144 Tokens
- Einen API-Schlüssel erhalten Sie, indem Sie sich bei
platform.moonshot.airegistrieren und ihn in der Konsole erstellen. - Die integrierte Websuche wird mit ¥0.03 pro Aufruf berechnet, zuzüglich der Tokens, die die Suchergebnisse im nächsten
/chat/completions-Request verbrauchen. - Das Free-Tier (Tier 0) erlaubt 3 RPM, 1 gleichzeitige Anfrage und hat eine tägliche Token-Obergrenze. Für stärkere Nutzung ist ein kostenpflichtiges Aufladen nötig, um in höhere Stufen zu wechseln.
Im Folgenden zerlegen wir diese Zahlen und die Fallstricke rundherum.
So erstellen Sie einen Kimi-API-Schlüssel
Der Ablauf ist derselbe wie bei den meisten LLM-Anbietern:
- Gehen Sie zu
platform.moonshot.aiund melden Sie sich an oder registrieren Sie sich. - Verifizieren Sie Ihr Konto, falls Sie dazu aufgefordert werden.
- Öffnen Sie den Bereich für API-Schlüssel in der Konsole und klicken Sie auf Create API key.
- Kopieren Sie den Schlüssel sofort — er wird nur einmal angezeigt.
- Optional, aber empfohlen: Setzen Sie vor dem Start Ihrer Workloads ein Budget-Limit und einen Alarm für niedrigen Kontostand.
Behandeln Sie den Schlüssel wie ein Passwort: speichern Sie ihn in einer Umgebungsvariable oder in einem Secret Manager, nicht in Quellcode-Dateien. Wenn er geleakt wird, rotieren Sie ihn auf derselben Konsolenseite.
Wichtig für neue Konten: Moonshot arbeitet mit stufenbasierten Rate Limits, die mit dem kumulativen Aufladebetrag wachsen. Ein brandneues Konto startet bei Tier 0 mit sehr engen Limits — gut für ein paar Testanfragen, schlecht für einen permanent laufenden Coding-Agenten. Lesen Sie vor Benchmarks unbedingt den Abschnitt zu den Rate Limits.
Offizielle Preise für Kimi K2.6
Die aktuell auf Moonshots K2.6-Preiseseite veröffentlichten Zahlen:
| Position | Preis | Einheit |
|---|---|---|
| Gecachte Eingabe | ¥1.10 | pro 1M Tokens |
| Ungecachte Eingabe | ¥6.50 | pro 1M Tokens |
| Ausgabe | ¥27.00 | pro 1M Tokens |
| Kontextfenster | 262.144 | Tokens |
Zwei Dinge fallen auf. Erstens sind die Token-Preise in RMB (¥) angegeben, nicht in USD. Wenn Sie mit Anthropic- oder OpenAI-Preisen vergleichen, rechnen Sie die Währung sauber um; lesen Sie „¥6.50“ nicht einfach als „$6.50“. Zweitens ist gecachte Eingabe ungefähr 6× günstiger als ungecachte Eingabe. Diese eine Zeile dominiert die Wirtschaftlichkeit von Long-Context- und Agent-Workloads.
Was „gecachte Eingabe“ vs. „ungecachte Eingabe“ bedeutet
Moonshot implementiert wie die meisten Frontier-Anbieter Context Caching: Wenn Teile Ihres Prompts kürzlich schon gesehen wurden, muss der Server das Präfix nicht erneut berechnen und berechnet diese Tokens zu einem deutlich niedrigeren Tarif.
Konkret:
- Cache-Hit (gecachte Eingabe) — ein bereits gesendetes Präfix (Systemprompt, frühere Gesprächsrunden, großer Dokumentkontext) stimmt mit dem serverseitig gecachten Inhalt überein. Sie zahlen den Cached-Tarif.
- Cache-Miss (ungecachte Eingabe) — neuer Prompt-Inhalt, eine andere Reihenfolge oder ein Präfix, das aus dem Cache gefallen ist. Sie zahlen den vollen Uncached-Tarif.
Warum das in echten Workflows wichtig ist:
- Long-Context-RAG — wenn Sie 100K Tokens Wissensbasis in den Systemprompt packen und über mehrere Requests wiederverwenden, verwandelt Caching eine schmerzhafte Rechnung in eine günstige.
- Agent-Loops — jeder Schritt eines Tool-using Agents sendet meist Systemprompt, Tool-Schemas und Gesprächsverlauf erneut. Ohne Caching zahlt jeder Schritt Uncached-Preise. Mit Caching kostet nur der neu angehängte Tool-Output und die neue Assistant-Nachricht den vollen Preis.
- Identische Prompts, unterschiedliche Nutzer — wenn zwei Nutzer denselben Systemprompt verwenden, profitiert der zweite von Caching.
Die praktische Konsequenz: Gestalten Sie Prompts so, dass die stabilen, wiederverwendbaren Teile (Anweisungen, lange Dokumente, Tool-Definitionen) zuerst kommen und die nutzerspezifischen, wechselnden Teile zuletzt. Das maximiert die Cache-Hit-Rate und kann die Eingabekosten um das Fünffache oder mehr senken.
OpenAI-kompatibles Anfrageformat
Moonshots API ist OpenAI-kompatibel. Das bedeutet: Jedes OpenAI-SDK funktioniert mit neuer Base-URL und API-Schlüssel.
curl
curl https://api.moonshot.ai/v1/chat/completions \
-H "Authorization: Bearer $MOONSHOT_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "kimi-k2.6",
"messages": [
{"role": "user", "content": "Explain caching in one paragraph."}
]
}'
Python (OpenAI SDK)
from openai import OpenAI
client = OpenAI(
api_key="your-moonshot-api-key",
base_url="https://api.moonshot.ai/v1",
)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{"role": "user", "content": "Write a Python function to debounce calls."}
],
)
print(response.choices[0].message.content)
Thinking- vs. Instant-Modus
K2.6 nutzt standardmäßig den Thinking-Modus. Um Instant zu erzwingen und auf Reasoning-Tokens zu verzichten, übergeben Sie:
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[...],
extra_body={"thinking": {"type": "disabled"}},
)
Im Thinking-Modus entstehen Reasoning-Tokens, die als Ausgabe berechnet werden. Wenn Sie sie nicht brauchen, ist das Abschalten ein schneller Sparhebel.
Multimodale Eingaben
K2.6 ist nativ multimodal — Text-, Bild- und Videoeingaben werden unterstützt. Bilder funktionieren direkt über den standardmäßigen OpenAI-image_url-Inhaltstyp. Video wird auf der offiziellen API unterstützt, von Moonshot aber für Third-Party-Deployments als experimentell markiert. Wenn Ihr Produkt davon abhängt, testen Sie den End-to-End-Pfad gründlich.
Rate Limits und Kontostufen
Moonshot wendet stufenbasierte Rate Limits pro Konto an. Der Fortschritt basiert auf dem kumulativen Aufladebetrag — nicht auf Ihrem aktuellen Guthaben, sondern auf der Summe aller Einzahlungen.
Typische Struktur der aktuell veröffentlichten Staffelung:
| Tier | Kumulierter Top-up | Parallelität | RPM | TPM | TPD |
|---|---|---|---|---|---|
| Tier 0 | ¥0 | 1 | 3 | 500.000 | 1.500.000 |
| Tier 1 | ¥50 | höher | höher | höher | höher |
| … | … | … | … | … | … |
Die genauen Zahlen für Tier 1 und höher ändern sich im Lauf der Zeit — prüfen Sie die Limits-Seite der Plattform, bevor Sie Workloads dimensionieren. Einige Faustregeln:
- Tier 0 reicht für Validierung. Sie können die Integration bauen, ein paar Testaufrufe ausführen und bestätigen, dass das OpenAI-SDK funktioniert — alles innerhalb des Free-Tiers.
- Tier 0 reicht nicht für Coding-Agenten. Drei Requests pro Minute und nur eine gleichzeitige Anfrage bremsen jeden echten Agent-Loop aus. Sie verbringen mehr Zeit im Rate Limit als mit produktiver Arbeit.
- Früh auf eine höhere Stufe wechseln. Der günstigste Weg, einen realen Workload freizuschalten, ist meist ein kleiner Top-up für Tier 1 — nicht der Versuch, um Tier-0-Limits herumzuoptimieren.
Zusätzliche Kosten, die oft übersehen werden
Die Preistabelle pro Token erzählt nicht die ganze Geschichte. Drei Kostenkategorien tauchen in der Produktion still auf.
Integrierte Websuche. Moonshot bietet ein $web_search-Tool, das das Modell während einer Generierung aufrufen kann. Jeder Aufruf kostet ¥0.03 pro Aufruf. Das klingt harmlos, aber der Inhalt der Suchergebnisse wird anschließend in den nächsten /chat/completions-Request eingefügt und dort als zusätzliche Eingabetokens zum normalen Satz berechnet. Ein gesprächiger Agent, der pro Nutzerturn zehnmal sucht, zahlt zehn Suchgebühren und zehn Blöcke zusätzlicher Eingabetokens.
Reasoning-Tokens. Im Thinking-Modus erzeugt das Modell interne Reasoning-Tokens, die als Ausgabe zählen. Bei einfachen Fragen ist das unproblematisch. Bei einem Agenten, der in einer Schleife Tools aufruft, kann das kumulierte Reasoning über 50 Tool-Calls leicht Ihre größte Kostenposition werden. Wenn die Aufgabe es nicht verlangt, schalten Sie Thinking aus.
Agent-Retries und lange Loops. Moonshot hebt selbst hervor, dass K2.6 über 12 Stunden hinweg 4.000+ Tool-Calls ausführen kann. Das ist beeindruckend — und eine sehr reale Rechnung. Langlaufende Agent-Demos sind nützlich, aber auch der schnellste Weg, unbemerkt ¥10.000 zu verbrennen. Setzen Sie bei Agent-Workflows immer Grenzwerte für maximale Schritte und maximale Tokens.
Cache-Miss-Muster. Wenn Sie Ihren Prompt umsortieren, die Systemnachricht häufig ändern oder viele Nutzer mit jeweils eigenem Kontext bedienen, sinkt die Cache-Hit-Rate. Wenn Ihre „Input“-Kosten größer aussehen als erwartet, ist Caching fast immer der Grund.
Ist Kimi K2.6 kostenlos?
Es gibt drei verschiedene „kostenlos“-Fragen, und sie haben drei verschiedene Antworten:
Kimi im Browser unter kimi.com nutzen. Moonshots Consumer-Produkte haben in der Regel ein kostenloses Kontingent mit Tageslimits. Das ist nicht die API — Unterhaltungen dort verbrauchen keine API-Credits.
Die Kimi-K2.6-API ohne Bezahlung nutzen. Die freien Tier-0-Limits erlauben eine kleine Zahl von Aufrufen ohne Aufladung. Das reicht für Integrationstests, nicht für dauerhafte Nutzung. Jenseits von Tier 0 ist API-Nutzung kostenpflichtig.
Kimi K2.6 über Ollama Cloud, OpenRouter oder ähnliche Anbieter nutzen. Das sind separate Abrechnungssysteme mit eigenen Gratisguthaben und Preisstrukturen. Sie sind nicht „die Kimi-API“, auch wenn sie auf dasselbe Modell routen.
Kurz gesagt: Es gibt einen kostenlosen Weg zum Ausprobieren, aber keinen kostenlosen Weg, einen Produktions-Workload über die offizielle API auf K2.6 zu betreiben.
So kontrollieren Sie Kimi-API-Kosten
Eine kurze Checkliste, bevor Sie hochskalieren:
- Setzen Sie ein hartes Budget-Limit in der Konsole. Ihr zukünftiges Ich wird es Ihnen danken.
- Aktivieren Sie Guthabenwarnungen, damit Sie unerwartete Ausgaben bemerken, bevor Ihre Karte es tut.
- Übergeben Sie immer
max_tokensfür die Ausgabe, besonders in Agent-Loops, in denen das Modell sonst endlos reden könnte. - Stabilen Kontext zuerst, nutzerspezifischen Inhalt zuletzt — maximieren Sie Cache-Hits.
- Deaktivieren Sie den Thinking-Modus für Aufgaben, die ihn nicht brauchen.
- Schützen Sie
$web_searchhinter expliziter Absicht; lassen Sie nicht jeden Prompt automatisch suchen. - Begrenzen Sie Agent-Loops mit einem Schrittzähler und einem Wall-Clock-Timeout.
- Protokollieren Sie Eingabe-, Ausgabe- und Cached-Input-Tokens pro Anfrage, damit Sie sehen, wo die Kosten tatsächlich entstehen.
Abschließende Empfehlung
Wenn Sie Kimi K2.6 für einen Coding-Agenten oder einen Long-Context-Workflow evaluieren, ist die Kostenstruktur brauchbar, aber nicht automatisch günstig. Die Headline-Token-Preise sind wettbewerbsfähig, und der Cached-Input-Tarif ist hervorragend — aber nur, wenn Ihre Prompt-Struktur den Cache auch wirklich trifft. Für kurze, zustandslose Aufrufe ohne Caching ist K2.6 nicht die billigste Option, und insbesondere der Output-Tarif (¥27.00 / 1M) dominiert jedes Kostenmodell mit viel generiertem Code.
Für die meisten Teams ist der richtige Startpunkt: genug aufladen, um Tier 0 zu verlassen, die Integration bauen, Ihre reale Cache-Hit-Rate und Token-Verteilung in der Produktion messen und erst dann entscheiden, ob K2.6 langfristig passt — oder ob ein Modell mit anderer Preisstruktur besser zu Ihrem Workflow passt.
FAQ
Wie bekommt man einen Kimi-API-Schlüssel?
Melden Sie sich bei platform.moonshot.ai an, öffnen Sie den Bereich für API-Schlüssel und erstellen Sie einen neuen Schlüssel. Kopieren Sie ihn sofort; er wird nur einmal angezeigt. Setzen Sie dabei direkt auch ein Budget-Limit.
Wie viel kostet Kimi K2.6?
Auf der offiziellen Preisseite kostet gecachte Eingabe ¥1.10 pro 1M Tokens, ungecachte Eingabe ¥6.50 pro 1M Tokens, Ausgabe ¥27.00 pro 1M Tokens, und das Kontextfenster beträgt 262.144 Tokens. Die Preise sind in RMB angegeben.
Ist Kimi K2.6 kostenlos nutzbar?
Das freie Tier 0 erlaubt eine kleine Zahl von Aufrufen (3 RPM, 1 gleichzeitiger Request) mit täglicher Token-Obergrenze — genug zum Testen, nicht für Produktion. Das Consumer-Produkt auf kimi.com hat ein eigenes Free-Tier, getrennt von der API-Abrechnung.
Unterstützt die Kimi-API OpenAI-SDKs?
Ja. Die Kimi-API ist OpenAI-kompatibel. Richten Sie ein beliebiges OpenAI-SDK auf https://api.moonshot.ai/v1 mit Ihrem Moonshot-Schlüssel aus und setzen Sie model auf kimi-k2.6.
Welche Rate Limits hat die Kimi-API?
Die Limits sind tierbasiert und skalieren mit dem kumulativen Aufladebetrag. Tier 0 (¥0) erlaubt 3 RPM und 1 parallelen Request mit täglicher Token-Grenze. Tier 1 startet bei ¥50 kumuliertem Top-up mit deutlich höheren Limits. Höhere Stufen erfordern größere kumulierte Aufladungen.
Wie viel kostet Kimi-Websuche?
Das integrierte $web_search-Tool kostet ¥0.03 pro Aufruf. Der Inhalt der Suchergebnisse wird anschließend dem nächsten Chat-Completion-Request hinzugefügt und zum normalen Eingabetarif berechnet.
Kann ich Kimi K2.6 mit Tools und Function Calling nutzen?
Ja. K2.6 unterstützt Tool-Use und Function Calling im gleichen Stil wie OpenAI. Eine Einschränkung aus Moonshots Doku: Wenn Thinking aktiviert ist, sollte tool_choice auf auto oder none stehen, und Sie müssen die reasoning_content-Felder der Assistant-Nachricht über Tool-Calling-Turns hinweg erhalten.
Verwandte Leitfäden
Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Kimi K2.6 Review: Benchmarks, Preise, API und ob sich der Einsatz lohnt
Kimi K2.6 erschien am 20. April 2026 als Open-Weight-Modell für agentisches Coding mit 256K Kontext, nativer Bild- und Videoeingabe und einer aggressiven Agent-Swarm-Story. Dieses Review trennt Substanz von Marketing.

Kimi K2.6 auf Hugging Face: Model Card, Deployment und empfohlene Inference-Engines
Alles, was Entwickler aus der Model Card von `moonshotai/Kimi-K2.6` brauchen: was in den Gewichten steckt, wie Deployment mit vLLM oder SGLang funktioniert und wann Self-Hosting besser ist als die offizielle API.

Kimi K2.6 vs. GLM-5.1: Benchmarks, Kontextfenster, Preise und welches Modell besser passt
Zwei der stärksten Open-Weight-Modelle aus China im Jahr 2026, im Abstand von zwei Wochen veröffentlicht und auf ähnliche Coding-Workloads ausgerichtet — aber mit realen Unterschieden bei Modalität, Kontext und Preisstruktur.
Sie wissen noch nicht, was Sie als Nächstes lesen sollen?
Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.
