Kimi K2.6 API-Schlüssel und Preise: Offizielle Kosten, Rate Limits und Web-Suchgebühren

Wenn Sie gerade dabei sind, einen Kimi-API-Schlüssel für K2.6 einzurichten, ist der Token-Preis nur ein Teil des Gesamtbilds. Caching, Rate-Limit-Stufen, Web-Suchgebühren und agentenartige Retries prägen still und leise Ihre Monatsrechnung. Dieser Leitfaden geht jeden Punkt durch und verwendet dabei die Zahlen, die Moonshot aktuell auf den eigenen Plattformseiten veröffentlicht.

Kimi-K2.6-API-Preisübersicht mit Token-Tarifen, Rate-Limit-Anzeigen und einer Moonshot-ähnlichen Entwicklerkonsole

Kurzantwort

Kimi K2.6 nutzt die OpenAI-kompatible API von Moonshot unter https://api.moonshot.ai/v1 — jedes OpenAI-SDK funktioniert als Drop-in-Client.
Offizielle K2.6-Preise auf der Moonshot-Plattformseite:
- Gecachte Eingabe: ¥1.10 / 1M Tokens
- Ungecachte Eingabe: ¥6.50 / 1M Tokens
- Ausgabe: ¥27.00 / 1M Tokens
- Kontextfenster: 262.144 Tokens
Einen API-Schlüssel erhalten Sie, indem Sie sich bei platform.moonshot.ai registrieren und ihn in der Konsole erstellen.
Die integrierte Websuche wird mit ¥0.03 pro Aufruf berechnet, zuzüglich der Tokens, die die Suchergebnisse im nächsten /chat/completions-Request verbrauchen.
Das Free-Tier (Tier 0) erlaubt 3 RPM, 1 gleichzeitige Anfrage und hat eine tägliche Token-Obergrenze. Für stärkere Nutzung ist ein kostenpflichtiges Aufladen nötig, um in höhere Stufen zu wechseln.

Im Folgenden zerlegen wir diese Zahlen und die Fallstricke rundherum.

So erstellen Sie einen Kimi-API-Schlüssel

Der Ablauf ist derselbe wie bei den meisten LLM-Anbietern:

Gehen Sie zu platform.moonshot.ai und melden Sie sich an oder registrieren Sie sich.
Verifizieren Sie Ihr Konto, falls Sie dazu aufgefordert werden.
Öffnen Sie den Bereich für API-Schlüssel in der Konsole und klicken Sie auf Create API key.
Kopieren Sie den Schlüssel sofort — er wird nur einmal angezeigt.
Optional, aber empfohlen: Setzen Sie vor dem Start Ihrer Workloads ein Budget-Limit und einen Alarm für niedrigen Kontostand.

Behandeln Sie den Schlüssel wie ein Passwort: speichern Sie ihn in einer Umgebungsvariable oder in einem Secret Manager, nicht in Quellcode-Dateien. Wenn er geleakt wird, rotieren Sie ihn auf derselben Konsolenseite.

Wichtig für neue Konten: Moonshot arbeitet mit stufenbasierten Rate Limits, die mit dem kumulativen Aufladebetrag wachsen. Ein brandneues Konto startet bei Tier 0 mit sehr engen Limits — gut für ein paar Testanfragen, schlecht für einen permanent laufenden Coding-Agenten. Lesen Sie vor Benchmarks unbedingt den Abschnitt zu den Rate Limits.

Offizielle Preise für Kimi K2.6

Die aktuell auf Moonshots K2.6-Preiseseite veröffentlichten Zahlen:

Position	Preis	Einheit
Gecachte Eingabe	¥1.10	pro 1M Tokens
Ungecachte Eingabe	¥6.50	pro 1M Tokens
Ausgabe	¥27.00	pro 1M Tokens
Kontextfenster	262.144	Tokens

Zwei Dinge fallen auf. Erstens sind die Token-Preise in RMB (¥) angegeben, nicht in USD. Wenn Sie mit Anthropic- oder OpenAI-Preisen vergleichen, rechnen Sie die Währung sauber um; lesen Sie „¥6.50“ nicht einfach als „$6.50“. Zweitens ist gecachte Eingabe ungefähr 6× günstiger als ungecachte Eingabe. Diese eine Zeile dominiert die Wirtschaftlichkeit von Long-Context- und Agent-Workloads.

Was „gecachte Eingabe“ vs. „ungecachte Eingabe“ bedeutet

Moonshot implementiert wie die meisten Frontier-Anbieter Context Caching: Wenn Teile Ihres Prompts kürzlich schon gesehen wurden, muss der Server das Präfix nicht erneut berechnen und berechnet diese Tokens zu einem deutlich niedrigeren Tarif.

Konkret:

Cache-Hit (gecachte Eingabe) — ein bereits gesendetes Präfix (Systemprompt, frühere Gesprächsrunden, großer Dokumentkontext) stimmt mit dem serverseitig gecachten Inhalt überein. Sie zahlen den Cached-Tarif.
Cache-Miss (ungecachte Eingabe) — neuer Prompt-Inhalt, eine andere Reihenfolge oder ein Präfix, das aus dem Cache gefallen ist. Sie zahlen den vollen Uncached-Tarif.

Warum das in echten Workflows wichtig ist:

Long-Context-RAG — wenn Sie 100K Tokens Wissensbasis in den Systemprompt packen und über mehrere Requests wiederverwenden, verwandelt Caching eine schmerzhafte Rechnung in eine günstige.
Agent-Loops — jeder Schritt eines Tool-using Agents sendet meist Systemprompt, Tool-Schemas und Gesprächsverlauf erneut. Ohne Caching zahlt jeder Schritt Uncached-Preise. Mit Caching kostet nur der neu angehängte Tool-Output und die neue Assistant-Nachricht den vollen Preis.
Identische Prompts, unterschiedliche Nutzer — wenn zwei Nutzer denselben Systemprompt verwenden, profitiert der zweite von Caching.

Die praktische Konsequenz: Gestalten Sie Prompts so, dass die stabilen, wiederverwendbaren Teile (Anweisungen, lange Dokumente, Tool-Definitionen) zuerst kommen und die nutzerspezifischen, wechselnden Teile zuletzt. Das maximiert die Cache-Hit-Rate und kann die Eingabekosten um das Fünffache oder mehr senken.

OpenAI-kompatibles Anfrageformat

Moonshots API ist OpenAI-kompatibel. Das bedeutet: Jedes OpenAI-SDK funktioniert mit neuer Base-URL und API-Schlüssel.

curl

curl https://api.moonshot.ai/v1/chat/completions \
  -H "Authorization: Bearer $MOONSHOT_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kimi-k2.6",
    "messages": [
      {"role": "user", "content": "Explain caching in one paragraph."}
    ]
  }'

Python (OpenAI SDK)

from openai import OpenAI

client = OpenAI(
    api_key="your-moonshot-api-key",
    base_url="https://api.moonshot.ai/v1",
)

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {"role": "user", "content": "Write a Python function to debounce calls."}
    ],
)
print(response.choices[0].message.content)

Thinking- vs. Instant-Modus

K2.6 nutzt standardmäßig den Thinking-Modus. Um Instant zu erzwingen und auf Reasoning-Tokens zu verzichten, übergeben Sie:

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[...],
    extra_body={"thinking": {"type": "disabled"}},
)

Im Thinking-Modus entstehen Reasoning-Tokens, die als Ausgabe berechnet werden. Wenn Sie sie nicht brauchen, ist das Abschalten ein schneller Sparhebel.

Multimodale Eingaben

K2.6 ist nativ multimodal — Text-, Bild- und Videoeingaben werden unterstützt. Bilder funktionieren direkt über den standardmäßigen OpenAI-image_url-Inhaltstyp. Video wird auf der offiziellen API unterstützt, von Moonshot aber für Third-Party-Deployments als experimentell markiert. Wenn Ihr Produkt davon abhängt, testen Sie den End-to-End-Pfad gründlich.

Rate Limits und Kontostufen

Moonshot wendet stufenbasierte Rate Limits pro Konto an. Der Fortschritt basiert auf dem kumulativen Aufladebetrag — nicht auf Ihrem aktuellen Guthaben, sondern auf der Summe aller Einzahlungen.

Typische Struktur der aktuell veröffentlichten Staffelung:

Tier	Kumulierter Top-up	Parallelität	RPM	TPM	TPD
Tier 0	¥0	1	3	500.000	1.500.000
Tier 1	¥50	höher	höher	höher	höher
…	…	…	…	…	…

Die genauen Zahlen für Tier 1 und höher ändern sich im Lauf der Zeit — prüfen Sie die Limits-Seite der Plattform, bevor Sie Workloads dimensionieren. Einige Faustregeln:

Tier 0 reicht für Validierung. Sie können die Integration bauen, ein paar Testaufrufe ausführen und bestätigen, dass das OpenAI-SDK funktioniert — alles innerhalb des Free-Tiers.
Tier 0 reicht nicht für Coding-Agenten. Drei Requests pro Minute und nur eine gleichzeitige Anfrage bremsen jeden echten Agent-Loop aus. Sie verbringen mehr Zeit im Rate Limit als mit produktiver Arbeit.
Früh auf eine höhere Stufe wechseln. Der günstigste Weg, einen realen Workload freizuschalten, ist meist ein kleiner Top-up für Tier 1 — nicht der Versuch, um Tier-0-Limits herumzuoptimieren.

Zusätzliche Kosten, die oft übersehen werden

Die Preistabelle pro Token erzählt nicht die ganze Geschichte. Drei Kostenkategorien tauchen in der Produktion still auf.

Integrierte Websuche. Moonshot bietet ein $web_search-Tool, das das Modell während einer Generierung aufrufen kann. Jeder Aufruf kostet ¥0.03 pro Aufruf. Das klingt harmlos, aber der Inhalt der Suchergebnisse wird anschließend in den nächsten /chat/completions-Request eingefügt und dort als zusätzliche Eingabetokens zum normalen Satz berechnet. Ein gesprächiger Agent, der pro Nutzerturn zehnmal sucht, zahlt zehn Suchgebühren und zehn Blöcke zusätzlicher Eingabetokens.

Reasoning-Tokens. Im Thinking-Modus erzeugt das Modell interne Reasoning-Tokens, die als Ausgabe zählen. Bei einfachen Fragen ist das unproblematisch. Bei einem Agenten, der in einer Schleife Tools aufruft, kann das kumulierte Reasoning über 50 Tool-Calls leicht Ihre größte Kostenposition werden. Wenn die Aufgabe es nicht verlangt, schalten Sie Thinking aus.

Agent-Retries und lange Loops. Moonshot hebt selbst hervor, dass K2.6 über 12 Stunden hinweg 4.000+ Tool-Calls ausführen kann. Das ist beeindruckend — und eine sehr reale Rechnung. Langlaufende Agent-Demos sind nützlich, aber auch der schnellste Weg, unbemerkt ¥10.000 zu verbrennen. Setzen Sie bei Agent-Workflows immer Grenzwerte für maximale Schritte und maximale Tokens.

Cache-Miss-Muster. Wenn Sie Ihren Prompt umsortieren, die Systemnachricht häufig ändern oder viele Nutzer mit jeweils eigenem Kontext bedienen, sinkt die Cache-Hit-Rate. Wenn Ihre „Input“-Kosten größer aussehen als erwartet, ist Caching fast immer der Grund.

Ist Kimi K2.6 kostenlos?

Es gibt drei verschiedene „kostenlos“-Fragen, und sie haben drei verschiedene Antworten:

Kimi im Browser unter kimi.com nutzen. Moonshots Consumer-Produkte haben in der Regel ein kostenloses Kontingent mit Tageslimits. Das ist nicht die API — Unterhaltungen dort verbrauchen keine API-Credits.

Die Kimi-K2.6-API ohne Bezahlung nutzen. Die freien Tier-0-Limits erlauben eine kleine Zahl von Aufrufen ohne Aufladung. Das reicht für Integrationstests, nicht für dauerhafte Nutzung. Jenseits von Tier 0 ist API-Nutzung kostenpflichtig.

Kimi K2.6 über Ollama Cloud, OpenRouter oder ähnliche Anbieter nutzen. Das sind separate Abrechnungssysteme mit eigenen Gratisguthaben und Preisstrukturen. Sie sind nicht „die Kimi-API“, auch wenn sie auf dasselbe Modell routen.

Kurz gesagt: Es gibt einen kostenlosen Weg zum Ausprobieren, aber keinen kostenlosen Weg, einen Produktions-Workload über die offizielle API auf K2.6 zu betreiben.

So kontrollieren Sie Kimi-API-Kosten

Eine kurze Checkliste, bevor Sie hochskalieren:

Setzen Sie ein hartes Budget-Limit in der Konsole. Ihr zukünftiges Ich wird es Ihnen danken.
Aktivieren Sie Guthabenwarnungen, damit Sie unerwartete Ausgaben bemerken, bevor Ihre Karte es tut.
Übergeben Sie immer max_tokens für die Ausgabe, besonders in Agent-Loops, in denen das Modell sonst endlos reden könnte.
Stabilen Kontext zuerst, nutzerspezifischen Inhalt zuletzt — maximieren Sie Cache-Hits.
Deaktivieren Sie den Thinking-Modus für Aufgaben, die ihn nicht brauchen.
Schützen Sie $web_search hinter expliziter Absicht; lassen Sie nicht jeden Prompt automatisch suchen.
Begrenzen Sie Agent-Loops mit einem Schrittzähler und einem Wall-Clock-Timeout.
Protokollieren Sie Eingabe-, Ausgabe- und Cached-Input-Tokens pro Anfrage, damit Sie sehen, wo die Kosten tatsächlich entstehen.

Abschließende Empfehlung

Wenn Sie Kimi K2.6 für einen Coding-Agenten oder einen Long-Context-Workflow evaluieren, ist die Kostenstruktur brauchbar, aber nicht automatisch günstig. Die Headline-Token-Preise sind wettbewerbsfähig, und der Cached-Input-Tarif ist hervorragend — aber nur, wenn Ihre Prompt-Struktur den Cache auch wirklich trifft. Für kurze, zustandslose Aufrufe ohne Caching ist K2.6 nicht die billigste Option, und insbesondere der Output-Tarif (¥27.00 / 1M) dominiert jedes Kostenmodell mit viel generiertem Code.

Für die meisten Teams ist der richtige Startpunkt: genug aufladen, um Tier 0 zu verlassen, die Integration bauen, Ihre reale Cache-Hit-Rate und Token-Verteilung in der Produktion messen und erst dann entscheiden, ob K2.6 langfristig passt — oder ob ein Modell mit anderer Preisstruktur besser zu Ihrem Workflow passt.

FAQ

Wie bekommt man einen Kimi-API-Schlüssel?
Melden Sie sich bei platform.moonshot.ai an, öffnen Sie den Bereich für API-Schlüssel und erstellen Sie einen neuen Schlüssel. Kopieren Sie ihn sofort; er wird nur einmal angezeigt. Setzen Sie dabei direkt auch ein Budget-Limit.

Wie viel kostet Kimi K2.6?
Auf der offiziellen Preisseite kostet gecachte Eingabe ¥1.10 pro 1M Tokens, ungecachte Eingabe ¥6.50 pro 1M Tokens, Ausgabe ¥27.00 pro 1M Tokens, und das Kontextfenster beträgt 262.144 Tokens. Die Preise sind in RMB angegeben.

Ist Kimi K2.6 kostenlos nutzbar?
Das freie Tier 0 erlaubt eine kleine Zahl von Aufrufen (3 RPM, 1 gleichzeitiger Request) mit täglicher Token-Obergrenze — genug zum Testen, nicht für Produktion. Das Consumer-Produkt auf kimi.com hat ein eigenes Free-Tier, getrennt von der API-Abrechnung.

Unterstützt die Kimi-API OpenAI-SDKs?
Ja. Die Kimi-API ist OpenAI-kompatibel. Richten Sie ein beliebiges OpenAI-SDK auf https://api.moonshot.ai/v1 mit Ihrem Moonshot-Schlüssel aus und setzen Sie model auf kimi-k2.6.

Welche Rate Limits hat die Kimi-API?
Die Limits sind tierbasiert und skalieren mit dem kumulativen Aufladebetrag. Tier 0 (¥0) erlaubt 3 RPM und 1 parallelen Request mit täglicher Token-Grenze. Tier 1 startet bei ¥50 kumuliertem Top-up mit deutlich höheren Limits. Höhere Stufen erfordern größere kumulierte Aufladungen.

Wie viel kostet Kimi-Websuche?
Das integrierte $web_search-Tool kostet ¥0.03 pro Aufruf. Der Inhalt der Suchergebnisse wird anschließend dem nächsten Chat-Completion-Request hinzugefügt und zum normalen Eingabetarif berechnet.

Kann ich Kimi K2.6 mit Tools und Function Calling nutzen?
Ja. K2.6 unterstützt Tool-Use und Function Calling im gleichen Stil wie OpenAI. Eine Einschränkung aus Moonshots Doku: Wenn Thinking aktiviert ist, sollte tool_choice auf auto oder none stehen, und Sie müssen die reasoning_content-Felder der Assistant-Nachricht über Tool-Calling-Turns hinweg erhalten.

Kimi K2.6 API-Schlüssel und Preise: Offizielle Kosten, Rate Limits und Web-Suchgebühren