Gemma-4-Leitfäden

Kimi K2.6 API-Schlüssel und Preise: Offizielle Kosten, Rate Limits und Web-Suchgebühren

8 Min. Lesezeit
kimi k2.6kimi apiapi pricingllm pricingmoonshot ai
Kimi K2.6 API-Schlüssel und Preise: Offizielle Kosten, Rate Limits und Web-Suchgebühren

Kimi K2.6 API-Schlüssel und Preise: Offizielle Kosten, Rate Limits und Web-Suchgebühren

Wenn Sie gerade dabei sind, einen Kimi-API-Schlüssel für K2.6 einzurichten, ist der Token-Preis nur ein Teil des Gesamtbilds. Caching, Rate-Limit-Stufen, Web-Suchgebühren und agentenartige Retries prägen still und leise Ihre Monatsrechnung. Dieser Leitfaden geht jeden Punkt durch und verwendet dabei die Zahlen, die Moonshot aktuell auf den eigenen Plattformseiten veröffentlicht.

Kimi-K2.6-API-Preisübersicht mit Token-Tarifen, Rate-Limit-Anzeigen und einer Moonshot-ähnlichen Entwicklerkonsole

Kurzantwort

  • Kimi K2.6 nutzt die OpenAI-kompatible API von Moonshot unter https://api.moonshot.ai/v1 — jedes OpenAI-SDK funktioniert als Drop-in-Client.
  • Offizielle K2.6-Preise auf der Moonshot-Plattformseite:
    • Gecachte Eingabe: ¥1.10 / 1M Tokens
    • Ungecachte Eingabe: ¥6.50 / 1M Tokens
    • Ausgabe: ¥27.00 / 1M Tokens
    • Kontextfenster: 262.144 Tokens
  • Einen API-Schlüssel erhalten Sie, indem Sie sich bei platform.moonshot.ai registrieren und ihn in der Konsole erstellen.
  • Die integrierte Websuche wird mit ¥0.03 pro Aufruf berechnet, zuzüglich der Tokens, die die Suchergebnisse im nächsten /chat/completions-Request verbrauchen.
  • Das Free-Tier (Tier 0) erlaubt 3 RPM, 1 gleichzeitige Anfrage und hat eine tägliche Token-Obergrenze. Für stärkere Nutzung ist ein kostenpflichtiges Aufladen nötig, um in höhere Stufen zu wechseln.

Im Folgenden zerlegen wir diese Zahlen und die Fallstricke rundherum.

So erstellen Sie einen Kimi-API-Schlüssel

Der Ablauf ist derselbe wie bei den meisten LLM-Anbietern:

  1. Gehen Sie zu platform.moonshot.ai und melden Sie sich an oder registrieren Sie sich.
  2. Verifizieren Sie Ihr Konto, falls Sie dazu aufgefordert werden.
  3. Öffnen Sie den Bereich für API-Schlüssel in der Konsole und klicken Sie auf Create API key.
  4. Kopieren Sie den Schlüssel sofort — er wird nur einmal angezeigt.
  5. Optional, aber empfohlen: Setzen Sie vor dem Start Ihrer Workloads ein Budget-Limit und einen Alarm für niedrigen Kontostand.

Behandeln Sie den Schlüssel wie ein Passwort: speichern Sie ihn in einer Umgebungsvariable oder in einem Secret Manager, nicht in Quellcode-Dateien. Wenn er geleakt wird, rotieren Sie ihn auf derselben Konsolenseite.

Wichtig für neue Konten: Moonshot arbeitet mit stufenbasierten Rate Limits, die mit dem kumulativen Aufladebetrag wachsen. Ein brandneues Konto startet bei Tier 0 mit sehr engen Limits — gut für ein paar Testanfragen, schlecht für einen permanent laufenden Coding-Agenten. Lesen Sie vor Benchmarks unbedingt den Abschnitt zu den Rate Limits.

Offizielle Preise für Kimi K2.6

Die aktuell auf Moonshots K2.6-Preiseseite veröffentlichten Zahlen:

Position Preis Einheit
Gecachte Eingabe ¥1.10 pro 1M Tokens
Ungecachte Eingabe ¥6.50 pro 1M Tokens
Ausgabe ¥27.00 pro 1M Tokens
Kontextfenster 262.144 Tokens

Zwei Dinge fallen auf. Erstens sind die Token-Preise in RMB (¥) angegeben, nicht in USD. Wenn Sie mit Anthropic- oder OpenAI-Preisen vergleichen, rechnen Sie die Währung sauber um; lesen Sie „¥6.50“ nicht einfach als „$6.50“. Zweitens ist gecachte Eingabe ungefähr 6× günstiger als ungecachte Eingabe. Diese eine Zeile dominiert die Wirtschaftlichkeit von Long-Context- und Agent-Workloads.

Was „gecachte Eingabe“ vs. „ungecachte Eingabe“ bedeutet

Moonshot implementiert wie die meisten Frontier-Anbieter Context Caching: Wenn Teile Ihres Prompts kürzlich schon gesehen wurden, muss der Server das Präfix nicht erneut berechnen und berechnet diese Tokens zu einem deutlich niedrigeren Tarif.

Konkret:

  • Cache-Hit (gecachte Eingabe) — ein bereits gesendetes Präfix (Systemprompt, frühere Gesprächsrunden, großer Dokumentkontext) stimmt mit dem serverseitig gecachten Inhalt überein. Sie zahlen den Cached-Tarif.
  • Cache-Miss (ungecachte Eingabe) — neuer Prompt-Inhalt, eine andere Reihenfolge oder ein Präfix, das aus dem Cache gefallen ist. Sie zahlen den vollen Uncached-Tarif.

Warum das in echten Workflows wichtig ist:

  • Long-Context-RAG — wenn Sie 100K Tokens Wissensbasis in den Systemprompt packen und über mehrere Requests wiederverwenden, verwandelt Caching eine schmerzhafte Rechnung in eine günstige.
  • Agent-Loops — jeder Schritt eines Tool-using Agents sendet meist Systemprompt, Tool-Schemas und Gesprächsverlauf erneut. Ohne Caching zahlt jeder Schritt Uncached-Preise. Mit Caching kostet nur der neu angehängte Tool-Output und die neue Assistant-Nachricht den vollen Preis.
  • Identische Prompts, unterschiedliche Nutzer — wenn zwei Nutzer denselben Systemprompt verwenden, profitiert der zweite von Caching.

Die praktische Konsequenz: Gestalten Sie Prompts so, dass die stabilen, wiederverwendbaren Teile (Anweisungen, lange Dokumente, Tool-Definitionen) zuerst kommen und die nutzerspezifischen, wechselnden Teile zuletzt. Das maximiert die Cache-Hit-Rate und kann die Eingabekosten um das Fünffache oder mehr senken.

OpenAI-kompatibles Anfrageformat

Moonshots API ist OpenAI-kompatibel. Das bedeutet: Jedes OpenAI-SDK funktioniert mit neuer Base-URL und API-Schlüssel.

curl

curl https://api.moonshot.ai/v1/chat/completions \
  -H "Authorization: Bearer $MOONSHOT_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kimi-k2.6",
    "messages": [
      {"role": "user", "content": "Explain caching in one paragraph."}
    ]
  }'

Python (OpenAI SDK)

from openai import OpenAI

client = OpenAI(
    api_key="your-moonshot-api-key",
    base_url="https://api.moonshot.ai/v1",
)

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {"role": "user", "content": "Write a Python function to debounce calls."}
    ],
)
print(response.choices[0].message.content)

Thinking- vs. Instant-Modus

K2.6 nutzt standardmäßig den Thinking-Modus. Um Instant zu erzwingen und auf Reasoning-Tokens zu verzichten, übergeben Sie:

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[...],
    extra_body={"thinking": {"type": "disabled"}},
)

Im Thinking-Modus entstehen Reasoning-Tokens, die als Ausgabe berechnet werden. Wenn Sie sie nicht brauchen, ist das Abschalten ein schneller Sparhebel.

Multimodale Eingaben

K2.6 ist nativ multimodal — Text-, Bild- und Videoeingaben werden unterstützt. Bilder funktionieren direkt über den standardmäßigen OpenAI-image_url-Inhaltstyp. Video wird auf der offiziellen API unterstützt, von Moonshot aber für Third-Party-Deployments als experimentell markiert. Wenn Ihr Produkt davon abhängt, testen Sie den End-to-End-Pfad gründlich.

Rate Limits und Kontostufen

Moonshot wendet stufenbasierte Rate Limits pro Konto an. Der Fortschritt basiert auf dem kumulativen Aufladebetrag — nicht auf Ihrem aktuellen Guthaben, sondern auf der Summe aller Einzahlungen.

Typische Struktur der aktuell veröffentlichten Staffelung:

Tier Kumulierter Top-up Parallelität RPM TPM TPD
Tier 0 ¥0 1 3 500.000 1.500.000
Tier 1 ¥50 höher höher höher höher

Die genauen Zahlen für Tier 1 und höher ändern sich im Lauf der Zeit — prüfen Sie die Limits-Seite der Plattform, bevor Sie Workloads dimensionieren. Einige Faustregeln:

  • Tier 0 reicht für Validierung. Sie können die Integration bauen, ein paar Testaufrufe ausführen und bestätigen, dass das OpenAI-SDK funktioniert — alles innerhalb des Free-Tiers.
  • Tier 0 reicht nicht für Coding-Agenten. Drei Requests pro Minute und nur eine gleichzeitige Anfrage bremsen jeden echten Agent-Loop aus. Sie verbringen mehr Zeit im Rate Limit als mit produktiver Arbeit.
  • Früh auf eine höhere Stufe wechseln. Der günstigste Weg, einen realen Workload freizuschalten, ist meist ein kleiner Top-up für Tier 1 — nicht der Versuch, um Tier-0-Limits herumzuoptimieren.

Zusätzliche Kosten, die oft übersehen werden

Die Preistabelle pro Token erzählt nicht die ganze Geschichte. Drei Kostenkategorien tauchen in der Produktion still auf.

Integrierte Websuche. Moonshot bietet ein $web_search-Tool, das das Modell während einer Generierung aufrufen kann. Jeder Aufruf kostet ¥0.03 pro Aufruf. Das klingt harmlos, aber der Inhalt der Suchergebnisse wird anschließend in den nächsten /chat/completions-Request eingefügt und dort als zusätzliche Eingabetokens zum normalen Satz berechnet. Ein gesprächiger Agent, der pro Nutzerturn zehnmal sucht, zahlt zehn Suchgebühren und zehn Blöcke zusätzlicher Eingabetokens.

Reasoning-Tokens. Im Thinking-Modus erzeugt das Modell interne Reasoning-Tokens, die als Ausgabe zählen. Bei einfachen Fragen ist das unproblematisch. Bei einem Agenten, der in einer Schleife Tools aufruft, kann das kumulierte Reasoning über 50 Tool-Calls leicht Ihre größte Kostenposition werden. Wenn die Aufgabe es nicht verlangt, schalten Sie Thinking aus.

Agent-Retries und lange Loops. Moonshot hebt selbst hervor, dass K2.6 über 12 Stunden hinweg 4.000+ Tool-Calls ausführen kann. Das ist beeindruckend — und eine sehr reale Rechnung. Langlaufende Agent-Demos sind nützlich, aber auch der schnellste Weg, unbemerkt ¥10.000 zu verbrennen. Setzen Sie bei Agent-Workflows immer Grenzwerte für maximale Schritte und maximale Tokens.

Cache-Miss-Muster. Wenn Sie Ihren Prompt umsortieren, die Systemnachricht häufig ändern oder viele Nutzer mit jeweils eigenem Kontext bedienen, sinkt die Cache-Hit-Rate. Wenn Ihre „Input“-Kosten größer aussehen als erwartet, ist Caching fast immer der Grund.

Ist Kimi K2.6 kostenlos?

Es gibt drei verschiedene „kostenlos“-Fragen, und sie haben drei verschiedene Antworten:

Kimi im Browser unter kimi.com nutzen. Moonshots Consumer-Produkte haben in der Regel ein kostenloses Kontingent mit Tageslimits. Das ist nicht die API — Unterhaltungen dort verbrauchen keine API-Credits.

Die Kimi-K2.6-API ohne Bezahlung nutzen. Die freien Tier-0-Limits erlauben eine kleine Zahl von Aufrufen ohne Aufladung. Das reicht für Integrationstests, nicht für dauerhafte Nutzung. Jenseits von Tier 0 ist API-Nutzung kostenpflichtig.

Kimi K2.6 über Ollama Cloud, OpenRouter oder ähnliche Anbieter nutzen. Das sind separate Abrechnungssysteme mit eigenen Gratisguthaben und Preisstrukturen. Sie sind nicht „die Kimi-API“, auch wenn sie auf dasselbe Modell routen.

Kurz gesagt: Es gibt einen kostenlosen Weg zum Ausprobieren, aber keinen kostenlosen Weg, einen Produktions-Workload über die offizielle API auf K2.6 zu betreiben.

So kontrollieren Sie Kimi-API-Kosten

Eine kurze Checkliste, bevor Sie hochskalieren:

  • Setzen Sie ein hartes Budget-Limit in der Konsole. Ihr zukünftiges Ich wird es Ihnen danken.
  • Aktivieren Sie Guthabenwarnungen, damit Sie unerwartete Ausgaben bemerken, bevor Ihre Karte es tut.
  • Übergeben Sie immer max_tokens für die Ausgabe, besonders in Agent-Loops, in denen das Modell sonst endlos reden könnte.
  • Stabilen Kontext zuerst, nutzerspezifischen Inhalt zuletzt — maximieren Sie Cache-Hits.
  • Deaktivieren Sie den Thinking-Modus für Aufgaben, die ihn nicht brauchen.
  • Schützen Sie $web_search hinter expliziter Absicht; lassen Sie nicht jeden Prompt automatisch suchen.
  • Begrenzen Sie Agent-Loops mit einem Schrittzähler und einem Wall-Clock-Timeout.
  • Protokollieren Sie Eingabe-, Ausgabe- und Cached-Input-Tokens pro Anfrage, damit Sie sehen, wo die Kosten tatsächlich entstehen.

Abschließende Empfehlung

Wenn Sie Kimi K2.6 für einen Coding-Agenten oder einen Long-Context-Workflow evaluieren, ist die Kostenstruktur brauchbar, aber nicht automatisch günstig. Die Headline-Token-Preise sind wettbewerbsfähig, und der Cached-Input-Tarif ist hervorragend — aber nur, wenn Ihre Prompt-Struktur den Cache auch wirklich trifft. Für kurze, zustandslose Aufrufe ohne Caching ist K2.6 nicht die billigste Option, und insbesondere der Output-Tarif (¥27.00 / 1M) dominiert jedes Kostenmodell mit viel generiertem Code.

Für die meisten Teams ist der richtige Startpunkt: genug aufladen, um Tier 0 zu verlassen, die Integration bauen, Ihre reale Cache-Hit-Rate und Token-Verteilung in der Produktion messen und erst dann entscheiden, ob K2.6 langfristig passt — oder ob ein Modell mit anderer Preisstruktur besser zu Ihrem Workflow passt.

FAQ

Wie bekommt man einen Kimi-API-Schlüssel?
Melden Sie sich bei platform.moonshot.ai an, öffnen Sie den Bereich für API-Schlüssel und erstellen Sie einen neuen Schlüssel. Kopieren Sie ihn sofort; er wird nur einmal angezeigt. Setzen Sie dabei direkt auch ein Budget-Limit.

Wie viel kostet Kimi K2.6?
Auf der offiziellen Preisseite kostet gecachte Eingabe ¥1.10 pro 1M Tokens, ungecachte Eingabe ¥6.50 pro 1M Tokens, Ausgabe ¥27.00 pro 1M Tokens, und das Kontextfenster beträgt 262.144 Tokens. Die Preise sind in RMB angegeben.

Ist Kimi K2.6 kostenlos nutzbar?
Das freie Tier 0 erlaubt eine kleine Zahl von Aufrufen (3 RPM, 1 gleichzeitiger Request) mit täglicher Token-Obergrenze — genug zum Testen, nicht für Produktion. Das Consumer-Produkt auf kimi.com hat ein eigenes Free-Tier, getrennt von der API-Abrechnung.

Unterstützt die Kimi-API OpenAI-SDKs?
Ja. Die Kimi-API ist OpenAI-kompatibel. Richten Sie ein beliebiges OpenAI-SDK auf https://api.moonshot.ai/v1 mit Ihrem Moonshot-Schlüssel aus und setzen Sie model auf kimi-k2.6.

Welche Rate Limits hat die Kimi-API?
Die Limits sind tierbasiert und skalieren mit dem kumulativen Aufladebetrag. Tier 0 (¥0) erlaubt 3 RPM und 1 parallelen Request mit täglicher Token-Grenze. Tier 1 startet bei ¥50 kumuliertem Top-up mit deutlich höheren Limits. Höhere Stufen erfordern größere kumulierte Aufladungen.

Wie viel kostet Kimi-Websuche?
Das integrierte $web_search-Tool kostet ¥0.03 pro Aufruf. Der Inhalt der Suchergebnisse wird anschließend dem nächsten Chat-Completion-Request hinzugefügt und zum normalen Eingabetarif berechnet.

Kann ich Kimi K2.6 mit Tools und Function Calling nutzen?
Ja. K2.6 unterstützt Tool-Use und Function Calling im gleichen Stil wie OpenAI. Eine Einschränkung aus Moonshots Doku: Wenn Thinking aktiviert ist, sollte tool_choice auf auto oder none stehen, und Sie müssen die reasoning_content-Felder der Assistant-Nachricht über Tool-Calling-Turns hinweg erhalten.

Verwandte Leitfäden

Gehen Sie im Gemma-4-Cluster mit dem nächsten Leitfaden weiter, der zu Ihrer aktuellen Entscheidung passt.

Sie wissen noch nicht, was Sie als Nächstes lesen sollen?

Gehen Sie zurück zum Leitfaden-Hub, um Modellvergleiche, Setup-Anleitungen und Seiten zur Hardware-Planung zu durchsuchen.