Gemma 4 ガイド

Kimi K2.6 APIキーと料金: 公式コスト、レート制限、Web検索料金

約 8 分
kimi k2.6kimi apiapi pricingllm pricingmoonshot ai
Kimi K2.6 APIキーと料金: 公式コスト、レート制限、Web検索料金

Kimi K2.6 APIキーと料金: 公式コスト、レート制限、Web検索料金

K2.6 を動かすために Kimi API キーを発行しようとしているなら、見るべきなのはトークン単価だけではありません。キャッシュ、レート制限のティア、Web検索の課金、エージェント型ワークフローで発生するリトライが、月額コストを静かに押し上げます。このガイドでは、Moonshot が現在自社プラットフォームで公開している数字を使って、それぞれを順番に整理します。

トークン料金ティア、レート制限メーター、Moonshot風の開発者コンソールを描いた Kimi K2.6 API 料金ダッシュボードのイラスト

先に結論

  • Kimi K2.6 は Moonshot の OpenAI 互換 API https://api.moonshot.ai/v1 で利用できます。OpenAI SDK はそのまま差し替えクライアントとして使えます。
  • Moonshot のプラットフォームページに掲載されている公式料金:
    • Cached input: ¥1.10 / 100万 tokens
    • Uncached input: ¥6.50 / 100万 tokens
    • Output: ¥27.00 / 100万 tokens
    • コンテキスト長: 262,144 tokens
  • APIキーは platform.moonshot.ai に登録し、コンソールから作成します。
  • 組み込み Web検索は 1回あたり ¥0.03 で課金され、さらに検索結果が次の /chat/completions リクエストで消費するトークンにも通常料金がかかります。
  • 無料枠の Tier 0 は 3 RPM、同時実行 1、本日のトークン上限付きです。より重い利用にはチャージして上位ティアへ進む必要があります。

以下で、これらの数字と見落としやすい落とし穴を詳しく見ていきます。

Kimi APIキーの作成方法

流れは一般的な LLM プロバイダとほぼ同じです。

  1. platform.moonshot.ai にアクセスしてログイン、または新規登録します。
  2. 必要に応じてアカウント認証を行います。
  3. コンソールの API keys セクションを開き、Create API key をクリックします。
  4. 表示されたキーをその場でコピーします。表示は一度きりです。
  5. 任意ですが推奨: ワークロードを流す前に、予算上限と残高低下アラートを設定します。

APIキーはパスワードと同じように扱ってください。ソースコードではなく、環境変数やシークレットマネージャに保存するのが安全です。漏えいした場合は同じコンソール画面からローテーションしてください。

新規アカウントで注意したいのは、Moonshot のレート制限が累積チャージ額に応じたティア制になっていることです。新しいアカウントは Tier 0 から始まり、制限はかなり厳しめです。数回のテストには十分でも、常時動作するコーディングエージェントには向きません。ベンチマークを始める前に、この後のレート制限セクションを読んでおくのが安全です。

Kimi K2.6 の公式料金

Moonshot の K2.6 料金ページに現在掲載されている数値は以下の通りです。

項目 価格 単位
Cached input ¥1.10 100万 tokens あたり
Uncached input ¥6.50 100万 tokens あたり
Output ¥27.00 100万 tokens あたり
コンテキスト長 262,144 tokens

ここで重要なのは2点です。1つ目は、料金が 人民元 (¥) 表記であり USD ではないことです。Anthropic や OpenAI の価格と比べるときは、必ず為替換算してください。¥6.50 をそのまま $6.50 の感覚で見てはいけません。2つ目は、cached input が uncached input の約 6 分の 1 であることです。この差が、長文コンテキストやエージェント型ワークロードの経済性を大きく左右します。

「cached input」と「uncached input」の意味

Moonshot は多くの先端プロバイダと同じく コンテキストキャッシュ を実装しています。最近見たプロンプトの一部はサーバ側で再計算せずに済むため、その部分のトークンは大幅に安い料金で処理されます。

具体的には次の通りです。

  • Cache hit (cached input) — 以前送ったプレフィックス(システムプロンプト、過去の会話、長い文書コンテキストなど)がサーバ側キャッシュと一致する状態です。cached 料金が適用されます。
  • Cache miss (uncached input) — 新しいプロンプト内容、順序変更、あるいはキャッシュ期限切れのプレフィックスです。通常の uncached 料金になります。

実運用で重要なのはここです。

  • Long-context RAG — 100K トークン級の知識ベースをシステムプロンプトに入れて再利用するなら、キャッシュによって請求額はかなり軽くなります。
  • エージェントループ — ツールを使うエージェントは、各ステップでシステムプロンプト、ツール定義、会話履歴を再送するのが普通です。キャッシュがなければ毎回 uncached 料金、キャッシュが効けば新しく追加されたツール結果と Assistant の出力だけが高単価になります。
  • 同じプロンプトを使う複数ユーザー — 2人目以降のユーザーはキャッシュの恩恵を受けられます。

実務的なポイントは、再利用される安定した部分(命令、長文資料、ツール定義)を 前半 に置き、ユーザーごとに変わる部分を 後半 に置くことです。これでキャッシュヒット率が上がり、入力コストを 5 倍以上圧縮できる場合があります。

OpenAI 互換のリクエスト形式

Moonshot API は OpenAI 互換なので、Base URL と API キーを差し替えるだけで OpenAI SDK を利用できます。

curl

curl https://api.moonshot.ai/v1/chat/completions \
  -H "Authorization: Bearer $MOONSHOT_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kimi-k2.6",
    "messages": [
      {"role": "user", "content": "Explain caching in one paragraph."}
    ]
  }'

Python (OpenAI SDK)

from openai import OpenAI

client = OpenAI(
    api_key="your-moonshot-api-key",
    base_url="https://api.moonshot.ai/v1",
)

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {"role": "user", "content": "Write a Python function to debounce calls."}
    ],
)
print(response.choices[0].message.content)

Thinking モードと Instant モード

K2.6 はデフォルトで Thinking モードです。Instant にして推論トークンを無効化したい場合は、次のように渡します。

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[...],
    extra_body={"thinking": {"type": "disabled"}},
)

Thinking モードでは reasoning tokens が output として課金されます。不要なら無効化するだけでコストを抑えられます。

マルチモーダル入力

K2.6 はネイティブにマルチモーダルで、テキスト、画像、動画入力を扱えます。画像は標準 OpenAI 形式の image_url で素直に使えます。動画入力は公式 API でサポートされていますが、Moonshot はサードパーティデプロイでは実験的機能と位置づけています。製品の要件に入るなら、必ず実機で通しテストしてください。

レート制限とアカウントティア

Moonshot はアカウント単位でティア別のレート制限を適用します。昇格条件は 現在の残高 ではなく 累積チャージ額 です。

現在公開されている階段の概形は次の通りです。

Tier 累積チャージ額 同時実行 RPM TPM TPD
Tier 0 ¥0 1 3 500,000 1,500,000
Tier 1 ¥50 より高い より高い より高い より高い

Tier 1 以上の正確な数値は時期によって変わるため、ワークロードを見積もる前にプラットフォームの limits ページを確認してください。実務上の目安は次の通りです。

  • Tier 0 は検証向き。 SDK 接続確認や少数のテストコールには十分です。
  • Tier 0 はコーディングエージェント向きではない。 3 RPM と同時実行 1 では、本格的なエージェントループはほぼ確実に詰まります。
  • 早めに上位ティアへ進む方が楽。 実運用を始めるなら、Tier 0 の中で無理に最適化するより、小額チャージで Tier 1 に乗せる方が早いことが多いです。

見落とされがちな追加コスト

トークン単価表だけでは、本番コストは読み切れません。見えにくい費用が3つあります。

組み込み Web検索。 Moonshot には生成中に $web_search を呼べる仕組みがあります。1回の呼び出しごとに ¥0.03 かかります。さらに検索結果そのものが次の /chat/completions リクエストに入力として注入され、そのトークンにも通常の入力料金が発生します。1ターンで10回検索するエージェントは、検索料金10回分と検索結果トークン10回分の両方を払うことになります。

Reasoning tokens。 Thinking モードではモデル内部の思考トークンが output として課金されます。単純な質問では大きな問題になりませんが、ツール呼び出しを 50 回回すようなエージェントでは、最終回答より reasoning の方が高くつくことがあります。不要なら切るべきです。

リトライと長時間ループ。 Moonshot 自身が、K2.6 は 12 時間で 4,000 回以上のツール呼び出しを実行できると示しています。これは能力としては魅力的ですが、請求としても非常に現実的です。長時間エージェントデモは便利である一方、気づかないうちに ¥10,000 を使い切る最短ルートでもあります。エージェント運用では、最大ステップ数と最大トークン数を必ず制限してください。

キャッシュミスの発生パターン。 プロンプト順序を頻繁に入れ替えたり、システムメッセージをよく変えたり、ユーザーごとに大きく異なるコンテキストを付けると、キャッシュヒット率が下がります。入力コストが想定より膨らんでいるなら、原因はたいていここです。

Kimi K2.6 は無料で使えるのか

「無料」にも3種類あり、それぞれ答えが違います。

kimi.com のブラウザ版 Kimi を使う。 Moonshot の一般向け製品には、通常、日次制限付きの無料枠があります。ただしこれは API とは別で、そこでの会話は API クレジットを消費しません。

Kimi K2.6 API を無料で使う。 Tier 0 の無料制限により、チャージなしでも少量のリクエストは可能です。統合テストには十分ですが、継続運用には足りません。Tier 0 を超えると有料です。

Ollama Cloud や OpenRouter など経由で Kimi K2.6 を使う。 それらは別の課金システムで、無料クレジットや料金体系も独立しています。同じモデルを経由していても、「Kimi API そのもの」ではありません。

要するに、試すだけなら無料の道はありますが、公式 API で K2.6 を本番運用する無料の道はありません。

Kimi API のコストを抑える方法

スケール前のチェックリストです。

  • コンソールで予算上限を設定する。
  • 残高低下アラートを有効にする。
  • 必ず max_tokens を指定する。 特にエージェントループでは重要です。
  • 安定したコンテキストを前に、変動部分を後ろに置く。
  • 不要なタスクでは Thinking を切る。
  • $web_search は明示的に必要なときだけ使う。
  • エージェントループに最大ステップ数と時間制限を付ける。
  • 入力、出力、cached input をリクエスト単位で記録し、コスト源を可視化する。

最後のおすすめ

Kimi K2.6 をコーディングエージェントや長文コンテキスト用途で評価するなら、コスト構造は十分実用的ですが、放っておいて安くなるタイプではありません。見出しのトークン単価は競争力があり、cached input の価格はかなり魅力的です。ただし、それはキャッシュがうまく当たるようにプロンプトを設計した場合に限ります。短く状態を持たない呼び出しでキャッシュが効かない場合、K2.6 は最安ではありませんし、特に output の ¥27.00 / 100万 tokens は大量のコード生成を伴うコストモデルを支配しやすいです。

多くのチームにとって現実的なのは、まず Tier 0 を抜ける程度だけチャージし、統合を作り、本番での実際のキャッシュヒット率とトークン構成を測定し、その上で K2.6 を継続採用するか、別の価格特性を持つモデルへ振るかを判断する流れです。

FAQ

Kimi APIキーはどう取得しますか?
platform.moonshot.ai にログインし、API keys セクションから新しいキーを作成します。表示は一度だけなので、すぐコピーしてください。同時に予算上限も設定しておくと安心です。

Kimi K2.6 の料金はいくらですか?
公式料金ページでは、cached input が 100万 tokens あたり ¥1.10、uncached input が ¥6.50、output が ¥27.00 です。コンテキスト長は 262,144 tokens です。価格は RMB 表記です。

Kimi K2.6 は無料で使えますか?
Tier 0 の無料枠では、少量のリクエスト(3 RPM、同時実行 1、日次トークン上限あり)が可能です。テストには十分ですが、本番には足りません。kimi.com の一般向け無料枠は API 課金とは別です。

Kimi API は OpenAI SDK に対応していますか?
はい。Kimi API は OpenAI 互換です。Base URL を https://api.moonshot.ai/v1 に変え、modelkimi-k2.6 に設定すれば、そのまま使えます。

Kimi API のレート制限は?
制限はティア制で、累積チャージ額に応じて上がります。Tier 0(¥0)は 3 RPM、同時実行 1、日次トークン上限付きです。Tier 1 は累積 ¥50 から始まり、より高い制限になります。

Kimi の Web検索はいくらですか?
組み込みの $web_search は 1回あたり ¥0.03 です。さらに、その検索結果が次の chat completion に追加され、その分の入力トークン料金も発生します。

Kimi K2.6 でツールや function calling は使えますか?
はい。K2.6 は OpenAI スタイルの tool use と function calling に対応しています。ただし Moonshot のドキュメントでは、Thinking モード有効時は tool_choiceauto または none にし、ツール呼び出しをまたぐ会話履歴では Assistant の reasoning_content を保持する必要があるとされています。

関連記事

Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

次に何を読めばいいか迷っていますか?

ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。