Gemma 4 ガイド

Kimi K2.6 レビュー: ベンチマーク、価格、API、そして使う価値はあるか

約 10 分
kimi k2.6kimi reviewcoding llmagentic aimoonshot ai
Kimi K2.6 レビュー: ベンチマーク、価格、API、そして使う価値はあるか

Kimi K2.6 レビュー: ベンチマーク、価格、API、そして使う価値はあるか

Moonshot AI は 2026 年 4 月 20 日に Kimi K2.6 を公開しました。これは同社にとって現時点で最も強力な open-weight モデルであり、coding と agent の両面で主力と位置付けられています。2 か月足らず前に出た K2.5 は、長文コンテキスト reasoning で open-weight モデルの中でも非常に高い評価を得ていました。K2.6 はその延長線上にありますが、焦点は単なるベンチマーク勝利ではなく、長時間の自律実行 にあります。

このレビューでは、K2.6 が実際に何者か、何に本当に強いのか、そして今試すべきかを整理します。

マルチモーダルな agent ワークフロー、ベンチマークカード、coding ダッシュボードが中央のモデルハブを囲む Kimi K2.6 レビュー用イラスト

先に結論

  • リリース日: 2026 年 4 月 20 日
  • 利用経路: kimi.com、Kimi アプリ、Moonshot API、Kimi Code CLI。重みは Hugging Face の moonshotai/Kimi-K2.6 に公開
  • アーキテクチャ: Mixture-of-Experts、総パラメータ約 1T、トークンごとに約 32B が活性化、256K コンテキスト、MoonViT によるネイティブ画像 / 動画入力、Modified MIT ライセンス
  • 特に強い領域: 長時間の coding、agent 的な tool use、マルチエージェント協調(Agent Swarm)、自然言語からのフロントエンド生成
  • あまり向かない領域: 数学競技系の純粋 reasoning、超低レイテンシの短文チャット、ピーク性能よりコスト予測性が重要な運用
  • 総評: coding agent や長時間の自律ワークフローを作るなら、K2.6 は本気で評価する価値があります。安いチャットモデルが欲しいだけなら作り込みすぎです。

Kimi K2.6 は何なのか

Moonshot 自身の表現では、Kimi K2.6 は オープンソースでネイティブなマルチモーダル agentic モデル であり、長時間 coding、coding-driven design、自律的な実行、swarm 型タスク協調の 4 つを押し進めるものです。

技術的な輪郭:

  • 総パラメータ 1 兆、トークンごとに 320 億 が活性化する MoE
  • 256K コンテキスト(API 価格ページでは正確には 262,144 tokens)
  • 384 個の routed experts、各トークンで 8 個 + 共有 1 個が有効
  • K2.5 から引き継いだ MoonViT 400M vision encoder を改良して利用
  • テキスト・画像・動画 入力に対応(動画はサードパーティ配備では experimental 扱い)
  • ThinkingInstant の 2 モード(デフォルトは Thinking)
  • Modified MIT ライセンス。大規模展開時の可視 attribution 条項を除けば、多くの用途でかなり緩い

これはまず coding / agent モデルであり、その次に chat モデルです。アーキテクチャも機能優先順位も、見ている方向は一貫しています。

K2.5 から何が変わったか

K2.5 が 2026 年 1 月、K2.6 が 4 月なので間隔は 3 か月未満です。この規模のモデルとしてはかなり速い反復です。改善点は主に 3 つです。

長時間 coding の信頼性。 Moonshot が押し出しているのは“スタミナ”です。たとえば Zig でローカル推論を最適化するタスクでは、K2.6 が Mac 上で 12 時間以上、4,000 回以上の tool call をこなし、LM Studio より約 20% 高速になったと報告しています。別の例では、8 年物のオープンソース金融マッチングエンジン exchange-core を 13 時間かけて自律リファクタし、中程度のスループットを約 185% 改善したとされています。いずれも自己申告ではありますが、「長いタスクで崩れにくくなった」という方向性はかなり明確です。

Agent Swarm の拡張。 K2.5 が約 100 の sub-agent と 1,500 ステップ規模だったのに対し、K2.6 は 300 の sub-agent と 4,000 ステップ まで拡張するとされています。K2.6 自身が coordinator として動き、エージェントのスキルに応じてタスクを割り振り、停滞を検知し、失敗時には subtasks を再生成します。加えて Claw Groups という研究プレビューも導入され、異なるモデル・異なるデバイス上の agent が同一の作業空間に参加できるとされています。

フロントエンドと簡易フルスタック生成。 「coding-driven design」という売り方の中には、自然言語からの Web サイト生成、画像・動画生成ツールを使ったビジュアル整合、サインアップや DB 操作、セッション管理といった基本的な full-stack タスクも含まれます。

指示追従の向上。 派手ではありませんが、独立レビューでも K2.5 より指示に素直になったことが日常利用での改善点としてよく挙げられています。

Kimi K2.6 のベンチマーク概要

以下の数値はすべて Moonshot 自身の評価結果です。方向感を見るには役立ちますが、独立再現の最終結論ではありません。

Agent 系

  • Humanity's Last Exam (HLE-Full) with tools: 54.0
  • BrowseComp: 83.2
  • DeepSearchQA (F1): 92.5
  • Toolathlon: 50.0

Coding 系

  • SWE-Bench Pro: 58.6
  • SWE-Bench Verified: 80.2
  • SWE-Bench Multilingual: 76.7
  • LiveCodeBench v6: 89.6
  • Terminal-Bench 2.0 (Terminus-2 harness): 66.7

Vision 系

  • Charxiv with Python: 86.7
  • Math Vision with Python: 93.2
  • V*: 96.9

妥当な読み方はこうです。K2.6 は coding と agent ベンチマークにおいて frontier 級の closed-source モデルと十分に競争できる 水準にあります。一方で、AIME 系の数理や GPQA-Diamond のような純粋 reasoning では、より reasoning 特化の学習を積んだモデルに分があります。agent 系スコアは harness の違いでかなり動くので、他の leaderboard では少し違う見え方になる可能性があります。

Kimi K2.6 は coding に向いているか

向いているケース:

  • コードベースの読解、変更計画、複数ファイル編集、テスト実行、反復修正を含む 多段階 coding
  • 自然言語や画面イメージからの frontend 生成
  • Claude Code、Codex、OpenCode、OpenClaw、Kimi Code など CLI 上での agentic coding
  • 中規模コードベースを 256K に入れて扱う long-context 作業
  • 中国語を含む多言語 コメントやドキュメント

向きにくいケース:

  • より軽くて速いモデルで足りる 単純な補完
  • 固定費の読みやすさ を重視するワークロード
  • 応答速度最優先の 低レイテンシ・チャット

簡単な適性表:

ワークロード K2.6 との相性
数時間動く自律 coding agent 非常に良い
Copilot 風 autocomplete 過剰
モックアップから UI コード生成 強い
長文書分析 強い
リアルタイムチャット widget 弱い(遅延)
数学競技問題 良いが最上位ではない
同一 prompt のデータ処理 非常に良い(cache)

API、価格、デプロイ方法

K2.6 は複数の経路で提供されており、それぞれトレードオフがあります。

Moonshot API。 https://api.moonshot.ai/v1 の OpenAI 互換 API。公式価格は cached input が ¥1.10 / 1M tokens、uncached input が ¥6.50 / 1M、output が ¥27.00 / 1M、コンテキストは 262,144 tokens。レート制限は累積チャージ額ベースで、Tier 0 は 3 RPM、同時 1。組み込み web search は 1 回 ¥0.03 + 次回 request に入る検索結果 token 分です。

Hugging Face。 moonshotai/Kimi-K2.6 に open weights があり、ライセンスは Modified MIT。公式 deploy guide は vLLMSGLangKTransformers を推奨しています。model card には multimodal input、tool calling、reasoning_content の保持方法まで含まれています。

Ollama。 公式ライブラリの kimi-k2.6:cloud は cloud routed model であり、ローカル重みではありません。

Kimi Code。 Moonshot 純正の terminal coding agent。

kimi.com / Kimi App。 一般向けの chat / agent サーフェスで、独自の無料・有料階層があります。

多くのチームにとっての分岐は単純で、プロダクションは Moonshot API、数分で試すなら Ollama Cloud、本格 self-host は Hugging Face + vLLM/SGLang、という形です。

どんな人に向いているか

  • Agent 開発者 — 数百の tool call を束ねるプロダクトを作るなら K2.6 は本命候補です。
  • Coding ツール利用者 — Claude Code、Codex、OpenCode、OpenClaw、Kimi Code との統合が用意されています。
  • Vision-to-code ワークフロー — MoonViT により screenshot-to-code をネイティブに処理できます。
  • 長文書 / 長コードベースを扱うチーム — 256K コンテキストと caching の組み合わせが効きます。
  • 中国語またはバイリンガル運用のチーム — 中国語能力は継続的な強みです。

見送ってもよい人

  • とにかく最安の API トークンが欲しいチーム
  • テキストのみでコストを厳密に読みたいプロダクト
  • クラウドとオンプレの分離が厳格に必要なのに self-host 予算がないケース
  • Thinking、tool calling、caching の調整に時間を割けないチーム

最終評価

Kimi K2.6 は 2026 年の open-weight リリースの中でもかなり本気度の高い 1 本です。Moonshot 自身の数字では、coding と agent で重要なベンチマークにおいて GPT-5.4 や Claude Opus 4.6 と競り合い、場合によっては上回りつつ、なお open-weight として出ています。長時間タスクのデモもかなり具体的で、単なる benchmark tuning 以上の能力があると感じさせます。

もちろん留保もあります。比較は自己申告で、独立 harness では数字が動くでしょうし、12 時間級タスクの実運用安定性は実際の作業内容に依存します。価格も悪くありませんが、雑に使うより、prompt 設計と caching をきちんと考えたチームの方が恩恵を受けます。

2026 年に coding agent や長時間の自律ワークフローを中心に据えるなら、K2.6 は「とりあえず触る」ではなく、ちゃんと評価する価値があります。次に見るべきなのは、API 価格ガイドOllama ガイド、そして self-host 向けの Hugging Face ガイド です。

FAQ

Kimi K2.6 とは何ですか?
Kimi K2.6 は Moonshot AI が 2026 年 4 月 20 日に公開した open-weight かつネイティブマルチモーダルな agent モデルです。約 1T パラメータの MoE で、約 32B が活性化し、256K コンテキストとテキスト / 画像 / 動画入力を持ちます。

Kimi K2.6 は coding に強いですか?
Moonshot の自己申告ベンチマークでは、SWE-Bench Pro 58.6、SWE-Bench Verified 80.2、LiveCodeBench v6 89.6 など、かなり強い数字です。特に多段階・複数ファイル・agent loop を伴う coding で光ります。単純な補完には重すぎます。

画像や動画を扱えますか?
はい。画像入力は広くサポートされます。動画入力は公式 Moonshot API で利用でき、サードパーティデプロイでは experimental 扱いです。

API はありますか?
あります。https://api.moonshot.ai/v1 で、OpenAI 互換です。OpenAI SDK の base URL と key を差し替えるだけで使えます。

Kimi K2.6 の価格は?
公式価格は cached input ¥1.10 / 1M、uncached input ¥6.50 / 1M、output ¥27.00 / 1M。組み込み web search は 1 回 ¥0.03 + 検索結果 token 分です。

Ollama で使えますか?
はい。公式ライブラリの kimi-k2.6:cloud を通じて利用できます。ただしローカルモデルではなくクラウドモデルです。

Kimi K2.6 は open source ですか?
重みは Hugging Face で Modified MIT ライセンスのもと公開されています。大規模展開向けの attribution 条項はありますが、大半のチームにとってはかなり緩いライセンスです。

関連記事

Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

次に何を読めばいいか迷っていますか?

ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。