Hugging Face 上の Kimi K2.6: Model Card、デプロイ、推奨推論エンジン

Moonshot AI は Kimi K2.6 の公式 weights を Hugging Face 上の moonshotai/Kimi-K2.6 で公開しています。ライセンスは Modified MIT です。ここが本物のモデルを入手する正規の場所であり、再配布版でも量子化 fork でもクラウド経由のプロキシでもありません。K2.6 を self-host したい人、能力を一次情報で評価したい人、あるいは導入前に仕様を確認したい人にとって、最初に見るべき場所です。

このガイドでは、model card に何が含まれているのか、アーキテクチャの数字がデプロイにとって何を意味するのか、Moonshot が推奨する推論エンジンは何か、そして self-host と公式 API のどちらを選ぶべきかを整理します。

Hugging Face 上の Kimi K2.6 デプロイを示すイラスト。モデル shard、GPU サーバ、推論エンジンのロゴが技術的なワークスペース内に配置されている

先に結論

公式リポジトリ: huggingface.co/moonshotai/Kimi-K2.6
アーキテクチャ: Mixture-of-Experts、総パラメータ約 1T、トークンごとに約 32B が活性化
コンテキスト長: 256K（API 価格ページでは 262,144 tokens）
モダリティ: MoonViT 400M vision encoder を使った text / image / video 入力
推奨推論エンジン: vLLM、SGLang、KTransformers
ライセンス: Modified MIT
Thinking はデフォルトでオン。 正しく扱うには --reasoning-parser kimi_k2 が必要です。

公式 Hugging Face ページにあるもの

moonshotai/Kimi-K2.6 には次のようなものが含まれています。

モデルの概要、能力主張、アーキテクチャがまとまった model card
Moonshot がブログでも使っている ベンチマーク表
vLLM、SGLang、KTransformers 用の例を含む docs/deploy_guidance.md
Thinking / Instant、画像入力、動画入力、tool calling、reasoning_content の扱いを含む Python サンプル
safetensors shard、tokenizer、config
Model card から参照される画像や動画を置く figures/

K2.5 を Hugging Face で扱ったことがあるなら、構成はかなり似ています。Moonshot は K2 シリーズの運用パターンをできるだけ揃えており、既存インフラが K2.6 に移行しやすいようにしています。

モデル概要

主要スペックは次の通りです。

項目	値
Architecture	Mixture-of-Experts (MoE)
Total parameters	約 1 兆
Activated parameters per token	約 320 億
Experts	384 routed、8 active + 1 shared
Layers	61
Context window	256K tokens
Vision encoder	MoonViT、400M parameters
Attention	Multi-head Latent Attention (MLA)
Activation	SwiGLU

ここで重要なのは、

総パラメータと活性パラメータは別の意味を持つ こと。1T は主にメモリ負荷、32B はトークンごとの計算量に関係します。
MLA は KV キャッシュを抑える設計 であり、長いコンテキストで特に効きます。
384 experts のうち 8+1 だけ動く sparse routing なので、K2 を意識したエンジンの方が安定しやすいこと。
MoonViT は後付けではなくネイティブ統合 であり、screenshot-to-code や vision-guided tool use に効いていることです。

ベンチマーク欄の読み方

Model card の主なハイライトは次の通りです。

Coding: SWE-Bench Pro 58.6、SWE-Bench Verified 80.2、SWE-Bench Multilingual 76.7、LiveCodeBench v6 89.6、Terminal-Bench 2.0 66.7

Agent / tools: Humanity's Last Exam with tools 54.0、BrowseComp 83.2、DeepSearchQA F1 92.5、Toolathlon 50.0

Vision: Charxiv with Python 86.7、Math Vision with Python 93.2、V* 96.9

ただし Moonshot 自身も次の点を明記しています。

これらは自己報告であり、選んだ harness と system prompt に依存する。
Terminal-Bench 2.0 は non-thinking mode で評価された。 Thinking mode での現在の context 管理が Terminus-2 と相性が良くないためです。

推奨されるデプロイエンジン

vLLM

vLLM は PagedAttention、continuous batching、OpenAI 互換 API を備えた最も普及している serving engine の一つです。

vllm serve $MODEL_PATH -tp 8 \
  --mm-encoder-tp-mode data \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

特に重要なのは --tool-call-parser kimi_k2 と --reasoning-parser kimi_k2 です。Moonshot は K2 系について vLLM 0.19.1 を手動検証済みの安定版として挙げています。

SGLang

SGLang は structured generation、JSON、tool-calling chain、prefix 再利用を伴う会話に向いています。

sglang serve \
  --model-path $MODEL_PATH \
  --tp 8 \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

新機能が必要な場合はソースからのインストールが案内されています。

KTransformers

KTransformers は Moonshot 自身の推論エンジンで、K2 ファミリー向けに最適化されています。汎用性は低めですが、K2 の expert routing、MLA、CPU offload を考えると費用対効果が高い場面があります。

なぜ「どんな MoE エンジンでもよい」わけではないのか

K2.6 には独自の expert routing、tool-call 形式、reasoning parser、vision encoder の接続があります。そのため K2 専用サポートがないエンジンでは、ロードできない、tool call が壊れる、reasoning が欠落する、といった問題が起きます。

公式 API と self-host の比較

公式 Moonshot API を選ぶべきとき:

まずは検証段階で、インフラを持ちたくない
まだトークン量が GPU 固定費の損益分岐に達していない
動画入力をすぐ本番で使いたい
ベンダーの一次サポートが欲しい

Hugging Face から self-host すべきとき:

Air-gap やオンプレ要件がある
トークン量が大きく、専用 GPU の方が安くなる
量子化や batching、routing を自分で制御したい
トークン課金より固定コストの方が都合がよい
外部 API に依存しない研究や OSS を作りたい

多くのチームにとっては、まず API で検証し、実際の token mix と latency を見てから self-host を判断するのが現実的です。

デプロイ前の確認事項

バージョン固定。 vLLM 0.19.1 は Moonshot が安定版として確認済みです。
ハードウェア。 フル精度では一般に 8× H200 クラスが前提です。
Thinking mode。 デフォルトで有効なので、不要なら明示的に無効化します。
Tool calling と thinking の相互作用。 Thinking 有効時は tool_choice を auto か none にし、reasoning_content を会話履歴で保持する必要があります。
マルチモーダル上限。 画像はおおむね 4K、動画はおおむね 2K が推奨です。
Web search と thinking。 公式 $web_search は現状 K2.6 / K2.5 の Thinking mode とは相性がよくありません。

最後のおすすめ

Hugging Face の model card は、Kimi K2.6 に関する最も重要な技術文書です。実際にデプロイを成功させるための情報は、マーケティング記事よりも deploy guide と usage examples に詰まっています。開発者なら、まず model card を読んで全体像を掴み、次に docs/deploy_guidance.md で動くコマンドを確認し、最後にサンプルコードで thinking や tool calling を正しく実装する、という順がよいです。

もし self-host を考えているなら、K2 固有パーサの有効化、バージョン固定、H200 級ハードウェアを前提にしてください。そこまでの覚悟がまだないなら、まずは公式 Moonshot API から始めるのが無難です。詳しくは API / 価格ガイドを参照してください。

FAQ

Hugging Face 上の Kimi K2.6 は公式ですか？
はい。moonshotai/Kimi-K2.6 は Moonshot AI の公式アカウントであり、weights の正規ソースです。

Kimi K2.6 は何パラメータですか？
総パラメータは約 1T、トークンごとに約 32B が活性化します。

コンテキスト長は？
Model card では 256K、Moonshot API の価格ページでは正確に 262,144 tokens です。

推奨エンジンは？
Moonshot 公式 deploy guide では vLLM、SGLang、KTransformers が推奨されています。

Self-host で動画入力は使えますか？
Weights 自体は対応していますが、Moonshot は third-party deployment では experimental と位置付けています。

API と self-host、どちらを選ぶべきですか？
検証や小規模運用なら API、Air-gap・大規模トークン量・高い制御性が必要なら self-host が向いています。

ライセンスは何ですか？
Modified MIT です。大規模展開時の attribution 条項を除けば、多くのチームにとってはかなり緩いライセンスです。

Hugging Face 上の Kimi K2.6: Model Card、デプロイ、推奨推論エンジン