Gemma 4 ガイド

Hugging Face 上の Kimi K2.6: Model Card、デプロイ、推奨推論エンジン

約 8 分
kimi k2.6hugging facevllmsglangmodel deployment
Hugging Face 上の Kimi K2.6: Model Card、デプロイ、推奨推論エンジン

Hugging Face 上の Kimi K2.6: Model Card、デプロイ、推奨推論エンジン

Moonshot AI は Kimi K2.6 の公式 weights を Hugging Face 上の moonshotai/Kimi-K2.6 で公開しています。ライセンスは Modified MIT です。ここが本物のモデルを入手する正規の場所であり、再配布版でも量子化 fork でもクラウド経由のプロキシでもありません。K2.6 を self-host したい人、能力を一次情報で評価したい人、あるいは導入前に仕様を確認したい人にとって、最初に見るべき場所です。

このガイドでは、model card に何が含まれているのか、アーキテクチャの数字がデプロイにとって何を意味するのか、Moonshot が推奨する推論エンジンは何か、そして self-host と公式 API のどちらを選ぶべきかを整理します。

Hugging Face 上の Kimi K2.6 デプロイを示すイラスト。モデル shard、GPU サーバ、推論エンジンのロゴが技術的なワークスペース内に配置されている

先に結論

  • 公式リポジトリ: huggingface.co/moonshotai/Kimi-K2.6
  • アーキテクチャ: Mixture-of-Experts、総パラメータ約 1Tトークンごとに約 32B が活性化
  • コンテキスト長: 256K(API 価格ページでは 262,144 tokens)
  • モダリティ: MoonViT 400M vision encoder を使った text / image / video 入力
  • 推奨推論エンジン: vLLMSGLangKTransformers
  • ライセンス: Modified MIT
  • Thinking はデフォルトでオン。 正しく扱うには --reasoning-parser kimi_k2 が必要です。

公式 Hugging Face ページにあるもの

moonshotai/Kimi-K2.6 には次のようなものが含まれています。

  • モデルの概要、能力主張、アーキテクチャがまとまった model card
  • Moonshot がブログでも使っている ベンチマーク表
  • vLLM、SGLang、KTransformers 用の例を含む docs/deploy_guidance.md
  • Thinking / Instant、画像入力、動画入力、tool calling、reasoning_content の扱いを含む Python サンプル
  • safetensors shard、tokenizer、config
  • Model card から参照される画像や動画を置く figures/

K2.5 を Hugging Face で扱ったことがあるなら、構成はかなり似ています。Moonshot は K2 シリーズの運用パターンをできるだけ揃えており、既存インフラが K2.6 に移行しやすいようにしています。

モデル概要

主要スペックは次の通りです。

項目
Architecture Mixture-of-Experts (MoE)
Total parameters 約 1 兆
Activated parameters per token 約 320 億
Experts 384 routed、8 active + 1 shared
Layers 61
Context window 256K tokens
Vision encoder MoonViT、400M parameters
Attention Multi-head Latent Attention (MLA)
Activation SwiGLU

ここで重要なのは、

  • 総パラメータと活性パラメータは別の意味を持つ こと。1T は主にメモリ負荷、32B はトークンごとの計算量に関係します。
  • MLA は KV キャッシュを抑える設計 であり、長いコンテキストで特に効きます。
  • 384 experts のうち 8+1 だけ動く sparse routing なので、K2 を意識したエンジンの方が安定しやすいこと。
  • MoonViT は後付けではなくネイティブ統合 であり、screenshot-to-code や vision-guided tool use に効いていることです。

ベンチマーク欄の読み方

Model card の主なハイライトは次の通りです。

Coding: SWE-Bench Pro 58.6、SWE-Bench Verified 80.2、SWE-Bench Multilingual 76.7、LiveCodeBench v6 89.6、Terminal-Bench 2.0 66.7

Agent / tools: Humanity's Last Exam with tools 54.0、BrowseComp 83.2、DeepSearchQA F1 92.5、Toolathlon 50.0

Vision: Charxiv with Python 86.7、Math Vision with Python 93.2、V* 96.9

ただし Moonshot 自身も次の点を明記しています。

  1. これらは自己報告であり、選んだ harness と system prompt に依存する。
  2. Terminal-Bench 2.0 は non-thinking mode で評価された。 Thinking mode での現在の context 管理が Terminus-2 と相性が良くないためです。

推奨されるデプロイエンジン

vLLM

vLLM は PagedAttention、continuous batching、OpenAI 互換 API を備えた最も普及している serving engine の一つです。

vllm serve $MODEL_PATH -tp 8 \
  --mm-encoder-tp-mode data \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

特に重要なのは --tool-call-parser kimi_k2--reasoning-parser kimi_k2 です。Moonshot は K2 系について vLLM 0.19.1 を手動検証済みの安定版として挙げています。

SGLang

SGLang は structured generation、JSON、tool-calling chain、prefix 再利用を伴う会話に向いています。

sglang serve \
  --model-path $MODEL_PATH \
  --tp 8 \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

新機能が必要な場合はソースからのインストールが案内されています。

KTransformers

KTransformers は Moonshot 自身の推論エンジンで、K2 ファミリー向けに最適化されています。汎用性は低めですが、K2 の expert routing、MLA、CPU offload を考えると費用対効果が高い場面があります。

なぜ「どんな MoE エンジンでもよい」わけではないのか

K2.6 には独自の expert routing、tool-call 形式、reasoning parser、vision encoder の接続があります。そのため K2 専用サポートがないエンジンでは、ロードできない、tool call が壊れる、reasoning が欠落する、といった問題が起きます。

公式 API と self-host の比較

公式 Moonshot API を選ぶべきとき:

  • まずは検証段階で、インフラを持ちたくない
  • まだトークン量が GPU 固定費の損益分岐に達していない
  • 動画入力をすぐ本番で使いたい
  • ベンダーの一次サポートが欲しい

Hugging Face から self-host すべきとき:

  • Air-gap やオンプレ要件がある
  • トークン量が大きく、専用 GPU の方が安くなる
  • 量子化や batching、routing を自分で制御したい
  • トークン課金より固定コストの方が都合がよい
  • 外部 API に依存しない研究や OSS を作りたい

多くのチームにとっては、まず API で検証し、実際の token mix と latency を見てから self-host を判断するのが現実的です。

デプロイ前の確認事項

  • バージョン固定。 vLLM 0.19.1 は Moonshot が安定版として確認済みです。
  • ハードウェア。 フル精度では一般に 8× H200 クラスが前提です。
  • Thinking mode。 デフォルトで有効なので、不要なら明示的に無効化します。
  • Tool calling と thinking の相互作用。 Thinking 有効時は tool_choiceautonone にし、reasoning_content を会話履歴で保持する必要があります。
  • マルチモーダル上限。 画像はおおむね 4K、動画はおおむね 2K が推奨です。
  • Web search と thinking。 公式 $web_search は現状 K2.6 / K2.5 の Thinking mode とは相性がよくありません。

最後のおすすめ

Hugging Face の model card は、Kimi K2.6 に関する最も重要な技術文書です。実際にデプロイを成功させるための情報は、マーケティング記事よりも deploy guide と usage examples に詰まっています。開発者なら、まず model card を読んで全体像を掴み、次に docs/deploy_guidance.md で動くコマンドを確認し、最後にサンプルコードで thinking や tool calling を正しく実装する、という順がよいです。

もし self-host を考えているなら、K2 固有パーサの有効化、バージョン固定、H200 級ハードウェアを前提にしてください。そこまでの覚悟がまだないなら、まずは公式 Moonshot API から始めるのが無難です。詳しくは API / 価格ガイド を参照してください。

FAQ

Hugging Face 上の Kimi K2.6 は公式ですか?
はい。moonshotai/Kimi-K2.6 は Moonshot AI の公式アカウントであり、weights の正規ソースです。

Kimi K2.6 は何パラメータですか?
総パラメータは約 1T、トークンごとに約 32B が活性化します。

コンテキスト長は?
Model card では 256K、Moonshot API の価格ページでは正確に 262,144 tokens です。

推奨エンジンは?
Moonshot 公式 deploy guide では vLLMSGLangKTransformers が推奨されています。

Self-host で動画入力は使えますか?
Weights 自体は対応していますが、Moonshot は third-party deployment では experimental と位置付けています。

API と self-host、どちらを選ぶべきですか?
検証や小規模運用なら API、Air-gap・大規模トークン量・高い制御性が必要なら self-host が向いています。

ライセンスは何ですか?
Modified MIT です。大規模展開時の attribution 条項を除けば、多くのチームにとってはかなり緩いライセンスです。

関連記事

Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

次に何を読めばいいか迷っていますか?

ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。