Gemma 4 ガイド
Hugging Face 上の Kimi K2.6: Model Card、デプロイ、推奨推論エンジン

Hugging Face 上の Kimi K2.6: Model Card、デプロイ、推奨推論エンジン
Moonshot AI は Kimi K2.6 の公式 weights を Hugging Face 上の moonshotai/Kimi-K2.6 で公開しています。ライセンスは Modified MIT です。ここが本物のモデルを入手する正規の場所であり、再配布版でも量子化 fork でもクラウド経由のプロキシでもありません。K2.6 を self-host したい人、能力を一次情報で評価したい人、あるいは導入前に仕様を確認したい人にとって、最初に見るべき場所です。
このガイドでは、model card に何が含まれているのか、アーキテクチャの数字がデプロイにとって何を意味するのか、Moonshot が推奨する推論エンジンは何か、そして self-host と公式 API のどちらを選ぶべきかを整理します。

先に結論
- 公式リポジトリ:
huggingface.co/moonshotai/Kimi-K2.6 - アーキテクチャ: Mixture-of-Experts、総パラメータ約 1T、トークンごとに約 32B が活性化
- コンテキスト長: 256K(API 価格ページでは 262,144 tokens)
- モダリティ: MoonViT 400M vision encoder を使った text / image / video 入力
- 推奨推論エンジン: vLLM、SGLang、KTransformers
- ライセンス: Modified MIT
- Thinking はデフォルトでオン。 正しく扱うには
--reasoning-parser kimi_k2が必要です。
公式 Hugging Face ページにあるもの
moonshotai/Kimi-K2.6 には次のようなものが含まれています。
- モデルの概要、能力主張、アーキテクチャがまとまった model card
- Moonshot がブログでも使っている ベンチマーク表
- vLLM、SGLang、KTransformers 用の例を含む
docs/deploy_guidance.md - Thinking / Instant、画像入力、動画入力、tool calling、
reasoning_contentの扱いを含む Python サンプル - safetensors shard、tokenizer、config
- Model card から参照される画像や動画を置く
figures/
K2.5 を Hugging Face で扱ったことがあるなら、構成はかなり似ています。Moonshot は K2 シリーズの運用パターンをできるだけ揃えており、既存インフラが K2.6 に移行しやすいようにしています。
モデル概要
主要スペックは次の通りです。
| 項目 | 値 |
|---|---|
| Architecture | Mixture-of-Experts (MoE) |
| Total parameters | 約 1 兆 |
| Activated parameters per token | 約 320 億 |
| Experts | 384 routed、8 active + 1 shared |
| Layers | 61 |
| Context window | 256K tokens |
| Vision encoder | MoonViT、400M parameters |
| Attention | Multi-head Latent Attention (MLA) |
| Activation | SwiGLU |
ここで重要なのは、
- 総パラメータと活性パラメータは別の意味を持つ こと。1T は主にメモリ負荷、32B はトークンごとの計算量に関係します。
- MLA は KV キャッシュを抑える設計 であり、長いコンテキストで特に効きます。
- 384 experts のうち 8+1 だけ動く sparse routing なので、K2 を意識したエンジンの方が安定しやすいこと。
- MoonViT は後付けではなくネイティブ統合 であり、screenshot-to-code や vision-guided tool use に効いていることです。
ベンチマーク欄の読み方
Model card の主なハイライトは次の通りです。
Coding: SWE-Bench Pro 58.6、SWE-Bench Verified 80.2、SWE-Bench Multilingual 76.7、LiveCodeBench v6 89.6、Terminal-Bench 2.0 66.7
Agent / tools: Humanity's Last Exam with tools 54.0、BrowseComp 83.2、DeepSearchQA F1 92.5、Toolathlon 50.0
Vision: Charxiv with Python 86.7、Math Vision with Python 93.2、V* 96.9
ただし Moonshot 自身も次の点を明記しています。
- これらは自己報告であり、選んだ harness と system prompt に依存する。
- Terminal-Bench 2.0 は non-thinking mode で評価された。 Thinking mode での現在の context 管理が Terminus-2 と相性が良くないためです。
推奨されるデプロイエンジン
vLLM
vLLM は PagedAttention、continuous batching、OpenAI 互換 API を備えた最も普及している serving engine の一つです。
vllm serve $MODEL_PATH -tp 8 \
--mm-encoder-tp-mode data \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2
特に重要なのは --tool-call-parser kimi_k2 と --reasoning-parser kimi_k2 です。Moonshot は K2 系について vLLM 0.19.1 を手動検証済みの安定版として挙げています。
SGLang
SGLang は structured generation、JSON、tool-calling chain、prefix 再利用を伴う会話に向いています。
sglang serve \
--model-path $MODEL_PATH \
--tp 8 \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2
新機能が必要な場合はソースからのインストールが案内されています。
KTransformers
KTransformers は Moonshot 自身の推論エンジンで、K2 ファミリー向けに最適化されています。汎用性は低めですが、K2 の expert routing、MLA、CPU offload を考えると費用対効果が高い場面があります。
なぜ「どんな MoE エンジンでもよい」わけではないのか
K2.6 には独自の expert routing、tool-call 形式、reasoning parser、vision encoder の接続があります。そのため K2 専用サポートがないエンジンでは、ロードできない、tool call が壊れる、reasoning が欠落する、といった問題が起きます。
公式 API と self-host の比較
公式 Moonshot API を選ぶべきとき:
- まずは検証段階で、インフラを持ちたくない
- まだトークン量が GPU 固定費の損益分岐に達していない
- 動画入力をすぐ本番で使いたい
- ベンダーの一次サポートが欲しい
Hugging Face から self-host すべきとき:
- Air-gap やオンプレ要件がある
- トークン量が大きく、専用 GPU の方が安くなる
- 量子化や batching、routing を自分で制御したい
- トークン課金より固定コストの方が都合がよい
- 外部 API に依存しない研究や OSS を作りたい
多くのチームにとっては、まず API で検証し、実際の token mix と latency を見てから self-host を判断するのが現実的です。
デプロイ前の確認事項
- バージョン固定。 vLLM 0.19.1 は Moonshot が安定版として確認済みです。
- ハードウェア。 フル精度では一般に 8× H200 クラスが前提です。
- Thinking mode。 デフォルトで有効なので、不要なら明示的に無効化します。
- Tool calling と thinking の相互作用。 Thinking 有効時は
tool_choiceをautoかnoneにし、reasoning_contentを会話履歴で保持する必要があります。 - マルチモーダル上限。 画像はおおむね 4K、動画はおおむね 2K が推奨です。
- Web search と thinking。 公式
$web_searchは現状 K2.6 / K2.5 の Thinking mode とは相性がよくありません。
最後のおすすめ
Hugging Face の model card は、Kimi K2.6 に関する最も重要な技術文書です。実際にデプロイを成功させるための情報は、マーケティング記事よりも deploy guide と usage examples に詰まっています。開発者なら、まず model card を読んで全体像を掴み、次に docs/deploy_guidance.md で動くコマンドを確認し、最後にサンプルコードで thinking や tool calling を正しく実装する、という順がよいです。
もし self-host を考えているなら、K2 固有パーサの有効化、バージョン固定、H200 級ハードウェアを前提にしてください。そこまでの覚悟がまだないなら、まずは公式 Moonshot API から始めるのが無難です。詳しくは API / 価格ガイド を参照してください。
FAQ
Hugging Face 上の Kimi K2.6 は公式ですか?
はい。moonshotai/Kimi-K2.6 は Moonshot AI の公式アカウントであり、weights の正規ソースです。
Kimi K2.6 は何パラメータですか?
総パラメータは約 1T、トークンごとに約 32B が活性化します。
コンテキスト長は?
Model card では 256K、Moonshot API の価格ページでは正確に 262,144 tokens です。
推奨エンジンは?
Moonshot 公式 deploy guide では vLLM、SGLang、KTransformers が推奨されています。
Self-host で動画入力は使えますか?
Weights 自体は対応していますが、Moonshot は third-party deployment では experimental と位置付けています。
API と self-host、どちらを選ぶべきですか?
検証や小規模運用なら API、Air-gap・大規模トークン量・高い制御性が必要なら self-host が向いています。
ライセンスは何ですか?
Modified MIT です。大規模展開時の attribution 条項を除けば、多くのチームにとってはかなり緩いライセンスです。
関連記事
Gemma 4 の記事群をそのまま辿り、今の判断にいちばん近い次の記事へ進んでください。

Kimi K2.6 APIキーと料金: 公式コスト、レート制限、Web検索料金
Kimi K2.6の公式トークン料金、cached input と uncached input の違い、レート制限の実態、そして予算見積もりで見落とされがちな Web検索などの追加コストを解説します。

Kimi K2.6 レビュー: ベンチマーク、価格、API、そして使う価値はあるか
Kimi K2.6 は 2026 年 4 月 20 日に登場した、256K コンテキスト、ネイティブ画像・動画入力、強い agent-swarm ストーリーを備えた open-weight agentic coding モデルです。本稿では実態と宣伝文句を切り分けます。

Kimi K2.6 vs GLM-5.1: ベンチマーク、コンテキスト長、価格、どちらが合うか
2026 年の中国発 open-weight モデルの中でも特に強力な 2 本。2 週間違いで登場し、似た coding ワークロードを狙っていますが、モダリティ、コンテキスト、価格構造にははっきり違いがあります。
次に何を読めばいいか迷っていますか?
ガイド一覧に戻って、モデル比較、ローカル導入、ハードウェア計画の3方向から続けて見ていけます。
