Hướng dẫn Gemma 4

Kimi K2.6 trên Hugging Face: Model Card, Triển Khai và Các Engine Suy Luận Được Khuyến Nghị

Đọc trong 8 phút
kimi k2.6hugging facevllmsglangmodel deployment
Kimi K2.6 trên Hugging Face: Model Card, Triển Khai và Các Engine Suy Luận Được Khuyến Nghị

Kimi K2.6 trên Hugging Face: Model Card, Triển Khai và Các Engine Suy Luận Được Khuyến Nghị

Moonshot AI công bố weights chính thức của Kimi K2.6 trên Hugging Face tại moonshotai/Kimi-K2.6 theo giấy phép Modified MIT. Đây là nguồn chuẩn để lấy model thật — không phải reupload, không phải bản fork đã quantize, cũng không phải cloud proxy. Nếu bạn định self-host K2.6, đánh giá nó từ nguồn gốc ban đầu, hoặc chỉ muốn đọc spec trước khi quyết định, đây là điểm khởi đầu đúng.

Bài này tóm tắt model card thực sự chứa gì, các con số kiến trúc ảnh hưởng thế nào đến triển khai, Moonshot khuyến nghị engine suy luận nào, và khi nào self-host hợp lý hơn so với dùng API chính thức.

Minh họa triển khai Kimi K2.6 trên Hugging Face với model shards, máy chủ GPU và logo các engine suy luận trong một không gian kỹ thuật

Câu trả lời nhanh

  • Repo chính thức: huggingface.co/moonshotai/Kimi-K2.6
  • Kiến trúc: Mixture-of-Experts, ~1T tham số tổng, ~32B tham số hoạt hóa mỗi token
  • Cửa sổ ngữ cảnh: 256K (262,144 tokens trên trang giá API)
  • Modalities: text, image và video qua MoonViT vision encoder 400M tham số
  • Engine được khuyến nghị: vLLM, SGLangKTransformers
  • Giấy phép: Modified MIT
  • Thinking mode bật mặc định. Cần --reasoning-parser kimi_k2 để chạy đúng.

Trang Hugging Face chính thức có gì

Repo moonshotai/Kimi-K2.6 thường bao gồm:

  • Model card với mô tả chuẩn, tóm tắt kiến trúc và capability claims
  • Bảng benchmark giống các bảng Moonshot đăng trên blog
  • Hướng dẫn deploydocs/deploy_guidance.md với ví dụ cho vLLM, SGLang, KTransformers
  • Ví dụ Python cho Thinking vs. Instant, image input, video input, tool calling và bảo toàn reasoning_content
  • Các shard safetensors, tokenizer và config
  • Thư mục figures/ chứa hình ảnh và video được model card tham chiếu

Nếu bạn đã từng làm với K2.5 trên Hugging Face, cấu trúc này sẽ rất quen thuộc. Moonshot cố ý giữ các mẫu tích hợp của dòng K2 tương đối nhất quán để việc chuyển đổi giữa các phiên bản dễ hơn.

Tóm tắt model

Thông số Giá trị
Architecture Mixture-of-Experts (MoE)
Total parameters ~1 nghìn tỷ
Activated parameters per token ~32 tỷ
Experts 384 routed, 8 active + 1 shared
Layers 61
Context window 256K tokens
Vision encoder MoonViT, 400M parameters
Attention Multi-head Latent Attention (MLA)
Activation SwiGLU

Những điểm quan trọng:

  • Tổng tham số và tham số hoạt hóa là hai chuyện khác nhau. 1T chủ yếu quyết định dấu chân bộ nhớ, còn 32B quyết định chi phí tính toán trên mỗi token.
  • MLA là một lựa chọn để giảm áp lực KV cache ở ngữ cảnh dài.
  • 384 experts nhưng chỉ 8+1 hoạt động trên mỗi token nghĩa là sparse routing thực sự quan trọng, nên các engine có hỗ trợ riêng cho K2 đáng tin hơn.
  • MoonViT là thành phần gốc, không phải thứ được gắn thêm sau này.

Phần benchmark nói gì

Các điểm nổi bật chính trong model card:

Coding: SWE-Bench Pro 58.6, SWE-Bench Verified 80.2, SWE-Bench Multilingual 76.7, LiveCodeBench v6 89.6, Terminal-Bench 2.0 66.7.

Agent / tools: Humanity's Last Exam with tools 54.0, BrowseComp 83.2, DeepSearchQA F1 92.5, Toolathlon 50.0.

Vision: Charxiv with Python 86.7, Math Vision with Python 93.2, V* 96.9.

Moonshot cũng tự ghi rõ hai lưu ý:

  1. Đây là số liệu tự báo cáo, phụ thuộc vào harness và system prompt.
  2. Terminal-Bench 2.0 được đánh giá ở non-thinking mode, vì chiến lược quản lý context hiện tại của Moonshot cho thinking mode chưa tương thích tốt với Terminus-2.

Các engine triển khai được khuyến nghị

vLLM

vLLM là serving engine phổ biến nhất hiện nay, có PagedAttention, continuous batching và API tương thích OpenAI.

vllm serve $MODEL_PATH -tp 8 \
  --mm-encoder-tp-mode data \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

Hai flag --tool-call-parser kimi_k2--reasoning-parser kimi_k2 là đặc biệt quan trọng. Moonshot nhắc đến vLLM 0.19.1 như bản ổn định đã được xác minh thủ công cho dòng K2.

SGLang

SGLang phù hợp với structured generation, chuỗi tool calling và hội thoại có tái sử dụng prefix.

sglang serve \
  --model-path $MODEL_PATH \
  --tp 8 \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

Nếu cần tính năng rất mới, Moonshot gợi ý cài trực tiếp từ source.

KTransformers

KTransformers là engine do Moonshot phát triển, tối ưu riêng cho dòng K2. Nó ít tổng quát hơn vLLM và SGLang, nhưng có thể hiệu quả hơn cho expert routing, MLA và CPU offload của K2.

Vì sao không dùng đại một engine MoE bất kỳ?

K2.6 có expert routing đặc thù, định dạng tool call riêng, reasoning parser riêng và vision encoder được nối trực tiếp vào text model. Nếu không có hỗ trợ riêng cho K2, engine có thể không load được model, làm hỏng tool calls hoặc làm mất reasoning.

API chính thức vs. self-host

Dùng API chính thức của Moonshot khi:

  • bạn vẫn đang ở giai đoạn thử nghiệm hoặc đầu production
  • lượng token chưa đủ lớn để biện minh cho GPU chuyên dụng
  • bạn cần video input ngay từ đầu
  • bạn muốn first-party support và hành vi chính chủ

Self-host từ Hugging Face khi:

  • bạn cần triển khai air-gapped hoặc on-prem
  • lưu lượng đã đủ lớn để GPU chuyên dụng rẻ hơn API
  • bạn muốn tự kiểm soát quantization, batching, routing
  • bạn thích chi phí hạ tầng cố định hơn là phí token biến thiên
  • bạn xây nghiên cứu hoặc OSS không muốn phụ thuộc API bên thứ ba

Với đa số team, con đường hợp lý là: prototype bằng API, đo latency và token mix thực tế, rồi mới quyết định có nên self-host hay không.

Những gì cần kiểm tra trước khi deploy

  • Pin phiên bản. vLLM 0.19.1 là bản Moonshot xác minh ổn định.
  • Kiểm tra phần cứng. Full precision thường giả định 8× H200 hoặc tương đương.
  • Nhớ rằng Thinking mode bật sẵn.
  • Cân nhắc tương tác giữa tools và thinking. Khi thinking bật, tool_choice nên là auto hoặc none, và reasoning_content phải được giữ lại trong lịch sử.
  • Tôn trọng giới hạn multimodal. Ảnh khoảng 4K, video khoảng 2K là mức thực tế.
  • Web search + thinking. $web_search chính thức hiện không hợp lắm với thinking mode trên K2.6/K2.5.

Khuyến nghị cuối

Model card trên Hugging Face là tài liệu kỹ thuật quan trọng nhất về Kimi K2.6. Thứ quyết định việc deploy của bạn có chạy tốt hay không nằm nhiều hơn ở deploy guide và usage examples chứ không phải bài marketing. Với hầu hết nhà phát triển, trình tự hợp lý là: đọc model card, đọc docs/deploy_guidance.md, rồi triển khai cẩn thận các ví dụ thinking và tool calling.

Nếu bạn định self-host, hãy chuẩn bị tinh thần cho việc pin version, bật K2-specific parser và dùng phần cứng cỡ H200 ở full precision. Nếu chưa muốn gánh mức đó, API chính thức của Moonshot vẫn là nơi khởi đầu hợp lý hơn. Xem thêm hướng dẫn API và giá.

FAQ

Kimi K2.6 trên Hugging Face có chính thức không?
Có. moonshotai/Kimi-K2.6 là tài khoản chính thức của Moonshot AI và là nguồn chuẩn của weights.

Kimi K2.6 có bao nhiêu tham số?
Khoảng 1 nghìn tỷ tham số tổng, với khoảng 32 tỷ tham số hoạt hóa trên mỗi token.

Context window là bao nhiêu?
256K tokens trên model card, và chính xác 262,144 tokens trên trang giá API của Moonshot.

Engine nào được khuyến nghị?
Moonshot khuyến nghị chính thức vLLM, SGLangKTransformers.

Self-host có hỗ trợ video không?
Weights hỗ trợ video, nhưng Moonshot đánh dấu đó là experimental trên các triển khai bên thứ ba.

Khi nào nên dùng API và khi nào nên self-host?
API cho giai đoạn xác minh và workload nhỏ hơn; self-host cho air-gap, lưu lượng lớn hoặc nhu cầu kiểm soát tối đa.

Giấy phép là gì?
Modified MIT. Với phần lớn team, nó gần như là permissive, chỉ có điều khoản attribution cho các triển khai cực lớn.

Hướng dẫn liên quan

Tiếp tục khám phá cụm nội dung Gemma 4 với bài hướng dẫn tiếp theo phù hợp với quyết định hiện tại của bạn.

Vẫn chưa biết nên đọc gì tiếp theo?

Quay lại trung tâm hướng dẫn để duyệt các bài so sánh model, hướng dẫn cài đặt và trang lập kế hoạch phần cứng.