Kimi K2.6 no Hugging Face: Model Card, Deploy e Engines de Inferência Recomendadas

A Moonshot AI publica os pesos oficiais do Kimi K2.6 no Hugging Face em moonshotai/Kimi-K2.6, sob uma licença Modified MIT. Esse é o lugar canônico para obter o modelo real — não um reupload, não um fork quantizado, não um proxy em nuvem. Se você pretende fazer self-host do K2.6, avaliar capacidades a partir de fontes primárias ou simplesmente ler a especificação antes de decidir, esse repositório é o ponto de partida certo.

Este guia resume o que a model card realmente contém, o que os números da arquitetura significam para seu deploy, quais engines de inferência a Moonshot recomenda e quando faz mais sentido fazer self-host em vez de usar a API oficial.

Ilustração de deploy do Kimi K2.6 no Hugging Face com shards do modelo, servidores GPU e logos de engines de inferência em um ambiente técnico

Resposta rápida

Repositório oficial: huggingface.co/moonshotai/Kimi-K2.6
Arquitetura: Mixture-of-Experts, ~1T de parâmetros totais, ~32B ativados por token
Janela de contexto: 256K (262.144 tokens na página de preços da API)
Modalidades: texto, imagem e vídeo via encoder de visão MoonViT de 400M
Engines recomendadas: vLLM, SGLang e KTransformers
Licença: Modified MIT
Thinking mode vem ligado por padrão. O flag --reasoning-parser kimi_k2 é essencial para o comportamento correto.

O que a página oficial do Hugging Face inclui

O repositório moonshotai/Kimi-K2.6 traz:

uma model card com descrição canônica, resumo da arquitetura e principais claims
tabelas de benchmark iguais às que aparecem nos materiais da Moonshot
um guia de deploy em docs/deploy_guidance.md com exemplos para vLLM, SGLang e KTransformers
exemplos em Python cobrindo Thinking vs. Instant, input de imagem e vídeo, tool calling e preservação de reasoning_content
os shards em safetensors, tokenizer e arquivos de configuração
um diretório figures/ com os ativos usados na model card

Quem já trabalhou com o K2.5 no Hugging Face vai reconhecer o padrão. A Moonshot mantém a experiência da família K2 relativamente consistente para facilitar a migração.

Resumo do modelo

Especificação	Valor
Arquitetura	Mixture-of-Experts (MoE)
Parâmetros totais	~1 trilhão
Parâmetros ativados por token	~32 bilhões
Experts	384 roteados, 8 ativos + 1 compartilhado
Camadas	61
Janela de contexto	256K tokens
Encoder de visão	MoonViT, 400M parâmetros
Attention	Multi-head Latent Attention (MLA)
Ativação	SwiGLU

O que esses números significam:

Parâmetros totais e parâmetros ativos são números diferentes. O total dita memória; os ativos por token se relacionam mais com custo computacional por geração.
MLA é uma decisão explícita para economizar KV cache em contextos longos.
384 experts com 8+1 ativos por token significam roteamento esparso, o que explica a recomendação por engines com suporte específico a K2.
MoonViT é nativo ao modelo, não um enxerto posterior.

O que a seção de benchmarks diz

Principais destaques da model card:

Coding: SWE-Bench Pro 58.6, SWE-Bench Verified 80.2, SWE-Bench Multilingual 76.7, LiveCodeBench v6 89.6, Terminal-Bench 2.0 66.7.

Agentes / tools: Humanity's Last Exam with tools 54.0, BrowseComp 83.2, DeepSearchQA F1 92.5, Toolathlon 50.0.

Visão: Charxiv with Python 86.7, Math Vision with Python 93.2, V* 96.9.

Duas ressalvas que a própria Moonshot faz:

Os números são auto-relatados e dependem do harness escolhido.
O Terminal-Bench 2.0 foi medido em non-thinking mode, porque a estratégia de contexto atual da Moonshot para thinking mode ainda não se encaixa bem no Terminus-2.

Engines de deploy recomendadas

vLLM

O vLLM é a engine de serving mais adotada, com PagedAttention, continuous batching e API compatível com OpenAI.

vllm serve $MODEL_PATH -tp 8 \
  --mm-encoder-tp-mode data \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

Os flags --tool-call-parser kimi_k2 e --reasoning-parser kimi_k2 são particularmente importantes. A Moonshot cita o vLLM 0.19.1 como versão estável manualmente verificada para a série K2.

SGLang

O SGLang é especialmente bom para geração estruturada, cadeias com tools e conversas com reuso pesado de prefixo.

sglang serve \
  --model-path $MODEL_PATH \
  --tp 8 \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

Para recursos muito novos, a Moonshot sugere instalação a partir do código-fonte.

KTransformers

O KTransformers é a engine da própria Moonshot, otimizada para a família K2. É menos geral do que vLLM e SGLang, mas pode oferecer melhor eficiência em routing de experts, MLA e offload para CPU.

Por que não qualquer engine MoE?

O K2.6 usa um padrão específico de routing, formato próprio para tool calls, parser específico para reasoning e um encoder de visão acoplado ao modelo de texto. Sem suporte específico para K2, a engine pode falhar ao carregar, errar nas tool calls ou perder conteúdo de raciocínio.

API oficial vs. self-host

Use a API oficial da Moonshot quando:

você está em validação ou início de produção
seu volume ainda não justifica GPUs dedicadas
você precisa de entrada de vídeo já no primeiro dia
você quer garantias de first-party behavior e suporte direto do fornecedor

Faça self-host a partir do Hugging Face quando:

você precisa de deploy air-gapped ou on-prem
o volume já é grande o suficiente para GPUs dedicadas valerem mais a pena
você quer controlar quantização, batching, placement de experts e roteamento
prefere custo fixo de infraestrutura a cobrança variável por token
está construindo artefatos de pesquisa ou OSS sem depender de API de terceiros

Para a maioria das equipes, o melhor caminho é: prototipe na API oficial, meça seu mix real de tokens e latência e só depois decida se self-host vale o investimento.

O que checar antes de fazer deploy

Fixe versões. vLLM 0.19.1 é a versão estável verificada pela Moonshot.
Cheque hardware. Pesos em precisão total normalmente assumem 8× H200 ou equivalente.
Lembre do Thinking mode. Ele vem ligado por padrão.
Considere a interação entre tools e thinking. Com thinking ligado, tool_choice deve ser auto ou none, e reasoning_content precisa ser preservado no histórico.
Respeite limites multimodais. Imagens em torno de 4K e vídeos em torno de 2K são recomendações razoáveis.
Web search + thinking. O $web_search oficial hoje não combina bem com thinking mode em K2.6 e K2.5.

Recomendação final

A model card do Hugging Face é o documento técnico mais importante sobre o Kimi K2.6. O que realmente determina se seu deploy vai funcionar está no deploy guide e nos exemplos de uso, mais do que no material de marketing. Para a maioria dos desenvolvedores, a ordem certa é: ler a model card, estudar docs/deploy_guidance.md e então implementar com cuidado os exemplos de thinking e tool calling.

Se você quer self-host, já entre preparado para pin de versões, parsers específicos do K2 e hardware classe H200 em precisão total. Se ainda não quer assumir esse peso, começar pela API oficial da Moonshot costuma ser mais sensato. Para isso, veja também nosso guia de API e preços.

FAQ

O Kimi K2.6 no Hugging Face é oficial?
Sim. moonshotai/Kimi-K2.6 é a organização oficial da Moonshot AI e a fonte canônica dos pesos.

Quantos parâmetros o Kimi K2.6 tem?
Aproximadamente 1 trilhão de parâmetros totais, com cerca de 32 bilhões ativados por token.

Qual é o contexto máximo?
256K tokens na model card e 262.144 tokens exatamente na página de preços da API da Moonshot.

Quais engines são recomendadas?
A Moonshot recomenda oficialmente vLLM, SGLang e KTransformers.

Vídeo funciona em self-host?
Os pesos suportam vídeo, mas a Moonshot o marca como experimental em deploys de terceiros.

Quando usar API e quando fazer self-host?
API para validação e workloads menores; self-host para air-gap, volume grande ou necessidade de controle máximo.

Qual é a licença?
Modified MIT. Para a maioria das equipes, é efetivamente permissiva, com cláusula de atribuição apenas para deploys muito grandes.

Kimi K2.6 no Hugging Face: Model Card, Deploy e Engines de Inferência Recomendadas