Guias do Gemma 4
Kimi K2.6 no Hugging Face: Model Card, Deploy e Engines de Inferência Recomendadas

Kimi K2.6 no Hugging Face: Model Card, Deploy e Engines de Inferência Recomendadas
A Moonshot AI publica os pesos oficiais do Kimi K2.6 no Hugging Face em moonshotai/Kimi-K2.6, sob uma licença Modified MIT. Esse é o lugar canônico para obter o modelo real — não um reupload, não um fork quantizado, não um proxy em nuvem. Se você pretende fazer self-host do K2.6, avaliar capacidades a partir de fontes primárias ou simplesmente ler a especificação antes de decidir, esse repositório é o ponto de partida certo.
Este guia resume o que a model card realmente contém, o que os números da arquitetura significam para seu deploy, quais engines de inferência a Moonshot recomenda e quando faz mais sentido fazer self-host em vez de usar a API oficial.

Resposta rápida
- Repositório oficial:
huggingface.co/moonshotai/Kimi-K2.6 - Arquitetura: Mixture-of-Experts, ~1T de parâmetros totais, ~32B ativados por token
- Janela de contexto: 256K (262.144 tokens na página de preços da API)
- Modalidades: texto, imagem e vídeo via encoder de visão MoonViT de 400M
- Engines recomendadas: vLLM, SGLang e KTransformers
- Licença: Modified MIT
- Thinking mode vem ligado por padrão. O flag
--reasoning-parser kimi_k2é essencial para o comportamento correto.
O que a página oficial do Hugging Face inclui
O repositório moonshotai/Kimi-K2.6 traz:
- uma model card com descrição canônica, resumo da arquitetura e principais claims
- tabelas de benchmark iguais às que aparecem nos materiais da Moonshot
- um guia de deploy em
docs/deploy_guidance.mdcom exemplos para vLLM, SGLang e KTransformers - exemplos em Python cobrindo Thinking vs. Instant, input de imagem e vídeo, tool calling e preservação de
reasoning_content - os shards em safetensors, tokenizer e arquivos de configuração
- um diretório
figures/com os ativos usados na model card
Quem já trabalhou com o K2.5 no Hugging Face vai reconhecer o padrão. A Moonshot mantém a experiência da família K2 relativamente consistente para facilitar a migração.
Resumo do modelo
| Especificação | Valor |
|---|---|
| Arquitetura | Mixture-of-Experts (MoE) |
| Parâmetros totais | ~1 trilhão |
| Parâmetros ativados por token | ~32 bilhões |
| Experts | 384 roteados, 8 ativos + 1 compartilhado |
| Camadas | 61 |
| Janela de contexto | 256K tokens |
| Encoder de visão | MoonViT, 400M parâmetros |
| Attention | Multi-head Latent Attention (MLA) |
| Ativação | SwiGLU |
O que esses números significam:
- Parâmetros totais e parâmetros ativos são números diferentes. O total dita memória; os ativos por token se relacionam mais com custo computacional por geração.
- MLA é uma decisão explícita para economizar KV cache em contextos longos.
- 384 experts com 8+1 ativos por token significam roteamento esparso, o que explica a recomendação por engines com suporte específico a K2.
- MoonViT é nativo ao modelo, não um enxerto posterior.
O que a seção de benchmarks diz
Principais destaques da model card:
Coding: SWE-Bench Pro 58.6, SWE-Bench Verified 80.2, SWE-Bench Multilingual 76.7, LiveCodeBench v6 89.6, Terminal-Bench 2.0 66.7.
Agentes / tools: Humanity's Last Exam with tools 54.0, BrowseComp 83.2, DeepSearchQA F1 92.5, Toolathlon 50.0.
Visão: Charxiv with Python 86.7, Math Vision with Python 93.2, V* 96.9.
Duas ressalvas que a própria Moonshot faz:
- Os números são auto-relatados e dependem do harness escolhido.
- O Terminal-Bench 2.0 foi medido em non-thinking mode, porque a estratégia de contexto atual da Moonshot para thinking mode ainda não se encaixa bem no Terminus-2.
Engines de deploy recomendadas
vLLM
O vLLM é a engine de serving mais adotada, com PagedAttention, continuous batching e API compatível com OpenAI.
vllm serve $MODEL_PATH -tp 8 \
--mm-encoder-tp-mode data \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2
Os flags --tool-call-parser kimi_k2 e --reasoning-parser kimi_k2 são particularmente importantes. A Moonshot cita o vLLM 0.19.1 como versão estável manualmente verificada para a série K2.
SGLang
O SGLang é especialmente bom para geração estruturada, cadeias com tools e conversas com reuso pesado de prefixo.
sglang serve \
--model-path $MODEL_PATH \
--tp 8 \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2
Para recursos muito novos, a Moonshot sugere instalação a partir do código-fonte.
KTransformers
O KTransformers é a engine da própria Moonshot, otimizada para a família K2. É menos geral do que vLLM e SGLang, mas pode oferecer melhor eficiência em routing de experts, MLA e offload para CPU.
Por que não qualquer engine MoE?
O K2.6 usa um padrão específico de routing, formato próprio para tool calls, parser específico para reasoning e um encoder de visão acoplado ao modelo de texto. Sem suporte específico para K2, a engine pode falhar ao carregar, errar nas tool calls ou perder conteúdo de raciocínio.
API oficial vs. self-host
Use a API oficial da Moonshot quando:
- você está em validação ou início de produção
- seu volume ainda não justifica GPUs dedicadas
- você precisa de entrada de vídeo já no primeiro dia
- você quer garantias de first-party behavior e suporte direto do fornecedor
Faça self-host a partir do Hugging Face quando:
- você precisa de deploy air-gapped ou on-prem
- o volume já é grande o suficiente para GPUs dedicadas valerem mais a pena
- você quer controlar quantização, batching, placement de experts e roteamento
- prefere custo fixo de infraestrutura a cobrança variável por token
- está construindo artefatos de pesquisa ou OSS sem depender de API de terceiros
Para a maioria das equipes, o melhor caminho é: prototipe na API oficial, meça seu mix real de tokens e latência e só depois decida se self-host vale o investimento.
O que checar antes de fazer deploy
- Fixe versões. vLLM 0.19.1 é a versão estável verificada pela Moonshot.
- Cheque hardware. Pesos em precisão total normalmente assumem 8× H200 ou equivalente.
- Lembre do Thinking mode. Ele vem ligado por padrão.
- Considere a interação entre tools e thinking. Com thinking ligado,
tool_choicedeve serautoounone, ereasoning_contentprecisa ser preservado no histórico. - Respeite limites multimodais. Imagens em torno de 4K e vídeos em torno de 2K são recomendações razoáveis.
- Web search + thinking. O
$web_searchoficial hoje não combina bem com thinking mode em K2.6 e K2.5.
Recomendação final
A model card do Hugging Face é o documento técnico mais importante sobre o Kimi K2.6. O que realmente determina se seu deploy vai funcionar está no deploy guide e nos exemplos de uso, mais do que no material de marketing. Para a maioria dos desenvolvedores, a ordem certa é: ler a model card, estudar docs/deploy_guidance.md e então implementar com cuidado os exemplos de thinking e tool calling.
Se você quer self-host, já entre preparado para pin de versões, parsers específicos do K2 e hardware classe H200 em precisão total. Se ainda não quer assumir esse peso, começar pela API oficial da Moonshot costuma ser mais sensato. Para isso, veja também nosso guia de API e preços.
FAQ
O Kimi K2.6 no Hugging Face é oficial?
Sim. moonshotai/Kimi-K2.6 é a organização oficial da Moonshot AI e a fonte canônica dos pesos.
Quantos parâmetros o Kimi K2.6 tem?
Aproximadamente 1 trilhão de parâmetros totais, com cerca de 32 bilhões ativados por token.
Qual é o contexto máximo?
256K tokens na model card e 262.144 tokens exatamente na página de preços da API da Moonshot.
Quais engines são recomendadas?
A Moonshot recomenda oficialmente vLLM, SGLang e KTransformers.
Vídeo funciona em self-host?
Os pesos suportam vídeo, mas a Moonshot o marca como experimental em deploys de terceiros.
Quando usar API e quando fazer self-host?
API para validação e workloads menores; self-host para air-gap, volume grande ou necessidade de controle máximo.
Qual é a licença?
Modified MIT. Para a maioria das equipes, é efetivamente permissiva, com cláusula de atribuição apenas para deploys muito grandes.
Guias relacionados
Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Chave de API e Preços do Kimi K2.6: Custos Oficiais, Limites de Taxa e Taxas de Busca na Web
Os preços oficiais por token do Kimi K2.6, o que significam cached input e uncached input, como os níveis de rate limit funcionam na prática e quais custos extras — como busca na web — as pessoas esquecem ao fazer orçamento.

Review do Kimi K2.6: Benchmarks, Preços, API e se Vale a Pena Usar
O Kimi K2.6 chegou em 20 de abril de 2026 como um modelo open-weight para agentic coding com contexto de 256K, entrada nativa de imagem e vídeo e uma narrativa agressiva de agent swarm. Este review separa o que é real do que é marketing.

Kimi K2.6 vs GLM-5.1: Benchmarks, Janela de Contexto, Preços e Qual Modelo Encaixa Melhor
Dois dos modelos open-weight mais fortes de 2026 vindos da China, lançados com duas semanas de diferença e mirando workloads parecidos de coding — mas com diferenças reais em modalidade, contexto e estrutura de preço.
Ainda decidindo o que ler depois?
Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.
