Guias do Gemma 4
Chave de API e Preços do Kimi K2.6: Custos Oficiais, Limites de Taxa e Taxas de Busca na Web

Chave de API e Preços do Kimi K2.6: Custos Oficiais, Limites de Taxa e Taxas de Busca na Web
Se você está prestes a criar uma chave de API do Kimi para usar o K2.6, o preço por token é só parte da história. Cache, níveis de limite de taxa, taxas de busca na web e retries de estilo agent moldam silenciosamente sua conta mensal. Este guia percorre cada um desses pontos usando os números atualmente publicados nas próprias páginas da plataforma Moonshot.

Resposta rápida
- O Kimi K2.6 usa a API compatível com OpenAI da Moonshot em
https://api.moonshot.ai/v1— qualquer SDK da OpenAI funciona como cliente drop-in. - Preços oficiais do K2.6 na página da plataforma Moonshot:
- Entrada em cache: ¥1.10 / 1M tokens
- Entrada sem cache: ¥6.50 / 1M tokens
- Saída: ¥27.00 / 1M tokens
- Janela de contexto: 262.144 tokens
- Você obtém uma chave de API criando uma conta em
platform.moonshot.aie gerando a chave no console. - A busca na web integrada custa ¥0.03 por chamada, além dos tokens consumidos pelos resultados de busca no próximo request para
/chat/completions. - O nível gratuito (Tier 0) permite 3 RPM, 1 requisição concorrente e tem um teto diário de tokens. Para uso mais pesado, é preciso fazer recarga e subir de nível.
O restante do artigo detalha esses números e os pontos de atenção em torno deles.
Como criar uma chave de API do Kimi
O fluxo é o mesmo da maioria dos provedores de LLM:
- Acesse
platform.moonshot.aie faça login ou crie sua conta. - Verifique sua conta, se for solicitado.
- Abra a seção de chaves de API no console e clique em Create API key.
- Copie a chave imediatamente — ela é mostrada só uma vez.
- Opcional, mas recomendado: defina um limite de orçamento e um alerta de saldo baixo antes de rodar qualquer carga.
Trate essa chave como uma senha: armazene em variável de ambiente ou secret manager, não em arquivos de código-fonte. Se ela vazar, faça a rotação pela mesma página do console.
Algo importante para contas novas: a Moonshot usa limites em camadas que escalam com o valor total recarregado ao longo do tempo. Uma conta recém-criada começa no Tier 0, com limites bem apertados — suficiente para alguns testes, mas insuficiente para um agente de código sempre ativo. Veja a seção de rate limits abaixo antes de começar qualquer benchmark.
Preços oficiais do Kimi K2.6
Os números atualmente publicados na página de preços do K2.6 da Moonshot:
| Item | Preço | Unidade |
|---|---|---|
| Entrada em cache | ¥1.10 | por 1M tokens |
| Entrada sem cache | ¥6.50 | por 1M tokens |
| Saída | ¥27.00 | por 1M tokens |
| Janela de contexto | 262.144 | tokens |
Duas coisas chamam atenção. Primeiro, os preços estão em RMB (¥), não em USD. Se você estiver comparando com preços da Anthropic ou OpenAI, faça a conversão de moeda corretamente; não olhe “¥6.50” e leia como “$6.50”. Segundo, a entrada em cache é aproximadamente 6× mais barata do que a entrada sem cache. Essa única linha domina a economia de workloads com contexto longo e agentes.
O que significam "cached input" e "uncached input"
A Moonshot, como a maioria dos provedores de ponta, implementa context caching: quando partes do seu prompt já foram vistas recentemente, o servidor pula o recálculo desse prefixo e cobra uma taxa muito menor por esses tokens.
Na prática:
- Cache hit (cached input) — um prefixo já enviado anteriormente (prompt de sistema, turnos anteriores, contexto de documento grande) coincide com o que está em cache no servidor. Você paga a tarifa de cache.
- Cache miss (uncached input) — conteúdo novo, ordem diferente ou um prefixo que já saiu do cache. Você paga a tarifa cheia.
Por que isso importa em fluxos reais:
- RAG de contexto longo — se você coloca 100K tokens de base de conhecimento no system prompt e os reutiliza ao longo das requisições, o cache transforma uma conta pesada em algo muito mais barato.
- Loops de agentes — cada passo de um agente com ferramentas normalmente reenvia o prompt de sistema, os schemas de ferramentas e a conversa em andamento. Sem cache, cada passo paga a tarifa cheia. Com cache, só o novo resultado da ferramenta e a nova resposta do assistente saem no preço mais alto.
- Prompts idênticos para usuários diferentes — se dois usuários passam pelo mesmo system prompt, o segundo se beneficia do cache.
A implicação prática é: estruture seus prompts para que as partes estáveis e reutilizáveis (instruções, documentos longos, definições de ferramentas) venham primeiro, e o conteúdo específico e variável do usuário venha por último. Isso maximiza a taxa de acerto de cache e pode cortar seus custos de entrada em cinco vezes ou mais.
Formato de requisição compatível com OpenAI
A API da Moonshot é compatível com OpenAI, o que significa que qualquer SDK da OpenAI funciona com uma nova base URL e uma nova chave de API.
curl
curl https://api.moonshot.ai/v1/chat/completions \
-H "Authorization: Bearer $MOONSHOT_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "kimi-k2.6",
"messages": [
{"role": "user", "content": "Explain caching in one paragraph."}
]
}'
Python (SDK da OpenAI)
from openai import OpenAI
client = OpenAI(
api_key="your-moonshot-api-key",
base_url="https://api.moonshot.ai/v1",
)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{"role": "user", "content": "Write a Python function to debounce calls."}
],
)
print(response.choices[0].message.content)
Modo Thinking vs. Instant
O K2.6 usa Thinking por padrão. Para forçar o modo Instant e desativar tokens de raciocínio:
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[...],
extra_body={"thinking": {"type": "disabled"}},
)
No modo Thinking, você paga pelos tokens de raciocínio como saída. Se não precisar disso, desabilitar é uma forma simples de economizar.
Entrada multimodal
O K2.6 é nativamente multimodal — aceita texto, imagem e vídeo. Imagens são simples via o bloco image_url padrão da OpenAI. Entrada de vídeo é suportada na API oficial, mas a Moonshot a marca como experimental em deploys de terceiros. Se seu produto depende disso, teste a cadeia completa de ponta a ponta.
Rate limits e níveis de conta
A Moonshot aplica limites por nível de conta. A progressão depende do valor cumulativo recarregado — não do seu saldo atual, mas do total que você já adicionou.
Formato representativo da tabela de níveis atualmente publicada:
| Tier | Recarga cumulativa | Concorrência | RPM | TPM | TPD |
|---|---|---|---|---|---|
| Tier 0 | ¥0 | 1 | 3 | 500.000 | 1.500.000 |
| Tier 1 | ¥50 | maior | maior | maior | maior |
| … | … | … | … | … | … |
Os números exatos do Tier 1 em diante podem mudar com o tempo, então confira a página de limites antes de dimensionar um workload. Algumas diretrizes:
- Tier 0 serve para validação. Dá para integrar, rodar alguns testes e confirmar que o SDK da OpenAI funciona.
- Tier 0 não serve para agentes de código. Três requests por minuto e apenas uma requisição concorrente travam qualquer loop de agente de verdade.
- Suba cedo para ganhar throughput. O jeito mais barato de destravar um workload real geralmente é uma recarga pequena para alcançar o Tier 1, e não tentar contornar as limitações do Tier 0.
Custos extras que as pessoas esquecem
A tabela por token não conta tudo. Há três categorias de custo que aparecem silenciosamente em produção.
Busca na web integrada. A Moonshot oferece uma ferramenta $web_search que o modelo pode chamar durante a geração. Cada chamada custa ¥0.03. Isso parece pouco, mas o conteúdo do resultado de busca entra como entrada adicional no próximo /chat/completions, e esses tokens são cobrados pela tarifa normal de input. Um agente muito falante que pesquisa dez vezes por turno do usuário paga dez taxas de busca e mais dez blocos de tokens de entrada.
Tokens de raciocínio. No modo Thinking, o modelo gera tokens internos de raciocínio que contam como saída. Em perguntas simples isso é ok. Em agentes que chamam ferramentas em loop, o raciocínio acumulado ao longo de 50 chamadas pode facilmente virar a maior linha da fatura. Se a tarefa não exigir isso, desligue.
Retries de agentes e loops de longa duração. Os próprios materiais da Moonshot destacam o K2.6 executando mais de 4.000 chamadas de ferramenta em 12 horas. Isso é impressionante — e também uma conta muito real. Demos de agentes de longa duração são úteis, mas também são o jeito mais rápido de queimar ¥10.000 sem perceber. Sempre limite o número máximo de passos e o máximo de tokens em workflows de agente.
Padrões de cache miss. Reordenar prompts, mudar muito a system message ou atender muitos usuários com contextos únicos reduz a taxa de acerto do cache. Se sua linha de custo de input estiver maior do que o esperado, o cache costuma ser a explicação.
O Kimi K2.6 é gratuito?
Existem três perguntas diferentes sobre “gratuito”, e elas têm respostas diferentes:
Usar o Kimi no navegador em kimi.com. Os produtos de consumo da Moonshot normalmente têm um nível gratuito com cotas diárias. Isso não é a API — conversas ali não consomem créditos de API.
Usar a API do Kimi K2.6 sem pagar. O Tier 0 gratuito permite fazer um pequeno número de chamadas sem recarga. É suficiente para testes de integração, não para carga sustentada. Acima do Tier 0, o uso da API é pago.
Usar o Kimi K2.6 via Ollama Cloud, OpenRouter ou similares. Esses são sistemas de cobrança separados, com seus próprios créditos gratuitos e preços. Não são “a API do Kimi”, embora possam rotear para o mesmo modelo.
Em resumo: há uma forma gratuita de experimentar, mas não há forma gratuita de rodar um workload de produção no K2.6 pela API oficial.
Como controlar o custo da API do Kimi
Checklist curta antes de escalar:
- Defina um teto rígido de orçamento no console.
- Ative alertas de saldo baixo para descobrir gastos inesperados cedo.
- Sempre passe
max_tokensna saída, especialmente em loops de agentes. - Coloque o contexto estável primeiro e o conteúdo variável do usuário por último.
- Desative o modo Thinking em tarefas que não precisam dele.
- Proteja o
$web_searchatrás de intenção explícita. - Limite loops de agentes com contador de passos e timeout de parede.
- Registre tokens de input, output e cached input por requisição para enxergar de onde o custo realmente vem.
Recomendação final
Se você está avaliando o Kimi K2.6 para um agente de código ou um workflow de contexto longo, a estrutura de custos é viável, mas não é automaticamente barata. Os preços de manchete por token são competitivos, e a tarifa de cached input é excelente — mas só se você estruturar seus prompts para realmente acertar o cache. Para chamadas curtas e stateless sem caching, o K2.6 não é a opção mais barata, e a tarifa de saída em particular (¥27.00 / 1M) domina qualquer modelo de custo com muito código gerado.
Para a maioria das equipes, o melhor ponto de partida é: recarregue o suficiente para sair do Tier 0, construa sua integração, meça a taxa real de acerto de cache e a distribuição de tokens em produção, e só então decida se o K2.6 é a escolha contínua certa — ou se outro modelo com estrutura de preço diferente se encaixa melhor no seu fluxo.
FAQ
Como conseguir uma chave de API do Kimi?
Entre em platform.moonshot.ai, abra a seção de API keys e crie uma nova chave. Copie imediatamente; ela só aparece uma vez. Aproveite para configurar também um limite de orçamento.
Quanto custa o Kimi K2.6?
Na página oficial de preços, cached input custa ¥1.10 por 1M tokens, uncached input custa ¥6.50 por 1M tokens, output custa ¥27.00 por 1M tokens e a janela de contexto é de 262.144 tokens. Os preços estão em RMB.
O Kimi K2.6 é gratuito para usar?
O Tier 0 gratuito permite um pequeno número de chamadas (3 RPM, 1 requisição concorrente) com teto diário de tokens — suficiente para testes, não para produção. O produto de consumo em kimi.com tem seu próprio nível gratuito separado da cobrança da API.
A API do Kimi suporta SDKs da OpenAI?
Sim. A API do Kimi é compatível com OpenAI. Aponte qualquer SDK da OpenAI para https://api.moonshot.ai/v1, use sua chave Moonshot e defina model como kimi-k2.6.
Quais são os rate limits da API do Kimi?
Os limites são baseados em tiers e escalam com a recarga cumulativa. O Tier 0 (¥0) oferece 3 RPM e 1 requisição concorrente com teto diário de tokens. O Tier 1 começa em ¥50 de recarga cumulativa e tem limites bem maiores.
Quanto custa a busca na web do Kimi?
A ferramenta integrada $web_search custa ¥0.03 por chamada. O conteúdo retornado pela busca é então adicionado ao próximo request de chat completion e cobrado pela tarifa normal de input.
Posso usar o Kimi K2.6 com tools e function calling?
Sim. O K2.6 suporta uso de ferramentas e function calling no mesmo estilo da OpenAI. Há uma restrição importante na documentação da Moonshot: quando o modo Thinking está ativado, tool_choice deve ser auto ou none, e você precisa preservar o reasoning_content da mensagem do assistente ao longo dos turnos com ferramentas.
Guias relacionados
Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Review do Kimi K2.6: Benchmarks, Preços, API e se Vale a Pena Usar
O Kimi K2.6 chegou em 20 de abril de 2026 como um modelo open-weight para agentic coding com contexto de 256K, entrada nativa de imagem e vídeo e uma narrativa agressiva de agent swarm. Este review separa o que é real do que é marketing.

Kimi K2.6 no Hugging Face: Model Card, Deploy e Engines de Inferência Recomendadas
Tudo que desenvolvedores precisam saber a partir da model card `moonshotai/Kimi-K2.6`: o que os pesos realmente incluem, como fazer deploy com vLLM ou SGLang e como decidir entre self-hosting e a API oficial.

Kimi K2.6 vs GLM-5.1: Benchmarks, Janela de Contexto, Preços e Qual Modelo Encaixa Melhor
Dois dos modelos open-weight mais fortes de 2026 vindos da China, lançados com duas semanas de diferença e mirando workloads parecidos de coding — mas com diferenças reais em modalidade, contexto e estrutura de preço.
Ainda decidindo o que ler depois?
Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.
