Guias do Gemma 4

Chave de API e Preços do Kimi K2.6: Custos Oficiais, Limites de Taxa e Taxas de Busca na Web

8 min de leitura
kimi k2.6kimi apiapi pricingllm pricingmoonshot ai
Chave de API e Preços do Kimi K2.6: Custos Oficiais, Limites de Taxa e Taxas de Busca na Web

Chave de API e Preços do Kimi K2.6: Custos Oficiais, Limites de Taxa e Taxas de Busca na Web

Se você está prestes a criar uma chave de API do Kimi para usar o K2.6, o preço por token é só parte da história. Cache, níveis de limite de taxa, taxas de busca na web e retries de estilo agent moldam silenciosamente sua conta mensal. Este guia percorre cada um desses pontos usando os números atualmente publicados nas próprias páginas da plataforma Moonshot.

Ilustração de painel de preços da API do Kimi K2.6 com níveis de preço por token, medidores de rate limit e visuais de console de desenvolvedor no estilo Moonshot

Resposta rápida

  • O Kimi K2.6 usa a API compatível com OpenAI da Moonshot em https://api.moonshot.ai/v1 — qualquer SDK da OpenAI funciona como cliente drop-in.
  • Preços oficiais do K2.6 na página da plataforma Moonshot:
    • Entrada em cache: ¥1.10 / 1M tokens
    • Entrada sem cache: ¥6.50 / 1M tokens
    • Saída: ¥27.00 / 1M tokens
    • Janela de contexto: 262.144 tokens
  • Você obtém uma chave de API criando uma conta em platform.moonshot.ai e gerando a chave no console.
  • A busca na web integrada custa ¥0.03 por chamada, além dos tokens consumidos pelos resultados de busca no próximo request para /chat/completions.
  • O nível gratuito (Tier 0) permite 3 RPM, 1 requisição concorrente e tem um teto diário de tokens. Para uso mais pesado, é preciso fazer recarga e subir de nível.

O restante do artigo detalha esses números e os pontos de atenção em torno deles.

Como criar uma chave de API do Kimi

O fluxo é o mesmo da maioria dos provedores de LLM:

  1. Acesse platform.moonshot.ai e faça login ou crie sua conta.
  2. Verifique sua conta, se for solicitado.
  3. Abra a seção de chaves de API no console e clique em Create API key.
  4. Copie a chave imediatamente — ela é mostrada só uma vez.
  5. Opcional, mas recomendado: defina um limite de orçamento e um alerta de saldo baixo antes de rodar qualquer carga.

Trate essa chave como uma senha: armazene em variável de ambiente ou secret manager, não em arquivos de código-fonte. Se ela vazar, faça a rotação pela mesma página do console.

Algo importante para contas novas: a Moonshot usa limites em camadas que escalam com o valor total recarregado ao longo do tempo. Uma conta recém-criada começa no Tier 0, com limites bem apertados — suficiente para alguns testes, mas insuficiente para um agente de código sempre ativo. Veja a seção de rate limits abaixo antes de começar qualquer benchmark.

Preços oficiais do Kimi K2.6

Os números atualmente publicados na página de preços do K2.6 da Moonshot:

Item Preço Unidade
Entrada em cache ¥1.10 por 1M tokens
Entrada sem cache ¥6.50 por 1M tokens
Saída ¥27.00 por 1M tokens
Janela de contexto 262.144 tokens

Duas coisas chamam atenção. Primeiro, os preços estão em RMB (¥), não em USD. Se você estiver comparando com preços da Anthropic ou OpenAI, faça a conversão de moeda corretamente; não olhe “¥6.50” e leia como “$6.50”. Segundo, a entrada em cache é aproximadamente 6× mais barata do que a entrada sem cache. Essa única linha domina a economia de workloads com contexto longo e agentes.

O que significam "cached input" e "uncached input"

A Moonshot, como a maioria dos provedores de ponta, implementa context caching: quando partes do seu prompt já foram vistas recentemente, o servidor pula o recálculo desse prefixo e cobra uma taxa muito menor por esses tokens.

Na prática:

  • Cache hit (cached input) — um prefixo já enviado anteriormente (prompt de sistema, turnos anteriores, contexto de documento grande) coincide com o que está em cache no servidor. Você paga a tarifa de cache.
  • Cache miss (uncached input) — conteúdo novo, ordem diferente ou um prefixo que já saiu do cache. Você paga a tarifa cheia.

Por que isso importa em fluxos reais:

  • RAG de contexto longo — se você coloca 100K tokens de base de conhecimento no system prompt e os reutiliza ao longo das requisições, o cache transforma uma conta pesada em algo muito mais barato.
  • Loops de agentes — cada passo de um agente com ferramentas normalmente reenvia o prompt de sistema, os schemas de ferramentas e a conversa em andamento. Sem cache, cada passo paga a tarifa cheia. Com cache, só o novo resultado da ferramenta e a nova resposta do assistente saem no preço mais alto.
  • Prompts idênticos para usuários diferentes — se dois usuários passam pelo mesmo system prompt, o segundo se beneficia do cache.

A implicação prática é: estruture seus prompts para que as partes estáveis e reutilizáveis (instruções, documentos longos, definições de ferramentas) venham primeiro, e o conteúdo específico e variável do usuário venha por último. Isso maximiza a taxa de acerto de cache e pode cortar seus custos de entrada em cinco vezes ou mais.

Formato de requisição compatível com OpenAI

A API da Moonshot é compatível com OpenAI, o que significa que qualquer SDK da OpenAI funciona com uma nova base URL e uma nova chave de API.

curl

curl https://api.moonshot.ai/v1/chat/completions \
  -H "Authorization: Bearer $MOONSHOT_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kimi-k2.6",
    "messages": [
      {"role": "user", "content": "Explain caching in one paragraph."}
    ]
  }'

Python (SDK da OpenAI)

from openai import OpenAI

client = OpenAI(
    api_key="your-moonshot-api-key",
    base_url="https://api.moonshot.ai/v1",
)

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {"role": "user", "content": "Write a Python function to debounce calls."}
    ],
)
print(response.choices[0].message.content)

Modo Thinking vs. Instant

O K2.6 usa Thinking por padrão. Para forçar o modo Instant e desativar tokens de raciocínio:

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[...],
    extra_body={"thinking": {"type": "disabled"}},
)

No modo Thinking, você paga pelos tokens de raciocínio como saída. Se não precisar disso, desabilitar é uma forma simples de economizar.

Entrada multimodal

O K2.6 é nativamente multimodal — aceita texto, imagem e vídeo. Imagens são simples via o bloco image_url padrão da OpenAI. Entrada de vídeo é suportada na API oficial, mas a Moonshot a marca como experimental em deploys de terceiros. Se seu produto depende disso, teste a cadeia completa de ponta a ponta.

Rate limits e níveis de conta

A Moonshot aplica limites por nível de conta. A progressão depende do valor cumulativo recarregado — não do seu saldo atual, mas do total que você já adicionou.

Formato representativo da tabela de níveis atualmente publicada:

Tier Recarga cumulativa Concorrência RPM TPM TPD
Tier 0 ¥0 1 3 500.000 1.500.000
Tier 1 ¥50 maior maior maior maior

Os números exatos do Tier 1 em diante podem mudar com o tempo, então confira a página de limites antes de dimensionar um workload. Algumas diretrizes:

  • Tier 0 serve para validação. Dá para integrar, rodar alguns testes e confirmar que o SDK da OpenAI funciona.
  • Tier 0 não serve para agentes de código. Três requests por minuto e apenas uma requisição concorrente travam qualquer loop de agente de verdade.
  • Suba cedo para ganhar throughput. O jeito mais barato de destravar um workload real geralmente é uma recarga pequena para alcançar o Tier 1, e não tentar contornar as limitações do Tier 0.

Custos extras que as pessoas esquecem

A tabela por token não conta tudo. Há três categorias de custo que aparecem silenciosamente em produção.

Busca na web integrada. A Moonshot oferece uma ferramenta $web_search que o modelo pode chamar durante a geração. Cada chamada custa ¥0.03. Isso parece pouco, mas o conteúdo do resultado de busca entra como entrada adicional no próximo /chat/completions, e esses tokens são cobrados pela tarifa normal de input. Um agente muito falante que pesquisa dez vezes por turno do usuário paga dez taxas de busca e mais dez blocos de tokens de entrada.

Tokens de raciocínio. No modo Thinking, o modelo gera tokens internos de raciocínio que contam como saída. Em perguntas simples isso é ok. Em agentes que chamam ferramentas em loop, o raciocínio acumulado ao longo de 50 chamadas pode facilmente virar a maior linha da fatura. Se a tarefa não exigir isso, desligue.

Retries de agentes e loops de longa duração. Os próprios materiais da Moonshot destacam o K2.6 executando mais de 4.000 chamadas de ferramenta em 12 horas. Isso é impressionante — e também uma conta muito real. Demos de agentes de longa duração são úteis, mas também são o jeito mais rápido de queimar ¥10.000 sem perceber. Sempre limite o número máximo de passos e o máximo de tokens em workflows de agente.

Padrões de cache miss. Reordenar prompts, mudar muito a system message ou atender muitos usuários com contextos únicos reduz a taxa de acerto do cache. Se sua linha de custo de input estiver maior do que o esperado, o cache costuma ser a explicação.

O Kimi K2.6 é gratuito?

Existem três perguntas diferentes sobre “gratuito”, e elas têm respostas diferentes:

Usar o Kimi no navegador em kimi.com. Os produtos de consumo da Moonshot normalmente têm um nível gratuito com cotas diárias. Isso não é a API — conversas ali não consomem créditos de API.

Usar a API do Kimi K2.6 sem pagar. O Tier 0 gratuito permite fazer um pequeno número de chamadas sem recarga. É suficiente para testes de integração, não para carga sustentada. Acima do Tier 0, o uso da API é pago.

Usar o Kimi K2.6 via Ollama Cloud, OpenRouter ou similares. Esses são sistemas de cobrança separados, com seus próprios créditos gratuitos e preços. Não são “a API do Kimi”, embora possam rotear para o mesmo modelo.

Em resumo: há uma forma gratuita de experimentar, mas não há forma gratuita de rodar um workload de produção no K2.6 pela API oficial.

Como controlar o custo da API do Kimi

Checklist curta antes de escalar:

  • Defina um teto rígido de orçamento no console.
  • Ative alertas de saldo baixo para descobrir gastos inesperados cedo.
  • Sempre passe max_tokens na saída, especialmente em loops de agentes.
  • Coloque o contexto estável primeiro e o conteúdo variável do usuário por último.
  • Desative o modo Thinking em tarefas que não precisam dele.
  • Proteja o $web_search atrás de intenção explícita.
  • Limite loops de agentes com contador de passos e timeout de parede.
  • Registre tokens de input, output e cached input por requisição para enxergar de onde o custo realmente vem.

Recomendação final

Se você está avaliando o Kimi K2.6 para um agente de código ou um workflow de contexto longo, a estrutura de custos é viável, mas não é automaticamente barata. Os preços de manchete por token são competitivos, e a tarifa de cached input é excelente — mas só se você estruturar seus prompts para realmente acertar o cache. Para chamadas curtas e stateless sem caching, o K2.6 não é a opção mais barata, e a tarifa de saída em particular (¥27.00 / 1M) domina qualquer modelo de custo com muito código gerado.

Para a maioria das equipes, o melhor ponto de partida é: recarregue o suficiente para sair do Tier 0, construa sua integração, meça a taxa real de acerto de cache e a distribuição de tokens em produção, e só então decida se o K2.6 é a escolha contínua certa — ou se outro modelo com estrutura de preço diferente se encaixa melhor no seu fluxo.

FAQ

Como conseguir uma chave de API do Kimi?
Entre em platform.moonshot.ai, abra a seção de API keys e crie uma nova chave. Copie imediatamente; ela só aparece uma vez. Aproveite para configurar também um limite de orçamento.

Quanto custa o Kimi K2.6?
Na página oficial de preços, cached input custa ¥1.10 por 1M tokens, uncached input custa ¥6.50 por 1M tokens, output custa ¥27.00 por 1M tokens e a janela de contexto é de 262.144 tokens. Os preços estão em RMB.

O Kimi K2.6 é gratuito para usar?
O Tier 0 gratuito permite um pequeno número de chamadas (3 RPM, 1 requisição concorrente) com teto diário de tokens — suficiente para testes, não para produção. O produto de consumo em kimi.com tem seu próprio nível gratuito separado da cobrança da API.

A API do Kimi suporta SDKs da OpenAI?
Sim. A API do Kimi é compatível com OpenAI. Aponte qualquer SDK da OpenAI para https://api.moonshot.ai/v1, use sua chave Moonshot e defina model como kimi-k2.6.

Quais são os rate limits da API do Kimi?
Os limites são baseados em tiers e escalam com a recarga cumulativa. O Tier 0 (¥0) oferece 3 RPM e 1 requisição concorrente com teto diário de tokens. O Tier 1 começa em ¥50 de recarga cumulativa e tem limites bem maiores.

Quanto custa a busca na web do Kimi?
A ferramenta integrada $web_search custa ¥0.03 por chamada. O conteúdo retornado pela busca é então adicionado ao próximo request de chat completion e cobrado pela tarifa normal de input.

Posso usar o Kimi K2.6 com tools e function calling?
Sim. O K2.6 suporta uso de ferramentas e function calling no mesmo estilo da OpenAI. Há uma restrição importante na documentação da Moonshot: quando o modo Thinking está ativado, tool_choice deve ser auto ou none, e você precisa preservar o reasoning_content da mensagem do assistente ao longo dos turnos com ferramentas.

Guias relacionados

Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Ainda decidindo o que ler depois?

Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.