Kimi K2.6 API 키와 가격: 공식 비용, 레이트 리밋, 웹 검색 요금

2026년 6월 14일 업데이트: Kimi에는 이제 더 최신 코딩 모델인 K2.7 Code가 있습니다. 글로벌 가격은 K2.6이 MTok당 캐시 히트 $0.16 / 입력 $0.95 / 출력 $4.00, K2.7 Code가 $0.19 / $0.95 / $4.00입니다. 지역별 청구, 속도 제한, 도구 가격은 라이브 콘솔에서 확인하세요.

Kimi K2.6 API 키와 가격: 공식 비용, 레이트 리밋, 웹 검색 요금

K2.6를 돌리기 위해 Kimi API 키를 만들려는 상황이라면, 토큰 단가만 보면 충분하지 않습니다. 캐싱, 레이트 리밋 티어, 웹 검색 비용, 에이전트 스타일 재시도가 모두 월간 청구서에 조용히 영향을 줍니다. 이 가이드는 Moonshot이 현재 자사 플랫폼 페이지에 공개한 숫자를 기준으로 각각을 차근차근 풀어봅니다.

토큰 가격 티어, 레이트 리밋 미터, Moonshot 스타일 개발자 콘솔이 보이는 Kimi K2.6 API 가격 대시보드 일러스트

빠른 답변

Kimi K2.6는 https://api.moonshot.ai/v1 의 Moonshot OpenAI 호환 API 를 사용합니다. OpenAI SDK는 그대로 대체 클라이언트로 쓸 수 있습니다.
Moonshot 플랫폼 페이지의 공식 K2.6 가격:
- Cached input: $0.16 / 1M tokens
- Uncached input: $0.95 / 1M tokens
- Output: $4.00 / 1M tokens
- 컨텍스트 윈도우: 262,144 tokens
API 키는 platform.moonshot.ai 에 가입한 뒤 콘솔에서 생성합니다.
내장 웹 검색은 호출당 현재 도구 가격 이며, 검색 결과가 다음 /chat/completions 요청에서 소비하는 토큰 비용도 추가로 발생합니다.
무료 티어인 Tier 0 는 현재 콘솔 제한, 동시 요청 1개, 일일 토큰 한도를 제공합니다. 더 무거운 사용량은 충전 후 상위 티어로 올라가야 합니다.

아래에서는 이 숫자들과 함께 실제 비용에서 자주 놓치는 함정도 같이 설명합니다.

Kimi API 키 만드는 방법

흐름은 대부분의 LLM 제공사와 비슷합니다.

platform.moonshot.ai 에 접속해 로그인하거나 가입합니다.
필요하면 계정 인증을 진행합니다.
콘솔의 API keys 섹션으로 가서 Create API key 를 클릭합니다.
키를 바로 복사합니다. 한 번만 표시됩니다.
선택 사항이지만 권장: 워크로드를 돌리기 전에 예산 상한과 잔액 부족 알림을 설정합니다.

API 키는 비밀번호처럼 취급하세요. 소스 파일이 아니라 환경 변수나 시크릿 매니저에 저장하는 것이 안전합니다. 유출되면 같은 콘솔 페이지에서 바로 회전하세요.

신규 계정에서 특히 눈여겨봐야 할 점이 있습니다. Moonshot은 누적 충전액에 따라 레이트 리밋 티어가 올라갑니다. 완전히 새 계정은 Tier 0 부터 시작하고 제한이 매우 빡빡합니다. 몇 번의 테스트 요청에는 충분하지만, 항상 켜져 있는 코딩 에이전트에는 적합하지 않습니다. 벤치마크를 시작하기 전에 아래 레이트 리밋 섹션을 먼저 확인하는 편이 좋습니다.

Kimi K2.6 공식 가격

Kimi 글로벌 가격 페이지에 현재 공개된 숫자는 다음과 같습니다.

모델	Cache hit	Input	Output	메모
Kimi K2.6	$0.16 / MTok	$0.95 / MTok	$4.00 / MTok	Kimi가 표시한 일반 K2.6 가격
Kimi K2.7 Code	$0.19 / MTok	$0.95 / MTok	$4.00 / MTok	더 최신 코딩 특화 옵션

여기서 중요한 점은 두 가지입니다. 첫째, Kimi 글로벌 플랫폼은 이제 가격을 백만 토큰(MTok)당 USD 로 표시합니다. 중국/RMB 콘솔로 과금되는 계정이라면 비용을 인용하기 전에 로컬 billing 페이지를 확인하세요. 둘째, cache hit input 은 일반 input 보다 훨씬 저렴합니다. 이 한 줄이 장문 컨텍스트와 에이전트 워크로드의 경제성을 크게 좌우합니다.

"cached input" 과 "uncached input" 의 의미

Moonshot은 대부분의 프런티어 모델 제공사처럼 컨텍스트 캐싱 을 구현합니다. 최근에 이미 본 프롬프트 일부는 서버가 다시 계산하지 않고 더 낮은 단가로 처리합니다.

구체적으로 보면:

캐시 히트 (cached input) — 이미 보낸 프리픽스(시스템 프롬프트, 이전 대화 턴, 큰 문서 컨텍스트 등)가 서버 캐시와 일치하는 경우입니다. cached 요금이 적용됩니다.
캐시 미스 (uncached input) — 새로운 프롬프트 내용, 순서 변경, 또는 캐시에서 만료된 프리픽스입니다. 전체 uncached 요금을 냅니다.

이게 실제 워크플로에서 중요한 이유:

장문 컨텍스트 RAG — 100K 토큰짜리 지식 베이스를 시스템 프롬프트에 넣고 반복 재사용하면, 캐싱 덕분에 비용이 크게 줄어듭니다.
에이전트 루프 — 도구를 쓰는 에이전트는 매 스텝마다 시스템 프롬프트, 툴 스키마, 대화 기록을 다시 보내는 경우가 많습니다. 캐싱이 없으면 매번 uncached 비용을 냅니다. 캐싱이 있으면 새로 추가된 툴 결과와 assistant 응답만 높은 단가를 냅니다.
같은 프롬프트를 쓰는 여러 사용자 — 두 번째 사용자부터는 캐시 혜택을 볼 수 있습니다.

실무적인 핵심은 안정적이고 재사용되는 부분(지침, 긴 문서, 툴 정의)을 앞쪽 에 두고, 사용자마다 바뀌는 부분을 뒤쪽 에 두는 것입니다. 이렇게 하면 캐시 히트율이 올라가고 입력 비용을 다섯 배 이상 줄이는 경우도 있습니다.

OpenAI 호환 요청 형식

Moonshot API는 OpenAI 호환이므로, Base URL과 API 키만 바꾸면 OpenAI SDK를 그대로 사용할 수 있습니다.

curl

curl https://api.moonshot.ai/v1/chat/completions \
  -H "Authorization: Bearer $MOONSHOT_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kimi-k2.6",
    "messages": [
      {"role": "user", "content": "Explain caching in one paragraph."}
    ]
  }'

Python (OpenAI SDK)

from openai import OpenAI

client = OpenAI(
    api_key="your-moonshot-api-key",
    base_url="https://api.moonshot.ai/v1",
)

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {"role": "user", "content": "Write a Python function to debounce calls."}
    ],
)
print(response.choices[0].message.content)

Thinking 모드와 Instant 모드

K2.6는 기본적으로 Thinking 모드입니다. Instant 로 강제하고 reasoning tokens 를 끄려면 다음처럼 전달합니다.

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[...],
    extra_body={"thinking": {"type": "disabled"}},
)

Thinking 모드에서는 reasoning tokens 가 output 으로 과금됩니다. 필요 없다면 끄는 것만으로도 바로 비용을 아낄 수 있습니다.

멀티모달 입력

K2.6는 텍스트, 이미지, 비디오를 기본적으로 지원하는 네이티브 멀티모달 모델입니다. 이미지는 표준 OpenAI image_url 형식으로 쉽게 넣을 수 있습니다. 비디오 입력은 공식 API에서 지원되지만, Moonshot은 서드파티 배포에서는 실험적 기능으로 표시합니다. 제품이 여기에 의존한다면 반드시 엔드투엔드 테스트를 하세요.

레이트 리밋과 계정 티어

Moonshot은 계정별 티어 기반 레이트 리밋을 적용합니다. 정확한 수치는 계정 상태, 충전 이력, 현재 플랫폼 정책에 따라 달라지며 시간이 지나면 바뀔 수 있습니다.

워크로드를 산정하기 전에 플랫폼 콘솔의 limits 페이지를 확인하세요. 실무상 기준은 다음과 같습니다.

무료 또는 입문 티어는 검증에 적합합니다. 통합을 만들고 몇 번의 테스트 호출로 OpenAI SDK 호환성을 확인할 수 있습니다.
입문 제한은 코딩 에이전트에 부족합니다. 실제 agent loop 에는 충분한 RPM, 동시성, 토큰 처리량이 필요합니다.
필요한 처리량은 일찍 확보하세요. 실제 워크로드에서는 가장 작은 제한에 맞춰 최적화하기보다 벤치마크가 요구하는 티어를 쓰는 편이 보통 더 낫습니다.

사람들이 놓치는 추가 비용

토큰 단가표만으로는 전체 비용을 설명할 수 없습니다. 실제 운영에서는 세 가지 비용이 조용히 붙습니다.

내장 웹 검색. Moonshot은 생성 중 $web_search 도구를 호출할 수 있게 합니다. 호출당 현재 도구 가격 이 부과됩니다. 금액은 작아 보이지만, 검색 결과 내용이 다음 /chat/completions 요청에 입력 토큰으로 삽입되고, 그 토큰에도 일반 입력 요금이 붙습니다. 한 사용자 턴에 열 번 검색하는 에이전트라면 검색 호출 요금도 열 번, 입력 토큰도 열 덩어리만큼 냅니다.

Reasoning tokens. Thinking 모드에서는 모델 내부 추론 토큰이 output 으로 집계됩니다. 간단한 질문에서는 괜찮지만, 도구를 반복 호출하는 에이전트에서는 50번의 툴 콜에 걸쳐 누적된 reasoning 비용이 가장 큰 항목이 될 수 있습니다. 작업에 꼭 필요하지 않다면 끄는 것이 맞습니다.

에이전트 재시도와 장시간 루프. Moonshot은 K2.6가 12시간 동안 4,000회 이상의 툴 콜을 수행할 수 있다고 강조합니다. 인상적인 능력이지만, 동시에 아주 현실적인 청구서이기도 합니다. 긴 에이전트 데모는 유용하지만, 모르는 사이에 큰 예산 을 태우기 가장 쉬운 방법이기도 합니다. 에이전트 워크플로에는 항상 최대 스텝 수와 최대 토큰 수를 걸어 두세요.

캐시 미스 패턴. 프롬프트 순서를 자주 바꾸거나 시스템 메시지를 자주 수정하거나 사용자별로 완전히 다른 컨텍스트를 붙이면 캐시 히트율이 떨어집니다. 입력 비용이 예상보다 크다면 보통 원인은 여기입니다.

Kimi K2.6는 무료인가?

“무료”에도 세 가지 의미가 있고, 각각 답이 다릅니다.

kimi.com 브라우저에서 Kimi 쓰기. Moonshot의 소비자용 제품에는 보통 일일 사용량 제한이 있는 무료 티어가 있습니다. 하지만 이것은 API가 아니며, 거기서의 대화는 API 크레딧을 소모하지 않습니다.

Kimi K2.6 API를 돈 안 내고 쓰기. Tier 0 무료 제한으로 소량의 호출은 충전 없이 가능합니다. 통합 테스트에는 충분하지만 지속적인 운영에는 부족합니다. Tier 0 이후의 API 사용은 유료입니다.

Ollama Cloud, OpenRouter 같은 곳에서 Kimi K2.6 쓰기. 이들은 별도 과금 시스템이며, 자체 무료 크레딧과 가격표를 가집니다. 같은 모델로 연결되더라도 “공식 Kimi API” 자체는 아닙니다.

즉, 무료로 시험해볼 방법은 있지만, 공식 API를 통해 K2.6를 프로덕션 워크로드에 무료로 돌릴 방법은 없습니다.

Kimi API 비용을 제어하는 방법

확장하기 전 체크리스트:

콘솔에서 하드 예산 상한을 설정하세요.
잔액 부족 알림을 켜세요.
항상 max_tokens 를 지정하세요. 특히 에이전트 루프에서 중요합니다.
안정적인 컨텍스트를 먼저, 사용자별 가변 내용을 나중에 배치하세요.
필요 없는 작업에서는 Thinking 모드를 끄세요.
$web_search 는 명시적 의도가 있을 때만 사용하세요.
에이전트 루프에 최대 스텝 수와 시간 제한을 두세요.
요청별 input / output / cached input 토큰을 기록해 실제 비용 원인을 파악하세요.

최종 권장사항

Kimi를 코딩 에이전트나 장문 컨텍스트 워크플로에 평가한다면 비용 구조는 쓸 만하지만 자동으로 저렴해지지는 않습니다. 기본 토큰 가격은 경쟁력이 있고 cache hit 가격도 유용하지만, 프롬프트 구조가 실제로 캐시를 잘 맞출 때만 효과가 납니다. 새로운 코딩 에이전트 작업이라면 K2.6만 보지 말고 K2.7 Code도 함께 비교하세요.

대부분 팀의 출발점은 통합을 만들고, 프로덕션에서 실제 cache hit 비율과 토큰 분포를 측정하고, 현재 계정의 rate limit 을 확인한 뒤 K2.6, K2.7 Code 또는 다른 모델 중 task 당 비용이 맞는 선택을 하는 것입니다.

FAQ

Kimi API 키는 어떻게 받나요? platform.moonshot.ai 에 로그인하고 API keys 섹션에서 새 키를 생성합니다. 키는 한 번만 표시되니 바로 복사하세요. 동시에 예산 상한도 설정하는 편이 좋습니다.

Kimi K2.6 가격은 얼마인가요? 글로벌 가격 페이지에서 K2.6은 cache hit $0.16 / MTok, input $0.95 / MTok, output $4.00 / MTok입니다. K2.7 Code는 cache hit $0.19 / MTok, input $0.95 / MTok, output $4.00 / MTok입니다. RMB로 과금되는 계정은 로컬 콘솔을 확인하세요.

Kimi K2.6는 무료로 쓸 수 있나요? kimi.com 소비자 제품에는 API 과금과 별도의 무료 티어가 있을 수 있습니다. API 계정도 입문 또는 프로모션 접근이 있을 수 있지만, 프로덕션 API 워크로드는 유료 사용으로 예산을 잡아야 합니다.

Kimi API는 OpenAI SDK를 지원하나요? 네. Kimi API는 OpenAI 호환입니다. OpenAI SDK의 base URL을 https://api.moonshot.ai/v1 로 바꾸고 Moonshot 키를 넣은 뒤 model 을 kimi-k2.6 으로 설정하면 됩니다.

Kimi API 레이트 리밋은 어떻게 되나요? 리밋은 티어 기반이며 계정 상태, 충전 이력, 현재 플랫폼 정책에 따라 달라질 수 있습니다. 프로덕션 산정에는 복사된 RPM 표가 아니라 live console 의 limits 페이지를 사용하세요.

Kimi 웹 검색 비용은 얼마인가요? 현재 tools pricing 페이지를 확인하세요. Web search 같은 도구는 모델 토큰과 별도로 과금될 수 있고, 반환된 콘텐츠가 다음 요청의 input-token 비용도 늘릴 수 있습니다.

Kimi K2.6에서 도구와 function calling을 쓸 수 있나요? 네. K2.6은 OpenAI 스타일의 tool use 와 function calling을 지원합니다. Moonshot 문서상 Thinking 모드가 켜져 있을 때는 tool_choice 를 auto 또는 none 으로 두고, tool-calling turn 사이에서 assistant의 reasoning_content 를 보존해야 합니다.

Kimi K2.6 API 키와 가격: 공식 비용, 레이트 리밋, 웹 검색 요금