Gemma 4 가이드
Kimi K2.6 API 키와 가격: 공식 비용, 레이트 리밋, 웹 검색 요금

Kimi K2.6 API 키와 가격: 공식 비용, 레이트 리밋, 웹 검색 요금
K2.6를 돌리기 위해 Kimi API 키를 만들려는 상황이라면, 토큰 단가만 보면 충분하지 않습니다. 캐싱, 레이트 리밋 티어, 웹 검색 비용, 에이전트 스타일 재시도가 모두 월간 청구서에 조용히 영향을 줍니다. 이 가이드는 Moonshot이 현재 자사 플랫폼 페이지에 공개한 숫자를 기준으로 각각을 차근차근 풀어봅니다.

빠른 답변
- Kimi K2.6는
https://api.moonshot.ai/v1의 Moonshot OpenAI 호환 API 를 사용합니다. OpenAI SDK는 그대로 대체 클라이언트로 쓸 수 있습니다. - Moonshot 플랫폼 페이지의 공식 K2.6 가격:
- Cached input: ¥1.10 / 1M tokens
- Uncached input: ¥6.50 / 1M tokens
- Output: ¥27.00 / 1M tokens
- 컨텍스트 윈도우: 262,144 tokens
- API 키는
platform.moonshot.ai에 가입한 뒤 콘솔에서 생성합니다. - 내장 웹 검색은 호출당 ¥0.03 이며, 검색 결과가 다음
/chat/completions요청에서 소비하는 토큰 비용도 추가로 발생합니다. - 무료 티어인 Tier 0 는 3 RPM, 동시 요청 1개, 일일 토큰 한도를 제공합니다. 더 무거운 사용량은 충전 후 상위 티어로 올라가야 합니다.
아래에서는 이 숫자들과 함께 실제 비용에서 자주 놓치는 함정도 같이 설명합니다.
Kimi API 키 만드는 방법
흐름은 대부분의 LLM 제공사와 비슷합니다.
platform.moonshot.ai에 접속해 로그인하거나 가입합니다.- 필요하면 계정 인증을 진행합니다.
- 콘솔의 API keys 섹션으로 가서 Create API key 를 클릭합니다.
- 키를 바로 복사합니다. 한 번만 표시됩니다.
- 선택 사항이지만 권장: 워크로드를 돌리기 전에 예산 상한과 잔액 부족 알림을 설정합니다.
API 키는 비밀번호처럼 취급하세요. 소스 파일이 아니라 환경 변수나 시크릿 매니저에 저장하는 것이 안전합니다. 유출되면 같은 콘솔 페이지에서 바로 회전하세요.
신규 계정에서 특히 눈여겨봐야 할 점이 있습니다. Moonshot은 누적 충전액에 따라 레이트 리밋 티어가 올라갑니다. 완전히 새 계정은 Tier 0 부터 시작하고 제한이 매우 빡빡합니다. 몇 번의 테스트 요청에는 충분하지만, 항상 켜져 있는 코딩 에이전트에는 적합하지 않습니다. 벤치마크를 시작하기 전에 아래 레이트 리밋 섹션을 먼저 확인하는 편이 좋습니다.
Kimi K2.6 공식 가격
Moonshot K2.6 가격 페이지에 현재 공개된 숫자는 다음과 같습니다.
| 항목 | 가격 | 단위 |
|---|---|---|
| Cached input | ¥1.10 | 1M tokens 당 |
| Uncached input | ¥6.50 | 1M tokens 당 |
| Output | ¥27.00 | 1M tokens 당 |
| 컨텍스트 윈도우 | 262,144 | tokens |
여기서 눈여겨볼 점은 두 가지입니다. 첫째, 토큰 가격은 RMB(¥) 기준이지 USD가 아닙니다. Anthropic이나 OpenAI 가격과 비교할 때는 반드시 환산하세요. ¥6.50 을 감각적으로 $6.50 처럼 보면 안 됩니다. 둘째, cached input 은 uncached input 보다 대략 6배 저렴합니다. 이 한 줄이 장문 컨텍스트와 에이전트 워크로드의 경제성을 크게 좌우합니다.
"cached input" 과 "uncached input" 의 의미
Moonshot은 대부분의 프런티어 모델 제공사처럼 컨텍스트 캐싱 을 구현합니다. 최근에 이미 본 프롬프트 일부는 서버가 다시 계산하지 않고 더 낮은 단가로 처리합니다.
구체적으로 보면:
- 캐시 히트 (cached input) — 이미 보낸 프리픽스(시스템 프롬프트, 이전 대화 턴, 큰 문서 컨텍스트 등)가 서버 캐시와 일치하는 경우입니다. cached 요금이 적용됩니다.
- 캐시 미스 (uncached input) — 새로운 프롬프트 내용, 순서 변경, 또는 캐시에서 만료된 프리픽스입니다. 전체 uncached 요금을 냅니다.
이게 실제 워크플로에서 중요한 이유:
- 장문 컨텍스트 RAG — 100K 토큰짜리 지식 베이스를 시스템 프롬프트에 넣고 반복 재사용하면, 캐싱 덕분에 비용이 크게 줄어듭니다.
- 에이전트 루프 — 도구를 쓰는 에이전트는 매 스텝마다 시스템 프롬프트, 툴 스키마, 대화 기록을 다시 보내는 경우가 많습니다. 캐싱이 없으면 매번 uncached 비용을 냅니다. 캐싱이 있으면 새로 추가된 툴 결과와 assistant 응답만 높은 단가를 냅니다.
- 같은 프롬프트를 쓰는 여러 사용자 — 두 번째 사용자부터는 캐시 혜택을 볼 수 있습니다.
실무적인 핵심은 안정적이고 재사용되는 부분(지침, 긴 문서, 툴 정의)을 앞쪽 에 두고, 사용자마다 바뀌는 부분을 뒤쪽 에 두는 것입니다. 이렇게 하면 캐시 히트율이 올라가고 입력 비용을 다섯 배 이상 줄이는 경우도 있습니다.
OpenAI 호환 요청 형식
Moonshot API는 OpenAI 호환이므로, Base URL과 API 키만 바꾸면 OpenAI SDK를 그대로 사용할 수 있습니다.
curl
curl https://api.moonshot.ai/v1/chat/completions \
-H "Authorization: Bearer $MOONSHOT_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "kimi-k2.6",
"messages": [
{"role": "user", "content": "Explain caching in one paragraph."}
]
}'
Python (OpenAI SDK)
from openai import OpenAI
client = OpenAI(
api_key="your-moonshot-api-key",
base_url="https://api.moonshot.ai/v1",
)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{"role": "user", "content": "Write a Python function to debounce calls."}
],
)
print(response.choices[0].message.content)
Thinking 모드와 Instant 모드
K2.6는 기본적으로 Thinking 모드입니다. Instant 로 강제하고 reasoning tokens 를 끄려면 다음처럼 전달합니다.
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[...],
extra_body={"thinking": {"type": "disabled"}},
)
Thinking 모드에서는 reasoning tokens 가 output 으로 과금됩니다. 필요 없다면 끄는 것만으로도 바로 비용을 아낄 수 있습니다.
멀티모달 입력
K2.6는 텍스트, 이미지, 비디오를 기본적으로 지원하는 네이티브 멀티모달 모델입니다. 이미지는 표준 OpenAI image_url 형식으로 쉽게 넣을 수 있습니다. 비디오 입력은 공식 API에서 지원되지만, Moonshot은 서드파티 배포에서는 실험적 기능으로 표시합니다. 제품이 여기에 의존한다면 반드시 엔드투엔드 테스트를 하세요.
레이트 리밋과 계정 티어
Moonshot은 계정별 티어 기반 레이트 리밋을 적용합니다. 상승 기준은 현재 잔액 이 아니라 누적 충전액 입니다.
현재 공개된 티어 구조의 대표적인 형태는 다음과 같습니다.
| 티어 | 누적 충전액 | 동시성 | RPM | TPM | TPD |
|---|---|---|---|---|---|
| Tier 0 | ¥0 | 1 | 3 | 500,000 | 1,500,000 |
| Tier 1 | ¥50 | 더 높음 | 더 높음 | 더 높음 | 더 높음 |
| … | … | … | … | … | … |
Tier 1 이상 정확한 수치는 시간이 지나며 바뀔 수 있으니, 워크로드를 산정하기 전에 플랫폼 limits 페이지를 확인하세요. 실전 팁은 다음과 같습니다.
- Tier 0 는 검증용으로 충분합니다. 연동을 만들고, 몇 번 테스트 호출하고, OpenAI SDK가 잘 붙는지 확인하는 정도는 가능합니다.
- Tier 0 는 코딩 에이전트용으로는 부족합니다. 분당 3회, 동시 요청 1개로는 제대로 된 에이전트 루프가 계속 막힙니다.
- 조기에 상위 티어로 가는 편이 보통 더 낫습니다. 실제 워크로드를 풀려면 Tier 0 안에서 억지 최적화하는 것보다 작은 충전으로 Tier 1 에 올라가는 편이 쉽습니다.
사람들이 놓치는 추가 비용
토큰 단가표만으로는 전체 비용을 설명할 수 없습니다. 실제 운영에서는 세 가지 비용이 조용히 붙습니다.
내장 웹 검색. Moonshot은 생성 중 $web_search 도구를 호출할 수 있게 합니다. 호출당 ¥0.03 이 부과됩니다. 금액은 작아 보이지만, 검색 결과 내용이 다음 /chat/completions 요청에 입력 토큰으로 삽입되고, 그 토큰에도 일반 입력 요금이 붙습니다. 한 사용자 턴에 열 번 검색하는 에이전트라면 검색 호출 요금도 열 번, 입력 토큰도 열 덩어리만큼 냅니다.
Reasoning tokens. Thinking 모드에서는 모델 내부 추론 토큰이 output 으로 집계됩니다. 간단한 질문에서는 괜찮지만, 도구를 반복 호출하는 에이전트에서는 50번의 툴 콜에 걸쳐 누적된 reasoning 비용이 가장 큰 항목이 될 수 있습니다. 작업에 꼭 필요하지 않다면 끄는 것이 맞습니다.
에이전트 재시도와 장시간 루프. Moonshot은 K2.6가 12시간 동안 4,000회 이상의 툴 콜을 수행할 수 있다고 강조합니다. 인상적인 능력이지만, 동시에 아주 현실적인 청구서이기도 합니다. 긴 에이전트 데모는 유용하지만, 모르는 사이에 ¥10,000 을 태우기 가장 쉬운 방법이기도 합니다. 에이전트 워크플로에는 항상 최대 스텝 수와 최대 토큰 수를 걸어 두세요.
캐시 미스 패턴. 프롬프트 순서를 자주 바꾸거나 시스템 메시지를 자주 수정하거나 사용자별로 완전히 다른 컨텍스트를 붙이면 캐시 히트율이 떨어집니다. 입력 비용이 예상보다 크다면 보통 원인은 여기입니다.
Kimi K2.6는 무료인가?
“무료”에도 세 가지 의미가 있고, 각각 답이 다릅니다.
kimi.com 브라우저에서 Kimi 쓰기. Moonshot의 소비자용 제품에는 보통 일일 사용량 제한이 있는 무료 티어가 있습니다. 하지만 이것은 API가 아니며, 거기서의 대화는 API 크레딧을 소모하지 않습니다.
Kimi K2.6 API를 돈 안 내고 쓰기. Tier 0 무료 제한으로 소량의 호출은 충전 없이 가능합니다. 통합 테스트에는 충분하지만 지속적인 운영에는 부족합니다. Tier 0 이후의 API 사용은 유료입니다.
Ollama Cloud, OpenRouter 같은 곳에서 Kimi K2.6 쓰기. 이들은 별도 과금 시스템이며, 자체 무료 크레딧과 가격표를 가집니다. 같은 모델로 연결되더라도 “공식 Kimi API” 자체는 아닙니다.
즉, 무료로 시험해볼 방법은 있지만, 공식 API를 통해 K2.6를 프로덕션 워크로드에 무료로 돌릴 방법은 없습니다.
Kimi API 비용을 제어하는 방법
확장하기 전 체크리스트:
- 콘솔에서 하드 예산 상한을 설정하세요.
- 잔액 부족 알림을 켜세요.
- 항상
max_tokens를 지정하세요. 특히 에이전트 루프에서 중요합니다. - 안정적인 컨텍스트를 먼저, 사용자별 가변 내용을 나중에 배치하세요.
- 필요 없는 작업에서는 Thinking 모드를 끄세요.
$web_search는 명시적 의도가 있을 때만 사용하세요.- 에이전트 루프에 최대 스텝 수와 시간 제한을 두세요.
- 요청별 input / output / cached input 토큰을 기록해 실제 비용 원인을 파악하세요.
최종 권장사항
Kimi K2.6를 코딩 에이전트나 장문 컨텍스트 워크플로에 평가한다면, 비용 구조는 충분히 실용적이지만 자동으로 저렴해지는 형태는 아닙니다. 헤드라인 토큰 가격은 경쟁력이 있고 cached input 요금도 좋습니다. 하지만 프롬프트를 캐시에 잘 맞게 설계했을 때의 이야기입니다. 짧고 상태 없는 호출에 캐싱이 잘 안 걸리면 K2.6는 최저가 옵션이 아니며, 특히 output 요금인 ¥27.00 / 1M 은 코드 생성량이 많은 사용 패턴에서 비용을 지배하기 쉽습니다.
대부분의 팀에게 맞는 시작점은 이렇습니다. Tier 0 를 넘길 만큼만 충전하고, 통합을 만들고, 실제 캐시 히트율과 토큰 구성을 측정한 뒤, 그 다음에 K2.6를 계속 쓸지 아니면 가격 구조가 다른 모델이 더 맞는지 판단하세요.
FAQ
Kimi API 키는 어떻게 받나요?
platform.moonshot.ai 에 로그인한 뒤 API keys 섹션에서 새 키를 생성하면 됩니다. 키는 한 번만 표시되므로 즉시 복사하세요. 같은 시점에 예산 상한도 설정해 두는 것이 좋습니다.
Kimi K2.6 비용은 얼마인가요?
공식 가격 페이지 기준으로 cached input 은 1M tokens 당 ¥1.10, uncached input 은 ¥6.50, output 은 ¥27.00 이며, 컨텍스트 윈도우는 262,144 tokens 입니다. 가격 단위는 RMB입니다.
Kimi K2.6를 무료로 쓸 수 있나요?
Tier 0 무료 티어에서는 소량 호출(3 RPM, 동시 1개, 일일 토큰 한도)을 할 수 있어 테스트에는 충분하지만 프로덕션에는 부족합니다. kimi.com 의 소비자용 무료 티어는 API 과금과는 별개입니다.
Kimi API는 OpenAI SDK를 지원하나요?
네. Kimi API는 OpenAI 호환입니다. Base URL을 https://api.moonshot.ai/v1 로 바꾸고 model 을 kimi-k2.6 으로 지정하면 됩니다.
Kimi API 레이트 리밋은 어떻게 되나요?
레이트 리밋은 티어 기반이며 누적 충전액에 따라 올라갑니다. Tier 0(¥0)는 3 RPM, 동시 요청 1개, 일일 토큰 한도를 제공합니다. Tier 1 은 누적 충전 ¥50 부터 시작하며 훨씬 높은 제한을 제공합니다.
Kimi 웹 검색 비용은 얼마인가요?
내장 $web_search 도구는 호출당 ¥0.03 입니다. 그리고 검색 결과 내용이 다음 chat completion 요청에 추가되면서 일반 입력 토큰 비용도 함께 발생합니다.
Kimi K2.6에서 도구와 function calling 을 사용할 수 있나요?
네. K2.6는 OpenAI 스타일의 tool use 와 function calling 을 지원합니다. 다만 Moonshot 문서에 따르면 Thinking 모드가 켜져 있을 때는 tool_choice 를 auto 또는 none 으로 두어야 하고, 툴 호출 턴 사이에서 Assistant 메시지의 reasoning_content 를 보존해야 합니다.
관련 가이드
지금 고민 중인 결정과 가장 잘 맞는 다음 가이드를 따라 Gemma 4 클러스터를 계속 탐색해 보세요.

Kimi K2.6 리뷰: 벤치마크, 가격, API, 그리고 써볼 가치가 있는가
Kimi K2.6는 2026년 4월 20일 공개된 open-weight agentic coding 모델로, 256K 컨텍스트, 네이티브 이미지/비디오 입력, 그리고 강한 agent-swarm 서사를 갖고 있습니다. 이 리뷰는 무엇이 실체이고 무엇이 마케팅인지 가려냅니다.

Hugging Face의 Kimi K2.6: 모델 카드, 배포, 추천 추론 엔진
`moonshotai/Kimi-K2.6` 모델 카드에서 개발자가 알아야 할 내용을 정리했습니다. 실제 weights 구성, vLLM/SGLang 배포 방법, 그리고 self-host와 공식 API 중 어떤 선택이 맞는지 설명합니다.

Kimi K2.6 vs GLM-5.1: 벤치마크, 컨텍스트 길이, 가격, 어떤 모델이 더 맞는가
2026년 중국에서 나온 가장 강력한 open-weight 모델 둘. 2주 간격으로 출시됐고 비슷한 코딩 워크로드를 겨냥하지만, 모달리티, 컨텍스트, 가격 구조는 확실히 다릅니다.
다음에 무엇을 읽을지 아직 고민 중인가요?
가이드 허브로 돌아가 모델 비교, 설정 워크스루, 하드웨어 계획 페이지를 둘러보세요.
