Gemma 4 가이드

Hugging Face의 Kimi K2.6: 모델 카드, 배포, 추천 추론 엔진

8분 읽기
kimi k2.6hugging facevllmsglangmodel deployment
Hugging Face의 Kimi K2.6: 모델 카드, 배포, 추천 추론 엔진

Hugging Face의 Kimi K2.6: 모델 카드, 배포, 추천 추론 엔진

Moonshot AI는 Kimi K2.6의 공식 weights 를 Hugging Face 의 moonshotai/Kimi-K2.6 에 Modified MIT 라이선스로 공개했습니다. 이곳이 진짜 모델을 받는 정식 경로입니다. 재업로드도 아니고, 양자화 포크도 아니며, 클라우드 프록시도 아닙니다. K2.6를 self-host 하려는 사람, 1차 자료로 성능을 평가하려는 사람, 또는 도입 전에 스펙을 확인하려는 사람에게 가장 먼저 봐야 할 곳입니다.

이 글은 모델 카드에 실제로 무엇이 들어 있는지, 아키텍처 숫자가 배포에 어떤 의미인지, Moonshot이 어떤 추론 엔진을 권장하는지, 그리고 self-host 대신 공식 API를 써야 하는 경우가 언제인지를 설명합니다.

모델 shard, GPU 서버, 추론 엔진 로고가 보이는 Hugging Face 기반 Kimi K2.6 배포 일러스트

빠른 답변

  • 공식 저장소: huggingface.co/moonshotai/Kimi-K2.6
  • 아키텍처: Mixture-of-Experts, 총 약 1T 파라미터, 토큰당 약 32B 활성화
  • 컨텍스트 윈도우: 256K (API 가격 페이지 기준 262,144 tokens)
  • 모달리티: MoonViT 4억 파라미터 비전 인코더를 통한 텍스트, 이미지, 비디오 입력
  • 권장 추론 엔진: vLLM, SGLang, KTransformers
  • 라이선스: Modified MIT
  • Thinking 모드 기본 활성화. 올바른 동작을 위해 --reasoning-parser kimi_k2 가 필요합니다.

공식 Hugging Face 페이지에 들어 있는 것

moonshotai/Kimi-K2.6 저장소에는 보통 다음이 포함됩니다.

  • 모델 설명, 주요 주장, 아키텍처 요약이 담긴 모델 카드
  • Moonshot 블로그와 같은 벤치마크 표
  • docs/deploy_guidance.md배포 가이드 (vLLM, SGLang, KTransformers 예시 포함)
  • Thinking / Instant, 이미지 입력, 비디오 입력, tool calling, reasoning_content 보존을 다루는 Python 사용 예제
  • safetensors shard, tokenizer, config
  • 모델 카드에서 참조하는 이미지와 비디오가 들어 있는 figures/

K2.5를 Hugging Face 에서 다뤄본 적이 있다면 구조가 익숙할 것입니다. Moonshot은 K2 시리즈의 배포 패턴을 최대한 일관되게 유지해 기존 인프라가 K2.6로 쉽게 옮겨갈 수 있게 합니다.

모델 요약

핵심 스펙은 다음과 같습니다.

항목
Architecture Mixture-of-Experts (MoE)
Total parameters 약 1조
Activated parameters per token 약 320억
Experts 384 routed, 8 active + 1 shared
Layers 61
Context window 256K tokens
Vision encoder MoonViT, 400M parameters
Attention Multi-head Latent Attention (MLA)
Activation SwiGLU

중요한 해석 포인트:

  • 총 파라미터와 활성 파라미터는 다른 의미 입니다. 1T는 메모리 풋프린트, 32B는 토큰당 계산량과 더 관련이 있습니다.
  • MLA는 KV 캐시 최적화와 직접 연결 되어 장문 컨텍스트에서 메모리 절감에 기여합니다.
  • 384 experts 중 8+1만 활성화되는 sparse routing 이므로 K2 지원이 분명한 엔진이 유리합니다.
  • MoonViT는 후처리로 붙인 게 아니라 네이티브 통합 이라 screenshot-to-code 나 vision 기반 tool use 에 더 자연스럽게 연결됩니다.

벤치마크 섹션은 무엇을 말하는가

모델 카드의 주요 하이라이트는 다음과 같습니다.

Coding: SWE-Bench Pro 58.6, SWE-Bench Verified 80.2, SWE-Bench Multilingual 76.7, LiveCodeBench v6 89.6, Terminal-Bench 2.0 66.7

Agent / tool use: Humanity's Last Exam with tools 54.0, BrowseComp 83.2, DeepSearchQA F1 92.5, Toolathlon 50.0

Vision: Charxiv with Python 86.7, Math Vision with Python 93.2, V* 96.9

Moonshot이 직접 밝히는 두 가지 주의점:

  1. 모든 수치는 자체 보고이며, 선택한 harness 와 system prompt 에 영향을 받습니다.
  2. Terminal-Bench 2.0은 non-thinking mode에서 평가 되었습니다. 현재 thinking mode의 컨텍스트 관리 방식이 Terminus-2와 완전히 맞지 않기 때문입니다.

권장 배포 엔진

vLLM

vLLM은 PagedAttention, continuous batching, OpenAI 호환 API를 제공하는 가장 널리 쓰이는 serving engine 중 하나입니다.

vllm serve $MODEL_PATH -tp 8 \
  --mm-encoder-tp-mode data \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

특히 --tool-call-parser kimi_k2--reasoning-parser kimi_k2 가 중요합니다. Moonshot은 K2 계열용으로 vLLM 0.19.1 을 검증된 안정 버전으로 언급합니다.

SGLang

SGLang은 structured generation, JSON, tool chain, prefix 재사용이 많은 대화에 강합니다.

sglang serve \
  --model-path $MODEL_PATH \
  --tp 8 \
  --trust-remote-code \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2

최신 기능이 필요하면 소스 설치가 권장됩니다.

KTransformers

KTransformers는 Moonshot 자체 엔진으로, K2 패밀리에 맞춰 최적화되어 있습니다. 범용성은 떨어질 수 있지만 K2 routing, MLA, CPU offload 측면에서 비용 효율이 좋을 수 있습니다.

왜 아무 MoE 엔진이나 쓰면 안 되나

K2.6는 고유한 expert routing, tool-call 형식, reasoning parser, vision encoder 연결 방식을 사용합니다. 그래서 K2 전용 지원이 없는 엔진은 모델을 못 띄우거나, tool call 이 깨지거나, reasoning 이 유실될 수 있습니다.

공식 API vs self-host

공식 Moonshot API가 더 맞는 경우:

  • 지금은 검증 단계이고 인프라 부담을 피하고 싶을 때
  • 토큰 사용량이 아직 전용 GPU 고정비를 정당화하지 못할 때
  • 비디오 입력을 바로 실서비스에 써야 할 때
  • 1차 벤더 지원이 필요할 때

Hugging Face self-host가 더 맞는 경우:

  • 에어갭 또는 온프렘 요건이 있을 때
  • 사용량이 커져 전용 GPU가 더 경제적일 때
  • 양자화, 배치 정책, 라우팅을 직접 통제하고 싶을 때
  • 토큰 과금보다 고정 인프라 비용이 더 나을 때
  • 외부 API에 의존하지 않는 연구/오픈소스를 만들 때

대부분 팀에게는 먼저 공식 API로 프로토타입을 만들고, 실제 latency 와 token mix 를 본 뒤 self-host 여부를 결정하는 것이 현실적입니다.

배포 전 체크리스트

  • 버전 고정. vLLM 0.19.1 은 Moonshot이 검증한 안정판입니다.
  • 하드웨어 확인. 풀프리시전은 일반적으로 8× H200 급이 전제됩니다.
  • Thinking mode 인지. 기본값이므로 필요 없으면 명시적으로 꺼야 합니다.
  • Tool calling + thinking 조합. Thinking 이 켜진 상태에서는 tool_choiceauto 또는 none 으로 두고 reasoning_content 를 대화에 보존해야 합니다.
  • 멀티모달 한계. 이미지는 대체로 4K, 영상은 2K 정도가 권장됩니다.
  • Web search + thinking. 공식 $web_search 는 현재 K2.6/K2.5의 Thinking mode 와 잘 맞지 않습니다.

최종 추천

Hugging Face 모델 카드는 Kimi K2.6에 관한 가장 중요한 기술 문서입니다. 실제로 배포를 성공시키는 정보는 마케팅 문서보다 deploy guide 와 usage examples 안에 더 많이 있습니다. 개발자라면 모델 카드로 전체 구조를 이해하고, docs/deploy_guidance.md 로 동작하는 명령을 확보한 다음, 예제 코드로 thinking 과 tool calling 처리를 맞추는 순서가 가장 낫습니다.

self-host를 계획한다면 K2 전용 parser, 버전 고정, H200급 하드웨어를 전제로 생각하는 편이 좋습니다. 아직 그 준비가 안 됐다면 공식 Moonshot API부터 시작하세요. 자세한 내용은 API / 가격 가이드 를 참고하면 됩니다.

FAQ

Hugging Face의 Kimi K2.6는 공식인가요?
네. moonshotai/Kimi-K2.6 는 Moonshot AI 공식 계정이며 정식 weight 소스입니다.

Kimi K2.6는 몇 파라미터인가요?
총 약 1T 파라미터, 토큰당 약 32B 활성화입니다.

컨텍스트 길이는 얼마인가요?
모델 카드 기준 256K, Moonshot API 가격 페이지 기준 정확히 262,144 tokens 입니다.

추천 엔진은 무엇인가요?
Moonshot 공식 deploy guide 는 vLLM, SGLang, KTransformers 를 추천합니다.

Self-host에서도 비디오 입력을 쓸 수 있나요?
weights 자체는 비디오를 지원하지만, Moonshot은 third-party deployment 에서는 experimental 로 표시합니다.

API와 self-host 중 무엇을 선택해야 하나요?
검증이나 소규모 운영은 API, 에어갭/대량 사용/높은 제어권이 필요하면 self-host가 맞습니다.

라이선스는 무엇인가요?
Modified MIT 입니다. 매우 큰 배포에서 attribution 조항이 있지만, 대부분 팀에게는 꽤 관대한 편입니다.

관련 가이드

지금 고민 중인 결정과 가장 잘 맞는 다음 가이드를 따라 Gemma 4 클러스터를 계속 탐색해 보세요.

다음에 무엇을 읽을지 아직 고민 중인가요?

가이드 허브로 돌아가 모델 비교, 설정 워크스루, 하드웨어 계획 페이지를 둘러보세요.