Hướng dẫn Gemma 4
API Key và Bảng Giá Kimi K2.6: Chi Phí Chính Thức, Rate Limit và Phí Tìm Kiếm Web

API Key và Bảng Giá Kimi K2.6: Chi Phí Chính Thức, Rate Limit và Phí Tìm Kiếm Web
Nếu bạn sắp đăng ký API key Kimi để chạy K2.6, thì giá token chỉ là một phần của bức tranh. Caching, các tier rate limit, phí web search và những lần retry kiểu agent đều âm thầm định hình hóa đơn hàng tháng của bạn. Bài hướng dẫn này sẽ đi lần lượt từng phần, dùng đúng các con số Moonshot hiện công bố trên các trang nền tảng của họ.

Câu trả lời nhanh
- Kimi K2.6 dùng API tương thích OpenAI của Moonshot tại
https://api.moonshot.ai/v1— mọi OpenAI SDK đều có thể dùng như client thay thế trực tiếp. - Mức giá chính thức của K2.6 trên trang nền tảng Moonshot:
- Input được cache: ¥1.10 / 1M tokens
- Input không được cache: ¥6.50 / 1M tokens
- Output: ¥27.00 / 1M tokens
- Cửa sổ ngữ cảnh: 262,144 tokens
- Bạn lấy API key bằng cách đăng ký tại
platform.moonshot.airồi tạo khóa trong console. - Tính năng web search tích hợp được tính ¥0.03 cho mỗi lần gọi, cộng thêm số token mà kết quả tìm kiếm tiêu thụ ở request
/chat/completionskế tiếp. - Tier miễn phí (Tier 0) cho phép 3 RPM, 1 request đồng thời và có trần token theo ngày. Muốn dùng nặng hơn, bạn cần nạp tiền để lên tier cao hơn.
Phần bên dưới sẽ bóc tách các con số này và những “bãi mìn” đi kèm.
Cách tạo API key Kimi
Quy trình gần giống hầu hết nhà cung cấp LLM:
- Truy cập
platform.moonshot.aivà đăng nhập hoặc đăng ký. - Xác minh tài khoản nếu được yêu cầu.
- Mở mục API keys trong console và bấm Create API key.
- Sao chép khóa ngay lập tức — nó chỉ hiện đúng một lần.
- Tùy chọn nhưng rất nên làm: đặt mức trần ngân sách và cảnh báo số dư thấp trước khi chạy bất kỳ workload nào.
Hãy xem API key như mật khẩu: lưu vào biến môi trường hoặc secret manager, không lưu trong source code. Nếu bị lộ, hãy rotate khóa ngay từ cùng trang console đó.
Một điều đáng lưu ý với tài khoản mới: Moonshot áp dụng rate limit theo tier và các tier này tăng theo tổng số tiền bạn đã nạp lũy kế. Một tài khoản mới tinh bắt đầu ở Tier 0 với giới hạn rất chặt — ổn cho vài request test, không ổn cho coding agent chạy liên tục. Hãy xem phần rate limit bên dưới trước khi bắt đầu benchmark.
Giá chính thức của Kimi K2.6
Các con số hiện được công bố trên trang giá K2.6 của Moonshot:
| Hạng mục | Giá | Đơn vị |
|---|---|---|
| Input được cache | ¥1.10 | mỗi 1M tokens |
| Input không được cache | ¥6.50 | mỗi 1M tokens |
| Output | ¥27.00 | mỗi 1M tokens |
| Cửa sổ ngữ cảnh | 262,144 | tokens |
Có hai điều nên chú ý. Thứ nhất, giá token ở đây là RMB (¥) chứ không phải USD — nếu bạn so với giá của Anthropic hay OpenAI, hãy tự quy đổi tiền tệ cho đúng; đừng nhìn “¥6.50” rồi cảm giác như “$6.50”. Thứ hai, input được cache rẻ hơn khoảng 6 lần so với input không được cache. Chỉ riêng dòng này đã chi phối tính kinh tế của các workload long-context và agent.
"Cached input" và "uncached input" nghĩa là gì
Moonshot, giống phần lớn các nhà cung cấp frontier khác, triển khai context caching: khi một phần prompt của bạn đã được nhìn thấy gần đây, server bỏ qua việc tính lại prefix đó và tính phí token thấp hơn rất nhiều.
Cụ thể:
- Cache hit (cached input) — một prefix bạn đã gửi trước đó (system prompt, các lượt hội thoại trước, ngữ cảnh tài liệu dài) khớp với phần đang được cache ở phía server. Bạn trả mức giá cached.
- Cache miss (uncached input) — nội dung prompt mới, thứ tự khác đi hoặc một prefix đã hết hạn trong cache. Bạn trả mức giá uncached đầy đủ.
Tại sao điều này quan trọng trong workflow thực tế:
- RAG với ngữ cảnh dài — nếu bạn nhét 100K tokens tri thức vào system prompt và tái sử dụng qua nhiều request, caching biến hóa đơn nặng thành hóa đơn dễ chịu hơn rất nhiều.
- Agent loop — mỗi bước của agent dùng công cụ thường gửi lại system prompt, schema công cụ và toàn bộ cuộc hội thoại đang diễn ra. Nếu không có cache, mỗi bước đều trả giá uncached. Có cache, chỉ phần kết quả công cụ mới thêm vào và câu trả lời mới của assistant mới bị tính giá cao.
- Prompt giống nhau cho nhiều người dùng — nếu hai người dùng đi qua cùng một system prompt, người thứ hai sẽ hưởng lợi từ cache.
Hệ quả thực tế là: hãy thiết kế prompt sao cho các phần ổn định và tái sử dụng được (hướng dẫn, tài liệu dài, định nghĩa công cụ) nằm ở đầu, còn phần thay đổi theo người dùng nằm ở cuối. Cách này tối đa hóa tỉ lệ cache hit và có thể giảm chi phí input xuống năm lần hoặc hơn.
Định dạng request tương thích OpenAI
API của Moonshot tương thích OpenAI, nghĩa là mọi OpenAI SDK đều dùng được nếu đổi base URL và API key.
curl
curl https://api.moonshot.ai/v1/chat/completions \
-H "Authorization: Bearer $MOONSHOT_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "kimi-k2.6",
"messages": [
{"role": "user", "content": "Explain caching in one paragraph."}
]
}'
Python (OpenAI SDK)
from openai import OpenAI
client = OpenAI(
api_key="your-moonshot-api-key",
base_url="https://api.moonshot.ai/v1",
)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{"role": "user", "content": "Write a Python function to debounce calls."}
],
)
print(response.choices[0].message.content)
Chế độ Thinking và Instant
K2.6 mặc định chạy ở chế độ Thinking. Nếu muốn ép sang Instant và không sinh reasoning tokens, hãy truyền:
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[...],
extra_body={"thinking": {"type": "disabled"}},
)
Ở chế độ Thinking, reasoning tokens được tính vào output và bị tính phí như output. Nếu bạn không cần, tắt nó là cách tiết kiệm rất hiệu quả.
Input đa phương thức
K2.6 là mô hình đa phương thức gốc — hỗ trợ input dạng văn bản, hình ảnh và video. Ảnh hoạt động trực tiếp qua phần image_url tiêu chuẩn của OpenAI. Video được hỗ trợ trên API chính thức, nhưng Moonshot đánh dấu là experimental trên các triển khai bên thứ ba, vì vậy hãy test end-to-end nếu sản phẩm của bạn phụ thuộc vào nó.
Rate limit và các tier tài khoản
Moonshot áp dụng rate limit theo tier cho từng tài khoản. Quá trình tăng tier dựa trên tổng số tiền đã nạp lũy kế, không phải số dư hiện tại.
Hình dạng đại diện của bảng tier hiện đang được công bố:
| Tier | Nạp lũy kế | Độ đồng thời | RPM | TPM | TPD |
|---|---|---|---|---|---|
| Tier 0 | ¥0 | 1 | 3 | 500,000 | 1,500,000 |
| Tier 1 | ¥50 | cao hơn | cao hơn | cao hơn | cao hơn |
| … | … | … | … | … | … |
Các con số chính xác cho Tier 1 trở lên có thể thay đổi theo thời gian, nên hãy kiểm tra trang giới hạn trên nền tảng trước khi ước lượng workload. Một vài nguyên tắc:
- Tier 0 đủ cho bước xác minh. Bạn có thể xây xong tích hợp, chạy vài lệnh test và xác nhận OpenAI SDK hoạt động trong tier miễn phí.
- Tier 0 không đủ cho coding agent. 3 request mỗi phút và chỉ 1 request đồng thời sẽ bóp nghẹt mọi agent loop thực thụ.
- Nạp sớm để có throughput. Cách rẻ nhất để mở khóa workload thật thường là nạp một ít để lên Tier 1, thay vì cố tối ưu quanh các giới hạn của Tier 0.
Các chi phí bổ sung mọi người hay bỏ sót
Bảng giá theo token không kể hết câu chuyện. Có ba nhóm chi phí âm thầm xuất hiện trong môi trường production.
Web search tích hợp. Moonshot cung cấp công cụ $web_search mà model có thể gọi trong lúc sinh nội dung. Mỗi lần gọi bị tính ¥0.03. Nghe có vẻ nhỏ, nhưng nội dung kết quả tìm kiếm sau đó được đưa vào request /chat/completions tiếp theo như input bổ sung — và những token đó bị tính theo giá input bình thường. Một agent hay “lắm lời” mà tìm kiếm mười lần trong một lượt người dùng sẽ phải trả mười lần phí search và mười khối token input từ kết quả.
Reasoning tokens. Ở chế độ Thinking, model tạo ra reasoning tokens nội bộ và chúng được tính như output. Với câu hỏi đơn giản thì không sao. Nhưng với agent gọi công cụ liên tục, reasoning tích lũy qua 50 lượt tool call rất dễ trở thành khoản lớn nhất trên hóa đơn. Nếu tác vụ không cần, hãy tắt đi.
Retry của agent và vòng lặp kéo dài. Tài liệu của Moonshot nhấn mạnh K2.6 có thể thực hiện hơn 4,000 tool calls trong 12 giờ. Đó là năng lực ấn tượng — và cũng là một hóa đơn rất thật. Demo agent dài hơi rất hữu ích, nhưng cũng là cách nhanh nhất để đốt ¥10,000 mà không nhận ra. Luôn đặt giới hạn số bước và số token tối đa khi chạy workflow agent.
Mẫu cache miss. Đổi thứ tự prompt, thay system message liên tục hoặc phục vụ quá nhiều người dùng với ngữ cảnh hoàn toàn khác nhau sẽ làm giảm tỉ lệ cache hit. Nếu bạn thấy chi phí “input” lớn hơn mong đợi, lý do thường nằm ở đây.
Kimi K2.6 có miễn phí không?
Có ba cách hiểu khác nhau về “miễn phí”, và mỗi cách có câu trả lời khác nhau:
Dùng Kimi trên trình duyệt tại kimi.com. Các sản phẩm consumer của Moonshot thường có tier miễn phí với hạn mức dùng theo ngày. Đó không phải API — các cuộc trò chuyện ở đó không tiêu tốn credit API.
Dùng API Kimi K2.6 mà không trả tiền. Tier 0 miễn phí cho phép bạn thực hiện một số lượng nhỏ request mà không cần nạp tiền. Đủ để test tích hợp, không đủ cho workload duy trì liên tục. Vượt Tier 0 thì API sẽ có phí.
Dùng Kimi K2.6 qua Ollama Cloud, OpenRouter hoặc dịch vụ tương tự. Đây là các hệ thống tính tiền riêng, có credit miễn phí và bảng giá riêng. Chúng không phải là “Kimi API chính thức” dù cùng trỏ tới một model.
Nói ngắn gọn: có cách miễn phí để thử, nhưng không có cách miễn phí để chạy workload production trên K2.6 qua API chính thức.
Cách kiểm soát chi phí API Kimi
Checklist ngắn trước khi scale:
- Đặt mức trần ngân sách cứng trong console.
- Bật cảnh báo số dư thấp để phát hiện chi tiêu bất ngờ sớm.
- Luôn truyền
max_tokenscho output, đặc biệt trong agent loop. - Đặt ngữ cảnh ổn định ở trước, nội dung thay đổi theo người dùng ở sau.
- Tắt chế độ Thinking cho các tác vụ không cần nó.
- Chỉ bật
$web_searchkhi thật sự cần, đừng để prompt nào cũng gọi. - Giới hạn agent loop bằng bộ đếm bước tối đa và timeout theo thời gian thực.
- Log số token input, output và cached input theo từng request để biết chi phí thực sự nằm ở đâu.
Khuyến nghị cuối cùng
Nếu bạn đang đánh giá Kimi K2.6 cho coding agent hoặc workflow long-context, cấu trúc chi phí của nó là khả thi nhưng không tự động rẻ. Mức giá token headline khá cạnh tranh, và giá cached input rất tốt — nhưng chỉ khi bạn cấu trúc prompt sao cho cache thực sự hoạt động. Với các lời gọi ngắn, không trạng thái và không cache, K2.6 không phải lựa chọn rẻ nhất, và đặc biệt giá output ¥27.00 / 1M sẽ chi phối mọi mô hình chi phí có nhiều mã sinh ra.
Với đa số đội ngũ, cách bắt đầu hợp lý là: nạp vừa đủ để vượt Tier 0, xây tích hợp, đo tỉ lệ cache hit thực tế và phân bố token trong production, rồi mới quyết định liệu K2.6 có phải lựa chọn dài hạn phù hợp hay một model khác với cấu trúc giá khác sẽ hợp hơn.
FAQ
Làm sao để lấy API key Kimi?
Đăng nhập vào platform.moonshot.ai, mở mục API keys và tạo khóa mới. Sao chép ngay vì nó chỉ hiển thị một lần. Đồng thời hãy đặt luôn mức trần ngân sách.
Kimi K2.6 giá bao nhiêu?
Theo trang giá chính thức, cached input là ¥1.10 cho mỗi 1M tokens, uncached input là ¥6.50 cho mỗi 1M tokens, output là ¥27.00 cho mỗi 1M tokens, và cửa sổ ngữ cảnh là 262,144 tokens. Giá được niêm yết bằng RMB.
Kimi K2.6 có miễn phí để dùng không?
Tier 0 miễn phí cho phép một số lượng nhỏ request (3 RPM, 1 request đồng thời) với trần token theo ngày — đủ để test, không đủ cho production. Sản phẩm consumer tại kimi.com có tier miễn phí riêng, tách biệt với billing API.
API Kimi có hỗ trợ OpenAI SDK không?
Có. API Kimi tương thích OpenAI. Chỉ cần trỏ OpenAI SDK tới https://api.moonshot.ai/v1 bằng key Moonshot của bạn và đặt model là kimi-k2.6.
Rate limit của API Kimi là gì?
Giới hạn theo tier và tăng theo tổng số tiền nạp lũy kế. Tier 0 (¥0) là 3 RPM và 1 request đồng thời, kèm trần token theo ngày. Tier 1 bắt đầu từ nạp lũy kế ¥50 và có mức giới hạn cao hơn đáng kể.
Web search của Kimi giá bao nhiêu?
Công cụ $web_search tích hợp có giá ¥0.03 cho mỗi lần gọi. Sau đó nội dung kết quả tìm kiếm được thêm vào request chat completion tiếp theo và bị tính theo giá input thông thường.
Tôi có thể dùng Kimi K2.6 với tools và function calling không?
Có. K2.6 hỗ trợ tool use và function calling theo phong cách OpenAI. Lưu ý từ tài liệu Moonshot: khi bật Thinking mode, tool_choice nên là auto hoặc none, và bạn phải giữ lại reasoning_content của tin nhắn assistant qua các lượt gọi tool.
Hướng dẫn liên quan
Tiếp tục khám phá cụm nội dung Gemma 4 với bài hướng dẫn tiếp theo phù hợp với quyết định hiện tại của bạn.

Đánh Giá Kimi K2.6: Benchmark, Giá, API và Có Đáng Dùng Không
Kimi K2.6 ra mắt ngày 20 tháng 4 năm 2026 như một model open-weight cho agentic coding với context 256K, hỗ trợ ảnh và video gốc, cùng một câu chuyện agent swarm rất mạnh. Bài này tách phần thực chất ra khỏi phần marketing.

Kimi K2.6 trên Hugging Face: Model Card, Triển Khai và Các Engine Suy Luận Được Khuyến Nghị
Những gì nhà phát triển cần biết từ model card `moonshotai/Kimi-K2.6`: weights thực sự gồm gì, cách triển khai với vLLM hoặc SGLang, và khi nào nên self-host thay vì dùng API chính thức.

Kimi K2.6 vs GLM-5.1: Benchmark, Context Window, Giá và Model Nào Hợp Hơn
Hai trong số những model open-weight mạnh nhất năm 2026 đến từ Trung Quốc, ra mắt cách nhau hai tuần và nhắm vào workload coding tương tự — nhưng khác biệt thực tế về modality, context và cấu trúc giá là rất đáng kể.
Vẫn chưa biết nên đọc gì tiếp theo?
Quay lại trung tâm hướng dẫn để duyệt các bài so sánh model, hướng dẫn cài đặt và trang lập kế hoạch phần cứng.
