Gemma 4 Q4 vs Q8: Nên tải quantization nào thực sự

Khi tải GGUF của Gemma 4, bạn đang chọn mức độ nén. Con số trong tên file (Q4, Q5, Q8) là số bit được dùng cho mỗi trọng số model. Ít bit hơn có nghĩa là file nhỏ hơn, ít RAM hơn, và mất chất lượng một chút. Nhiều bit hơn có nghĩa là file lớn hơn, RAM nhiều hơn, và output gần với model full-precision hơn.

Lựa chọn đúng cho hầu hết mọi người: bắt đầu với Q4_K_M. Chuyển sang Q5_K_M nếu muốn output tốt hơn đáng kể cho reasoning hoặc coding và phần cứng có đủ chỗ. Chuyển sang Q8 chỉ khi đã xác nhận Q4 không đủ tốt cho tác vụ của bạn và bộ nhớ không phải giới hạn.

Có thêm tùy chọn mới hơn — QAT — thay đổi hoàn toàn phép tính này. Chi tiết bên dưới.

Hệ thống đặt tên GGUF

Trên Hugging Face, các file model theo pattern như Q4_K_M, Q5_K_S, Q8_0. Ý nghĩa từng phần:

Q4 = quantization 4-bit (lưu 4 bit mỗi trọng số model)
K = định dạng K-quant: độ chính xác hỗn hợp, giữ các lớp nhạy cảm ở độ chính xác cao hơn
M = biến thể Medium (S nhỏ hơn, L lớn hơn trong nhóm K-quant)
Q8_0 = 8-bit, định dạng zero-point truyền thống
Q4_0 = 4-bit, định dạng zero-point truyền thống (tệ hơn Q4_K_M cùng kích thước)

Điều quan trọng nhất: Q4_0 và Q4_K_M không tương đương. Định dạng K-quant sử dụng độ chính xác hỗn hợp qua các loại lớp khác nhau. Trong thực tế, Q4_K_M tạo ra output tốt hơn đáng kể so với Q4_0 với kích thước file về cơ bản giống nhau. Nếu có lựa chọn, luôn chọn Q4_K_M.

Yêu cầu bộ nhớ

Số liệu chính thức của Google (~20% overhead). Đo thực tế của Unsloth đặt tải 26B A4B Q4 ở khoảng 18 GB, cao hơn ước tính của Google.

Model	Q4_K_M	Q8_0	BF16
Gemma 4 E2B	~2,9 GB	~5,7 GB	~11,4 GB
Gemma 4 E4B	~4,5 GB	~8,9 GB	~17,9 GB
Gemma 4 12B	~6,7 GB	~13,4 GB	~26,7 GB
Gemma 4 26B A4B	~14,4–18 GB	~28 GB	~52–58 GB
Gemma 4 31B	~17,5 GB	~34,9 GB	~69,9 GB

Đây là ước tính tải model. Cần cộng thêm KV cache (tăng theo độ dài context). Với context dài, bộ nhớ KV cache có thể vượt trọng số model.

Sự khác biệt chất lượng thực sự xuất hiện ở đâu

Nghiên cứu về chất lượng quantization nhất quán: chat thông thường, tóm tắt và trích xuất rất bền vững trước quantization. Sự khác biệt perplexity giữa Q4_K_M và Q8 trong các tác vụ hội thoại là vài phần trăm điểm — không cảm nhận được trong sử dụng bình thường.

Khoảng cách trở nên rõ ràng trong các tác vụ mà độ chính xác tích lũy qua nhiều bước:

Chuỗi suy luận nhiều bước (lỗi quantization tích lũy ở mỗi bước)
Tạo và refactor code phức tạp
Các tác vụ nặng về toán học
Làm việc context dài khi context trước ảnh hưởng chính xác đến kết luận sau
Output có cấu trúc yêu cầu tuân thủ chỉ dẫn chính xác theo nhiều ràng buộc

Với hầu hết trường hợp sử dụng cục bộ — chat, Q&A tài liệu, hỗ trợ viết lách, giúp đỡ code đơn giản — Q4_K_M thường là đủ. Nếu bạn chạy coding agent hay pipeline reasoning phức tạp, đáng thử Q8 trước khi quyết định cuối.

Lựa chọn trung gian bị đánh giá thấp: Q5_K_M

Q5_K_M nằm giữa Q4 và Q8 và thường là lựa chọn đúng khi:

Hệ thống có bộ nhớ nhiều hơn Q4 cần
Bạn đang làm việc coding hoặc reasoning mà Q4 đôi khi không đáng tin
Không muốn chịu toàn bộ chi phí 2× bộ nhớ của Q8

Ví dụ: trên hệ thống 32 GB chạy 26B A4B, Q5_K_M dùng khoảng 20–22 GB và cho output tốt hơn đáng kể so với Q4_K_M với mức tăng bộ nhớ vừa phải. Q8 sẽ cần ~28 GB, gần như không còn chỗ cho context.

Nếu Q4 đã lấp đầy hệ thống, Q5 sẽ không vừa. Nhưng nếu có đủ chỗ, Q5_K_M đáng cân nhắc trước khi nhảy thẳng lên Q8.

Nên tải file nào cho phần cứng của bạn

Thiết lập của bạn	Bắt đầu với
Laptop 8 GB RAM	E2B Q4_K_M, hoặc E4B Q4_K_M nếu vừa thoải mái
Hệ thống 16 GB	E4B Q4_K_M
GPU 24 GB	26B A4B Q4_K_M
Hệ thống 32 GB	26B A4B Q4_K_M thoải mái; thử Q5_K_M nếu vừa
48 GB trở lên	26B A4B Q8, hoặc 31B Q4_K_M
Workstation 64 GB trở lên	31B Q8, hoặc 26B A4B Q8

Nếu model vừa khít với Q4, đừng ép dùng Q8. Thay vào đó chọn model nhỏ hơn ở Q5 hoặc Q6. Model vừa vặn không áp lực bộ nhớ nhất quán vượt trội hơn model lớn hơn đang liên tục swap.

Gemma 4 QAT: Tùy chọn thay đổi phép tính

Google ra mắt các phiên bản QAT (Quantization-Aware Training) của Gemma 4 vào ngày 5 tháng 6 năm 2026. Các model QAT được huấn luyện với mô phỏng quantization tích hợp vào vòng lặp huấn luyện — model học cách bù đắp mất độ chính xác thay vì nén được áp dụng sau này.

Kết quả: model QAT Q4 thực hiện tốt hơn đáng kể so với model Q4 chuẩn hậu huấn luyện cùng kích thước, đôi khi tiếp cận chất lượng Q8 chuẩn.

Cho sử dụng GGUF, có hai đường dẫn liên quan:

GGUF QAT chính thức của Google (định dạng Q4_0): Có sẵn trực tiếp trên Hugging Face tại google/gemma-4-*-it-qat-q4_0-gguf. Lưu ý: chuyển đổi đơn giản checkpoint QAT sang định dạng Q4_0 của llama.cpp mất một phần lợi ích chất lượng QAT.
GGUF UD-Q4_K_XL của Unsloth: Unsloth áp dụng phương pháp động của họ vào các checkpoint QAT và khôi phục được 8–15 điểm phần trăm độ chính xác top-1 so với chuyển đổi đơn giản, với file còn nhỏ hơn. File đặt tên UD-Q4_K_XL tại unsloth/gemma-4-*-it-qat-GGUF.

So sánh Q4_K_M chuẩn với QAT UD-Q4_K_XL của Unsloth: phiên bản QAT tốt hơn với cùng mức sử dụng bộ nhớ. Đây là thứ đầu tiên nên thử cho suy luận 4-bit.

IQ4_XS: Phương án tối ưu hóa kích thước

IQ4_XS sử dụng hiệu chỉnh ma trận quan trọng để bảo tồn các trọng số quan trọng nhất ở độ chính xác cao hơn trong file tổng thể nhỏ hơn. Được hiệu chỉnh tốt, nó có thể đạt chất lượng Q4_K_M với kích thước file nhỏ hơn khoảng 9–10%. Tìm các file gắn thẻ "imatrix" từ các nhà xuất bản đáng tin cậy.

Đây là tối ưu hóa thứ cấp. Sử dụng Q4_K_M (hoặc QAT) từ nhà xuất bản đã biết trước khi tìm kiếm phiên bản imatrix.

Những gì nên tránh

Q3 và Q2: Dưới Q4, chất lượng giảm mạnh với hầu hết các tác vụ. Suy luận số học đặc biệt có vách đá độ chính xác đo lường được. Tránh trừ khi có lý do giới hạn bộ nhớ rất cụ thể.

Q8 "cho chắc ăn": File Q8 khoảng gấp đôi kích thước Q4. Nếu không chắc Q8 có giúp ích cho trường hợp sử dụng của bạn không, hãy test Q4 trước và chỉ nâng cấp khi output không đủ tốt.

GGUF từ nhà xuất bản không rõ nguồn gốc: Bám vào ggml-org, unsloth, bartowski hoặc mradermacher. Nhà xuất bản chưa biết có thể tạo ra GGUF với quantization sai hay cấu hình tokenizer không đúng.

Câu hỏi thường gặp

Q8 có luôn tốt hơn Q4 không?
Xét riêng lẻ, có. Nhưng nếu Q8 khiến hệ thống liên tục swap, Q4 với đủ bộ nhớ sẽ cho kết quả nhất quán hơn. Quantization tốt nhất là thứ phần cứng của bạn có thể chạy không áp lực.

Nên dùng QAT hay quantization chuẩn?
Nếu có GGUF QAT từ Unsloth hoặc Google cho kích thước model của bạn, đây là lựa chọn tốt hơn ở mức 4-bit. Huấn luyện QAT cải thiện đặc biệt độ chính xác 4-bit.

Sự khác biệt giữa Q4_0 và Q4_K_M là gì?
Q4_K_M dùng độ chính xác hỗn hợp qua các loại lớp khác nhau, giữ các lớp nhạy cảm ở độ chính xác cao hơn. Q4_0 xử lý tất cả các lớp đồng đều ở 4 bit. Q4_K_M hầu như luôn tốt hơn. Luôn chọn khi có sẵn.

Quantization có ảnh hưởng đến độ dài cửa sổ context không?
Gián tiếp. Trọng số độ chính xác thấp hơn dùng ít RAM hơn, để lại nhiều chỗ cho KV cache. Mức quantization thấp hơn có thể hỗ trợ context hiệu quả dài hơn trên cùng phần cứng trước khi hết bộ nhớ.

Hướng dẫn liên quan:

Gemma 4 Q4 vs Q8: Nên tải quantization nào thực sự

Hệ thống đặt tên GGUF

Yêu cầu bộ nhớ

Sự khác biệt chất lượng thực sự xuất hiện ở đâu

Lựa chọn trung gian bị đánh giá thấp: Q5_K_M

Nên tải file nào cho phần cứng của bạn

Gemma 4 QAT: Tùy chọn thay đổi phép tính

IQ4_XS: Phương án tối ưu hóa kích thước

Những gì nên tránh

Câu hỏi thường gặp

Hướng dẫn liên quan

DiffusionGemma có hoạt động trong LM Studio không? Tình trạng hiện tại (tháng 6/2026)

Sửa lỗi "unknown model architecture" cho gemma4 và diffusion-gemma trong llama.cpp

llama.cpp có hỗ trợ Gemma 4 không? Trạng thái GGUF, các bản sửa lỗi và những gì hoạt động

Vẫn chưa biết nên đọc gì tiếp theo?