Gemma 4 가이드
Gemma 4 Q4 vs Q8: 실제로 어떤 양자화를 다운로드해야 할까

Gemma 4 GGUF를 다운로드할 때는 압축 수준을 선택하는 것입니다. 파일명의 숫자(Q4, Q5, Q8)는 모델 가중치당 사용되는 비트 수입니다. 비트가 적을수록 파일이 작고, RAM이 적게 필요하며, 약간의 품질 손실이 있습니다. 비트가 많을수록 파일이 크고, RAM이 많이 필요하며, 출력이 완전 정밀도 모델에 가깝습니다.
대부분의 사람에게 올바른 선택: Q4_K_M으로 시작하세요. 더 좋은 추론이나 코딩 출력을 원하고 하드웨어에 여유가 있다면 Q5_K_M으로. Q4가 작업에 충분하지 않다고 확인되고 메모리가 제약이 아닌 경우에만 Q8로.
계산을 완전히 바꾸는 더 새로운 옵션인 QAT도 있습니다. 아래에서 자세히 설명합니다.
GGUF 명명 체계
Hugging Face에서 모델 파일은 Q4_K_M, Q5_K_S, Q8_0과 같은 패턴을 따릅니다. 각 부분의 의미:
- Q4 = 4비트 양자화 (모델 가중치당 4비트 저장)
- K = K-quant 형식: 혼합 정밀도로 민감한 레이어를 더 높은 정밀도로 유지
- M = Medium 변형 (K-quant 패밀리에서 S가 작고 L이 큼)
- Q8_0 = 8비트, 기존 제로포인트 형식
- Q4_0 = 4비트, 기존 제로포인트 형식 (같은 크기에서 Q4_K_M보다 나쁨)
가장 중요한 점: Q4_0과 Q4_K_M은 동등하지 않습니다. K-quant 형식은 다양한 레이어 유형에 걸쳐 혼합 정밀도를 사용합니다. 실제로 Q4_K_M은 본질적으로 같은 파일 크기에서 Q4_0보다 눈에 띄게 더 좋은 출력을 생성합니다. 선택 가능하면 항상 Q4_K_M을 선택하세요.
메모리 요구사항
Google 공식 수치(~20% 오버헤드 포함). Unsloth의 실측치는 26B A4B Q4 로드를 약 18GB로 측정했으며 Google 추정치보다 높습니다.
| 모델 | Q4_K_M | Q8_0 | BF16 |
|---|---|---|---|
| Gemma 4 E2B | ~2.9 GB | ~5.7 GB | ~11.4 GB |
| Gemma 4 E4B | ~4.5 GB | ~8.9 GB | ~17.9 GB |
| Gemma 4 12B | ~6.7 GB | ~13.4 GB | ~26.7 GB |
| Gemma 4 26B A4B | ~14.4–18 GB | ~28 GB | ~52–58 GB |
| Gemma 4 31B | ~17.5 GB | ~34.9 GB | ~69.9 GB |
이것들은 모델 로드 추정치입니다. KV 캐시(컨텍스트 길이에 따라 증가)를 추가해야 합니다. 긴 컨텍스트에서는 KV 캐시 메모리가 모델 가중치를 초과할 수 있습니다.
품질 차이가 실제로 나타나는 곳
양자화 품질 연구는 일관됩니다: 일상적인 채팅, 요약, 정보 추출은 양자화에 매우 강합니다. Q4_K_M과 Q8의 대화 작업에서 퍼플렉시티 차이는 소수점 이하 수준 — 정상적인 사용에서는 감지할 수 없습니다.
차이는 정밀도가 여러 단계에 걸쳐 누적되는 작업에서 나타납니다:
- 다단계 추론 체인 (양자화 오류가 각 단계에서 축적)
- 복잡한 코드 생성 및 리팩터링
- 수학 집약적 작업
- 초기 컨텍스트가 후반 결론에 정확하게 영향을 미치는 긴 컨텍스트 작업
- 엄격한 스키마를 따라야 하는 구조화된 출력
대부분의 로컬 사용 사례 — 채팅, 문서 Q&A, 글쓰기 도움, 간단한 코딩 — 에서는 Q4_K_M이 충분합니다. 코딩 에이전트나 복잡한 추론 파이프라인을 실행하는 경우 최종 결정 전에 Q8을 테스트해 볼 가치가 있습니다.
과소평가된 중간 옵션: Q5_K_M
Q5_K_M은 Q4와 Q8 사이에 있으며 다음과 같은 경우 종종 올바른 선택입니다:
- 시스템에 Q4가 필요한 것보다 더 많은 메모리 여유가 있을 때
- Q4가 가끔 불안정하다고 느끼는 코딩이나 추론 작업을 할 때
- Q8의 2배 메모리 비용을 전부 원하지 않을 때
예시: 26B A4B를 Q5_K_M으로 실행하는 32GB 시스템은 약 20~22GB를 사용하며 적당한 메모리 증가로 Q4_K_M보다 눈에 띄게 더 좋은 출력을 제공합니다. Q8은 약 28GB가 필요해 컨텍스트를 위한 여지가 거의 없습니다.
Q4로 시스템이 이미 꽉 찼다면 Q5는 들어가지 않습니다. 하지만 여유가 있다면 Q8으로 직접 가기 전에 Q5_K_M을 고려해볼 가치가 있습니다.
하드웨어별 다운로드 추천
| 설정 | 여기서 시작 |
|---|---|
| 8 GB RAM 노트북 | E2B Q4_K_M, 또는 E4B Q4_K_M(여유롭게 맞으면) |
| 16 GB 시스템 | E4B Q4_K_M |
| 24 GB GPU | 26B A4B Q4_K_M |
| 32 GB 시스템 | 26B A4B Q4_K_M 여유롭게. Q5_K_M도 가능하면 시도 |
| 48 GB 이상 | 26B A4B Q8, 또는 31B Q4_K_M |
| 64 GB 이상 워크스테이션 | 31B Q8, 또는 26B A4B Q8 |
Q4로 겨우 맞는다면 Q8을 억지로 쓰지 마세요. 대신 Q5나 Q6의 작은 모델을 선택하세요. 메모리 압박 없이 제대로 맞는 모델이 끊임없이 스와핑하는 더 큰 모델을 일관되게 능가합니다.
Gemma 4 QAT: 계산을 바꾸는 옵션
Google은 2026년 6월 5일에 Gemma 4의 QAT(양자화 인식 훈련) 버전을 출시했습니다. QAT 모델은 훈련 루프에 양자화 시뮬레이션이 내장되어 있어 — 모델이 사후에 압축을 적용받는 것이 아니라 정밀도 손실을 보완하는 것을 학습합니다.
결과: QAT Q4 모델은 같은 크기의 표준 사후 훈련 Q4 모델보다 눈에 띄게 더 좋은 성능을 발휘하며, 때로 Q8 표준 품질에 접근합니다.
GGUF 사용의 경우 두 가지 관련 경로가 있습니다:
-
Google 공식 QAT GGUF (Q4_0 형식): Hugging Face의
google/gemma-4-*-it-qat-q4_0-gguf에서 직접 이용 가능. 주의: QAT 체크포인트를 llama.cpp의 Q4_0 형식으로 단순 변환하면 QAT 품질 이점의 일부가 손실됩니다. -
Unsloth의 UD-Q4_K_XL GGUF: Unsloth는 QAT 체크포인트에 동적 방법을 적용해 단순 변환 대비 top-1 정확도를 8~15퍼센트 포인트 회복했으며 파일도 더 작습니다. 파일명은
UD-Q4_K_XL이고unsloth/gemma-4-*-it-qat-GGUF에 공개되어 있습니다.
표준 Q4_K_M 대 Unsloth의 QAT UD-Q4_K_XL: 같은 메모리 사용량에서 QAT 버전이 더 낫습니다. 4비트 추론에서 가장 먼저 시도해 볼 것입니다.
IQ4_XS: 크기 최적화 대안
IQ4_XS는 중요도 행렬 보정을 사용해 더 작은 전체 파일 내에서 가장 중요한 가중치를 더 높은 정밀도로 보존합니다. 적절히 보정되면 약 9~10% 작은 파일 크기로 Q4_K_M 품질에 필적할 수 있습니다. 신뢰할 수 있는 게시자의 "imatrix" 태그 파일을 찾으세요.
이것은 부차적인 최적화입니다. imatrix 버전을 찾기 전에 먼저 알려진 게시자의 Q4_K_M(또는 QAT)을 사용하세요.
피해야 할 것
Q3과 Q2: 대부분의 작업에서 Q4 아래로는 품질이 급격히 저하됩니다. 산술 추론은 특히 측정 가능한 정확도 절벽이 있습니다. 매우 특별한 메모리 제약 이유가 없는 한 피하세요.
"혹시 몰라서"의 Q8: Q8 파일은 Q4의 약 2배 크기입니다. Q8이 사용 사례에 도움이 되는지 불확실하다면 먼저 Q4를 테스트하고 출력이 충분하지 않을 때만 업그레이드하세요.
출처 불명의 GGUF: ggml-org, unsloth, bartowski, mradermacher를 고수하세요. 알 수 없는 게시자는 잘못된 양자화나 잘못된 토크나이저 구성의 GGUF를 생성할 수 있습니다.
자주 묻는 질문
Q8이 항상 Q4보다 낫습니까?
단독으로는 예. 하지만 Q8로 시스템이 계속 스와핑한다면 여유 있는 Q4가 더 일관된 결과를 냅니다. 최선의 양자화는 하드웨어가 압박 없이 실행할 수 있는 것입니다.
QAT와 표준 양자화 중 어느 것을 써야 하나요?
모델 크기에 대한 QAT GGUF가 Unsloth나 Google에서 이용 가능하다면 4비트 수준에서 더 나은 선택입니다. QAT 훈련은 특히 4비트 정밀도를 개선합니다.
Q4_0과 Q4_K_M의 차이는 무엇입니까?
Q4_K_M은 다양한 레이어 유형에 걸쳐 혼합 정밀도를 사용해 민감한 레이어를 더 높은 정밀도로 유지합니다. Q4_0은 모든 레이어를 균일하게 4비트로 처리합니다. Q4_K_M이 거의 항상 더 낫습니다. 이용 가능하면 항상 선택하세요.
양자화가 컨텍스트 윈도우 길이에 영향을 줍니까?
간접적으로. 더 낮은 정밀도의 가중치는 RAM을 적게 사용해 KV 캐시에 더 많은 여지를 남깁니다. 낮은 양자화 수준은 같은 하드웨어에서 메모리가 소진되기 전에 더 긴 유효 컨텍스트를 지원할 수 있습니다.
관련 가이드:
관련 가이드
지금 고민 중인 결정과 가장 잘 맞는 다음 가이드를 따라 Gemma 4 클러스터를 계속 탐색해 보세요.

llama.cpp로 Gemma 4 실행하는 방법: GGUF 설정, 하드웨어 및 양자화 가이드
Gemma 4를 llama.cpp와 함께 로컬에서 실행하는 데 필요한 모든 것: 하드웨어 표, 복사해서 사용하는 빌드 명령어, 양자화 가이드 및 멀티모달 설정.

DiffusionGemma가 LM Studio에서 작동하나요? 현재 상태 (2026년 6월)
LM Studio의 llama.cpp와 MLX 엔진 모두 2026년 6월 현재 DiffusionGemma 로드에 실패합니다. 오류가 무엇을 의미하는지, 어디서 추적되는지, 실제로 작동하는 도구는 무엇인지 설명합니다.

llama.cpp에서 "unknown model architecture" 수정하기: gemma4와 diffusion-gemma
gemma4와 diffusion-gemma 아키텍처 오류는 원인이 다르고 수정 방법도 다릅니다. 같은 방법으로 처리하면 시간만 낭비됩니다.
다음에 무엇을 읽을지 아직 고민 중인가요?
가이드 허브로 돌아가 모델 비교, 설정 워크스루, 하드웨어 계획 페이지를 둘러보세요.
