Gemma 4 가이드
Gemma 4 하드웨어 요구 사항: RAM, VRAM 및 모델 크기별 가이드

Google DeepMind는 2026년 4월 2일, Gemini 3의 기술력을 바탕으로 제작된 네 가지 오픈 웨이트 모델인 Gemma 4를 Apache 2.0 라이선스로 출시했습니다. 모델을 다운로드하기 전에 가장 먼저 확인해야 할 질문은 바로 이것입니다. "어떤 모델이 내 하드웨어에 맞을까?"
이 가이드에서는 그에 대한 직접적인 답을 제공합니다. 모델 및 양자화별 메모리 사양표, 컨텍스트 길이에 따른 VRAM 변화 추이, 실제 GPU 벤치마크, 그리고 본인에게 맞는 모델을 선택할 수 있는 가이드를 확인해 보세요.
Gemma 4 모델 제품군 개요
Gemma 4는 네 가지 크기로 제공되며, 각 모델은 베이스(base) 모델과 지시어 튜닝(instruction-tuned) 모델로 나뉩니다:
| 모델 | 아키텍처 | 전체 파라미터 | 활성 파라미터 | 컨텍스트 창 | 모달리티 |
|---|---|---|---|---|---|
| E2B | Dense (PLE) | ~5.1B | ~2.3B | 128K | 텍스트, 이미지, 오디오, 비디오 |
| E4B | Dense (PLE) | ~5.1B | ~4B | 128K | 텍스트, 이미지, 오디오, 비디오 |
| 26B A4B | MoE | 26B | 4B 활성 | 256K | 텍스트, 이미지, 비디오 |
| 31B | Dense | 31B | 31B | 256K | 텍스트, 이미지, 비디오 |
모델명 앞의 "E"는 **유효 파라미터(Effective parameters)**를 뜻합니다. E2B와 E4B는 PLE(Per-Layer Embeddings) 기술을 사용하여 메모리 사용량은 낮게 유지하면서 훨씬 큰 모델의 표현력을 갖습니다. 26B A4B는 Gemma 최초의 MoE(Mixture-of-Experts) 모델로, 추론 시 전체 260억 개 파라미터 중 40억 개만 활성화하여 전체 크기 대비 VRAM 압박을 획기적으로 줄였습니다.
모델 및 양자화별 Gemma 4 VRAM 요구 사항
실제 모델을 로드하는 데 필요한 최소 메모리 수치입니다. 실제 구동 시에는 컨텍스트 길이와 시스템 오버헤드에 따라 사용량이 더 늘어날 수 있습니다.
| 모델 | 4-bit (Q4) | 8-bit (Q8) | BF16 (전체 정밀도) |
|---|---|---|---|
| E2B | ~2 GB | ~5 GB | ~15 GB |
| E4B | ~5 GB | ~8 GB | ~15 GB |
| 26B A4B | ~18 GB | ~28 GB | ~52 GB |
| 31B | ~20 GB | ~34 GB | ~62 GB |
참고: BF16 버전의 31B 가중치는 단일 80 GB NVIDIA H100 GPU에 적재 가능합니다. 일반 소비자용 로컬 추론 환경에서는 양자화 버전(Q4 또는 Q8)이 실질적인 선택입니다.
핵심 요약:
- 4-bit 양자화된 E2B와 E4B는 보급형 Apple Silicon Mac을 포함하여 8 GB RAM/통합 메모리를 갖춘 노트북에서도 실행 가능합니다.
- Q4 버전의 26B A4B는 약 18 GB가 필요하지만 MoE 효율성 덕분에 실제 활성 메모리 압박은 26B dense 모델보다 훨씬 낮습니다.
- Q4 버전의 31B는 로드하는 데 약 20 GB가 필요하며, 24 GB GPU 환경에서 짧은 컨텍스트 길이로 실행 가능합니다.
Gemma 4 26B A4B: 컨텍스트 길이에 따른 VRAM 요구 사항
26B A4B는 로컬 사용자에게 가장 매력적인 모델입니다. 하이브리드 어텐션(Hybrid attention) 아키텍처 덕분에 이전 세대보다 컨텍스트 확장이 훨씬 효율적이며, 긴 문맥을 사용해도 VRAM 사용량이 급격하게 늘어나지 않습니다.
26B A4B @ Q4 — 컨텍스트 길이에 따른 VRAM 변화 (llama.cpp, CUDA 12.8 환경 측정):
| 컨텍스트 길이 | 필요 VRAM |
|---|---|
| 4K | 17.98 GB |
| 8K | 18 GB |
| 16K | 18 GB |
| 32K | 18 GB |
| 64K | 19 GB |
| 128K | 20 GB |
| 256K | 23 GB |
24 GB GPU(RTX 3090, RTX 4090) 한 장으로 256K 전체 컨텍스트 창을 여유롭게 구동할 수 있습니다. 이 정도 품질의 모델에서 흔치 않은 특징이며, 26B A4B가 로컬 사용자에게 강력하게 추천되는 핵심 이유입니다.
Gemma 4 31B: 컨텍스트 길이에 따른 VRAM 요구 사항
31B는 모든 파라미터가 추론 중에 활성화되는 완전한 dense 모델입니다. 따라서 MoE 구조인 26B보다 컨텍스트 길이에 따른 메모리 사용량 증가 폭이 더 큽니다.
31B @ Q4 — 컨텍스트 길이에 따른 VRAM 변화:
| 컨텍스트 길이 | 필요 VRAM |
|---|---|
| 4K | 20 GB |
| 8K | 21 GB |
| 16K | 21 GB |
| 32K | 22 GB |
| 64K | 25 GB |
| 128K | 30 GB |
| 256K | 40 GB |
24 GB GPU 환경에서는 약 45,000 토큰 정도의 컨텍스트 길이까지만 실행 가능합니다. 31B 모델에서 256K 전체 컨텍스트를 사용하려면 40 GB 이상의 메모리가 필요하므로, 48 GB 워크스테이션 GPU, 듀얼 GPU 구성, 혹은 48~64 GB 통합 메모리를 갖춘 Mac이 필요합니다.
GPU 성능 벤치마크
동일 테스트 시스템(AMD EPYC 7513, 64 GB RAM, Debian 12, CUDA 12.8) 기반 llama.cpp 실측 데이터입니다. pp = 프롬프트 처리 토큰/초, tg = 텍스트 생성 토큰/초.
26B A4B @ Q4
| GPU | 컨텍스트 | pp (t/s) | tg (t/s) |
|---|---|---|---|
| RTX 3090 | 4K | 3,625 | 119 |
| RTX 3090 | 128K | 1,147 | 82 |
| RTX 3090 | 256K | 671 | 64 |
| RTX 5090 | 4K | 8,799 | 180 |
| RTX 5090 | 128K | 2,839 | 130 |
| RTX 5090 | 256K | 1,707 | 106 |
RTX 3090에서 128K 컨텍스트 사용 시 초당 1,000개 이상의 프롬프트 처리 속도를 보여주며, 이는 실제 에이전트 워크플로우를 구현하기에 충분히 빠른 속도입니다.
31B @ Q4
| GPU | 컨텍스트 | pp (t/s) | tg (t/s) |
|---|---|---|---|
| RTX 3090 | 4K | 1,155 | 34 |
| RTX 3090 | 32K | 723 | 31 |
| RTX 5090 | 4K | 3,395 | 61 |
| RTX 5090 | 128K | 900 | 43 |
31B는 26B보다 눈에 띄게 느립니다. RTX 3090에서 텍스트 생성 속도는 초당 3034토큰 수준으로, MoE 모델의 64119토큰보다 낮습니다. 워크플로우에서 속도가 중요하다면 소비자용 하드웨어에서는 26B A4B가 더 나은 선택입니다.
환경별 하드웨어 권장 사양
GPU / 메모리 크기별
| 하드웨어 사양 | 추천 모델 | 비고 |
|---|---|---|
| 6–8 GB VRAM (RTX 3070, 보급형 노트북 등) | E2B 또는 E4B @ Q4 | CPU+RAM 환경에서도 작동 가능(속도는 느림) |
| 10–16 GB VRAM (RTX 3080, M2 Pro 16 GB 등) | E4B @ Q8 또는 E2B @ BF16 | 26B A4B는 Q4에서도 다소 큼 |
| 20–24 GB VRAM (RTX 3090, RTX 4090) | 26B A4B @ Q4 (256K 전체 컨텍스트) | 대부분의 로컬 사용자에게 가장 이상적인 조합 |
| 24 GB VRAM | 31B @ Q4 (최대 ~45K 컨텍스트) | 컨텍스트 제약이 있어 보통 26B A4B가 더 유리함 |
| 32 GB VRAM (RTX 5090) | 31B @ Q4 (최대 128K 컨텍스트) | 31B 모델을 안정적으로 사용 가능 |
| 48–96 GB VRAM (워크스테이션 / 멀티 GPU) | 31B @ Q4 또는 Q8 (256K 전체 컨텍스트) | 전체 컨텍스트와 최상의 품질 확보 |
Apple Silicon (Mac)
Apple Silicon은 CPU와 GPU가 통합 메모리를 공유하므로 로컬 LLM 추론에 매우 적합합니다. 모든 Gemma 4 모델은 MLX 및 Metal 가속이 포함된 llama.cpp를 지원합니다.
| Mac 사양 | 추천 모델 |
|---|---|
| M1 / M2 (8 GB) | E2B 또는 E4B @ Q4 |
| M2 Pro / M3 Pro (18–36 GB) | 26B A4B @ Q4 |
| M2 Max / M3 Max (48–64 GB) | 31B @ Q4 또는 Q8 |
| M2 Ultra / M3 Ultra (96–192 GB) | 31B @ BF16 (전체 정밀도) |
실제 사용 팁: 24 GB 통합 메모리를 갖춘 Mac Mini에서 26B A4B 모델(Q4)은 여유롭게 작동합니다. 하지만 24 GB 장비에서 모델을 전체 크기로 로드할 경우 다른 작업 수행 시 시스템이 매우 느려질 수 있으므로, 가급적 Q4 버전을 사용하여 메모리 여유 공간을 확보하세요.
Gemma 4를 로컬에서 실행하는 방법
대표적인 세 가지 도구는 다음과 같습니다:
Ollama — 가장 쉬운 입문용:
ollama run gemma4:e4b # E4B (기본 Q4_K_M)
ollama run gemma4:26b-a4b # 26B MoE
ollama run gemma4:31b # 31B Dense
llama.cpp — CPU 추론 및 정밀 양자화 설정에 최적:
llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL
LM Studio — 터미널 설정 없이 GUI를 선호하는 사용자에게 좋은 선택입니다.
26B A4B vs 31B: 무엇을 선택해야 할까요?
본인의 하드웨어 사양과 우선순위에 따라 결정하세요.
다음과 같은 경우 26B A4B를 선택하세요:
- 24 GB GPU 한 장으로 256K 전체 컨텍스트를 사용하고 싶을 때
- 속도가 중요할 때 (동일 사양에서 31B보다 2~3배 빠름)
- 에이전트 워크플로우나 코딩 비서 등 긴 문맥 처리가 잦을 때
다음과 같은 경우 31B를 선택하세요:
- 32 GB 이상의 VRAM 또는 고사양 통합 메모리 Mac을 보유했을 때
- 예측 가능한 동작을 보여주는 완전한 dense 모델을 선호할 때
- 파인튜닝 시 전체 파라미터 접근이 필요할 때
- 짧은 컨텍스트에서 오직 원본 출력 품질이 가장 중요할 때
일반적인 로컬 사용자에게는 26B A4B가 압도적인 승자입니다. 24 GB GPU에 깔끔하게 안착하며 256K 컨텍스트 전체를 활용할 수 있어 에이전트 워크플로우를 매우 쾌적하게 만들어줍니다.
자주 묻는 질문 (FAQ)
GPU 없이 Gemma 4를 실행할 수 있나요? 네. 모든 변체는 llama.cpp를 통해 CPU 전용으로 구동 가능합니다. 다만 텍스트 생성 속도가 초당 5~10토큰 수준으로 떨어져 일상적인 사용보다는 테스트용으로 적합합니다. CPU 전용 환경에서는 E2B나 E4B가 가장 실용적입니다.
Q4와 Q8 양자화의 차이는 무엇인가요? Q4(4-bit)는 원본(BF16) 대비 메모리 사용량을 약 60%, Q8(8-bit)은 약 50% 줄여줍니다. Q4는 정확도가 약간 감소(벤치마크상 약 2~5%)하지만 모델 접근성을 크게 높여줍니다. 대부분의 추론 작업에는 Q4_K_M 버전을 권장합니다.
Gemma 4는 상업적 이용이 무료인가요? 네. Gemma 4는 Apache 2.0 라이선스로 배포되어 상업적 이용, 파인튜닝, 재배포 및 수정이 무료로 허용되며 사용자 수나 용도 제한이 없습니다.
요약
어디서부터 시작할지 고민이라면 이 가이드를 따르세요:
- 가벼운 기기 (8 GB RAM/VRAM): Q4 버전의 E2B 또는 E4B로 시작
- 중급 기기 (16–20 GB): Q8 버전의 E4B 또는 과감하게 양자화된 26B A4B 시도
- 24 GB GPU (RTX 3090 / 4090): Q4 버전의 26B A4B — 256K 전체 컨텍스트를 쾌적하게 활용 (가장 추천하는 조합)
- 32 GB GPU (RTX 5090) 또는 48 GB+ Mac: Q4 버전의 31B로 전체 컨텍스트와 최상의 품질 확보
Gemma 4 시리즈는 지금까지 출시된 오픈 모델 중 하드웨어 효율성이 가장 뛰어난 제품군 중 하나입니다. 특히 26B MoE 모델은 예전에는 상상할 수 없었던 사양에서 256K 대규모 컨텍스트 처리를 가능하게 해줍니다.
관련 가이드
지금 고민 중인 결정과 가장 잘 맞는 다음 가이드를 따라 Gemma 4 클러스터를 계속 탐색해 보세요.

Gemma 4 26B A4B VRAM 요구 사항: Q4, Q8, F16 및 24 GB GPU 적합성
정확한 GGUF 파일 크기, 계획 범위, 그리고 왜 26B 모델이 로컬 환경의 황금비(sweet spot)인지 설명하는 Gemma 4 26B A4B VRAM 요구 사항 가이드입니다.

Gemma 4 31B VRAM 요구 사항: Q4, Q8, F16 및 권장 하드웨어
정확한 GGUF 파일 크기, 계획 범위, 그리고 어떤 하드웨어가 실질적으로 적합한지에 대한 진솔한 조언을 담은 Gemma 4 31B VRAM 요구 사항 가이드입니다.

Gemma 4 E2B VRAM 요구 사항: Q4, Q8, F16 및 엣지 기기 적합성
정확한 파일 크기, 실질적인 계획 범위, 그리고 E2B가 적합한 상황에 대한 진솔한 조언을 담은 Gemma 4 E2B VRAM 요구 사항 가이드입니다.
다음에 무엇을 읽을지 아직 고민 중인가요?
가이드 허브로 돌아가 모델 비교, 설정 워크스루, 하드웨어 계획 페이지를 둘러보세요.
