Gemma 4 가이드
Ollama에서 Gemma 4 실행하기: 태그, 하드웨어 및 첫 실행 가이드

빠른 답변
네, Ollama는 Gemma 4를 지원합니다. Google이 모델을 발표한 당일인 2026년 4월 3일, Ollama v0.20.0 버전부터 지원이 시작되었습니다. 다음 두 명령어로 즉시 실행할 수 있습니다:
ollama pull gemma4
ollama run gemma4
기본 태그는 gemma4:e4b로, 대부분의 개발자 PC에서 원활하게 작동하는 9.6 GB 크기의 모델입니다. 다른 크기를 원하신다면 다운로드 전에 아래 태그 표를 확인하세요.
모든 Gemma 4 Ollama 태그
검색에서 가장 많이 요청되는 정보인 태그 목록입니다.
| 태그 | 디스크 용량 | 컨텍스트 창 | 아키텍처 | 오디오 입력 | 최적 용도 |
|---|---|---|---|---|---|
gemma4:e2b |
7.2 GB | 128K | Dense (2.3B 유효) | 지원 | 노트북, 엣지 기기, 보급형 하드웨어 |
gemma4:e4b (기본) |
9.6 GB | 128K | Dense (4.5B 유효) | 지원 | 대부분의 개발자, 권장 시작점 |
gemma4:26b |
18 GB | 256K | MoE (3.8B 활성) | 미지원 | 용량 대비 최고의 품질, 빠른 추론 |
gemma4:31b |
20 GB | 256K | Dense (30.7B) | 미지원 | 최고 품질, 코딩, 복잡한 추론 |
참고 사항:
- E2B와 E4B의 "E"는 "유효(effective)" 파라미터를 의미하며, 노트북이나 모바일 기기에 최적화된 엣지용 모델입니다.
gemma4:26b는 MoE(Mixture-of-Experts) 모델입니다. 추론 시 38억 개의 파라미터만 활성화되므로, 전체 크기에 비해 훨씬 빠르게 작동합니다. 보통 4B dense 모델과 비슷한 속도를 내면서 품질은 13B급 모델에 가깝습니다.gemma4:latest는gemma4:e4b를 가리킵니다. 태그 없이 실행하면 이 모델이 다운로드됩니다.
필수 조건: Ollama 버전 확인
Gemma 4를 실행하려면 Ollama v0.20.0 이상이 필요합니다. 이전 버전에서는 모델을 내려받을 수 없습니다. 버전을 먼저 확인하세요:
ollama --version
구버전인 경우 업데이트를 진행합니다:
# macOS (Homebrew)
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows의 경우 ollama.com/download에서 최신 설치 파일을 받으세요.
하드웨어 요구 사항
다운로드 전 본인의 사양을 확인하세요. 간신히 돌아가는 큰 모델보다는 부드럽게 돌아가는 작은 모델이 실제 사용 시 더 만족스럽습니다.
| 모델 태그 | 최소 RAM / VRAM | 권장 사양 | 비고 |
|---|---|---|---|
gemma4:e2b |
8 GB | 16 GB | CPU 전용 환경에 최적 |
gemma4:e4b |
10 GB VRAM 또는 16 GB 통합 메모리 | 16–24 GB | 기본 모델, 대부분의 소비자 GPU 적합 |
gemma4:26b |
20 GB RAM 또는 통합 메모리 | 24–32 GB | MoE 구조 — 실제 연산은 가벼움 |
gemma4:31b |
24 GB VRAM 또는 32 GB 통합 메모리 | 32 GB+ | 품질 최우선, 입문용으로는 비권장 |
Apple Silicon(M1~M4) 맥의 경우 통합 메모리가 모든 크기에서 잘 작동합니다. 16 GB 맥이면 e4b를 쾌적하게 돌릴 수 있습니다. 26b는 24 GB 사양부터 시도해 볼 만합니다.
NVIDIA GPU의 경우 모델이 VRAM에 완전히 담겨야 가속이 제대로 이루어집니다. VRAM이 부족하면 CPU로 전환되어 속도가 매우 느려집니다.
어떤 모델을 선택해야 할까요?
무조건 큰 모델이 아니라, 본인 하드웨어에서 여유 있게 돌아가는 모델부터 시작하세요.
- 16 GB RAM / VRAM 미만 →
gemma4:e2b로 시작 - 16 GB RAM 또는 10 GB 이상의 VRAM →
gemma4:e4b가 최적의 기본값 - 24 GB 이상의 통합 메모리 또는 VRAM →
gemma4:26b(MoE 효율과 고품질 양립) - 32 GB 이상의 고사양, 품질 중시 →
gemma4:31b(코딩, 복잡한 추론 작업)
대부분의 로컬 실험을 원하는 개발자에게는 e4b가 정답입니다. 이 모델이 부드럽게 돌아가는 것을 확인한 뒤에 상위 태그를 시도해 보세요.
주요 명령어 (Pull & Run)
다운로드만 하기 (대형 모델의 경우 추천):
ollama pull gemma4 # e4b (기본, 9.6 GB) 다운로드
ollama pull gemma4:e2b # 7.2 GB
ollama pull gemma4:26b # 18 GB
ollama pull gemma4:31b # 20 GB
대화하기 (실행):
ollama run gemma4 # e4b 실행
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b
기타 관리 명령어:
ollama list # 설치된 모델 목록 확인
ollama ps # 현재 메모리에 로드된 모델 확인
로컬 API 활용하기
Ollama가 실행되면 http://localhost:11434 주소로 로컬 REST API가 열립니다. 클라우드 의존성이나 API 키 없이도 호출할 수 있습니다.
curl (Generate API)
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"prompt": "MoE와 Dense 트랜스포머 아키텍처의 차이점을 설명해줘.",
"stream": false
}'
curl (Chat API, OpenAI 호환)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"messages": [
{"role": "user", "content": "JSON을 안전하게 파싱하는 파이썬 함수를 작성해줘."}
]
}'
Python (ollama 라이브러리)
from ollama import chat
response = chat(
model='gemma4',
messages=[{'role': 'user', 'content': 'Mixture of Experts가 뭔가요?'}],
)
print(response.message.content)
Gemma 4가 Gemma 3보다 나은 점
단순한 속도 개선이 아닌 세대 교체 수준의 차이를 보여줍니다:
| 벤치마크 | Gemma 4 31B | Gemma 4 E4B | Gemma 3 27B |
|---|---|---|---|
| AIME 2026 (수학적 추론) | 89.2% | 42.5% | 20.8% |
| LiveCodeBench v6 (코딩) | 80.0% | 52.0% | 29.1% |
| Codeforces ELO | 2150 | 940 | 110 |
| MMLU Pro (지식 측정) | 85.2% | 69.4% | 67.6% |
성능 외에도 다음과 같은 새로운 기능이 추가되었습니다:
- 공식 함수 호출(Native function calling): 네 모델 모두 스키마에 맞는 유효한 JSON을 반환하는 구조화된 도구 활용 지원
- 사고(Thinking) 모드: 시스템 프롬프트에
<|think|>토크을 추가하여 연쇄 사고 추론 활성화 가능 - 256K 컨텍스트: 26B 및 31B 모델에서 지원 (Gemma 3 27B의 128K에서 2배 확장)
- 오디오 입력: E2B와 E4B에서 텍스트, 이미지와 더불어 음성 인식 및 이해 지원
- 140개 이상의 언어 기본 지원
사고(Thinking) 모드 활용하기
Gemma 4의 추론 능력을 극대화하려면 시스템 프롬프트 시작 부분에 <|think|> 토큰을 포함하세요:
from ollama import chat
response = chat(
model='gemma4:31b',
messages=[
{
'role': 'system',
'content': '<|think|> 대답하기 전에 단계별로 깊이 생각하세요.'
},
{
'role': 'user',
'content': '0부터 3까지 x^2의 적분값은 얼마인가요?'
}
],
)
print(response.message.content)
단순한 일상 대화보다는 수학, 복잡한 코딩, 혹은 긴 문서 분석 시 이 모드를 켰을 때 품질 차이가 크게 나타납니다.
일반적인 오류 해결 (FAQ)
Error: gemma4:e4b requires a newer version of Ollama
Ollama가 v0.20.0 이전 버전입니다. 운영체제에 맞는 업데이트를 진행하세요.
메모리 부족(OOM)으로 모델 로드 실패
ollama ps로 사용 중인 메모리를 확인하고, 더 작은 태그(예: gemma4:e2b)로 전환하세요.
응답 속도가 너무 느림 (초당 1~5토큰) GPU 가속이 작동하지 않고 CPU로 돌아가는 상태입니다. 그래픽 카드 드라이버가 최신인지 확인하세요. Apple Silicon의 경우 v0.20.0 이상을 써야 MLX 가속이 적용됩니다.
응답이 중간에 잘림
컨텍스트 창 크기를 늘려 호출해 보세요. 옵션에서 num_ctx 값을 조정할 수 있습니다:
ollama run gemma4 --option num_ctx=32768
결론 및 다음 단계
Ollama가 본인의 워크플로우에 맞지 않는다면 다음 대안이 있습니다:
- LM Studio: 터미널보다 GUI(그래픽 인터페이스)를 선호하는 사용자에게 추천
- llama.cpp: 더 미세한 설정 제어가 필요하거나 저사양 환경에서 최적화가 필요할 때
로컬 설치 없이 Gemma 4를 테스트해보고 싶다면 Google AI Studio에서 호스팅 버전인 31B 및 26B 모델을 무료로 체험할 수 있습니다.
관련 가이드
지금 고민 중인 결정과 가장 잘 맞는 다음 가이드를 따라 Gemma 4 클러스터를 계속 탐색해 보세요.

LM Studio에서 Gemma 4를 지원하나요? 호환성, 모델 목록 및 요구 사항
LM Studio가 Gemma 4를 지원하는지에 대한 명확한 답변과 함께, 지원 모델 목록, 최소 메모리 사양 및 실질적인 설정 기대치를 다룹니다.

Gemma 4 26B A4B VRAM 요구 사항: Q4, Q8, F16 및 24 GB GPU 적합성
정확한 GGUF 파일 크기, 계획 범위, 그리고 왜 26B 모델이 로컬 환경의 황금비(sweet spot)인지 설명하는 Gemma 4 26B A4B VRAM 요구 사항 가이드입니다.

Gemma 4 31B VRAM 요구 사항: Q4, Q8, F16 및 권장 하드웨어
정확한 GGUF 파일 크기, 계획 범위, 그리고 어떤 하드웨어가 실질적으로 적합한지에 대한 진솔한 조언을 담은 Gemma 4 31B VRAM 요구 사항 가이드입니다.
다음에 무엇을 읽을지 아직 고민 중인가요?
가이드 허브로 돌아가 모델 비교, 설정 워크스루, 하드웨어 계획 페이지를 둘러보세요.
