Gemma 4 가이드

Ollama에서 Gemma 4 실행하기: 태그, 하드웨어 및 첫 실행 가이드

9분 읽기
gemma 4ollama로컬 LLM설정 가이드gemma4 태그하드웨어 요구 사항
Ollama에서 Gemma 4 실행하기: 태그, 하드웨어 및 첫 실행 가이드

빠른 답변

네, Ollama는 Gemma 4를 지원합니다. Google이 모델을 발표한 당일인 2026년 4월 3일, Ollama v0.20.0 버전부터 지원이 시작되었습니다. 다음 두 명령어로 즉시 실행할 수 있습니다:

ollama pull gemma4
ollama run gemma4

기본 태그는 gemma4:e4b로, 대부분의 개발자 PC에서 원활하게 작동하는 9.6 GB 크기의 모델입니다. 다른 크기를 원하신다면 다운로드 전에 아래 태그 표를 확인하세요.


모든 Gemma 4 Ollama 태그

검색에서 가장 많이 요청되는 정보인 태그 목록입니다.

태그 디스크 용량 컨텍스트 창 아키텍처 오디오 입력 최적 용도
gemma4:e2b 7.2 GB 128K Dense (2.3B 유효) 지원 노트북, 엣지 기기, 보급형 하드웨어
gemma4:e4b (기본) 9.6 GB 128K Dense (4.5B 유효) 지원 대부분의 개발자, 권장 시작점
gemma4:26b 18 GB 256K MoE (3.8B 활성) 미지원 용량 대비 최고의 품질, 빠른 추론
gemma4:31b 20 GB 256K Dense (30.7B) 미지원 최고 품질, 코딩, 복잡한 추론

참고 사항:

  • E2B와 E4B의 "E"는 "유효(effective)" 파라미터를 의미하며, 노트북이나 모바일 기기에 최적화된 엣지용 모델입니다.
  • gemma4:26b는 MoE(Mixture-of-Experts) 모델입니다. 추론 시 38억 개의 파라미터만 활성화되므로, 전체 크기에 비해 훨씬 빠르게 작동합니다. 보통 4B dense 모델과 비슷한 속도를 내면서 품질은 13B급 모델에 가깝습니다.
  • gemma4:latestgemma4:e4b를 가리킵니다. 태그 없이 실행하면 이 모델이 다운로드됩니다.

필수 조건: Ollama 버전 확인

Gemma 4를 실행하려면 Ollama v0.20.0 이상이 필요합니다. 이전 버전에서는 모델을 내려받을 수 없습니다. 버전을 먼저 확인하세요:

ollama --version

구버전인 경우 업데이트를 진행합니다:

# macOS (Homebrew)
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Windows의 경우 ollama.com/download에서 최신 설치 파일을 받으세요.


하드웨어 요구 사항

다운로드 전 본인의 사양을 확인하세요. 간신히 돌아가는 큰 모델보다는 부드럽게 돌아가는 작은 모델이 실제 사용 시 더 만족스럽습니다.

모델 태그 최소 RAM / VRAM 권장 사양 비고
gemma4:e2b 8 GB 16 GB CPU 전용 환경에 최적
gemma4:e4b 10 GB VRAM 또는 16 GB 통합 메모리 16–24 GB 기본 모델, 대부분의 소비자 GPU 적합
gemma4:26b 20 GB RAM 또는 통합 메모리 24–32 GB MoE 구조 — 실제 연산은 가벼움
gemma4:31b 24 GB VRAM 또는 32 GB 통합 메모리 32 GB+ 품질 최우선, 입문용으로는 비권장

Apple Silicon(M1~M4) 맥의 경우 통합 메모리가 모든 크기에서 잘 작동합니다. 16 GB 맥이면 e4b를 쾌적하게 돌릴 수 있습니다. 26b는 24 GB 사양부터 시도해 볼 만합니다.

NVIDIA GPU의 경우 모델이 VRAM에 완전히 담겨야 가속이 제대로 이루어집니다. VRAM이 부족하면 CPU로 전환되어 속도가 매우 느려집니다.


어떤 모델을 선택해야 할까요?

무조건 큰 모델이 아니라, 본인 하드웨어에서 여유 있게 돌아가는 모델부터 시작하세요.

  • 16 GB RAM / VRAM 미만gemma4:e2b로 시작
  • 16 GB RAM 또는 10 GB 이상의 VRAMgemma4:e4b가 최적의 기본값
  • 24 GB 이상의 통합 메모리 또는 VRAMgemma4:26b (MoE 효율과 고품질 양립)
  • 32 GB 이상의 고사양, 품질 중시gemma4:31b (코딩, 복잡한 추론 작업)

대부분의 로컬 실험을 원하는 개발자에게는 e4b가 정답입니다. 이 모델이 부드럽게 돌아가는 것을 확인한 뒤에 상위 태그를 시도해 보세요.


주요 명령어 (Pull & Run)

다운로드만 하기 (대형 모델의 경우 추천):

ollama pull gemma4          # e4b (기본, 9.6 GB) 다운로드
ollama pull gemma4:e2b      # 7.2 GB
ollama pull gemma4:26b      # 18 GB
ollama pull gemma4:31b      # 20 GB

대화하기 (실행):

ollama run gemma4           # e4b 실행
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b

기타 관리 명령어:

ollama list      # 설치된 모델 목록 확인
ollama ps        # 현재 메모리에 로드된 모델 확인

로컬 API 활용하기

Ollama가 실행되면 http://localhost:11434 주소로 로컬 REST API가 열립니다. 클라우드 의존성이나 API 키 없이도 호출할 수 있습니다.

curl (Generate API)

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "MoE와 Dense 트랜스포머 아키텍처의 차이점을 설명해줘.",
    "stream": false
  }'

curl (Chat API, OpenAI 호환)

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "user", "content": "JSON을 안전하게 파싱하는 파이썬 함수를 작성해줘."}
    ]
  }'

Python (ollama 라이브러리)

from ollama import chat

response = chat(
    model='gemma4',
    messages=[{'role': 'user', 'content': 'Mixture of Experts가 뭔가요?'}],
)
print(response.message.content)

Gemma 4가 Gemma 3보다 나은 점

단순한 속도 개선이 아닌 세대 교체 수준의 차이를 보여줍니다:

벤치마크 Gemma 4 31B Gemma 4 E4B Gemma 3 27B
AIME 2026 (수학적 추론) 89.2% 42.5% 20.8%
LiveCodeBench v6 (코딩) 80.0% 52.0% 29.1%
Codeforces ELO 2150 940 110
MMLU Pro (지식 측정) 85.2% 69.4% 67.6%

성능 외에도 다음과 같은 새로운 기능이 추가되었습니다:

  • 공식 함수 호출(Native function calling): 네 모델 모두 스키마에 맞는 유효한 JSON을 반환하는 구조화된 도구 활용 지원
  • 사고(Thinking) 모드: 시스템 프롬프트에 <|think|> 토크을 추가하여 연쇄 사고 추론 활성화 가능
  • 256K 컨텍스트: 26B 및 31B 모델에서 지원 (Gemma 3 27B의 128K에서 2배 확장)
  • 오디오 입력: E2B와 E4B에서 텍스트, 이미지와 더불어 음성 인식 및 이해 지원
  • 140개 이상의 언어 기본 지원

사고(Thinking) 모드 활용하기

Gemma 4의 추론 능력을 극대화하려면 시스템 프롬프트 시작 부분에 <|think|> 토큰을 포함하세요:

from ollama import chat

response = chat(
    model='gemma4:31b',
    messages=[
        {
            'role': 'system',
            'content': '<|think|> 대답하기 전에 단계별로 깊이 생각하세요.'
        },
        {
            'role': 'user',
            'content': '0부터 3까지 x^2의 적분값은 얼마인가요?'
        }
    ],
)
print(response.message.content)

단순한 일상 대화보다는 수학, 복잡한 코딩, 혹은 긴 문서 분석 시 이 모드를 켰을 때 품질 차이가 크게 나타납니다.


일반적인 오류 해결 (FAQ)

Error: gemma4:e4b requires a newer version of Ollama Ollama가 v0.20.0 이전 버전입니다. 운영체제에 맞는 업데이트를 진행하세요.

메모리 부족(OOM)으로 모델 로드 실패 ollama ps로 사용 중인 메모리를 확인하고, 더 작은 태그(예: gemma4:e2b)로 전환하세요.

응답 속도가 너무 느림 (초당 1~5토큰) GPU 가속이 작동하지 않고 CPU로 돌아가는 상태입니다. 그래픽 카드 드라이버가 최신인지 확인하세요. Apple Silicon의 경우 v0.20.0 이상을 써야 MLX 가속이 적용됩니다.

응답이 중간에 잘림 컨텍스트 창 크기를 늘려 호출해 보세요. 옵션에서 num_ctx 값을 조정할 수 있습니다:

ollama run gemma4 --option num_ctx=32768

결론 및 다음 단계

Ollama가 본인의 워크플로우에 맞지 않는다면 다음 대안이 있습니다:

  • LM Studio: 터미널보다 GUI(그래픽 인터페이스)를 선호하는 사용자에게 추천
  • llama.cpp: 더 미세한 설정 제어가 필요하거나 저사양 환경에서 최적화가 필요할 때

로컬 설치 없이 Gemma 4를 테스트해보고 싶다면 Google AI Studio에서 호스팅 버전인 31B 및 26B 모델을 무료로 체험할 수 있습니다.

관련 가이드

지금 고민 중인 결정과 가장 잘 맞는 다음 가이드를 따라 Gemma 4 클러스터를 계속 탐색해 보세요.

다음에 무엇을 읽을지 아직 고민 중인가요?

가이드 허브로 돌아가 모델 비교, 설정 워크스루, 하드웨어 계획 페이지를 둘러보세요.