Gemma 4 모델 비교: 31B vs 26B A4B vs E4B vs E2B

Google은 2026년 4월 3일 Gemma 4를 출시했습니다. 하지만 이는 단일 모델이 아닙니다. 같은 이름을 공유하면서도 메모리, 속도, 모달리티 지원, 그리고 추론 품질 면에서 서로 다른 트레이드오프(trade-off)를 가진 네 가지 개별 모델로 구성되어 있습니다. 잘못된 모델을 선택하면 실행조차 할 수 없는 대용량 파일을 다운로드하느라 시간을 낭비하거나, 더 강력한 모델을 돌릴 수 있는 사양임에도 불구하고 성능이 낮은 모델을 사용하게 될 수 있습니다.

이 가이드에서는 복잡한 네이밍 시스템을 분석하고, 실제 차이점을 명확히 짚어주어 여러분이 단 하나의 파일이라도 다운로드하기 전에 올바른 결정을 내릴 수 있도록 도와드립니다.

모델명의 실제 의미

Gemma 4의 명명 규칙은 처음 접하면 매우 혼란스러울 수 있습니다. 각 접두사와 접미사가 실제로 무엇을 의미하는지 정리해 드립니다.

E2B 및 E4B — 엣지(Edge)용으로 설계된 "유효(Effective)" 파라미터 모델

여기서 "E"는 **유효 파라미터(effective parameters)**를 뜻합니다. E2B는 추론 중에 23억 개의 유효 파라미터를 사용하지만, 실제 전체 파라미터 수는 51억 개입니다. E4B도 같은 방식입니다. 이러한 차이는 Google이 사용한 PLE(Per-Layer Embeddings) 기술 때문입니다. 각 디코더 레이어는 해당 레이어의 연산에 잔차 신호(residual signal)를 공급하는 고유의 소형 임베딩 테이블을 가지고 있습니다. 이 테이블들은 디스크 용량은 많이 차지하지만 연산 비용은 저렴합니다. 덕분에 실제 구동 시에는 2B급 모델처럼 가볍게 작동하면서도, 실제 크기 이상의 깊이 있는 표현력을 갖게 됩니다. 즉, 스마트폰이나 노트북에 최적화된 크기로 파라미터 수 이상의 성능을 내는 모델입니다.

26B A4B — MoE 아키텍처의 "활성(Active)" 파라미터 모델

여기서 "A"는 **활성 파라미터(active parameters)**를 뜻합니다. 26B A4B는 252억 개의 전체 파라미터를 가진 MoE(Mixture-of-Experts) 모델이지만, 한 번의 추론 단계에서는 단 38억 개의 파라미터만 활성화됩니다. Google은 128개의 소형 전문가(expert) 중 토큰마다 8개의 전문가와 1개의 공유 전문가(always-on expert)를 활성화하도록 설계했습니다. 실질적인 결과는? 4B dense 모델만큼 빠르게 작동하면서도 품질은 31B 모델에 훨씬 근접합니다. "26B"는 저장 용량 사양을, "A4B"는 연산 비용 사양을 알려줍니다.

31B — 트릭 없는 순수 Dense 모델

모든 파라미터가 모든 연산 주기에 사용됩니다. 연산 비용은 가장 높지만, 동작이 명확하고 제품군 내에서 가장 높은 품질 한계치를 제공하며 파인튜닝 시 가장 깔끔한 베이스 모델이 됩니다.

네 가지 모델 한눈에 비교하기

	E2B	E4B	26B A4B	31B
아키텍처	Dense (Edge)	Dense (Edge)	MoE	Dense
유효 / 활성 파라미터	~2.3B	~4B	~3.8B 활성	30.7B
전체 파라미터	5.1B	~9B	25.2B	30.7B
컨텍스트 창	128K	128K	256K	256K
오디오 입력	✅	✅	❌	❌
이미지 / 비디오 입력	✅	✅	✅	✅
타겟 하드웨어	스마트폰 / IoT	노트북	소비자용 GPU	H100 / 고사양 GPU
메모리 (4-bit 양자화)	~5 GB	~8 GB	~18 GB	~20 GB
메모리 (8-bit / 16-bit)	~15 GB	—	~28 GB	~34 GB
LMArena Elo (텍스트)	—	—	1441	1452
오픈 모델 순위	—	—	#6	#3

메모리 수치는 Unsloth의 배포 가이드를 참고한 대략적인 계획 수치입니다. 실제 사용량은 컨텍스트 길이, 양자화 방식 및 시스템 오버헤드에 따라 달라질 수 있습니다.

벤치마크 결과

아래 모든 수치는 Google의 공식 Gemma 4 모델 카드 및 지시어 튜닝(IT) 변체 기준입니다. Gemma 3보다 더 최신 버전인 AIME 2026, LiveCodeBench v6, MMLU Pro 등을 사용했으므로, 이전 세대와의 직접 비교는 경향성 위주로 파악해 주세요.

31B Dense

벤치마크	점수
AIME 2026 (수학)	89.2%
LiveCodeBench v6 (코딩)	80.0%
GPQA Diamond (과학적 추론)	84.3%
MMLU Pro (지식)	85.2%
MMMU Pro (비전)	76.9%
MATH-Vision	85.6%
Codeforces ELO	2,150
Multi-needle 검색 (긴 컨텍스트)	66.4%

비교하자면, Gemma 3 27B는 AIME에서 20.8%, LiveCodeBench에서 29.1%를 기록했습니다. 이는 점진적 개선이 아닌 세대를 뛰어넘는 비약적인 발전입니다.

26B A4B (MoE)

벤치마크	점수
AIME 2026	88.3%
LiveCodeBench v6	77.1%
GPQA Diamond	82.3%
MMLU Pro	82.6%

26B A4B 모델은 추론당 단 38억 개의 파라미터만 사용하면서도 (연산 비용 약 8배 절감), 31B Dense 모델 품질의 약 97%를 달성했습니다. LMArena 리더보드 점수는 1441점으로 31B의 1452점과 거의 차이가 없어, 실제 실무 작업에서는 성능 차이를 체감하기 어렵습니다.

E4B

벤치마크	점수
AIME 2026	42.5%
LiveCodeBench v6	52.0%
MMLU Pro	69.4%
MMMU Pro (비전)	52.6%

T4 GPU나 MacBook Air에서도 실행 가능한 모델치고는 매우 강력합니다. 워크스테이션용 모델과의 추론 성능 차이는 존재하지만, OCR, 이미지 그라운딩(grounding), 코딩 보조 기능 등 엣지 배포 모델로서 제 역할을 충분히 해내는 수준입니다.

E2B

벤치마크	점수
AIME 2026	37.5%
LiveCodeBench v6	44.0%
MMLU Pro	60.0%
MMMU Pro (비전)	44.2%

Gemma 4 제품군의 하한선 모델입니다. 스마트폰이나 Raspberry Pi급 하드웨어에서도 작동합니다. Google의 테스트에 따르면 Raspberry Pi 5에서 LiteRT-LM을 통해 초당 약 7.6토큰의 디코드 속도를 보여주었습니다.

실무에서 중요한 핵심 차이점

오디오 지원은 전 모델 공통이 아닙니다

오직 E2B와 E4B 모델만 오디오 입력을 지원합니다 (음성 인식 및 오디오-텍스트 번역). 오디오 클립은 최대 30초까지 처리 가능합니다. 26B A4B와 31B는 오디오를 전혀 지원하지 않습니다. 음성 입력이 필수라면 고민할 필요 없이 소형 모델을 선택해야 합니다.

두 개로 나뉘는 컨텍스트 길이

E2B와 E4B는 최대 128K 토큰을 지원합니다. 26B A4B와 31B는 그 두 배인 256K까지 지원합니다. 이는 단순히 수치의 차이 이상입니다. Gemma 3의 128K는 긴 문맥에서 검색의 신뢰도가 떨어지는 이론적인 수치에 가까웠으나, Gemma 4 31B는 멀티 니들(multi-needle) 검색 테스트 점수가 13.5%에서 66.4%로 상승하며 긴 문서 내의 정보를 실제로 찾아내고 추론할 수 있는 실질적인 능력을 갖췄습니다.

MoE vs Dense: 속도와 파인튜닝의 트레이드오프

26B A4B는 토큰당 38억 개의 파라미터만 활성화하므로 추론 속도가 4B dense 모델과 비슷합니다. 많은 도구를 호출하고 수백 개의 토큰을 생성해야 하는 에이전트 워크플로우에서는 이 속도 차이가 엄청난 이점이 됩니다. 반면 31B Dense는 속도는 느리지만 동작이 더 예측 가능하고 모든 레이어가 매번 동일하게 작동하기 때문에 파인튜닝 시 그라디언트 흐름이 더 단순하다는 장점이 있습니다.

비디오 지원의 한계

네 모델 모두 비디오 처리가 가능하지만, 실시간 분석이 아닌 초당 1프레임의 이미지 시퀀스로 처리하며 최대 60초 분량으로 제한됩니다. 짧은 클립, UI 녹화물, 데모 영상 요약 등에 적합합니다.

지식 컷오프는 2025년 1월입니다

Gemma 4의 학습 데이터는 2025년 1월까지의 데이터입니다. 따라서 그 이후의 최신 정보를 반영하려면 256K 컨텍스트를 활용한 검색 증강 생성(RAG)이나 외부 도구 연동이 필수적입니다.

하드웨어 요구 사항

양자화된 추론 환경 기준의 대략적인 수치입니다. "전체 메모리"는 통합 메모리 시스템(Apple Silicon 등)의 경우 RAM + VRAM 합계, 외장 GPU 시스템의 경우 가용 VRAM을 의미합니다.

모델	4-bit 양자화	8-bit 양자화	원본 (BF16)
E2B	~5 GB	~15 GB	—
E4B	~8 GB	—	—
26B A4B	~18 GB	~28 GB	—
31B	~20 GB	~34 GB	~80 GB (단일 H100)

기기별 실질적 권장 사항:

스마트폰 혹은 Raspberry Pi: LiteRT-LM을 통한 E2B 사용
MacBook Air (8 GB 통합 메모리): 4-bit 양자화된 E4B 추천
16 GB RAM 탑재 노트북/데스크탑: 4-bit 양자화된 26B A4B 타겟
RTX 3090 / 4090 (24 GB VRAM): 26B A4B 256K 컨텍스트 전체 활용 가능, 31B 4-bit도 안정적 구동
NVIDIA H100 (80 GB): 양자화 없이 BF16 전체 정밀도로 31B 구동 가능

한 가지 유의할 점은 26B A4B 모델의 경우 연산은 3B급으로 처리하지만 전체 25.2B 파라미터를 메모리에 모두 올려두어야 합니다. 모델 로딩 시에는 전체 용량만큼의 메모리를 확보해야 한다는 점을 잊지 마세요.

어떤 모델을 실행해야 할까요?

E2B 선택: 온디바이스 모바일 앱이나 IoT 에이전트 등 인터넷 연결 없이 폰에서 돌아가야 하는 환경을 구축할 때. 메모리가 극도로 제한된 환경에서 오디오 입력이 필요할 때 적합합니다.
E4B 선택: E2B보다 확실히 뛰어난 추론 능력이 필요하면서 오디오 입력 지원을 원할 때. 8~16 GB 램의 노트북이나 보급형 GPU 사용자에게 가장 좋은 기본 선택지입니다.
26B A4B 선택: 16~24 GB VRAM의 소비자용 GPU를 보유하고 있고, 31B에 근접한 품질과 빠른 추론 속도를 모두 원할 때. 로컬 에이전트, 코딩 비서 등 속도가 중요한 실무 워크플로우에 가장 이상적인 모델(sweet spot)입니다.
31B 선택: 제품군 내 최고의 품질을 원하거나, 파인튜닝을 계획 중이거나, 고사양 하드웨어를 충분히 갖추었을 때. 단순히 파라미터가 많다고 무조건 31B를 고르기보다는 26B A4B와의 실질적인 품질 차이가 크지 않음을 고려하세요.

Gemma 4 사용 가능한 곳

Google AI Studio: 31B 및 26B A4B 호스팅 (로컬 설정 불필요)
Google AI Edge Gallery: 모바일 테스트에 최적화된 E4B 및 E2B 호스팅
Hugging Face: google/gemma-4-31B-it 등 네 가지 모델 공개
Ollama: ollama run gemma4:e4b, gemma4:26b 등으로 간편 실행
LM Studio: 26B 및 31B 모델을 위한 GUI 기반 로컬 설정 지원
llama.cpp: 다양한 운영체제에서 CPU/GPU 추론 지원

모든 가중치는 Apache 2.0 라이선스를 따릅니다. 사용자 수나 사용 용도에 따르는 제한 없이 상업적 이용이 가능합니다.

자주 묻는 질문 (FAQ)

Gemma 4 26B A4B에서 "A4B"는 무슨 뜻인가요? "A"는 활성 파라미터(Active parameters)를 뜻합니다. 총 252억 개의 파라미터가 있지만 추론 시에는 38억 개만 활성화되어 구동됩니다. 덕분에 연산 부담은 4B급이면서 품질은 26B급의 성능을 냅니다.

오디오 기능을 지원하나요? 오직 E2B와 E4B 모델만 지원합니다. 최대 30초 분량의 음성 인식 및 번역이 가능합니다. 대형 모델인 26B와 31B는 오디오 입력을 지원하지 않습니다.

Gemma 4 31B를 돌리려면 VRAM이 얼마나 필요한가요? 4-bit 기준 약 20 GB, 8-bit 기준 약 34 GB가 필요합니다. 로컬 사용자의 경우 RTX 3090 또는 4090 (24 GB VRAM)에서 4-bit 버전을 사용하는 것이 가장 현실적인 방법입니다.

Gemma 3보다 확실히 좋아졌나요? 그렇습니다. 벤치마크 점수가 수치상으로 비약적인 발전을 보였으며 특히 수학, 코딩 분야와 긴 문맥에서의 정보 검색 능력(multi-needle retrieval)이 전 세대 대비 압도적으로 향상되었습니다.