Gemma 4 A4B vs E4B: 이름의 실제 의미와 선택 기준

이 명칭은 거의 모든 사람을 처음에는 혼란스럽게 만듭니다. E4B와 26B A4B 모두 이름에 "4B"가 들어가지만, 이 "4B"는 각각 전혀 다른 의미를 가지며, 두 모델의 아키텍처도 완전히 다릅니다. 실제로 알아야 할 내용을 정리했습니다.

E4B란 무엇인가

E4B의 "E"는 **effective parameters(유효 파라미터)**의 약자로, edge나 efficient가 아닙니다. Google은 Per-Layer Embeddings(PLE, 레이어별 임베딩)이라는 기술을 사용합니다. 각 디코더 레이어가 자체 소형 임베딩 테이블을 가지며, 해당 레이어의 계산에 잔차 신호를 제공합니다. 이 테이블은 디스크에서는 크지만 계산 비용이 낮기 때문에, 임베딩을 포함한 총 가중치 수가 약 8B에 달하더라도 런타임에서는 4.5B 파라미터 모델처럼 동작합니다.

결과적으로 파라미터 수가 암시하는 것보다 더 깊은 표현 깊이를 가진 컴팩트한 모델이 만들어집니다. E4B는 스마트폰과 노트북을 위해 설계되었으며 8~16GB RAM 범위를 목표로 합니다.

E4B는 또한 오디오 입력을 네이티브로 지원하지만 더 큰 26B A4B는 그렇지 않습니다. 오디오가 사용 사례의 일부라면 E4B가 현재 이를 지원하는 가장 큰 로컬 모델입니다.

컨텍스트 윈도우: 128K 토큰.

26B A4B란 무엇인가

26B A4B의 "A"는 **active parameters(활성 파라미터)**의 약자입니다. 26B A4B는 총 파라미터가 약 25.2B인 Mixture-of-Experts(MoE) 모델이지만, 각 추론 단계에서 활성화되는 것은 약 3.8B뿐입니다. 런타임에서는 거의 4B 모델만큼 빠르게 동작하지만, 훨씬 풍부한 전문가 가중치를 활용합니다.

이것이 A4B가 복잡한 작업에서 E4B보다 훨씬 강한 이유입니다. 총 지식량이 훨씬 많고, 각 추론에서는 일부만 사용됩니다. 그러나 메모리 비용은 현실적입니다. 토큰당 일부만 활성화되더라도 모든 26B 가중치를 메모리에 로드해야 합니다.

컨텍스트 윈도우: 256K 토큰. 네이티브 오디오 입력 없음.

메모리 요구사항

아래 수치는 Google 공식 모델 개요(약 20% 오버헤드 가정)에서 가져왔습니다. Unsloth의 실측치는 26B A4B Q4 로드에 약 18GB가 필요하며 이는 Google의 기준 추정치보다 높습니다.

모델	Q4	Q8	BF16
Gemma 4 E2B	~2.9 GB	~5.7 GB	~11.4 GB
Gemma 4 E4B	~4.5 GB	~8.9 GB	~17.9 GB
Gemma 4 12B	~6.7 GB	~13.4 GB	~26.7 GB
Gemma 4 26B A4B	~14.4–18 GB	~28 GB	~52–58 GB
Gemma 4 31B	~17.5 GB	~34.9 GB	~69.9 GB

이 수치는 모델 로드 추정치입니다. KV 캐시(컨텍스트 길이에 따라 증가)를 추가해야 합니다. 긴 컨텍스트에서는 KV 캐시 메모리가 모델 가중치를 초과할 수 있습니다.

실제 품질 차이

E4B는 채팅, 요약, 정보 추출, 간단한 에이전트에 충분한 모델입니다. 약한 모델이 아닙니다. PLE 기술이 동급 모델 이상의 성능을 발휘합니다. 그러나 다단계 추론, 복잡한 코딩, 긴 문서 이해가 필요한 작업에서는 26B A4B가 일관되게 E4B를 앞섭니다.

가장 차이가 두드러지는 상황:

대용량 파일 전체에서 많은 의존성을 추적하는 코딩 작업
결론에 도달하기 전에 여러 추론 단계가 필요한 작업
초기 컨텍스트가 나중 결론에 정확하게 영향을 미치는 긴 문서
많은 제약 조건에 걸쳐 정확한 지시 추종이 필요한 구조화된 출력

일상적인 채팅, 빠른 요약, 프롬프트 탐색의 경우, 실제 차이가 종종 작아서 E4B가 더 나은 선택이 됩니다. 더 빠르게 로드되고 메모리 부담이 적기 때문입니다.

하드웨어별 선택

내 장비	여기서 시작
8GB RAM 노트북	E2B Q4, 또는 E4B Q4(여유롭게 맞는다면)
16GB Mac 또는 PC	E4B Q4 — 26B A4B는 이 메모리 수준에서 너무 빡빡함
24GB GPU	26B A4B Q4 가능; 이것이 목표 하드웨어
32GB 시스템	26B A4B Q4 여유롭게; 컨텍스트 여유도 있음
48GB 이상	26B A4B Q8, 또는 31B Q4
64GB 이상 워크스테이션	31B Q8, 또는 26B A4B Q8 vs 31B Q4 비교

16GB 시스템에서 26B A4B Q4를 억지로 실행하지 마세요. 무엇을 감수하는지 이해하지 못한다면: 모델 로드만으로 RAM 대부분을 사용하고, 컨텍스트와 런타임 오버헤드로 느린 메모리 스와핑이 발생합니다.

속도

각 추론 단계에서 ~3.8B 파라미터만 활성화되기 때문에, 26B A4B는 총 파라미터 26B에도 불구하고 4B 밀집 모델과 거의 같은 속도로 실행됩니다. 같은 하드웨어에서는 일반적으로 밀집 31B보다 빠르고, 밀집 26B 모델보다 훨씬 빠릅니다.

E4B는 벽시계 시간 기준으로 더 빠르며, 단순히 더 작은 모델이고 더 빨리 로드되기 때문입니다.

어느 것을 선택할까

Gemma 4를 처음 시도하고 RAM이 8~16GB인 경우: E4B Q4부터 시작하세요. 빠르게 로드되고 대부분의 일상 작업을 잘 처리하며, Gemma 4가 워크플로우에 맞는지 파악할 수 있습니다.

24GB 이상의 GPU가 있고 더 강력한 추론, 코딩 지원, 또는 긴 컨텍스트 작업이 필요한 경우: 26B A4B Q4를 사용하세요.

품질이 최우선이고 메모리가 제약이 아닌 경우: 31B가 여전히 시리즈 최고의 모델입니다.

26B A4B는 타협안이 아닙니다. 충분한 메모리를 가진 로컬 파워 유저를 위한 권장 선택입니다. E4B는 소비자용 노트북과 스마트폰 사용자를 위한 권장 선택입니다.

자주 묻는 질문

E4B는 오디오 입력을 지원하나요?
예. E4B(및 E2B, 12B)는 오디오 입력을 네이티브로 지원합니다. 26B A4B와 31B는 지원하지 않습니다.

E4B가 파라미터 수가 암시하는 것보다 더 많은 메모리를 필요로 하는 이유는?
Per-Layer Embeddings 때문입니다. 임베딩 테이블이 디스크 크기와 메모리 사용량을 늘리지만, Google이 홍보하는 "유효" 파라미터 수에는 포함되지 않습니다.

26B A4B는 ~3.8B만 활성화되는데 왜 26B라고 불리나요?
모델이 26B 전체 파라미터를 많은 전문가 네트워크에 분산하여 메모리에 로드하지만, 각 순전파에서는 일부만 활성화됩니다. MoE 모델이 작동하는 방식입니다.

16GB 머신에서 26B A4B를 실행할 수 있나요?
일부 구성에서는 기술적으로 가능하지만 권장하지 않습니다. Q4에서 모델 로드만으로 메모리 한계에 근접하며, 컨텍스트, KV 캐시, 런타임 오버헤드는 고려하지 않은 수치입니다.

Gemma 4 A4B vs E4B: 이름의 실제 의미와 선택 기준

E4B란 무엇인가

26B A4B란 무엇인가

메모리 요구사항

실제 품질 차이

하드웨어별 선택

속도

어느 것을 선택할까

자주 묻는 질문

관련 가이드

Gemma 4 E2B vs E4B: 어떤 소형 모델을 선택해야 할까요?

Gemma 4 모델 비교: 31B vs 26B A4B vs E4B vs E2B

Gemma 4 26B A4B VRAM 요구 사항: Q4, Q8, F16 및 24 GB GPU 적합성

다음에 무엇을 읽을지 아직 고민 중인가요?