So sánh các mô hình Gemma 4: 31B vs 26B A4B vs E4B vs E2B

Cập nhật ngày 14 tháng 6 năm 2026: Gemma 4 hiện gồm E2B, E4B, 12B, 26B A4B và 31B. 12B bổ sung phân khúc giữa với ngữ cảnh 256K và hỗ trợ âm thanh/video gốc; với các bài hướng dẫn runtime, hãy kiểm tra tình trạng hỗ trợ hiện tại.

Google đã phát hành Gemma 4 vào ngày 3 tháng 4 năm 2026 — nhưng đây không phải là một mô hình duy nhất. Đó là năm mô hình riêng biệt trong cùng một gia đình, mỗi mô hình thực hiện các đánh đổi khác nhau về bộ nhớ, tốc độ, hỗ trợ đa phương thức và chất lượng suy luận. Việc chọn sai mô hình có thể khiến bạn tải về hàng gigabyte dữ liệu mà không thể chạy được, hoặc chạy một thứ gì đó yếu ớt trong khi phần cứng của bạn có thể xử lý nhiều hơn.

Hướng dẫn này sẽ giải mã hệ thống đặt tên, trình bày sự khác biệt thực sự và đưa ra lộ trình quyết định rõ ràng cho bạn trước khi tải bất kỳ file trọng số nào.

Ý nghĩa thực sự của các tên gọi

Quy ước đặt tên của Gemma 4 khiến hầu như tất cả mọi người bối rối trong lần đầu tiên. Dưới đây là những gì mỗi tiền tố và hậu tố thực sự mã hóa.

E2B và E4B — Tham số "Effective" (Hiệu dụng), xây dựng cho thiết bị đầu cuối (edge)

Chữ "E" là viết tắt của effective parameters (tham số hiệu dụng). E2B có 2,3 tỷ tham số hiệu dụng trong quá trình suy luận, nhưng tổng số tham số của nó là 5,1 tỷ. E4B hoạt động theo cách tương tự. Khoảng cách này tồn tại vì Google sử dụng một kỹ thuật gọi là Per-Layer Embeddings (PLE): mỗi lớp giải mã mang bảng embedding nhỏ của riêng nó, cung cấp tín hiệu dư vào tính toán của lớp đó. Những bảng này chiếm nhiều không gian trên đĩa nhưng chi phí tính toán lại rẻ, đó là lý do tại sao mô hình hoạt động giống như một bản 2B lúc vận hành trong khi về mặt kỹ thuật thì nặng hơn. Kết quả là một mô hình có kích thước phù hợp cho điện thoại và laptop nhưng mang lại chiều sâu biểu đạt lớn hơn so với con số tham số gợi ý.

26B A4B — Tham số "Active" (Hoạt động), kiến trúc MoE

Chữ "A" là viết tắt của active parameters (tham số hoạt động). 26B A4B là một mô hình Mixture-of-Experts (MoE) với 25,2 tỷ tổng tham số nhưng chỉ có 3,8 tỷ tham số hoạt động trong bất kỳ bước suy luận đơn lẻ nào. Google đã xây dựng mô hình này với 128 chuyên gia (experts) nhỏ, kích hoạt 8 chuyên gia cộng với một chuyên gia được chia sẻ luôn bật trên mỗi token. Kết quả thực tế: nó chạy nhanh gần bằng một mô hình dense 4B, nhưng tạo ra chất lượng gần hơn nhiều với bản 31B. Con số "26B" cho bạn biết yêu cầu lưu trữ; "A4B" cho bạn biết chi phí tính toán.

31B — Dense (Dày đặc), không dùng mánh khóe

Mọi tham số đều được kích hoạt trong mỗi lần truyền trực tiếp (forward pass). Bạn trả toàn bộ chi phí tính toán, nhưng bạn nhận được hành vi đơn giản nhất, trần chất lượng cao nhất trong gia đình và là nền tảng sạch nhất cho việc tinh chỉnh (fine-tuning).

Nhìn nhanh về năm mô hình

	E2B	E4B	12B	26B A4B	31B
Kiến trúc	Dense (Edge)	Dense (Edge)	Unified multimodal	Mixture-of-Experts	Dense
Tham số Hiệu dụng / Hoạt động	~2.3B	~4B	12B	~3.8B hoạt động	30.7B
Tổng tham số	5.1B	~9B	12B	25.2B	30.7B
Cửa sổ ngữ cảnh	128K	128K	256K	256K	256K
Đầu vào âm thanh	✅	✅	✅	❌	❌
Đầu vào hình ảnh / video	✅	✅	✅	✅	✅
Phần cứng mục tiêu	Điện thoại / IoT	Laptop	Workstation	GPU tiêu dùng	H100 / GPU cao cấp
Bộ nhớ (4-bit quant)	~5 GB	~8 GB	~6.7 GB	~18 GB	~20 GB
Bộ nhớ (8-bit / 16-bit)	~15 GB	—	~13.4 GB	~28 GB	~34 GB
LMArena Elo (văn bản)	—	—	—	1441	1452
Thứ hạng mô hình mở	—	—	✅	#6	#3

Các con số bộ nhớ là giá trị lập kế hoạch xấp xỉ từ hướng dẫn triển khai của Unsloth. Mức sử dụng thực tế thay đổi tùy theo độ dài ngữ cảnh, phương pháp quantization và chi phí hệ thống.

Các con số Benchmark

Tất cả các điểm số dưới đây là từ model card chính thức của Google và các biến thể instruction-tuned. Các benchmark sử dụng AIME 2026, LiveCodeBench v6 và MMLU Pro — các phiên bản mới hơn so với các bài kiểm tra được sử dụng cho Gemma 3, vì vậy các so sánh trực tiếp giữa các thế hệ nên được hiểu theo hướng định hướng.

31B Dense

Benchmark	Điểm số
AIME 2026 (toán)	89.2%
LiveCodeBench v6 (lập trình)	80.0%
GPQA Diamond (lập luận khoa học)	84.3%
MMLU Pro (kiến thức)	85.2%
MMMU Pro (tầm nhìn)	76.9%
MATH-Vision	85.6%
Codeforces ELO	2,150
Multi-needle retrieval (ngữ cảnh dài)	66.4%

Để so sánh: Gemma 3 27B đạt 20,8% trên AIME và 29,1% trên LiveCodeBench. Cải tiến này mang tính thế hệ, không phải gia tăng nhỏ.

26B A4B (MoE)

Benchmark	Điểm số
AIME 2026	88.3%
LiveCodeBench v6	77.1%
GPQA Diamond	82.3%
MMLU Pro	82.6%

26B A4B đạt được khoảng 97% chất lượng của mô hình dense 31B trong khi chỉ kích hoạt 3,8B tham số cho mỗi token — ít hơn khoảng 8 lần tính toán cho mỗi bước suy luận. Trên bảng xếp hạng LMArena, nó đạt 1441 Elo so với 1452 của bản 31B, một khoảng cách hầu như vô hình trong phần lớn các tác vụ thực tế.

E4B

Benchmark	Điểm số
AIME 2026	42.5%
LiveCodeBench v6	52.0%
MMLU Pro	69.4%
MMMU Pro (tầm nhìn)	52.6%

Mạnh mẽ đối với một mô hình chạy trên GPU T4 hoặc MacBook Air. Khoảng cách lập luận so với các mô hình máy trạm là có thật, nhưng E4B xử lý OCR, nối đất hình ảnh (image grounding) và hỗ trợ lập trình ở mức độ xứng đáng với vị trí của nó trong việc triển khai ở thiết bị đầu cuối.

E2B

Benchmark	Điểm số
AIME 2026	37.5%
LiveCodeBench v6	44.0%
MMLU Pro	60.0%
MMMU Pro (tầm nhìn)	44.2%

E2B là mức sàn của gia đình mô hình này. Nó hoạt động trên điện thoại và phần cứng lớp Raspberry Pi. Các bài kiểm tra của riêng Google cho thấy Gemma 4 E2B chạy trên Raspberry Pi 5 thông qua LiteRT-LM ở tốc độ giải mã khoảng 7,6 token mỗi giây — chậm nhưng vẫn hoạt động được cho các quy trình làm việc của agent tại biên.

Những khác biệt then chốt thực sự quan trọng

Âm thanh không phải là tính năng của cả gia đình mô hình

E2B, E4B và 12B hỗ trợ đầu vào âm thanh — nhận dạng giọng nói và dịch âm thanh sang văn bản. Âm thanh được giới hạn ở 30 giây cho mỗi đoạn clip. 26B A4B và 31B hoàn toàn không hỗ trợ âm thanh. Nếu trường hợp sử dụng của bạn yêu cầu đầu vào giọng nói, lựa chọn đã được định đoạt trước khi bạn xem xét bất kỳ điều gì khác.

Độ dài ngữ cảnh chia gia đình làm hai nửa

E2B và E4B đạt tối đa 128K token. 12B, 26B A4B và 31B đạt tới 256K. Điều này quan trọng hơn so với con số thô gợi ý. Ngữ cảnh 128K của Gemma 3 chủ yếu mang tính lý thuyết — độ tin cậy truy xuất bị phá vỡ ở phạm vi dài. Ngữ cảnh 256K của Gemma 4 thực sự hoạt động được: bản 31B đã tăng từ 13,5% lên 66,4% trong các bài kiểm tra truy xuất nhiều kim (multi-needle), nghĩa là mô hình thực sự có thể tìm thấy và lập luận trên thông tin bị vùi sâu trong một tài liệu dài, chứ không chỉ đơn thuần là chấp nhận nó.

MoE so với Dense là sự đánh đổi giữa tốc độ và tinh chỉnh

26B A4B chạy với tốc độ xấp xỉ một mô hình dense 4B trong quá trình suy luận vì chỉ có 3,8B tham số được kích hoạt trên mỗi token. Đối với quy trình làm việc của agent nơi bạn tạo ra hàng trăm token qua nhiều lần gọi công cụ, lợi thế tốc độ đó sẽ được cộng dồn đáng kể. 31B Dense chậm hơn nhưng mang lại hành vi dễ đoán hơn và là ứng cử viên mạnh hơn cho việc tinh chỉnh — mỗi lớp đều hoạt động mọi lúc, giúp đơn giản hóa luồng gradient trong quá trình huấn luyện.

Hỗ trợ video có những giới hạn cứng

Cả năm mô hình đều có thể xử lý video, nhưng video được xử lý như một chuỗi các khung hình với tốc độ một khung hình mỗi giây, tối đa 60 giây. Điều này hữu ích cho các đoạn clip ngắn, bản ghi giao diện người dùng (UI) hoặc tóm tắt một bản demo ngắn — chứ không phải cho phân tích video thời gian thực hoặc nội dung dài.

Thời điểm ngắt kiến thức là tháng 1 năm 2025

Dữ liệu huấn luyện trước của Gemma 4 dừng lại vào tháng 1 năm 2025. Cửa sổ ngữ cảnh 256K không thay đổi được điều này. Đối với các lĩnh vực đã thay đổi kể từ đó, bạn cần tăng cường truy xuất (RAG) hoặc quyền truy cập công cụ thay vì dựa vào kiến thức nội tại của mô hình.

Yêu cầu phần cứng

Đây là các giá trị xấp xỉ cho suy luận đã được quantized. "Tổng bộ nhớ" có nghĩa là RAM + VRAM kết hợp cho các hệ thống bộ nhớ hợp nhất (Apple Silicon, các thiết lập tích hợp), hoặc VRAM khả dụng cho các thiết lập GPU rời.

Mô hình	4-bit quantized	8-bit quantized	Chưa quantized (BF16)
E2B	~5 GB	~15 GB	—
E4B	~8 GB	—	—
26B A4B	~18 GB	~28 GB	—
31B	~20 GB	~34 GB	~80 GB (single H100)

Diễn giải thực tế:

Điện thoại hoặc Raspberry Pi — E2B thông qua LiteRT-LM hoặc AI Edge Gallery.
MacBook Air (8 GB bộ nhớ hợp nhất) — E4B ở mức 4-bit chạy thoải mái.
Laptop hoặc máy tính để bàn với 16 GB RAM — 26B A4B ở mức 4-bit là mục tiêu phù hợp.
RTX 3090 / RTX 4090 (24 GB VRAM) — 26B A4B chạy toàn diện với ngữ cảnh 256K; 31B mức 4-bit là khả thi.
NVIDIA H100 (80 GB) — 31B ở độ chính xác BF16 đầy đủ, không cần quantization.
NVIDIA DGX Spark (128 GB hợp nhất) — 31B mức BF16 với không gian dự phòng.

Một điều đáng lưu ý: tổng số tham số 25,2B của 26B A4B vẫn cần nằm trong bộ nhớ mặc dù chỉ có 3,8B được kích hoạt mỗi bước. Bạn trả chi phí cho việc lưu trữ một lần khi tải; bạn trả chi phí cho lượng tính toán tương đương 3,8B tại mỗi token. Hãy dự trù cho cái trước khi xác định kích thước phần cứng.

Bạn nên chạy mô hình nào?

Chọn E2B nếu: Bạn đang xây dựng các ứng dụng di động ngay trên thiết bị, các agent IoT, hoặc bất cứ thứ gì cần chạy trên điện thoại mà không có kết nối mạng. Cũng là lựa chọn đúng nếu bạn cần đầu vào âm thanh và có bộ nhớ cực kỳ hạn chế.

Chọn E4B nếu: Bạn muốn hỗ trợ đầu vào âm thanh với khả năng lập luận tốt hơn rõ rệt so với E2B, và bạn có một chiếc laptop hoặc GPU tầm trung với 8–16 GB. Đây là lựa chọn mặc định cho các thiết bị biên đối với hầu hết các nhà phát triển không bị giới hạn RAM đến mức tối thiểu tuyệt đối.

Chọn 26B A4B nếu: Bạn có GPU tiêu dùng với bộ nhớ 16–24 GB và muốn chất lượng gần bằng bản 31B với tốc độ suy luận nhanh hơn. Đây là "điểm ngọt" cho các quy trình làm việc của agent cục bộ, trợ lý lập trình và xử lý tài liệu nơi tốc độ quan trọng. Đây cũng là lựa chọn đúng cho bất kỳ triển khai nào mà độ trễ ảnh hưởng đến trải nghiệm người dùng.

Chọn 31B nếu: Bạn muốn đầu ra chất lượng cao nhất trong gia đình mô hình này, bạn đang có kế hoạch tinh chỉnh, hoặc bạn đang chạy trên phần cứng có thể xử lý nó một cách thoải mái. Đừng mặc định chọn 31B chỉ vì nhiều tham số hơn nghe có vẻ tốt hơn — 26B A4B có chất lượng đủ gần để nhiều người dùng sẽ không nhận thấy sự khác biệt trong thực tế.

Nơi truy cập Gemma 4

Google AI Studio — Host sẵn 31B và 26B A4B, không cần thiết lập cục bộ.
Google AI Edge Gallery — Host sẵn E4B và E2B, tối ưu cho thử nghiệm di động.
Hugging Face — Cả năm mô hình dưới tên google/gemma-4-31B-it, google/gemma-4-26B-A4B-it, google/gemma-4-E4B-it, google/gemma-4-E2B-it.
Ollama — ollama run gemma4:e4b, gemma4:26b, v.v.
LM Studio — Thiết lập cục bộ dựa trên giao diện người dùng cho 26B và 31B.
llama.cpp — Suy luận đa nền tảng CPU/GPU.
MLX — Suy luận tối ưu cho Apple Silicon.

Tất cả các trọng số đều có giấy phép Apache 2.0 — không có giới hạn MAU, không có hạn chế sử dụng, cho phép sử dụng thương mại mà không cần thêm điều khoản bổ sung.

Câu hỏi thường gặp (FAQ)

"A4B" trong Gemma 4 26B A4B có nghĩa là gì? Chữ "A" là viết tắt của active parameters (tham số hoạt động). 26B A4B là một mô hình Mixture-of-Experts với 25,2 tỷ tổng tham số, nhưng chỉ có 3,8 tỷ tham số kích hoạt cho mỗi bước suy luận. Nó chạy giống như một mô hình 4B về mặt tính toán trong khi mang lại chất lượng gần với bản full 26B.

"E2B" và "E4B" có nghĩa là gì? Chữ "E" là viết tắt của effective parameters (tham số hiệu dụng). Các mô hình này sử dụng Per-Layer Embeddings (PLE) — một kỹ thuật mà mỗi lớp giải mã có bảng embedding nhỏ riêng. Các mô hình có tổng số tham số nhiều hơn con số "E" gợi ý, nhưng dấu ấn tính toán lúc vận hành của chúng khớp với số lượng tham số hiệu dụng. E2B hoạt động giống như một mô hình 2B khi chạy.

Gemma 4 có hỗ trợ âm thanh không? Trên E2B, E4B và 12B. Các model này hỗ trợ đầu vào âm thanh để nhận dạng giọng nói và dịch âm thanh sang văn bản, tối đa 30 giây mỗi clip. 26B A4B và 31B không hỗ trợ đầu vào âm thanh.

Gemma 4 31B cần bao nhiêu VRAM? Khoảng 20 GB cho suy luận quantized 4-bit, 34 GB cho 8-bit, và một card H100 80 GB cho bản BF16 chưa quantized. Đối với hầu hết người dùng cục bộ, mức 4-bit trên một card RTX 3090 hoặc RTX 4090 (24 GB VRAM) là con đường thực tế nhất.

Sự khác biệt giữa E2B và E4B là gì? Cả hai đều là các mô hình thiết bị đầu cuối hỗ trợ âm thanh và cửa sổ ngữ cảnh 128K. E4B có năng lực hơn: nó đạt 69,4% so với 60,0% trên MMLU Pro, 52,0% so với 44,0% trên LiveCodeBench, và 52,6% so với 44,2% trên MMMU Pro (tầm nhìn). E4B yêu cầu khoảng 8 GB ở mức 4-bit so với 5 GB của E2B. Nếu phần cứng của bạn có thể xử lý E4B, nó là lựa chọn mặc định tốt hơn.

Tôi có thể chạy Gemma 4 26B A4B trên laptop với 16 GB RAM không? Có, ở quantization 4-bit với yêu cầu tổng bộ nhớ khoảng 18 GB. Trên một hệ thống với 16 GB RAM và GPU rời chia sẻ bộ nhớ, bạn có thể nằm ở mức giới hạn. Trên Apple Silicon với 24 GB bộ nhớ hợp nhất, nó chạy thoải mái.

Gemma 4 có tốt hơn Gemma 3 không? Đáng kể. Điểm số toán AIME 2026 tăng từ 20,8% (Gemma 3 27B) lên 89,2% (Gemma 4 31B). LiveCodeBench tăng từ 29,1% lên 80,0%. Truy xuất nhiều kim trong ngữ cảnh dài tăng từ 13,5% lên 66,4%. Đây là những bước nhảy vọt mang tính thế hệ, không phải sự gia tăng nhỏ.