Gemma 4 A4B vs E4B: Ý nghĩa thực sự của tên gọi và cách chọn model

Cách đặt tên này gây nhầm lẫn cho hầu hết mọi người. Cả E4B và 26B A4B đều có "4B" trong tên, nhưng "4B" này có nghĩa hoàn toàn khác nhau trong mỗi trường hợp, và hai model có kiến trúc hoàn toàn khác nhau. Đây là những gì bạn thực sự cần biết.

E4B có nghĩa là gì

"E" trong E4B là viết tắt của effective parameters (tham số hiệu quả), không phải edge hay efficient. Google sử dụng kỹ thuật gọi là Per-Layer Embeddings (PLE): mỗi lớp decoder có bảng embedding nhỏ riêng của mình, cung cấp tín hiệu residual cho tính toán của lớp đó. Các bảng này lớn trên đĩa nhưng tốn ít tài nguyên tính toán — đó là lý do tại sao model hoạt động như model 4,5B tham số khi chạy, mặc dù tổng số trọng số kể cả embedding đạt khoảng 8B.

Kết quả là một model nhỏ gọn nhưng có độ sâu biểu diễn lớn hơn những gì con số tham số gợi ý. E4B được thiết kế cho điện thoại và laptop — nhắm đến phạm vi 8–16 GB RAM.

E4B cũng hỗ trợ đầu vào âm thanh theo cách native, điều mà 26B A4B lớn hơn không có. Nếu âm thanh là một phần trong trường hợp sử dụng của bạn, E4B hiện là model cục bộ lớn nhất hỗ trợ tính năng này.

Cửa sổ ngữ cảnh: 128K token.

26B A4B có nghĩa là gì

"A" trong 26B A4B là viết tắt của active parameters (tham số hoạt động). 26B A4B là model Mixture-of-Experts (MoE) với khoảng 25,2 tỷ tham số tổng cộng, nhưng chỉ khoảng 3,8 tỷ được kích hoạt trong mỗi bước suy luận. Lúc chạy, nó hoạt động nhanh gần như model 4B, nhưng truy cập vào tập trọng số chuyên gia phong phú hơn nhiều.

Đây là lý do tại sao A4B cảm thấy mạnh mẽ hơn nhiều so với E4B trong các tác vụ phức tạp: model có tổng kiến thức lớn hơn rất nhiều, dù mỗi lần suy luận chỉ dùng một phần. Tuy nhiên, chi phí bộ nhớ là thực tế — tất cả 26B trọng số cần được tải vào RAM, dù chỉ một phần được kích hoạt mỗi token.

Cửa sổ ngữ cảnh: 256K token. Không có đầu vào âm thanh native.

Yêu cầu bộ nhớ

Các con số dưới đây từ tổng quan model chính thức của Google (giả định ~20% overhead). Đo lường thực tế của Unsloth đặt tải 26B A4B Q4 vào khoảng 18 GB, cao hơn ước tính cơ sở của Google.

Model	Q4	Q8	BF16
Gemma 4 E2B	~2,9 GB	~5,7 GB	~11,4 GB
Gemma 4 E4B	~4,5 GB	~8,9 GB	~17,9 GB
Gemma 4 12B	~6,7 GB	~13,4 GB	~26,7 GB
Gemma 4 26B A4B	~14,4–18 GB	~28 GB	~52–58 GB
Gemma 4 31B	~17,5 GB	~34,9 GB	~69,9 GB

Đây là ước tính tải model. Cần cộng thêm KV cache (tăng theo độ dài ngữ cảnh). Với ngữ cảnh dài, bộ nhớ KV cache có thể vượt quá bộ nhớ trọng số model.

Sự khác biệt chất lượng trong thực tế

E4B là model có khả năng đủ dùng cho chat, tóm tắt, trích xuất và agent đơn giản. Đây không phải model yếu — PLE giúp nó vượt trội hơn phân khúc của mình. Nhưng với các tác vụ đòi hỏi suy luận nhiều bước, lập trình phức tạp và hiểu tài liệu dài, 26B A4B nhất quán vượt trội hơn E4B.

Sự khác biệt rõ nhất khi:

Tác vụ lập trình yêu cầu theo dõi nhiều phụ thuộc trong một file lớn
Tác vụ suy luận yêu cầu nhiều bước suy luận trước khi đến kết luận
Tài liệu đủ dài để ngữ cảnh sớm ảnh hưởng đáng kể đến kết luận sau
Đầu ra có cấu trúc yêu cầu tuân thủ chỉ dẫn chính xác theo nhiều ràng buộc

Đối với chat hàng ngày, tóm tắt nhanh và khám phá prompt, sự khác biệt thực tế thường đủ nhỏ để E4B là lựa chọn tốt hơn — tải nhanh hơn và ít áp lực bộ nhớ hơn.

Model nào cho phần cứng của bạn

Máy của bạn	Bắt đầu tại đây
Laptop 8 GB RAM	E2B Q4, hoặc E4B Q4 nếu vừa thoải mái
Mac hoặc PC 16 GB	E4B Q4 — 26B A4B quá chật ở mức bộ nhớ này
GPU 24 GB	26B A4B Q4 vừa; đây là phần cứng mục tiêu
Hệ thống 32 GB	26B A4B Q4 thoải mái; có thêm không gian cho ngữ cảnh
48 GB trở lên	26B A4B Q8, hoặc 31B Q4
Workstation 64 GB trở lên	31B Q8, hoặc so sánh 26B A4B Q8 vs 31B Q4

Đừng cố chạy 26B A4B trên hệ thống 16 GB với Q4 trừ khi bạn hiểu mình đang chấp nhận điều gì: chỉ riêng việc tải model đã sử dụng gần hết RAM trước khi tính đến ngữ cảnh và overhead runtime, điều này sẽ đẩy bạn vào vùng swap bộ nhớ chậm.

Tốc độ

Vì chỉ ~3,8B tham số được kích hoạt mỗi bước suy luận, 26B A4B chạy với tốc độ gần bằng model dày đặc 4B — mặc dù có 26B tham số tổng cộng. Trên cùng phần cứng, nó thường nhanh hơn 31B dày đặc và nhanh hơn đáng kể so với bất kỳ model dày đặc 26B nào.

E4B nhanh hơn theo thời gian thực đơn giản vì là model nhỏ hơn và tải nhanh hơn.

Nên chọn cái nào

Nếu bạn đang thử Gemma 4 lần đầu và máy có 8–16 GB RAM: bắt đầu với E4B Q4. Tải nhanh, xử lý tốt hầu hết tác vụ hàng ngày, và giúp bạn tìm hiểu xem Gemma 4 có phù hợp với workflow của bạn không.

Nếu bạn có GPU 24 GB trở lên và cần suy luận mạnh hơn, hỗ trợ lập trình, hoặc làm việc với ngữ cảnh dài: dùng 26B A4B Q4.

Nếu chất lượng là ưu tiên hàng đầu và bộ nhớ không phải giới hạn: 31B vẫn là model tốt nhất trong dòng sản phẩm.

26B A4B không phải là lựa chọn thỏa hiệp. Đây là lựa chọn được đề xuất cho người dùng power user cục bộ có đủ bộ nhớ. E4B là lựa chọn được đề xuất cho tất cả mọi người dùng laptop và điện thoại tiêu dùng.

Câu hỏi thường gặp

E4B có hỗ trợ đầu vào âm thanh không?
Có. E4B (cũng như E2B và 12B) hỗ trợ đầu vào âm thanh theo cách native. 26B A4B và 31B thì không.

Tại sao E4B cần nhiều bộ nhớ hơn số tham số của nó gợi ý?
Do Per-Layer Embeddings. Các bảng embedding làm tăng kích thước trên đĩa và dung lượng bộ nhớ, mặc dù chúng không được tính vào số tham số "hiệu quả" mà Google quảng cáo.

Tại sao 26B A4B được gọi là 26B nếu chỉ ~3,8B được kích hoạt?
Vì model tải 26B tham số tổng cộng phân tán qua nhiều mạng chuyên gia vào bộ nhớ, nhưng chỉ kích hoạt một tập con trong mỗi lần chuyển tiếp. Đó là cách hoạt động của các model MoE.

Tôi có thể chạy 26B A4B trên máy 16 GB không?
Về mặt kỹ thuật có thể trong một số cấu hình, nhưng không được khuyến nghị. Ở Q4, chỉ riêng việc tải model đã tiếp cận giới hạn bộ nhớ trước khi tính ngữ cảnh, KV cache hoặc overhead runtime.

Hướng dẫn liên quan:

Gemma 4 A4B vs E4B: Ý nghĩa thực sự của tên gọi và cách chọn model

E4B có nghĩa là gì

26B A4B có nghĩa là gì

Yêu cầu bộ nhớ

Sự khác biệt chất lượng trong thực tế

Model nào cho phần cứng của bạn

Tốc độ

Nên chọn cái nào

Câu hỏi thường gặp

Hướng dẫn liên quan

So sánh các mô hình Gemma 4: 31B vs 26B A4B vs E4B vs E2B

DiffusionGemma có hoạt động trong LM Studio không? Tình trạng hiện tại (tháng 6/2026)

Sửa lỗi "unknown model architecture" cho gemma4 và diffusion-gemma trong llama.cpp

Vẫn chưa biết nên đọc gì tiếp theo?