Hướng dẫn Gemma 4
Yêu cầu phần cứng cho Gemma 4: RAM, VRAM và Hướng dẫn kích thước mô hình

Google DeepMind đã phát hành Gemma 4 vào ngày 2 tháng 4 năm 2026 — bốn mô hình trọng số mở (open-weight) dưới giấy phép Apache 2.0, được xây dựng từ chính hạ tầng nghiên cứu đằng sau Gemini 3. Trước khi bạn tải xuống bất cứ thứ gì, câu hỏi quan trọng nhất duy nhất là: mô hình nào phù hợp với phần cứng của bạn?
Hướng dẫn này sẽ trả lời trực tiếp câu hỏi đó. Bạn sẽ thấy các bảng bộ nhớ theo mô hình và lượng tư hóa, dữ liệu tăng tỷ lệ VRAM theo độ dài ngữ cảnh, các điểm chuẩn (benchmarks) GPU thực tế và một cây quyết định đơn giản để bạn biết mình nên bắt đầu với biến thể nào.
Tổng quan về Gia đình Mô hình Gemma 4
Gemma 4 được cung cấp với bốn quy mô kích thước, mỗi quy mô có hai biến thể là mô hình cơ sở (base) và mô hình đã được tinh chỉnh theo hướng dẫn (instruction-tuned):
| Mô hình | Kiến trúc | Tổng tham số | Tham số hoạt động | Cửa sổ ngữ cảnh | Các loại dữ liệu |
|---|---|---|---|---|---|
| E2B | Dense (PLE) | ~5.1B | ~2.3B | 128K | Văn bản, Hình ảnh, Âm thanh, Video |
| E4B | Dense (PLE) | ~5.1B | ~4B | 128K | Văn bản, Hình ảnh, Âm thanh, Video |
| 26B A4B | MoE | 26B | 4B active | 256K | Văn bản, Hình ảnh, Video |
| 31B | Dense | 31B | 31B | 256K | Văn bản, Hình ảnh, Video |
Tiền tố "E" là viết tắt của Effective parameters (Tham số hiệu dụng). E2B và E4B sử dụng Per-Layer Embeddings (PLE) — một kỹ thuật mang lại cho chúng độ sâu biểu đạt của một mô hình lớn hơn nhiều trong khi vẫn giữ mức sử dụng bộ nhớ thấp. 26B A4B là mô hình Mixture-of-Experts (MoE) đầu tiên của dòng Gemma, chỉ kích hoạt 4 tỷ trong số 26 tỷ tham số của nó trong quá trình suy luận, điều này giúp giảm đáng kể áp lực lên VRAM so với tổng kích thước của nó.
Yêu cầu VRAM của Gemma 4 theo Mô hình và Quantization
Đây là bảng thông tin mà nhiều người đang tìm kiếm. Những con số này đại diện cho bộ nhớ tối thiểu cần thiết để tải mô hình — mức sử dụng thực tế lúc vận hành sẽ cao hơn tùy thuộc vào độ dài ngữ cảnh và chi phí hệ thống (overhead).
| Mô hình | 4-bit (Q4) | 8-bit (Q8) | BF16 (độ chính xác đầy đủ) |
|---|---|---|---|
| E2B | ~2 GB | ~5 GB | ~15 GB |
| E4B | ~5 GB | ~8 GB | ~15 GB |
| 26B A4B | ~18 GB | ~28 GB | ~52 GB |
| 31B | ~20 GB | ~34 GB | ~62 GB |
Lưu ý: Các trọng số BF16 của bản 31B vừa vặn trên một GPU NVIDIA H100 80 GB duy nhất. Đối với suy luận cục bộ tiêu dùng, các phiên bản đã lượng tử hóa (Q4 hoặc Q8) là lựa chọn thực tế.
Những điểm rút ra nhanh:
- E2B và E4B ở mức 4-bit có thể chạy trên laptop với 8 GB RAM hoặc bộ nhớ hợp nhất — bao gồm cả các máy Mac Apple Silicon đời đầu.
- 26B A4B ở mức Q4 cần khoảng 18 GB nhưng được hưởng lợi từ hiệu quả của MoE — áp lực bộ nhớ hoạt động thấp hơn nhiều so với một mô hình dense 26B.
- 31B ở mức Q4 cần khoảng 20 GB để tải; một GPU 24 GB có thể chạy nó với độ dài ngữ cảnh ngắn.
Gemma 4 26B A4B: Yêu cầu VRAM theo Độ dài ngữ cảnh
26B A4B là mô hình nổi bật cho người dùng cục bộ. Kiến trúc attention lai của nó có nghĩa là việc mở rộng ngữ cảnh hiệu quả hơn nhiều so với các thế hệ trước — ngữ cảnh dài không làm bùng nổ mức sử dụng VRAM một cách quyết liệt.
26B A4B @ Q4 — VRAM theo độ dài ngữ cảnh (đo lường với llama.cpp trên Debian 12, CUDA 12.8):
| Độ dài ngữ cảnh | VRAM yêu cầu |
|---|---|
| 4K | 17.98 GB |
| 8K | 18 GB |
| 16K | 18 GB |
| 32K | 18 GB |
| 64K | 19 GB |
| 128K | 20 GB |
| 256K | 23 GB |
Một GPU 24 GB (RTX 3090, RTX 4090) có thể chạy toàn bộ cửa sổ ngữ cảnh 256K với không gian còn dư. Điều này là hiếm thấy đối với một mô hình chất lượng như thế này, và đó là lý do chính khiến 26B A4B là khuyến nghị hàng đầu cho hầu hết người dùng cục bộ.
Gemma 4 31B: Yêu cầu VRAM theo Độ dài ngữ cảnh
31B là mô hình hoàn toàn dense (dày đặc) — mọi tham số đều hoạt động trong quá trình suy luận. Việc sử dụng bộ nhớ quy mô mạnh hơn theo độ dài ngữ cảnh so với bản MoE 26B.
31B @ Q4 — VRAM theo độ dài ngữ cảnh:
| Độ dài ngữ cảnh | VRAM yêu cầu |
|---|---|
| 4K | 20 GB |
| 8K | 21 GB |
| 16K | 21 GB |
| 32K | 22 GB |
| 64K | 25 GB |
| 128K | 30 GB |
| 256K | 40 GB |
Một GPU 24 GB có thể chạy bản 31B với độ dài ngữ cảnh lên tới xấp xỉ 45K token trước khi chạm trần VRAM. Để sử dụng trọn vẹn ngữ cảnh 256K trên bản 31B, bạn cần 40 GB trở lên — điều đó có nghĩa là một GPU máy trạm 48 GB, thiết lập GPU kép, hoặc một máy Mac Apple Silicon với 48–64 GB bộ nhớ hợp nhất.
Điểm chuẩn hiệu năng (Benchmarks) trên GPU
Dữ liệu benchmark thực tế từ llama.cpp (build 8639) trên cùng một hệ thống thử nghiệm (AMD EPYC 7513, 64 GB RAM, Debian 12, CUDA 12.8). pp = các token xử lý prompt trên giây, tg = các token tạo văn bản trên giây.
26B A4B @ Q4
| GPU | Ngữ cảnh | pp (t/s) | tg (t/s) |
|---|---|---|---|
| RTX 3090 | 4K | 3,625 | 119 |
| RTX 3090 | 128K | 1,147 | 82 |
| RTX 3090 | 256K | 671 | 64 |
| RTX 5090 | 4K | 8,799 | 180 |
| RTX 5090 | 128K | 2,839 | 130 |
| RTX 5090 | 256K | 1,707 | 106 |
| RTX PRO 6000 Blackwell | 4K | 9,437 | 196 |
| RTX PRO 6000 Blackwell | 256K | 2,245 | 112 |
Mô hình 26B A4B mang lại hơn 1.000 token/giây xử lý prompt ở ngữ cảnh 128K trên RTX 3090 — đủ nhanh cho các quy trình công việc (workflows) thực tế của agent.
31B @ Q4
| GPU | Ngữ cảnh | pp (t/s) | tg (t/s) |
|---|---|---|---|
| RTX 3090 | 4K | 1,155 | 34 |
| RTX 3090 | 32K | 723 | 31 |
| RTX 3090 | ~45K | 629 | 30 |
| RTX 5090 | 4K | 3,395 | 61 |
| RTX 5090 | 64K | 1,459 | 51 |
| RTX 5090 | 128K | 900 | 43 |
| RTX PRO 6000 Blackwell | 4K | 3,749 | 61 |
| RTX PRO 6000 Blackwell | 256K | 506 | 34 |
Mô hình 31B chậm hơn đáng kể so với bản 26B — việc tạo văn bản trên RTX 3090 nằm trong khoảng 30–34 token/giây so với mức 64–119 của mô hình MoE. Nếu tốc độ quan trọng với quy trình của bạn, 26B A4B là lựa chọn tốt hơn trên phần cứng tiêu dùng.
Khuyến nghị phần cứng theo từng gói thiết lập
Theo Kích thước GPU / Bộ nhớ
| Phần cứng của bạn | Mô hình khuyến nghị | Lưu ý |
|---|---|---|
| VRAM 6–8 GB (GTX 1080, RTX 3070, laptop đời đầu) | E2B hoặc E4B @ Q4 | Những mô hình này cũng chạy tốt trên CPU+RAM, chỉ là chậm hơn |
| VRAM 10–16 GB (RTX 3080, M2 Pro 16 GB) | E4B @ Q8 hoặc E2B @ BF16 | 26B A4B vẫn còn quá lớn đối với mức Q4 |
| VRAM 20–24 GB (RTX 3090, RTX 4090) | 26B A4B @ Q4 (ngữ cảnh 256K đầy đủ) | Lựa chọn tối ưu cho hầu hết người dùng cục bộ |
| VRAM 24 GB | 31B @ Q4 (ngữ cảnh lên đến ~45K) | Ngữ cảnh bị giới hạn; 26B A4B thường tốt hơn ở đây |
| VRAM 32 GB (RTX 5090) | 31B @ Q4 (ngữ cảnh lên đến 128K) | Trải nghiệm 31B thoải mái |
| VRAM 48–96 GB (RTX PRO 6000 / đa GPU) | 31B @ Q4 hoặc Q8 (ngữ cảnh 256K đầy đủ) | Ngữ cảnh đầy đủ, chất lượng tối đa |
Apple Silicon
Apple Silicon sử dụng bộ nhớ hợp nhất được chia sẻ giữa CPU và GPU, điều này làm cho nó rất phù hợp cho suy luận LLM cục bộ. Tất cả các mô hình Gemma 4 đều hỗ trợ MLX và llama.cpp với tăng tốc Metal.
| Cấu hình máy Mac | Mô hình khuyến nghị |
|---|---|
| M1 / M2 (8 GB) | E2B hoặc E4B @ Q4 |
| M2 Pro / M3 Pro (18–36 GB) | 26B A4B @ Q4 |
| M2 Max / M3 Max (48–64 GB) | 31B @ Q4 hoặc Q8 |
| M2 Ultra / M3 Ultra (96–192 GB) | 31B @ BF16 (độ chính xác đầy đủ) |
Lưu ý thực tế: Bản 26B A4B trên Mac Mini với 24 GB bộ nhớ hợp nhất (Q4_K_M qua Ollama, ~9.6 GB) chạy tốt và vẫn còn dư không gian. Chạy bản 26B ở kích thước đầy đủ trên một máy Mac 24 GB có thể khiến hệ thống gần như không phản hồi dưới các yêu cầu đồng thời — hãy duy trì ở mức Q4 và để lại không gian bộ nhớ dự phòng.
Cách thực hiện việc vận hành Gemma 4 cục bộ
Ba công cụ đáp ứng hầu hết các thiết lập cục bộ:
Ollama — cách dễ nhất để bắt đầu:
ollama run gemma4:e4b # E4B (mặc định Q4_K_M)
ollama run gemma4:26b-a4b # 26B MoE
ollama run gemma4:31b # 31B Dense
llama.cpp — tốt nhất cho suy luận trên CPU và quantization tùy chỉnh:
# Tải về và xây dựng llama.cpp, sau đó:
llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL
Unsloth Studio — giao diện web mã nguồn mở, hoạt động trên macOS/Windows/Linux với lệnh cài đặt một dòng:
# macOS / Linux
curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888
LM Studio cũng hỗ trợ các tệp tin Gemma 4 GGUF ngay lập tức và là lựa chọn tốt nếu bạn thích giao diện đồ họa mà không cần thiết lập terminal nào.
26B A4B so với 31B: Bạn nên chọn cái nào?
Sự lựa chọn phụ thuộc vào ngân sách phần cứng và những gì bạn coi trọng hơn.
Chọn 26B A4B nếu:
- Bạn có GPU 24 GB và muốn sử dụng trọn vẹn ngữ cảnh 256K.
- Tốc độ quan trọng — nó tạo ra lượng token trên giây nhiều gấp 2–3 lần so với bản 31B trên cùng một phần cứng.
- Bạn đang chạy các quy trình làm việc của agent, trợ lý lập trình, hoặc bất cứ thứ gì có dấu vết ngữ cảnh dài.
Chọn 31B nếu:
- Bạn có VRAM 32 GB trở lên hoặc một máy Mac với bộ nhớ hợp nhất lớn.
- Bạn muốn một mô hình hoàn toàn dày đặc (dense) với hành vi dễ đoán.
- Bạn đang thực hiện tinh chỉnh và cần quyền truy cập toàn bộ tham số.
- Chất lượng đầu ra thô ở ngữ cảnh ngắn hơn là ưu tiên hàng đầu của bạn.
Đối với hầu hết người dùng cục bộ trên phần cứng tiêu dùng, 26B A4B là người chiến thắng rõ ràng. Nó vừa vặn sạch sẽ trên một GPU 24 GB, mở rộng đến trọn vẹn cửa sổ ngữ cảnh 256K, và mang lại thông lượng làm cho các quy trình làm việc của agent có cảm giác phản hồi nhanh nhạy.
Câu hỏi thường gặp (FAQ)
Tôi có thể chạy Gemma 4 mà không cần GPU không? Có. Tất cả các biến thể đều chạy được trên chế độ chỉ dùng CPU qua llama.cpp. Hiệu suất giảm xuống xấp xỉ 5–10 token/giây để tạo văn bản, mức này dùng được để thử nghiệm nhưng chậm cho việc sử dụng thường xuyên. E2B và E4B là các lựa chọn thực tế nhất cho thiết lập chỉ dùng CPU.
Sự khác biệt giữa quantization Q4 và Q8 là gì? Q4 (4-bit) giảm mức sử dụng bộ nhớ khoảng 60% so với bản BF16. Q8 (8-bit) giảm khoảng 50%. Q4 mất một lượng nhỏ độ chính xác (xấp xỉ 2–5% trên các benchmark) nhưng làm cho các mô hình dễ tiếp cận hơn nhiều. Đối với hầu hết các nhiệm vụ suy luận, Q4_K_M là điểm bắt đầu được khuyến nghị. Hãy sử dụng Q8 nếu bạn có đủ VRAM và muốn đầu ra gần với độ chính xác đầy đủ hơn.
Gemma 4 có hỗ trợ tinh chỉnh (fine-tuning) trên phần cứng tiêu dùng không? Có, sử dụng QLoRA (Quantized LoRA). Mô hình 31B có thể được tinh chỉnh chỉ với 16 GB VRAM bằng cách sử dụng QLoRA qua Unsloth hoặc TRL. Việc tinh chỉnh toàn phần yêu cầu nhiều hơn đáng kể — ít nhất là 80 GB VRAM cho bản 31B.
Sự khác biệt giữa E2B, E4B và các mô hình lớn hơn là gì? E2B và E4B được thiết kế để sử dụng trên thiết bị và di động. Chúng sử dụng Per-Layer Embeddings (PLE) để đạt hiệu năng vượt xa số lượng tham số của mình và hỗ trợ đầu vào âm thanh (lên đến 30 giây). Các bản 26B và 31B được thiết kế cho máy trạm và máy chủ, với ngữ cảnh 256K và khả năng lập luận mạnh mẽ hơn. Cả bốn mô hình đều hỗ trợ đầu vào hình ảnh và video.
Gemma 4 có miễn phí cho việc sử dụng thương mại không? Có. Gemma 4 được phát hành dưới giấy phép Apache 2.0, cho phép sử dụng thương mại miễn phí, tinh chỉnh, phân phối lại và sửa đổi mà không giới hạn MAU hay hạn chế trường hợp sử dụng.
Tôi có cần cộng thêm VRAM cho cửa sổ ngữ cảnh không? Có. Những con số trong hướng dẫn này là bộ nhớ cần thiết chỉ để tải các trọng số mô hình. Việc chạy với cửa sổ ngữ cảnh lớn hơn sẽ cộng thêm vào đó. Tới bản 26B A4B, mức cộng thêm khá khiêm tốn (18 GB ở 4K → 23 GB ở 256K). Đối với bản 31B, mức tăng lớn hơn (20 GB ở 4K → 40 GB ở 256K). Luôn để lại ít nhất 2–4 GB không gian dự phòng bên trên kích thước mô hình cho runtime, KV cache và chi phí hệ thống.
Tóm tắt
Nếu bạn đang quyết định xem nên bắt đầu từ đâu, đây là phiên bản ngắn gọn:
- Máy cấu hình nhẹ (RAM/VRAM 8 GB): Bắt đầu với E2B hoặc E4B ở mức Q4.
- Máy cấu hình tầm trung (16–20 GB): Thử E4B ở mức Q8 hoặc 26B A4B với mức quantization mạnh.
- GPU 24 GB (RTX 3090 / 4090): 26B A4B ở mức Q4 — chạy trọn vẹn ngữ cảnh 256K một cách thoải mái. Đây là điểm tối ưu nhất.
- GPU 32 GB (RTX 5090) hoặc Mac 48 GB+: 31B ở mức Q4 cho trọn vẹn ngữ cảnh và chất lượng tối đa.
Gia đình Gemma 4 là một trong những đợt phát hành mô hình mở hiệu quả nhất về phần cứng cho đến nay. Đặc biệt, bản MoE 26B giúp việc suy luận ngữ cảnh 256K đầy đủ có thể tiếp cận được trên phần cứng mà trước đây không bao giờ có thể chạm tới những con số đó.
Các bài viết nên đọc tiếp theo
Hướng dẫn liên quan
Tiếp tục khám phá cụm nội dung Gemma 4 với bài hướng dẫn tiếp theo phù hợp với quyết định hiện tại của bạn.

Yêu cầu VRAM của Gemma 4 26B A4B: Q4, Q8, F16 và mức phù hợp với GPU 24 GB
Hướng dẫn tập trung về VRAM cho Gemma 4 26B A4B với kích thước GGUF chính xác, các phạm vi lập kế hoạch và lý do tại sao 26B là 'điểm ngọt' cho việc sử dụng cục bộ.

Yêu cầu VRAM của Gemma 4 31B: Q4, Q8, F16 và phần cứng thực tế
Hướng dẫn tập trung về VRAM cho Gemma 4 31B với kích thước GGUF chính xác, các phạm vi lập kế hoạch và lời khuyên thẳng thắn về loại phần cứng nào là hợp lý.

Yêu cầu VRAM của Gemma 4 E2B: Q4, Q8, F16 và mức phù hợp cho thiết bị Edge
Hướng dẫn tập trung về VRAM cho Gemma 4 E2B với kích thước file chính xác, các phạm vi lập kế hoạch thực tế và lời khuyên thẳng thắn về thời điểm E2B là sự lựa chọn phù hợp.
Vẫn chưa biết nên đọc gì tiếp theo?
Quay lại trung tâm hướng dẫn để duyệt các bài so sánh model, hướng dẫn cài đặt và trang lập kế hoạch phần cứng.
