Hướng dẫn Gemma 4

Yêu cầu phần cứng cho Gemma 4: RAM, VRAM và Hướng dẫn kích thước mô hình

Đọc trong 6 phút
gemma 4hardware requirementsvramram
Yêu cầu phần cứng cho Gemma 4: RAM, VRAM và Hướng dẫn kích thước mô hình

Google DeepMind đã phát hành Gemma 4 vào ngày 2 tháng 4 năm 2026 — bốn mô hình trọng số mở (open-weight) dưới giấy phép Apache 2.0, được xây dựng từ chính hạ tầng nghiên cứu đằng sau Gemini 3. Trước khi bạn tải xuống bất cứ thứ gì, câu hỏi quan trọng nhất duy nhất là: mô hình nào phù hợp với phần cứng của bạn?

Hướng dẫn này sẽ trả lời trực tiếp câu hỏi đó. Bạn sẽ thấy các bảng bộ nhớ theo mô hình và lượng tư hóa, dữ liệu tăng tỷ lệ VRAM theo độ dài ngữ cảnh, các điểm chuẩn (benchmarks) GPU thực tế và một cây quyết định đơn giản để bạn biết mình nên bắt đầu với biến thể nào.


Tổng quan về Gia đình Mô hình Gemma 4

Gemma 4 được cung cấp với bốn quy mô kích thước, mỗi quy mô có hai biến thể là mô hình cơ sở (base) và mô hình đã được tinh chỉnh theo hướng dẫn (instruction-tuned):

Mô hình Kiến trúc Tổng tham số Tham số hoạt động Cửa sổ ngữ cảnh Các loại dữ liệu
E2B Dense (PLE) ~5.1B ~2.3B 128K Văn bản, Hình ảnh, Âm thanh, Video
E4B Dense (PLE) ~5.1B ~4B 128K Văn bản, Hình ảnh, Âm thanh, Video
26B A4B MoE 26B 4B active 256K Văn bản, Hình ảnh, Video
31B Dense 31B 31B 256K Văn bản, Hình ảnh, Video

Tiền tố "E" là viết tắt của Effective parameters (Tham số hiệu dụng). E2B và E4B sử dụng Per-Layer Embeddings (PLE) — một kỹ thuật mang lại cho chúng độ sâu biểu đạt của một mô hình lớn hơn nhiều trong khi vẫn giữ mức sử dụng bộ nhớ thấp. 26B A4B là mô hình Mixture-of-Experts (MoE) đầu tiên của dòng Gemma, chỉ kích hoạt 4 tỷ trong số 26 tỷ tham số của nó trong quá trình suy luận, điều này giúp giảm đáng kể áp lực lên VRAM so với tổng kích thước của nó.


Yêu cầu VRAM của Gemma 4 theo Mô hình và Quantization

Đây là bảng thông tin mà nhiều người đang tìm kiếm. Những con số này đại diện cho bộ nhớ tối thiểu cần thiết để tải mô hình — mức sử dụng thực tế lúc vận hành sẽ cao hơn tùy thuộc vào độ dài ngữ cảnh và chi phí hệ thống (overhead).

Mô hình 4-bit (Q4) 8-bit (Q8) BF16 (độ chính xác đầy đủ)
E2B ~2 GB ~5 GB ~15 GB
E4B ~5 GB ~8 GB ~15 GB
26B A4B ~18 GB ~28 GB ~52 GB
31B ~20 GB ~34 GB ~62 GB

Lưu ý: Các trọng số BF16 của bản 31B vừa vặn trên một GPU NVIDIA H100 80 GB duy nhất. Đối với suy luận cục bộ tiêu dùng, các phiên bản đã lượng tử hóa (Q4 hoặc Q8) là lựa chọn thực tế.

Những điểm rút ra nhanh:

  • E2B và E4B ở mức 4-bit có thể chạy trên laptop với 8 GB RAM hoặc bộ nhớ hợp nhất — bao gồm cả các máy Mac Apple Silicon đời đầu.
  • 26B A4B ở mức Q4 cần khoảng 18 GB nhưng được hưởng lợi từ hiệu quả của MoE — áp lực bộ nhớ hoạt động thấp hơn nhiều so với một mô hình dense 26B.
  • 31B ở mức Q4 cần khoảng 20 GB để tải; một GPU 24 GB có thể chạy nó với độ dài ngữ cảnh ngắn.

Gemma 4 26B A4B: Yêu cầu VRAM theo Độ dài ngữ cảnh

26B A4B là mô hình nổi bật cho người dùng cục bộ. Kiến trúc attention lai của nó có nghĩa là việc mở rộng ngữ cảnh hiệu quả hơn nhiều so với các thế hệ trước — ngữ cảnh dài không làm bùng nổ mức sử dụng VRAM một cách quyết liệt.

26B A4B @ Q4 — VRAM theo độ dài ngữ cảnh (đo lường với llama.cpp trên Debian 12, CUDA 12.8):

Độ dài ngữ cảnh VRAM yêu cầu
4K 17.98 GB
8K 18 GB
16K 18 GB
32K 18 GB
64K 19 GB
128K 20 GB
256K 23 GB

Một GPU 24 GB (RTX 3090, RTX 4090) có thể chạy toàn bộ cửa sổ ngữ cảnh 256K với không gian còn dư. Điều này là hiếm thấy đối với một mô hình chất lượng như thế này, và đó là lý do chính khiến 26B A4B là khuyến nghị hàng đầu cho hầu hết người dùng cục bộ.


Gemma 4 31B: Yêu cầu VRAM theo Độ dài ngữ cảnh

31B là mô hình hoàn toàn dense (dày đặc) — mọi tham số đều hoạt động trong quá trình suy luận. Việc sử dụng bộ nhớ quy mô mạnh hơn theo độ dài ngữ cảnh so với bản MoE 26B.

31B @ Q4 — VRAM theo độ dài ngữ cảnh:

Độ dài ngữ cảnh VRAM yêu cầu
4K 20 GB
8K 21 GB
16K 21 GB
32K 22 GB
64K 25 GB
128K 30 GB
256K 40 GB

Một GPU 24 GB có thể chạy bản 31B với độ dài ngữ cảnh lên tới xấp xỉ 45K token trước khi chạm trần VRAM. Để sử dụng trọn vẹn ngữ cảnh 256K trên bản 31B, bạn cần 40 GB trở lên — điều đó có nghĩa là một GPU máy trạm 48 GB, thiết lập GPU kép, hoặc một máy Mac Apple Silicon với 48–64 GB bộ nhớ hợp nhất.


Điểm chuẩn hiệu năng (Benchmarks) trên GPU

Dữ liệu benchmark thực tế từ llama.cpp (build 8639) trên cùng một hệ thống thử nghiệm (AMD EPYC 7513, 64 GB RAM, Debian 12, CUDA 12.8). pp = các token xử lý prompt trên giây, tg = các token tạo văn bản trên giây.

26B A4B @ Q4

GPU Ngữ cảnh pp (t/s) tg (t/s)
RTX 3090 4K 3,625 119
RTX 3090 128K 1,147 82
RTX 3090 256K 671 64
RTX 5090 4K 8,799 180
RTX 5090 128K 2,839 130
RTX 5090 256K 1,707 106
RTX PRO 6000 Blackwell 4K 9,437 196
RTX PRO 6000 Blackwell 256K 2,245 112

Mô hình 26B A4B mang lại hơn 1.000 token/giây xử lý prompt ở ngữ cảnh 128K trên RTX 3090 — đủ nhanh cho các quy trình công việc (workflows) thực tế của agent.

31B @ Q4

GPU Ngữ cảnh pp (t/s) tg (t/s)
RTX 3090 4K 1,155 34
RTX 3090 32K 723 31
RTX 3090 ~45K 629 30
RTX 5090 4K 3,395 61
RTX 5090 64K 1,459 51
RTX 5090 128K 900 43
RTX PRO 6000 Blackwell 4K 3,749 61
RTX PRO 6000 Blackwell 256K 506 34

Mô hình 31B chậm hơn đáng kể so với bản 26B — việc tạo văn bản trên RTX 3090 nằm trong khoảng 30–34 token/giây so với mức 64–119 của mô hình MoE. Nếu tốc độ quan trọng với quy trình của bạn, 26B A4B là lựa chọn tốt hơn trên phần cứng tiêu dùng.


Khuyến nghị phần cứng theo từng gói thiết lập

Theo Kích thước GPU / Bộ nhớ

Phần cứng của bạn Mô hình khuyến nghị Lưu ý
VRAM 6–8 GB (GTX 1080, RTX 3070, laptop đời đầu) E2B hoặc E4B @ Q4 Những mô hình này cũng chạy tốt trên CPU+RAM, chỉ là chậm hơn
VRAM 10–16 GB (RTX 3080, M2 Pro 16 GB) E4B @ Q8 hoặc E2B @ BF16 26B A4B vẫn còn quá lớn đối với mức Q4
VRAM 20–24 GB (RTX 3090, RTX 4090) 26B A4B @ Q4 (ngữ cảnh 256K đầy đủ) Lựa chọn tối ưu cho hầu hết người dùng cục bộ
VRAM 24 GB 31B @ Q4 (ngữ cảnh lên đến ~45K) Ngữ cảnh bị giới hạn; 26B A4B thường tốt hơn ở đây
VRAM 32 GB (RTX 5090) 31B @ Q4 (ngữ cảnh lên đến 128K) Trải nghiệm 31B thoải mái
VRAM 48–96 GB (RTX PRO 6000 / đa GPU) 31B @ Q4 hoặc Q8 (ngữ cảnh 256K đầy đủ) Ngữ cảnh đầy đủ, chất lượng tối đa

Apple Silicon

Apple Silicon sử dụng bộ nhớ hợp nhất được chia sẻ giữa CPU và GPU, điều này làm cho nó rất phù hợp cho suy luận LLM cục bộ. Tất cả các mô hình Gemma 4 đều hỗ trợ MLX và llama.cpp với tăng tốc Metal.

Cấu hình máy Mac Mô hình khuyến nghị
M1 / M2 (8 GB) E2B hoặc E4B @ Q4
M2 Pro / M3 Pro (18–36 GB) 26B A4B @ Q4
M2 Max / M3 Max (48–64 GB) 31B @ Q4 hoặc Q8
M2 Ultra / M3 Ultra (96–192 GB) 31B @ BF16 (độ chính xác đầy đủ)

Lưu ý thực tế: Bản 26B A4B trên Mac Mini với 24 GB bộ nhớ hợp nhất (Q4_K_M qua Ollama, ~9.6 GB) chạy tốt và vẫn còn dư không gian. Chạy bản 26B ở kích thước đầy đủ trên một máy Mac 24 GB có thể khiến hệ thống gần như không phản hồi dưới các yêu cầu đồng thời — hãy duy trì ở mức Q4 và để lại không gian bộ nhớ dự phòng.


Cách thực hiện việc vận hành Gemma 4 cục bộ

Ba công cụ đáp ứng hầu hết các thiết lập cục bộ:

Ollama — cách dễ nhất để bắt đầu:

ollama run gemma4:e4b          # E4B (mặc định Q4_K_M)
ollama run gemma4:26b-a4b      # 26B MoE
ollama run gemma4:31b          # 31B Dense

llama.cpp — tốt nhất cho suy luận trên CPU và quantization tùy chỉnh:

# Tải về và xây dựng llama.cpp, sau đó:
llama-cli -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL

Unsloth Studio — giao diện web mã nguồn mở, hoạt động trên macOS/Windows/Linux với lệnh cài đặt một dòng:

# macOS / Linux
curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888

LM Studio cũng hỗ trợ các tệp tin Gemma 4 GGUF ngay lập tức và là lựa chọn tốt nếu bạn thích giao diện đồ họa mà không cần thiết lập terminal nào.


26B A4B so với 31B: Bạn nên chọn cái nào?

Sự lựa chọn phụ thuộc vào ngân sách phần cứng và những gì bạn coi trọng hơn.

Chọn 26B A4B nếu:

  • Bạn có GPU 24 GB và muốn sử dụng trọn vẹn ngữ cảnh 256K.
  • Tốc độ quan trọng — nó tạo ra lượng token trên giây nhiều gấp 2–3 lần so với bản 31B trên cùng một phần cứng.
  • Bạn đang chạy các quy trình làm việc của agent, trợ lý lập trình, hoặc bất cứ thứ gì có dấu vết ngữ cảnh dài.

Chọn 31B nếu:

  • Bạn có VRAM 32 GB trở lên hoặc một máy Mac với bộ nhớ hợp nhất lớn.
  • Bạn muốn một mô hình hoàn toàn dày đặc (dense) với hành vi dễ đoán.
  • Bạn đang thực hiện tinh chỉnh và cần quyền truy cập toàn bộ tham số.
  • Chất lượng đầu ra thô ở ngữ cảnh ngắn hơn là ưu tiên hàng đầu của bạn.

Đối với hầu hết người dùng cục bộ trên phần cứng tiêu dùng, 26B A4B là người chiến thắng rõ ràng. Nó vừa vặn sạch sẽ trên một GPU 24 GB, mở rộng đến trọn vẹn cửa sổ ngữ cảnh 256K, và mang lại thông lượng làm cho các quy trình làm việc của agent có cảm giác phản hồi nhanh nhạy.


Câu hỏi thường gặp (FAQ)

Tôi có thể chạy Gemma 4 mà không cần GPU không? Có. Tất cả các biến thể đều chạy được trên chế độ chỉ dùng CPU qua llama.cpp. Hiệu suất giảm xuống xấp xỉ 5–10 token/giây để tạo văn bản, mức này dùng được để thử nghiệm nhưng chậm cho việc sử dụng thường xuyên. E2B và E4B là các lựa chọn thực tế nhất cho thiết lập chỉ dùng CPU.

Sự khác biệt giữa quantization Q4 và Q8 là gì? Q4 (4-bit) giảm mức sử dụng bộ nhớ khoảng 60% so với bản BF16. Q8 (8-bit) giảm khoảng 50%. Q4 mất một lượng nhỏ độ chính xác (xấp xỉ 2–5% trên các benchmark) nhưng làm cho các mô hình dễ tiếp cận hơn nhiều. Đối với hầu hết các nhiệm vụ suy luận, Q4_K_M là điểm bắt đầu được khuyến nghị. Hãy sử dụng Q8 nếu bạn có đủ VRAM và muốn đầu ra gần với độ chính xác đầy đủ hơn.

Gemma 4 có hỗ trợ tinh chỉnh (fine-tuning) trên phần cứng tiêu dùng không? Có, sử dụng QLoRA (Quantized LoRA). Mô hình 31B có thể được tinh chỉnh chỉ với 16 GB VRAM bằng cách sử dụng QLoRA qua Unsloth hoặc TRL. Việc tinh chỉnh toàn phần yêu cầu nhiều hơn đáng kể — ít nhất là 80 GB VRAM cho bản 31B.

Sự khác biệt giữa E2B, E4B và các mô hình lớn hơn là gì? E2B và E4B được thiết kế để sử dụng trên thiết bị và di động. Chúng sử dụng Per-Layer Embeddings (PLE) để đạt hiệu năng vượt xa số lượng tham số của mình và hỗ trợ đầu vào âm thanh (lên đến 30 giây). Các bản 26B và 31B được thiết kế cho máy trạm và máy chủ, với ngữ cảnh 256K và khả năng lập luận mạnh mẽ hơn. Cả bốn mô hình đều hỗ trợ đầu vào hình ảnh và video.

Gemma 4 có miễn phí cho việc sử dụng thương mại không? Có. Gemma 4 được phát hành dưới giấy phép Apache 2.0, cho phép sử dụng thương mại miễn phí, tinh chỉnh, phân phối lại và sửa đổi mà không giới hạn MAU hay hạn chế trường hợp sử dụng.

Tôi có cần cộng thêm VRAM cho cửa sổ ngữ cảnh không? Có. Những con số trong hướng dẫn này là bộ nhớ cần thiết chỉ để tải các trọng số mô hình. Việc chạy với cửa sổ ngữ cảnh lớn hơn sẽ cộng thêm vào đó. Tới bản 26B A4B, mức cộng thêm khá khiêm tốn (18 GB ở 4K → 23 GB ở 256K). Đối với bản 31B, mức tăng lớn hơn (20 GB ở 4K → 40 GB ở 256K). Luôn để lại ít nhất 2–4 GB không gian dự phòng bên trên kích thước mô hình cho runtime, KV cache và chi phí hệ thống.


Tóm tắt

Nếu bạn đang quyết định xem nên bắt đầu từ đâu, đây là phiên bản ngắn gọn:

  • Máy cấu hình nhẹ (RAM/VRAM 8 GB): Bắt đầu với E2B hoặc E4B ở mức Q4.
  • Máy cấu hình tầm trung (16–20 GB): Thử E4B ở mức Q8 hoặc 26B A4B với mức quantization mạnh.
  • GPU 24 GB (RTX 3090 / 4090): 26B A4B ở mức Q4 — chạy trọn vẹn ngữ cảnh 256K một cách thoải mái. Đây là điểm tối ưu nhất.
  • GPU 32 GB (RTX 5090) hoặc Mac 48 GB+: 31B ở mức Q4 cho trọn vẹn ngữ cảnh và chất lượng tối đa.

Gia đình Gemma 4 là một trong những đợt phát hành mô hình mở hiệu quả nhất về phần cứng cho đến nay. Đặc biệt, bản MoE 26B giúp việc suy luận ngữ cảnh 256K đầy đủ có thể tiếp cận được trên phần cứng mà trước đây không bao giờ có thể chạm tới những con số đó.

Các bài viết nên đọc tiếp theo

Hướng dẫn liên quan

Tiếp tục khám phá cụm nội dung Gemma 4 với bài hướng dẫn tiếp theo phù hợp với quyết định hiện tại của bạn.

Vẫn chưa biết nên đọc gì tiếp theo?

Quay lại trung tâm hướng dẫn để duyệt các bài so sánh model, hướng dẫn cài đặt và trang lập kế hoạch phần cứng.