Cách chạy Gemma 4 trong Ollama: Tags, Phần cứng và Chạy lần đầu

Cập nhật ngày 14 tháng 6 năm 2026: Gemma 4 hiện gồm E2B, E4B, 12B, 26B A4B và 31B. 12B bổ sung phân khúc giữa với ngữ cảnh 256K và hỗ trợ âm thanh/video gốc; với các bài hướng dẫn runtime, hãy kiểm tra tình trạng hỗ trợ hiện tại.

Câu trả lời nhanh

Có, Ollama hỗ trợ Gemma 4. Sự hỗ trợ đã cập bến với Ollama v0.20.0 vào ngày 3 tháng 4 năm 2026 — cùng ngày Google phát hành mô hình. Hai câu lệnh giúp bạn bắt đầu chạy:

ollama pull gemma4
ollama run gemma4

Tag mặc định là gemma4:e4b — một mô hình 9,6 GB phù hợp thoải mái trên hầu hết các máy tính của nhà phát triển. Nếu bạn muốn một kích thước khác, hãy xem bảng tag bên dưới trước khi thực hiện pull bất cứ thứ gì.

Tất cả các tag Gemma 4 trên Ollama

Đây là câu hỏi phổ biến nhất trong dữ liệu tìm kiếm, vì vậy nó được đưa lên hàng đầu.

Tag	Kích thước trên đĩa	Cửa sổ ngữ cảnh	Kiến trúc	Đầu vào âm thanh	Sử dụng tốt nhất cho
`gemma4:e2b`	7.2 GB	128K	Dense (2.3B effective)	Có	Laptop, thiết bị biên, ngưỡng phần cứng thấp nhất
`gemma4:e4b` (mặc định)	9.6 GB	128K	Dense (4.5B effective)	Có	Hầu hết nhà phát triển, điểm bắt đầu tốt nhất
`gemma4:26b`	18 GB	256K	MoE (3.8B active)	Không	Chất lượng trên mỗi GB tốt nhất, suy luận nhanh
`gemma4:31b`	20 GB	256K	Dense (30.7B)	Không	Chất lượng tối đa, lập trình, lập luận

Một vài điều đáng lưu ý:

Chữ "E" trong E2B và E4B là viết tắt của các tham số "effective" (hiệu dụng) — đây là các mô hình ưu tiên thiết bị biên được thiết kế cho laptop và thiết bị di động.
gemma4:26b là mô hình Mixture-of-Experts (MoE). Chỉ có 3,8 tỷ tham số hoạt động trong quá trình suy luận, vì vậy nó chạy nhanh hơn so với kích thước tổng thể mà nó gợi ý — thường tương đương về tốc độ với một mô hình dense 4B trong khi mang lại chất lượng gần với mô hình 13B.
gemma4:latest sẽ trỏ về gemma4:e4b. Khi bạn chạy ollama run gemma4 mà không có tag, đó là những gì bạn nhận được.

Điều kiện tiên quyết: Kiểm tra phiên bản Ollama

Gemma 4 yêu cầu Ollama v0.20.0 trở lên. Các bản build cũ hơn sẽ không tải được mô hình. Hãy kiểm tra phiên bản của bạn trước:

ollama --version

Nếu bạn đang dùng phiên bản cũ, hãy cập nhật trước khi thử tải mô hình:

# macOS (Homebrew)
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Trên Windows, hãy tải xuống trình cài đặt mới nhất từ ollama.com.

Yêu cầu phần cứng

Kiểm tra những con số này trước khi tải xuống. Một mô hình vừa đủ khít thường tệ hơn một mô hình nhỏ chạy mượt mà.

Mô hình	RAM / VRAM tối thiểu	Thiết lập thoải mái	Ghi chú
`gemma4:e2b`	8 GB	16 GB	Tốt nhất cho các máy chỉ có CPU
`gemma4:e4b`	10 GB VRAM hoặc 16 GB bộ nhớ hợp nhất	16–24 GB	Mô hình mặc định, vừa với hầu hết GPU người dùng
`gemma4:26b`	20 GB RAM hoặc bộ nhớ hợp nhất	24–32 GB	MoE — suy luận hoạt động nhẹ hơn kích thước gợi ý
`gemma4:31b`	24 GB VRAM hoặc 32 GB bộ nhớ hợp nhất	32 GB+	Ưu tiên chất lượng, không dành cho người mới tải lần đầu

Trên Apple Silicon (M1/M2/M3/M4), bộ nhớ hợp nhất hoạt động tốt cho tất cả các kích thước. Một chiếc Mac với 16 GB RAM xử lý e4b một cách thoải mái. Mô hình 26b vừa khít trên 24 GB nhưng để lại rất ít không gian dự phòng — hãy coi nó là mức trần, không phải mục tiêu.

Trên GPU NVIDIA, các con số VRAM ở trên là giới hạn cứng. Mô hình cần nằm gọn hoàn toàn trong VRAM để suy luận được tăng tốc bằng GPU. Nếu không vừa, Ollama sẽ lùi về dùng CPU, tốc độ sẽ chậm hơn đáng kể.

Các máy chỉ dùng CPU có thể chạy Gemma 4, nhưng hãy mong đợi tốc độ khoảng 1–3 token mỗi giây trên e4b. Hãy sử dụng e2b để có hiệu suất CPU tốt hơn.

Bạn nên chọn mô hình nào?

Hãy bắt đầu với mô hình nhỏ nhất phù hợp thoải mái với phần cứng của bạn, chứ không phải mô hình lớn nhất có thể tải được về mặt kỹ thuật.

Dưới 16 GB RAM / VRAM → bắt đầu với gemma4:e2b.
16 GB RAM hoặc 10+ GB VRAM → gemma4:e4b là lựa chọn mặc định đúng đắn.
Từ 24 GB bộ nhớ hợp nhất hoặc VRAM trở lên → gemma4:26b mang lại chất lượng tốt hơn đáng kể với hiệu quả của MoE.
Từ 32 GB trở lên, chất lượng là quan trọng nhất → gemma4:31b cho các tác vụ lập trình, lập luận và quy mô tài liệu.

Đối với hầu hết các nhà phát triển đang thử nghiệm cục bộ, e4b là câu trả lời đúng. Chỉ nâng cấp quy mô sau khi xác nhận rằng lần chạy đầu tiên mang lại cảm giác ổn định và phản hồi nhanh.

Các câu lệnh Pull và Run

Pull mà không chạy (khuyến nghị cho các mô hình lớn):

ollama pull gemma4          # tải e4b (mặc định, 9,6 GB)
ollama pull gemma4:e2b      # 7,2 GB
ollama pull gemma4:26b      # 18 GB
ollama pull gemma4:31b      # 20 GB

Chạy tương tác:

ollama run gemma4           # khởi chạy e4b
ollama run gemma4:e2b
ollama run gemma4:26b
ollama run gemma4:31b

Kiểm tra những gì bạn đã cài đặt:

ollama list

Kiểm tra mô hình nào hiện đang được nạp vào bộ nhớ:

ollama ps

Sử dụng API cục bộ

Ollama cung cấp một REST API cục bộ tại http://localhost:11434 sau khi mô hình đã chạy. Bạn có thể gọi nó từ bất kỳ HTTP client nào — không phụ thuộc đám mây, không cần khóa API.

curl (tạo văn bản)

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "Giải thích sự khác biệt giữa kiến trúc MoE và dense transformer.",
    "stream": false
  }'

curl (chat, tương thích OpenAI)

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "user", "content": "Viết một hàm Python để phân tích JSON một cách an toàn."}
    ]
  }'

Những gì Gemma 4 có thể làm mà Gemma 3 thì không

Đây không phải là những cải tiến gia tăng — khoảng cách benchmark là rất đáng kể:

Benchmark	Gemma 4 31B	Gemma 4 E4B	Gemma 3 27B
AIME 2026 (lập luận toán học)	89.2%	42.5%	20.8%
LiveCodeBench v6 (lập trình)	80.0%	52.0%	29.1%
Codeforces ELO	2150	940	110
MMLU Pro (kiến thức)	85.2%	69.4%	67.6%
GPQA Diamond (khoa học)	84.3%	58.6%	42.4%

Bên cạnh các benchmark, Gemma 4 bổ sung các khả năng mà Gemma 3 còn thiếu:

Gọi hàm (function calling) gốc — tất cả năm biến thể chính đều hỗ trợ sử dụng công cụ có cấu trúc ngay khi xuất xưởng, trả về JSON hợp lệ khớp với schema của bạn.
Chế độ suy nghĩ (thinking modes) — bạn có thể bật hoặc tắt lập luận chain-of-thought cho mỗi yêu cầu bằng cách sử dụng token <|think|> trong system prompt.
Ngữ cảnh 256K trên các mô hình 26B và 31B (tăng từ 128K trong Gemma 3 27B).
Đầu vào âm thanh trên E2B và E4B — nhận dạng và hiểu giọng nói cùng với văn bản và hình ảnh.
Hơn 140 ngôn ngữ được hỗ trợ gốc.

Chế độ suy nghĩ (Thinking mode)

Gemma 4 hỗ trợ lập luận chain-of-thought có thể cấu hình. Để kích hoạt, hãy bao gồm token <|think|> ở đầu system prompt của bạn.

Để tắt chế độ suy nghĩ, hãy xóa token <|think|> khỏi system prompt. Đối với E2B và E4B, chế độ suy nghĩ sẽ tắt hoàn toàn khi thiếu token này. Đối với 26B và 31B, mô hình vẫn tạo ra các tag thought nhưng với một khối thought trống.

Đối với các tra cứu đơn giản hoặc trò chuyện thông thường, hãy bỏ qua chế độ suy nghĩ. Đối với toán học, lập trình phức tạp hoặc phân tích tài liệu, hãy bật nó — sự khác biệt về chất lượng là rất đáng kể trên các mô hình lớn hơn.

Các lỗi thường gặp và cách khắc phục

Error: gemma4:e4b requires a newer version of Ollama

Bản build Ollama của bạn cũ hơn v0.20.0. Hãy chạy câu lệnh cập nhật cho hệ điều hành của bạn (xem phần Điều kiện tiên quyết ở trên), sau đó thử lại.

Hết bộ nhớ / mô hình không tải được

Kiểm tra VRAM hoặc bộ nhớ hợp nhất khả dụng bằng ollama ps. Nếu mô hình quá lớn, hãy chuyển sang một tag nhỏ hơn. gemma4:e2b (7,2 GB) là tùy chọn chính thức nhẹ nhất.

Phản hồi chậm (1–5 token/giây)

Nếu Ollama không sử dụng GPU của bạn, mô hình đang chạy trên CPU. Hãy kiểm tra xem driver GPU đã được cập nhật chưa và Ollama có nhìn thấy GPU của bạn không. Trên Apple Silicon, hãy đảm bảo bạn đang dùng bản build Ollama gần đây — hỗ trợ tăng tốc MLX đã được thêm vào từ v0.20.0.

Cổng 11434 đã bị chiếm dụng

Một phiên bản Ollama khác đang chạy, hoặc một ứng dụng khác đã chiếm cổng này. Bạn có thể thiết lập một cổng tùy chỉnh:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

Sau đó cập nhật các cuộc gọi API của bạn để sử dụng cổng 11435.

Những gì cần kiểm tra trước khi đổ lỗi cho mô hình

Nếu chất lượng đầu ra cảm thấy tệ hơn mong đợi, hãy kiểm tra danh sách này trước khi chuyển sang mô hình lớn hơn:

Xác nhận bạn đang dùng đúng kích thước mô hình mong muốn — ollama list hiển thị những gì đã cài đặt.
Kiểm tra xem suy luận GPU có đang hoạt động không — ollama ps hiển thị bộ xử lý nào đang được dùng.
Thử bật chế độ suy nghĩ nếu tác vụ liên quan đến lập luận hoặc toán học.
Kiểm tra xem cửa sổ ngữ cảnh có đủ lớn cho toàn bộ prompt không.
Sử dụng các cài đặt lấy mẫu (sampling) được khuyến nghị: temperature=1.0, top_p=0.95, top_k=64.

Trong hầu hết các trường hợp, e4b với chế độ suy nghĩ được kích hoạt có thể xử lý các tác vụ mà ban đầu có vẻ như yêu cầu tới 31b.

Các bước tiếp theo

Nếu Ollama không phù hợp với thiết lập của bạn, có hai lựa chọn thay thế phổ biến:

LM Studio — một môi trường thời gian chạy cục bộ ưu tiên GUI, tốt nếu bạn không thích làm việc với terminal.
llama.cpp — kiểm soát cấu hình nhiều hơn, tốt hơn cho các môi trường hạn chế hoặc ưu tiên CPU.

Nếu bạn muốn thử Gemma 4 mà không cần bất kỳ thiết lập cục bộ nào, Google AI Studio cung cấp quyền truy cập hosted vào các mô hình 31B và 26B.