DiffusionGemma có hoạt động trong LM Studio không? Tình trạng hiện tại (tháng 6/2026)

Không, DiffusionGemma không hoạt động trong LM Studio ngay lúc này. Đây không phải vấn đề cấu hình hay vấn đề file. Các runtime đi kèm với LM Studio — cả engine llama.cpp lẫn engine MLX cho Apple Silicon — đều không hỗ trợ kiến trúc diffusion-gemma. Hai bug report đã được xác nhận trên GitHub đang theo dõi vấn đề này.

Điều thực sự xảy ra khi bạn thử

Trên Apple Silicon (đường dẫn MLX)

Khi bạn cố tải DiffusionGemma qua engine MLX của LM Studio (phiên bản 1.8.5):

Failed to load model.
Error when loading model: ValueError: Model type diffusion_gemma not supported.
Error: No module named 'mlx_vlm.speculative.drafters.diffusion_gemma'

Nguyên nhân là LM Studio đi kèm mlx-vlm 0.4.5 (build phát triển tháng 4/2026). DiffusionGemma yêu cầu mlx-vlm 0.6.3 trở lên. Bạn không thể sửa bằng cách cập nhật engine LM Studio trong ứng dụng — phiên bản thư viện đi kèm là vậy cho đến khi LM Studio phát hành bản cập nhật.

Theo dõi tại: lmstudio-bug-tracker #2037

Trên Windows / Linux (đường dẫn llama.cpp)

Engine llama.cpp của LM Studio (Metal llama.cpp v2.21.0 hoặc tương tự) thất bại với:

error loading model: unknown model architecture: 'diffusion-gemma'

Vì hỗ trợ DiffusionGemma trong llama.cpp nằm trong PR #24423, chưa được merge. LM Studio đi kèm phiên bản đã phát hành của llama.cpp, do đó không chứa PR này.

Theo dõi tại: lmstudio-ai/lms #583

Khi nào LM Studio sẽ hỗ trợ DiffusionGemma?

Hỗ trợ của LM Studio phụ thuộc vào hai điều được merge ở upstream:

PR #24423 được merge vào llama.cpp main (cho đường dẫn llama.cpp)
mlx-vlm 0.6.3+ được đi kèm (cho đường dẫn Apple MLX)

Cả hai đều chưa xảy ra. LM Studio sẽ cần phát hành bản mới sau khi cả hai hoàn thành. Thực tế điều này mất vài tuần, không phải vài ngày.

Những gì thực sự hoạt động ngay bây giờ

Runtime	Hỗ trợ DiffusionGemma	Ghi chú
Unsloth Studio	Có	Con đường cục bộ dễ nhất. Hỗ trợ macOS/Windows/Linux. Từ 12/6/2026 (v0.1.463-beta).
vLLM	Có	Tốt nhất cho serving. Hỗ trợ native từ 10/6/2026. Cần Linux + GPU NVIDIA.
HF Transformers	Có	Chỉ Python. Trọng số chính thức Google tại `google/diffusiongemma-26B-A4B-it`.
llama.cpp (PR #24423)	Có	Chỉ CLI. Phải build từ branch PR. Dùng `llama-diffusion-cli`, không phải `llama-cli`.
LM Studio	Không	Cả engine MLX lẫn llama.cpp đều thất bại.
Ollama	Không	Issue #16664 đang mở.

Đường dẫn được đề xuất theo loại người dùng

Muốn GUI desktop: Unsloth Studio hiện là GUI cục bộ duy nhất hoạt động. Sau khi cài đặt, tìm DiffusionGemma trong trình duyệt model.

Người dùng Apple Silicon: Unsloth Studio hỗ trợ macOS. Đường dẫn MLX trong LM Studio chưa hoạt động.

Quen với dòng lệnh: Build llama.cpp từ PR #24423 và dùng llama-diffusion-cli trực tiếp. Cho phép kiểm soát tốt nhất số bước khuếch tán và các tham số khác.

Nhà phát triển Python muốn thử nghiệm nhanh: HuggingFace Transformers với trọng số chính thức google/diffusiongemma-26B-A4B-it.

Cần phục vụ DiffusionGemma cho nhiều người dùng: vLLM có hỗ trợ native và kết quả benchmark đã được công bố.

Người dùng Ollama: Hãy đợi. Không có cách giải quyết nào mà không phải build binary tùy chỉnh.

Trước khi dùng DiffusionGemma: những điều cần biết

DiffusionGemma có lợi thế tốc độ thực sự trong môi trường phù hợp. Trên NVIDIA RTX 3090/4090 và card cao cấp hơn, ở mức đồng thời thấp, việc sinh có thể nhanh hơn vài lần so với Gemma 4 tự hồi quy tiêu chuẩn. Trên GPU NVIDIA tầm thấp (3060, 4060) và Apple Silicon, lợi thế tốc độ có thể không xuất hiện. Model chuyển suy luận từ bị giới hạn bởi băng thông bộ nhớ (nơi Apple Silicon xuất sắc) sang bị giới hạn bởi khả năng tính toán (nơi GPU NVIDIA chuyên dụng cao cấp xuất sắc).

Quan trọng hơn: Google nêu rõ chất lượng đầu ra của DiffusionGemma thấp hơn Gemma 4 tiêu chuẩn. Đây không phải giới hạn tạm thời. Sự đánh đổi tốc độ-chất lượng là đặc tính cơ bản của phương pháp khuếch tán. Nếu cần chất lượng tối đa, Gemma 4 tiêu chuẩn là model phù hợp.

DiffusionGemma phù hợp nhất cho:

Code infilling (điền vào giữa code hiện có)
Chỉnh sửa nội tuyến với ngữ cảnh trước và sau
Ứng dụng cục bộ tương tác khi độ trễ quan trọng và có thể chấp nhận giảm chất lượng

Ít phù hợp hơn cho:

Các tác vụ yêu cầu độ chính xác sự thật tối đa
Suy luận phức tạp nhiều bước khi độ chính xác tích lũy
Bất kỳ trường hợp nào bạn so sánh kỹ lưỡng output với Gemma 4 tiêu chuẩn

Câu hỏi thường gặp

Cập nhật LM Studio có sửa được không?
Không, cho đến khi LM Studio phát hành bản cập nhật với mlx-vlm 0.6.3+ (cho Apple) hoặc phiên bản llama.cpp mới bao gồm PR #24423 (cho các hệ thống khác). Không có bản phát hành hiện tại nào làm được điều đó.

Tôi có thể trỏ LM Studio vào runtime tùy chỉnh không?
LM Studio hiện không hỗ trợ thay thế file nhị phân llama.cpp tùy chỉnh. Runtime đi kèm là những gì bạn nhận được.

Gemma 4 tiêu chuẩn vẫn hoạt động trong LM Studio không?
Có. Kiến trúc gemma4 được hỗ trợ trong các bản phát hành LM Studio hiện tại. Giới hạn chỉ dành riêng cho diffusion-gemma.

Mất bao lâu để giải quyết?
Khó dự đoán. Phụ thuộc vào PR #24423 merge vào llama.cpp, LM Studio phát hành bản cập nhật với phiên bản llama.cpp mới, và đội MLX phát hành và LM Studio đi kèm mlx-vlm mới hơn. Vài tuần là ước tính thực tế nhất.

Hướng dẫn liên quan:

DiffusionGemma có hoạt động trong LM Studio không? Tình trạng hiện tại (tháng 6/2026)

Điều thực sự xảy ra khi bạn thử

Trên Apple Silicon (đường dẫn MLX)

Trên Windows / Linux (đường dẫn llama.cpp)

Khi nào LM Studio sẽ hỗ trợ DiffusionGemma?

Những gì thực sự hoạt động ngay bây giờ

Đường dẫn được đề xuất theo loại người dùng

Trước khi dùng DiffusionGemma: những điều cần biết

Câu hỏi thường gặp

Hướng dẫn liên quan

DiffusionGemma + llama.cpp: Có, Đây là Cách Chạy (2026)

Sửa lỗi "unknown model architecture" cho gemma4 và diffusion-gemma trong llama.cpp

Gemma 4 A4B vs E4B: Ý nghĩa thực sự của tên gọi và cách chọn model

Vẫn chưa biết nên đọc gì tiếp theo?