Gemma 4 指南
DiffusionGemma 能在 LM Studio 中运行吗?2026 年 6 月现状

不,DiffusionGemma 目前无法在 LM Studio 中运行。 这不是配置问题,也不是文件问题。LM Studio 捆绑的运行时——包括 llama.cpp 引擎和 Apple Silicon 的 MLX 引擎——都不支持 diffusion-gemma 架构。GitHub 上有两个已确认的 Bug 报告正在跟踪此问题。
尝试时实际发生什么
在 Apple Silicon 上(MLX 路径)
通过 LM Studio 的 MLX 引擎(版本 1.8.5)加载 DiffusionGemma 时,会出现:
Failed to load model.
Error when loading model: ValueError: Model type diffusion_gemma not supported.
Error: No module named 'mlx_vlm.speculative.drafters.diffusion_gemma'
这是因为 LM Studio 捆绑了 mlx-vlm 0.4.5(2026 年 4 月的开发版本)。DiffusionGemma 需要 mlx-vlm 0.6.3 或更高版本。你无法通过在应用内更新 LM Studio 引擎来解决此问题——捆绑的库版本就是如此,直到 LM Studio 发布更新。
问题追踪:lmstudio-bug-tracker #2037
在 Windows / Linux 上(llama.cpp 路径)
LM Studio 的 llama.cpp 引擎(Metal llama.cpp v2.21.0 或类似版本)会报错:
error loading model: unknown model architecture: 'diffusion-gemma'
这是因为 llama.cpp 中的 DiffusionGemma 支持在 PR #24423 中,尚未合并。LM Studio 捆绑了发布版本的 llama.cpp,因此不包含该 PR。
问题追踪:lmstudio-ai/lms #583
LM Studio 何时会支持 DiffusionGemma?
LM Studio 的支持取决于两件事的上游合并:
- PR #24423 合并到 llama.cpp main(llama.cpp 路径)
- 捆绑 mlx-vlm 0.6.3+(Apple MLX 路径)
两者目前都未发生。LM Studio 需要在两者都发生后发布新版本。现实来看,这需要数周而非数天的时间。
目前实际有效的方案
| 运行时 | DiffusionGemma 支持 | 备注 |
|---|---|---|
| Unsloth Studio | 是 | 最简单的本地方案。支持 macOS/Windows/Linux。自 2026 年 6 月 12 日(v0.1.463-beta)起支持。 |
| vLLM | 是 | 最适合服务部署。自 2026 年 6 月 10 日起原生支持。需要 Linux + NVIDIA GPU。 |
| HF Transformers | 是 | 仅限 Python。官方 Google 权重在 google/diffusiongemma-26B-A4B-it。 |
| llama.cpp(PR #24423 分支) | 是 | 仅命令行。必须从 PR 分支构建。使用 llama-diffusion-cli,不是 llama-cli。 |
| LM Studio | 否 | MLX 和 llama.cpp 引擎均失败。 |
| Ollama | 否 | Issue #16664 待解决。 |
根据使用场景推荐路径
想要桌面 GUI: Unsloth Studio 是目前唯一可用的本地 GUI。安装后在模型浏览器中搜索 DiffusionGemma。
Apple Silicon 用户: Unsloth Studio 支持 macOS。LM Studio 的 MLX 路径目前不可用。
熟悉命令行: 从 PR #24423 构建 llama.cpp 并使用 llama-diffusion-cli。可以最精细地控制扩散步数和其他参数。
Python 环境用户,想快速实验: 使用 Hugging Face Transformers 配合官方 google/diffusiongemma-26B-A4B-it 权重。
需要向多用户提供服务: vLLM 有原生支持并发布了基准测试。
Ollama 用户: 等待。没有不构建自定义二进制文件的变通方案。
使用 DiffusionGemma 前需要了解的
DiffusionGemma 在合适的环境中有真实的速度优势。在 NVIDIA RTX 3090/4090 及更高端显卡、低并发情况下,生成速度可以比标准自回归 Gemma 4 快数倍。在低端 NVIDIA 显卡(3060、4060)和 Apple Silicon 上,速度优势可能根本不会出现。该模型将推理从内存带宽受限(Apple Silicon 的强项)转变为计算受限(高端独立 NVIDIA GPU 的强项)。
更重要的是:Google 明确声明 DiffusionGemma 的输出质量低于标准 Gemma 4。 这不是临时限制。速度-质量权衡是扩散方法的基本特性。如果需要最高质量,标准 Gemma 4 才是正确的选择。
DiffusionGemma 最适合:
- 代码填充(在现有代码中间填写内容)
- 提供前后文本的内联编辑
- 延迟敏感、可接受一定质量降低的交互式本地应用
不太适合:
- 需要最高事实准确性的任务
- 精度会累积的复杂多步推理
- 任何你会将输出与标准 Gemma 4 认真对比的使用场景
常见问题
更新 LM Studio 能解决这个问题吗?
不能,直到 LM Studio 发布捆绑了 mlx-vlm 0.6.3+(Apple 版本)或包含 PR #24423 的新 llama.cpp 版本(其他版本)的更新。目前没有版本做到这一点。
我能让 LM Studio 指向自定义运行时吗?
LM Studio 目前不支持更换自定义 llama.cpp 二进制文件。你用到的就是捆绑的运行时。
标准 Gemma 4 在 LM Studio 中还能用吗?
可以。gemma4 架构在当前 LM Studio 版本中受支持。限制是专门针对 diffusion-gemma 的。
这个问题多久会解决?
难以预测。取决于 PR #24423 合并到 llama.cpp、LM Studio 发布带有新版 llama.cpp 的更新,以及 MLX 团队发布且 LM Studio 捆绑更新版 mlx-vlm。最佳预估是数周而非数天。
相关指南:
相关阅读
继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

DiffusionGemma 能用 llama.cpp 运行吗?实际状态说明
标准 llama.cpp 无法运行 DiffusionGemma。支持在 PR #24423 中,该 PR 提供了独立的 llama-diffusion-cli 二进制文件。以下是目前真正可用的方案。

修复 llama.cpp 中的 "unknown model architecture" 错误:gemma4 和 diffusion-gemma
gemma4 和 diffusion-gemma 架构错误有不同的原因和不同的修复方法。把它们当作同一个问题处理只会浪费时间。

llama.cpp 支持 Gemma 4 吗?GGUF 状态、修复与当前可用性
直接回答 llama.cpp 是否支持 Gemma 4,并整理官方 GGUF 链接、修复状态与当前最实用的判断方式。
还没决定下一篇看什么?
回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。
