Gemma 4 指南

DiffusionGemma 能在 LM Studio 中运行吗?2026 年 6 月现状

约 7 分钟
diffusiongemmalm studiogguf本地大模型gemma 4
DiffusionGemma 能在 LM Studio 中运行吗?2026 年 6 月现状

不,DiffusionGemma 目前无法在 LM Studio 中运行。 这不是配置问题,也不是文件问题。LM Studio 捆绑的运行时——包括 llama.cpp 引擎和 Apple Silicon 的 MLX 引擎——都不支持 diffusion-gemma 架构。GitHub 上有两个已确认的 Bug 报告正在跟踪此问题。

尝试时实际发生什么

在 Apple Silicon 上(MLX 路径)

通过 LM Studio 的 MLX 引擎(版本 1.8.5)加载 DiffusionGemma 时,会出现:

Failed to load model.
Error when loading model: ValueError: Model type diffusion_gemma not supported.
Error: No module named 'mlx_vlm.speculative.drafters.diffusion_gemma'

这是因为 LM Studio 捆绑了 mlx-vlm 0.4.5(2026 年 4 月的开发版本)。DiffusionGemma 需要 mlx-vlm 0.6.3 或更高版本。你无法通过在应用内更新 LM Studio 引擎来解决此问题——捆绑的库版本就是如此,直到 LM Studio 发布更新。

问题追踪:lmstudio-bug-tracker #2037

在 Windows / Linux 上(llama.cpp 路径)

LM Studio 的 llama.cpp 引擎(Metal llama.cpp v2.21.0 或类似版本)会报错:

error loading model: unknown model architecture: 'diffusion-gemma'

这是因为 llama.cpp 中的 DiffusionGemma 支持在 PR #24423 中,尚未合并。LM Studio 捆绑了发布版本的 llama.cpp,因此不包含该 PR。

问题追踪:lmstudio-ai/lms #583

LM Studio 何时会支持 DiffusionGemma?

LM Studio 的支持取决于两件事的上游合并:

  1. PR #24423 合并到 llama.cpp main(llama.cpp 路径)
  2. 捆绑 mlx-vlm 0.6.3+(Apple MLX 路径)

两者目前都未发生。LM Studio 需要在两者都发生后发布新版本。现实来看,这需要数周而非数天的时间。

目前实际有效的方案

运行时 DiffusionGemma 支持 备注
Unsloth Studio 最简单的本地方案。支持 macOS/Windows/Linux。自 2026 年 6 月 12 日(v0.1.463-beta)起支持。
vLLM 最适合服务部署。自 2026 年 6 月 10 日起原生支持。需要 Linux + NVIDIA GPU。
HF Transformers 仅限 Python。官方 Google 权重在 google/diffusiongemma-26B-A4B-it
llama.cpp(PR #24423 分支) 仅命令行。必须从 PR 分支构建。使用 llama-diffusion-cli,不是 llama-cli
LM Studio MLX 和 llama.cpp 引擎均失败。
Ollama Issue #16664 待解决。

根据使用场景推荐路径

想要桌面 GUI: Unsloth Studio 是目前唯一可用的本地 GUI。安装后在模型浏览器中搜索 DiffusionGemma。

Apple Silicon 用户: Unsloth Studio 支持 macOS。LM Studio 的 MLX 路径目前不可用。

熟悉命令行: 从 PR #24423 构建 llama.cpp 并使用 llama-diffusion-cli。可以最精细地控制扩散步数和其他参数。

Python 环境用户,想快速实验: 使用 Hugging Face Transformers 配合官方 google/diffusiongemma-26B-A4B-it 权重。

需要向多用户提供服务: vLLM 有原生支持并发布了基准测试。

Ollama 用户: 等待。没有不构建自定义二进制文件的变通方案。

使用 DiffusionGemma 前需要了解的

DiffusionGemma 在合适的环境中有真实的速度优势。在 NVIDIA RTX 3090/4090 及更高端显卡、低并发情况下,生成速度可以比标准自回归 Gemma 4 快数倍。在低端 NVIDIA 显卡(3060、4060)和 Apple Silicon 上,速度优势可能根本不会出现。该模型将推理从内存带宽受限(Apple Silicon 的强项)转变为计算受限(高端独立 NVIDIA GPU 的强项)。

更重要的是:Google 明确声明 DiffusionGemma 的输出质量低于标准 Gemma 4。 这不是临时限制。速度-质量权衡是扩散方法的基本特性。如果需要最高质量,标准 Gemma 4 才是正确的选择。

DiffusionGemma 最适合:

  • 代码填充(在现有代码中间填写内容)
  • 提供前后文本的内联编辑
  • 延迟敏感、可接受一定质量降低的交互式本地应用

不太适合:

  • 需要最高事实准确性的任务
  • 精度会累积的复杂多步推理
  • 任何你会将输出与标准 Gemma 4 认真对比的使用场景

常见问题

更新 LM Studio 能解决这个问题吗?
不能,直到 LM Studio 发布捆绑了 mlx-vlm 0.6.3+(Apple 版本)或包含 PR #24423 的新 llama.cpp 版本(其他版本)的更新。目前没有版本做到这一点。

我能让 LM Studio 指向自定义运行时吗?
LM Studio 目前不支持更换自定义 llama.cpp 二进制文件。你用到的就是捆绑的运行时。

标准 Gemma 4 在 LM Studio 中还能用吗?
可以。gemma4 架构在当前 LM Studio 版本中受支持。限制是专门针对 diffusion-gemma 的。

这个问题多久会解决?
难以预测。取决于 PR #24423 合并到 llama.cpp、LM Studio 发布带有新版 llama.cpp 的更新,以及 MLX 团队发布且 LM Studio 捆绑更新版 mlx-vlm。最佳预估是数周而非数天。

相关指南:

相关阅读

继续沿着 Gemma 4 内容集群往下读,选一个离你当前决策最近的下一篇。

还没决定下一篇看什么?

回到指南页,按模型对比、本地部署和硬件规划三个方向继续浏览。