DiffusionGemma 能在 LM Studio 中运行吗？2026 年 6 月现状

不，DiffusionGemma 目前无法在 LM Studio 中运行。 这不是配置问题，也不是文件问题。LM Studio 捆绑的运行时——包括 llama.cpp 引擎和 Apple Silicon 的 MLX 引擎——都不支持 diffusion-gemma 架构。GitHub 上有两个已确认的 Bug 报告正在跟踪此问题。

尝试时实际发生什么

在 Apple Silicon 上（MLX 路径）

通过 LM Studio 的 MLX 引擎（版本 1.8.5）加载 DiffusionGemma 时，会出现：

Failed to load model.
Error when loading model: ValueError: Model type diffusion_gemma not supported.
Error: No module named 'mlx_vlm.speculative.drafters.diffusion_gemma'

这是因为 LM Studio 捆绑了 mlx-vlm 0.4.5（2026 年 4 月的开发版本）。DiffusionGemma 需要 mlx-vlm 0.6.3 或更高版本。你无法通过在应用内更新 LM Studio 引擎来解决此问题——捆绑的库版本就是如此，直到 LM Studio 发布更新。

问题追踪：lmstudio-bug-tracker #2037

在 Windows / Linux 上（llama.cpp 路径）

LM Studio 的 llama.cpp 引擎（Metal llama.cpp v2.21.0 或类似版本）会报错：

error loading model: unknown model architecture: 'diffusion-gemma'

这是因为 llama.cpp 中的 DiffusionGemma 支持在 PR #24423 中，尚未合并。LM Studio 捆绑了发布版本的 llama.cpp，因此不包含该 PR。

问题追踪：lmstudio-ai/lms #583

LM Studio 何时会支持 DiffusionGemma？

LM Studio 的支持取决于两件事的上游合并：

PR #24423 合并到 llama.cpp main（llama.cpp 路径）
捆绑 mlx-vlm 0.6.3+（Apple MLX 路径）

两者目前都未发生。LM Studio 需要在两者都发生后发布新版本。现实来看，这需要数周而非数天的时间。

目前实际有效的方案

运行时	DiffusionGemma 支持	备注
Unsloth Studio	是	最简单的本地方案。支持 macOS/Windows/Linux。自 2026 年 6 月 12 日（v0.1.463-beta）起支持。
vLLM	是	最适合服务部署。自 2026 年 6 月 10 日起原生支持。需要 Linux + NVIDIA GPU。
HF Transformers	是	仅限 Python。官方 Google 权重在 `google/diffusiongemma-26B-A4B-it`。
llama.cpp（PR #24423 分支）	是	仅命令行。必须从 PR 分支构建。使用 `llama-diffusion-cli`，不是 `llama-cli`。
LM Studio	否	MLX 和 llama.cpp 引擎均失败。
Ollama	否	Issue #16664 待解决。

根据使用场景推荐路径

想要桌面 GUI： Unsloth Studio 是目前唯一可用的本地 GUI。安装后在模型浏览器中搜索 DiffusionGemma。

Apple Silicon 用户： Unsloth Studio 支持 macOS。LM Studio 的 MLX 路径目前不可用。

熟悉命令行： 从 PR #24423 构建 llama.cpp 并使用 llama-diffusion-cli。可以最精细地控制扩散步数和其他参数。

Python 环境用户，想快速实验： 使用 Hugging Face Transformers 配合官方 google/diffusiongemma-26B-A4B-it 权重。

需要向多用户提供服务： vLLM 有原生支持并发布了基准测试。

Ollama 用户： 等待。没有不构建自定义二进制文件的变通方案。

使用 DiffusionGemma 前需要了解的

DiffusionGemma 在合适的环境中有真实的速度优势。在 NVIDIA RTX 3090/4090 及更高端显卡、低并发情况下，生成速度可以比标准自回归 Gemma 4 快数倍。在低端 NVIDIA 显卡（3060、4060）和 Apple Silicon 上，速度优势可能根本不会出现。该模型将推理从内存带宽受限（Apple Silicon 的强项）转变为计算受限（高端独立 NVIDIA GPU 的强项）。

更重要的是：Google 明确声明 DiffusionGemma 的输出质量低于标准 Gemma 4。 这不是临时限制。速度-质量权衡是扩散方法的基本特性。如果需要最高质量，标准 Gemma 4 才是正确的选择。

DiffusionGemma 最适合：

代码填充（在现有代码中间填写内容）
提供前后文本的内联编辑
延迟敏感、可接受一定质量降低的交互式本地应用

不太适合：

需要最高事实准确性的任务
精度会累积的复杂多步推理
任何你会将输出与标准 Gemma 4 认真对比的使用场景

常见问题

更新 LM Studio 能解决这个问题吗？
不能，直到 LM Studio 发布捆绑了 mlx-vlm 0.6.3+（Apple 版本）或包含 PR #24423 的新 llama.cpp 版本（其他版本）的更新。目前没有版本做到这一点。

我能让 LM Studio 指向自定义运行时吗？
LM Studio 目前不支持更换自定义 llama.cpp 二进制文件。你用到的就是捆绑的运行时。

标准 Gemma 4 在 LM Studio 中还能用吗？
可以。gemma4 架构在当前 LM Studio 版本中受支持。限制是专门针对 diffusion-gemma 的。

这个问题多久会解决？
难以预测。取决于 PR #24423 合并到 llama.cpp、LM Studio 发布带有新版 llama.cpp 的更新，以及 MLX 团队发布且 LM Studio 捆绑更新版 mlx-vlm。最佳预估是数周而非数天。

DiffusionGemma 能在 LM Studio 中运行吗？2026 年 6 月现状

尝试时实际发生什么

在 Apple Silicon 上（MLX 路径）

在 Windows / Linux 上（llama.cpp 路径）

LM Studio 何时会支持 DiffusionGemma？

目前实际有效的方案

根据使用场景推荐路径

使用 DiffusionGemma 前需要了解的

常见问题

相关阅读

DiffusionGemma + llama.cpp：可以运行，方法如下（2026）

修复 llama.cpp 中的 "unknown model architecture" 错误：gemma4 和 diffusion-gemma

llama.cpp 支持 Gemma 4 吗？GGUF 状态、修复与当前可用性

还没决定下一篇看什么？