Gemma 4 가이드

DiffusionGemma가 LM Studio에서 작동하나요? 현재 상태 (2026년 6월)

7분 읽기
diffusiongemmalm studiogguf로컬 llmgemma 4
DiffusionGemma가 LM Studio에서 작동하나요? 현재 상태 (2026년 6월)

아니요, DiffusionGemma는 현재 LM Studio에서 작동하지 않습니다. 구성 문제가 아니고 파일 문제도 아닙니다. LM Studio에 번들된 런타임들 — llama.cpp 엔진과 Apple Silicon용 MLX 엔진 모두 — diffusion-gemma 아키텍처를 지원하지 않습니다. GitHub에서 두 개의 확인된 버그 리포트가 이를 추적하고 있습니다.

시도했을 때 실제로 일어나는 일

Apple Silicon에서 (MLX 경로)

LM Studio의 MLX 엔진(버전 1.8.5)으로 DiffusionGemma를 로드하려 하면:

Failed to load model.
Error when loading model: ValueError: Model type diffusion_gemma not supported.
Error: No module named 'mlx_vlm.speculative.drafters.diffusion_gemma'

LM Studio가 mlx-vlm 0.4.5 (2026년 4월 개발 빌드)를 번들하기 때문입니다. DiffusionGemma는 mlx-vlm 0.6.3 이상이 필요합니다. 앱 내에서 LM Studio 엔진을 업데이트해도 해결되지 않습니다 — 번들된 라이브러리 버전은 LM Studio가 업데이트를 출시할 때까지 그대로입니다.

추적 중: lmstudio-bug-tracker #2037

Windows / Linux에서 (llama.cpp 경로)

LM Studio의 llama.cpp 엔진(Metal llama.cpp v2.21.0 등)은 다음 오류와 함께 실패합니다:

error loading model: unknown model architecture: 'diffusion-gemma'

llama.cpp의 DiffusionGemma 지원이 PR #24423에 있으며 병합되지 않았기 때문입니다. LM Studio는 출시된 버전의 llama.cpp를 번들하므로 이 PR이 포함되어 있지 않습니다.

추적 중: lmstudio-ai/lms #583

LM Studio는 언제 DiffusionGemma를 지원할까요?

LM Studio 지원은 두 가지가 업스트림에 병합되는 것에 달려 있습니다:

  1. PR #24423이 llama.cpp main에 병합 (llama.cpp 경로)
  2. mlx-vlm 0.6.3+가 번들됨 (Apple MLX 경로)

둘 다 아직 발생하지 않았습니다. LM Studio는 그 후에도 새 릴리스를 출시해야 합니다. 현실적으로 이것은 며칠이 아닌 몇 주가 걸립니다.

지금 실제로 작동하는 것

런타임 DiffusionGemma 지원 비고
Unsloth Studio 가장 쉬운 로컬 경로. macOS/Windows/Linux 지원. 2026년 6월 12일(v0.1.463-beta)부터 지원.
vLLM 서빙에 최적. 2026년 6월 10일부터 네이티브 지원. Linux + NVIDIA GPU 필요.
HF Transformers Python 전용. 공식 Google 가중치 google/diffusiongemma-26B-A4B-it.
llama.cpp (PR #24423) CLI 전용. PR 브랜치에서 빌드 필요. llama-diffusion-cli 사용.
LM Studio 아니요 MLX와 llama.cpp 엔진 모두 실패.
Ollama 아니요 Issue #16664 오픈 중.

사용 목적별 추천 경로

데스크톱 GUI 원하는 경우: Unsloth Studio가 현재 유일하게 작동하는 로컬 GUI입니다. 설치 후 모델 브라우저에서 DiffusionGemma를 검색하세요.

Apple Silicon 사용자: Unsloth Studio는 macOS를 지원합니다. LM Studio의 MLX 경로는 아직 작동하지 않습니다.

커맨드라인에 익숙한 경우: PR #24423에서 llama.cpp를 빌드하고 llama-diffusion-cli를 직접 사용하세요. 확산 단계 수와 기타 파라미터를 가장 세밀하게 제어할 수 있습니다.

Python 개발자로 빠르게 실험하고 싶은 경우: 공식 google/diffusiongemma-26B-A4B-it 가중치로 Hugging Face Transformers를 사용하세요.

여러 사용자에게 DiffusionGemma를 제공해야 하는 경우: vLLM은 네이티브 지원과 공개된 벤치마크 결과를 가지고 있습니다.

Ollama 사용자: 기다리세요. 커스텀 바이너리 빌드 없이는 우회 방법이 없습니다.

DiffusionGemma 사용 전 알아야 할 것

DiffusionGemma는 적합한 환경에서 실제 속도 이점이 있습니다. NVIDIA RTX 3090/4090 이상의 고급 카드에서, 낮은 동시성에서 표준 자기회귀 Gemma 4보다 몇 배 빠른 생성이 가능합니다. 저사양 NVIDIA 카드(3060, 4060)와 Apple Silicon에서는 속도 이점이 전혀 나타나지 않을 수 있습니다. 이 모델은 추론을 메모리 대역폭 제한(Apple Silicon이 강한 부분)에서 연산 제한(고성능 전용 NVIDIA GPU가 강한 부분)으로 전환합니다.

더 중요한 것: Google은 DiffusionGemma의 출력 품질이 표준 Gemma 4보다 낮다고 명시합니다. 이것은 일시적인 제한이 아닙니다. 속도-품질 트레이드오프는 확산 방식의 근본적인 특성입니다. 최고 품질이 필요하다면 표준 Gemma 4가 올바른 모델입니다.

DiffusionGemma에 가장 적합한 용도:

  • 코드 인필링 (기존 코드 중간 채우기)
  • 전후 컨텍스트를 제공하는 인라인 편집
  • 지연 시간이 중요하고 약간의 품질 저하를 허용할 수 있는 대화형 로컬 애플리케이션

덜 적합한 용도:

  • 최고의 사실 정확성이 필요한 작업
  • 정밀도가 누적되는 복잡한 다단계 추론
  • 출력을 표준 Gemma 4와 비판적으로 비교하는 모든 사용 사례

자주 묻는 질문

LM Studio를 업데이트하면 해결됩니까?
mlx-vlm 0.6.3+를 번들한 (Apple) 또는 PR #24423을 포함한 새 llama.cpp 버전을 번들한 (기타) LM Studio 릴리스가 나올 때까지는 아닙니다. 현재 릴리스는 둘 다 해당하지 않습니다.

LM Studio를 커스텀 런타임으로 가리킬 수 있나요?
LM Studio는 현재 커스텀 llama.cpp 바이너리 교체를 지원하지 않습니다. 번들된 런타임이 사용하는 것입니다.

표준 Gemma 4는 LM Studio에서 여전히 작동하나요?
예. gemma4 아키텍처는 현재 LM Studio 릴리스에서 지원됩니다. 제한은 diffusion-gemma에만 해당합니다.

얼마나 걸릴까요?
예측하기 어렵습니다. PR #24423의 llama.cpp 병합, LM Studio의 새 llama.cpp 버전 업데이트 출시, MLX 팀의 mlx-vlm 업데이트와 LM Studio 번들에 달려 있습니다. 현실적으로 며칠이 아닌 몇 주입니다.

관련 가이드:

관련 가이드

지금 고민 중인 결정과 가장 잘 맞는 다음 가이드를 따라 Gemma 4 클러스터를 계속 탐색해 보세요.

다음에 무엇을 읽을지 아직 고민 중인가요?

가이드 허브로 돌아가 모델 비교, 설정 워크스루, 하드웨어 계획 페이지를 둘러보세요.