DiffusionGemma + llama.cpp: 네, 작동합니다

짧은 답변: 표준 llama.cpp는 DiffusionGemma를 실행할 수 없습니다. 지원은 풀 리퀘스트 #24423에 있으며, 이 글을 쓰는 시점에서 아직 병합되지 않았습니다. 이 PR은 llama-diffusion-cli라는 새로운 전용 바이너리를 추가합니다. DiffusionGemma GGUF에 표준 llama-cli를 실행하면 error loading model: unknown model architecture: 'diffusion-gemma' 오류가 발생합니다.

DiffusionGemma가 전용 바이너리를 필요로 하는 이유

DiffusionGemma는 단순히 이름을 바꾼 Gemma 4 체크포인트가 아닙니다. 이산 텍스트 확산을 사용합니다. 왼쪽에서 오른쪽으로 토큰 하나씩 예측하는 대신, 완전히 마스킹된 256토큰 캔버스에서 시작해 병렬로 전체 블록을 반복적으로 디노이징합니다. 이를 위해 생성 중 양방향 어텐션, 각 디노이징 단계의 커스텀 샘플링 동작, 표준 llama.cpp 자기회귀 경로와 근본적으로 다른 모델 러너가 필요합니다.

PR #24423은 기존 llama-cli를 패치하는 대신 별도 바이너리(llama-diffusion-cli)로 이를 구현합니다. 이 PR이 main에 병합될 때까지 공식 llama.cpp 릴리스에는 포함되지 않습니다.

PR #24423이란 무엇이며 어떻게 사용하나

PR #24423은 danielhanchen(Unsloth 창립자)이 작성했으며 llama.cpp 코드베이스에 diffusion-gemma 아키텍처를 추가합니다. PR은 DiffusionGemma의 2026년 6월 10일 출시 이후 활발히 논의되고 있으며, 커뮤니티 멤버들이 PR 대기 중에 Linux/WSL2 CUDA와 Windows CPU용 비공식 프리빌드 바이너리를 게시했습니다.

PR 브랜치에서 직접 빌드하는 방법:

# llama.cpp 클론
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# PR 브랜치 가져오기 및 체크아웃
git fetch origin pull/24423/head:diffusion-gemma-pr
git checkout diffusion-gemma-pr

# 빌드 (CUDA 예시)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# 새 바이너리 위치:
./build/bin/llama-diffusion-cli

CPU 전용 빌드는 -DGGML_CUDA=ON 플래그를 생략합니다.

모델 실행

신뢰할 수 있는 DiffusionGemma GGUF를 다운로드하고(Unsloth는 Hugging Face의 unsloth/diffusiongemma-26B-A4B-it-GGUF에 가장 널리 사용되는 것을 게시합니다), 다음을 실행합니다:

./build/bin/llama-diffusion-cli \
  -m ./diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
  -p "확산 텍스트 생성과 자기회귀 텍스트 생성의 차이를 설명해주세요." \
  --diffusion-steps 128

--diffusion-steps 파라미터는 모델이 실행하는 디노이징 패스 수를 제어합니다. 더 많은 스텝 = 더 높은 품질, 느린 생성. 128에서 시작해 조정하세요.

메모리 요구사항

모델은 Gemma 4 26B A4B MoE 아키텍처를 기반으로 하므로 메모리 요구사항이 동일합니다:

Q4_K_M: 약 14.4–18 GB (Unsloth 실측치 18 GB)
Q8: 약 28 GB
BF16: 약 52–58 GB

26B 전체 파라미터를 메모리에 로드하지만 각 순전파에서 활성화되는 것은 약 3.8B뿐입니다.

속도: 숫자의 실제 의미

Google은 표준 Gemma 4 대비 최대 4배 빠른 생성 속도와 단일 H100에서 초당 1,000개 이상의 토큰을 주장합니다. 해당 하드웨어에서 그 숫자는 실제입니다. 하지만 전달하지 않는 것은:

속도 이점은 조건부입니다. DiffusionGemma의 병렬 생성은 계산 프로파일을 메모리 대역폭 제한(자기회귀 모델의 특성)에서 연산 제한(확산 모델의 특성)으로 변경합니다. 풍부한 연산 자원을 가진 고급 NVIDIA GPU(RTX 3090, 4090, A100, H100)에서는 DiffusionGemma에 유리합니다. 저사양 GPU(RTX 3060, 4060)와 Apple Silicon에서는 연산 격차가 역전되어 속도 이점이 완전히 사라질 수 있습니다. 헤드라인 숫자를 기대하기 전에 본인 하드웨어로 벤치마크를 확인하세요.

품질이 낮습니다. Google은 DiffusionGemma의 전반적인 출력 품질이 표준 Gemma 4보다 낮다고 명시합니다. 이는 일시적인 제한이 아닌, 확산 방식의 근본적인 속도-품질 트레이드오프입니다.

런타임 비교 표

런타임	DiffusionGemma 상태 (2026년 6월)
llama.cpp (main)	미지원. `unknown model architecture: 'diffusion-gemma'`
llama.cpp (PR #24423)	`llama-diffusion-cli`를 통해 지원. PR 브랜치에서 빌드 필요.
Unsloth Studio	v0.1.463-beta / 2026.6.6부터 지원. 가장 쉬운 로컬 방법.
Ollama	미지원. Issue #16664 오픈 중.
LM Studio	미지원. 번들된 런타임에 PR #24423 미포함.
vLLM	2026년 6월 10일부터 완전 지원. 서빙에 최적.
HF Transformers	공식 Google 릴리스를 통해 지원.

어느 경로를 사용할까

최소한의 설정으로 로컬 GUI 원하는 경우: Unsloth Studio를 사용하세요. 6월 12일 릴리스부터 DiffusionGemma를 네이티브 지원하며 추론 파라미터를 자동으로 처리합니다.

커맨드라인에 익숙한 경우: PR #24423에서 빌드하고 llama-diffusion-cli를 직접 사용하세요. 확산 파라미터를 가장 세밀하게 제어할 수 있습니다.

Python 환경인 경우: Hugging Face Transformers를 공식 google/diffusiongemma-26B-A4B-it 가중치와 함께 사용하세요.

여러 사용자에게 서빙이 필요한 경우: vLLM이 DiffusionGemma를 완전 통합한 첫 번째 추론 엔진으로 네이티브 지원을 제공합니다.

Ollama 또는 표준 LM Studio 사용자인 경우: 기다리세요. 둘 다 동일한 기본 PR에 의존하며 커스텀 바이너리 빌드 없이는 우회 방법이 없습니다.

자주 묻는 질문

llama.cpp를 최신 버전으로 업데이트하면 DiffusionGemma 지원을 얻을 수 있나요?
아니요. PR #24423은 main에 병합되지 않았습니다. 공식 저장소에서 업데이트해도 diffusion-gemma 아키텍처 지원이 추가되지 않습니다.

다운로드할 수 있는 프리빌드 llama-diffusion-cli 바이너리가 있나요?
Linux/WSL2 CUDA(sm_86, RTX 30 시리즈)와 Windows CPU용 비공식 커뮤니티 빌드가 존재합니다. GitHub에서 "llama-diffusion-cli-prebuilt"를 검색하세요. 이것들은 Anthropic이나 ggml-org의 공식 릴리스가 아닙니다.

DiffusionGemma가 일반 Gemma 4보다 더 좋은 출력을 생성하나요?
아니요. Google은 출력 품질이 표준 Gemma 4보다 낮다고 명시합니다. 이점은 속도이며, 특히 품질 트레이드오프가 허용 가능한 코드 인필링 및 인라인 편집 워크플로우에 적합합니다.

Ollama가 llama.cpp를 래핑하는데도 왜 실패하나요?
Ollama는 업스트림보다 뒤처진 자체 버전의 llama.cpp를 번들합니다. Ollama를 업데이트해도 번들된 런타임에는 PR #24423이 포함되지 않습니다.

DiffusionGemma + llama.cpp: 네, 작동합니다 — 실행 방법 안내 (2026)

DiffusionGemma가 전용 바이너리를 필요로 하는 이유

PR #24423이란 무엇이며 어떻게 사용하나

모델 실행

메모리 요구사항

속도: 숫자의 실제 의미

런타임 비교 표

어느 경로를 사용할까

자주 묻는 질문

관련 가이드

llama.cpp에서 "unknown model architecture" 수정하기: gemma4와 diffusion-gemma

DiffusionGemma가 LM Studio에서 작동하나요? 현재 상태 (2026년 6월)

llama.cpp에서 Gemma 4를 지원하나요? GGUF 현황, 수정 사항 및 작동 방식

다음에 무엇을 읽을지 아직 고민 중인가요?