Guias do Gemma 4
Como Executar o GLM-5.2 no Ollama: Tag Cloud, Configuração Local e Guia da API

Resposta Rápida
Sim, você pode executar o GLM-5.2 no Ollama. A biblioteca oficial do Ollama lista o GLM-5.2 sob a tag glm-5.2:cloud, que roteia requisições de inferência para a infraestrutura hospedada da Z.ai através da interface unificada do Ollama — você obtém a experiência completa de desenvolvimento do Ollama sem precisar baixar mais de 241 GB de pesos do modelo localmente. A maneira mais rápida de começar:
ollama run glm-5.2:cloud
Se você quiser executar o GLM-5.2 completamente no seu próprio hardware, isso requer RAM significativa (mínimo de 256 GB para a menor quantização). Esse caminho é coberto na seção de hardware abaixo.
Pré-requisitos
Antes de executar o GLM-5.2 no Ollama, certifique-se de que os seguintes requisitos estão atendidos.
Ollama instalado e atualizado
O GLM-5.2 requer uma versão recente do Ollama. Como instalar ou atualizar:
# macOS (Homebrew)
brew install ollama
# ou atualizar
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# Baixe o instalador em https://ollama.com/download
Verificar a versão instalada:
ollama --version
Conexão com a internet (necessária para a tag cloud)
A tag glm-5.2:cloud roteia requisições para a API de inferência da Z.ai. É necessária uma conexão ativa com a internet e uma conta do Ollama. Faça login em ollama.com se ainda não o fez.
Requisitos de hardware
| Modo de execução | Mínimo | Recomendado |
|---|---|---|
glm-5.2:cloud (hospedado) |
Qualquer máquina moderna | Qualquer máquina moderna |
| Local 2-bit (UD-IQ2_XXS) | 256 GB de memória unificada | M4 Ultra Mac Studio / estação de trabalho |
| Local 4-bit (Q4_K_M) | 500+ GB de RAM | Servidor multi-GPU |
| Local precisão total (FP16) | 1,7 TB | Cluster empresarial |
Para a maioria dos desenvolvedores, glm-5.2:cloud é a escolha prática. O deployment local é coberto separadamente na seção de variantes.
Passo a Passo: Executar o GLM-5.2 no Ollama
Passo 1: Instalar ou atualizar o Ollama
Execute o comando de instalação apropriado para sua plataforma (consulte os Pré-requisitos). Confirmar a instalação:
ollama --version
Se o comando não for encontrado, a instalação não foi concluída — execute o script de instalação novamente.
Passo 2: Fazer pull do modelo GLM-5.2
Faça pull do modelo antes de executá-lo para armazenar em cache a configuração localmente (para a tag cloud, nenhum arquivo de pesos grande é baixado):
ollama pull glm-5.2:cloud
Passo 3: Executar o modelo
Iniciar uma sessão de chat interativa:
ollama run glm-5.2:cloud
O Ollama abrirá um prompt onde você pode digitar mensagens diretamente. Pressione Ctrl+D ou digite /bye para sair.
Passo 4: Testar com um prompt de exemplo
Depois que a sessão estiver aberta, experimente um teste rápido para confirmar que tudo está funcionando:
>>> Escreva uma função Python que leia um arquivo CSV e retorne uma lista de dicionários.
O GLM-5.2 é otimizado para tarefas de programação de longo prazo, lidando bem com prompts de engenharia detalhados. Você também pode testar sua janela de contexto de 976K com entradas maiores.
Variantes do Modelo GLM-5.2 Disponíveis no Ollama
Em junho de 2026, a biblioteca do Ollama lista a seguinte tag para o GLM-5.2:
| Tag | Tipo | Janela de contexto | Melhor para |
|---|---|---|---|
glm-5.2:cloud |
Hospedado (inferência Z.ai) | 976K tokens | Maioria dos desenvolvedores — sem requisitos de hardware local |
Nota: No momento da publicação, não há tag local
glm-5.2:latestou quantizada na biblioteca oficial do Ollama. Consulte ollama.com/library/glm-5.2/tags para a lista mais atual — tags quantizadas locais podem ser adicionadas após a publicação deste artigo.
Executar o GLM-5.2 completamente local (avançado)
O GLM-5.2 é um modelo Mixture-of-Experts de 744 bilhões de parâmetros com aproximadamente 40 bilhões de parâmetros ativos por token. O modelo é lançado sob a licença MIT com pesos abertos. Para inferência local fora da tag cloud do Ollama, as versões GGUF quantizadas da Unsloth são o caminho mais acessível:
| Quantização | Tamanho em disco | Memória mínima |
|---|---|---|
| UD-IQ2_XXS (2-bit dinâmico) | ~241 GB | 256 GB de memória unificada |
| UD-IQ2_M (2-bit dinâmico) | ~239 GB | 256 GB de memória unificada |
| UD-Q4_K_XL (4-bit dinâmico) | ~476 GB | 500+ GB |
Esses tamanhos tornam o GLM-5.2 prático apenas em hardware de ponta: Apple M4 Ultra Mac Studio (configuração de 192 GB ou superior) ou estações de trabalho com múltiplas GPUs e grande RAM de sistema. Para a maioria dos desenvolvedores, glm-5.2:cloud através do Ollama é o ponto de partida correto.
Usando o GLM-5.2 com a API do Ollama
Depois que o GLM-5.2 estiver em execução, o Ollama expõe uma API REST local em http://localhost:11434. A API é compatível com OpenAI, o que significa que qualquer ferramenta que funcione com a API da OpenAI também funciona com o Ollama.
curl — endpoint generate
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2:cloud",
"prompt": "Escreva um Dockerfile para um app Node.js com multi-stage builds.",
"stream": false
}'
curl — endpoint de chat compatível com OpenAI
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2:cloud",
"messages": [
{"role": "system", "content": "Você é um engenheiro de software especialista."},
{"role": "user", "content": "Explique a diferença entre um processo e uma thread."}
]
}'
Python — biblioteca Ollama
from ollama import chat
response = chat(
model='glm-5.2:cloud',
messages=[
{'role': 'user', 'content': 'Revise este código Python e sugira melhorias.'}
],
)
print(response.message.content)
Python — OpenAI SDK (compatibilidade direta)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # exigido pelo SDK, não usado pelo Ollama
)
response = client.chat.completions.create(
model="glm-5.2:cloud",
messages=[
{"role": "system", "content": "Você é um engenheiro de software sênior."},
{"role": "user", "content": "Escreva uma query SQL para encontrar linhas duplicadas em uma tabela."}
]
)
print(response.choices[0].message.content)
JavaScript
import ollama from 'ollama'
const response = await ollama.chat({
model: 'glm-5.2:cloud',
messages: [{ role: 'user', content: 'Gere uma REST API em Express.js.' }],
})
console.log(response.message.content)
Usando o GLM-5.2 no Ollama com Claude Code / Cursor
Como o Ollama expõe uma API compatível com OpenAI, você pode apontar assistentes de programação como Claude Code ou Cursor para o endpoint local do Ollama para usar o GLM-5.2 como modelo de backend.
Com Claude Code
Definir variáveis de ambiente para redirecionar as chamadas de API do Claude Code para a instância local do Ollama:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud
Iniciar o Ollama em segundo plano antes da sessão do Claude Code:
ollama serve &
ollama run glm-5.2:cloud
Com Cursor
- Abrir as configurações do Cursor (
Cmd+,no macOS,Ctrl+,no Windows/Linux) - Navegar para Models → Add custom model
- Definir o nome do modelo como
glm-5.2:cloud - Definir a URL base como
http://localhost:11434/v1 - Definir a chave de API como
ollama(qualquer string não vazia funciona) - Salvar e selecionar o modelo na barra lateral de chat
Com Continue (extensão do VS Code)
Em ~/.continue/config.json:
{
"models": [
{
"title": "GLM-5.2",
"provider": "ollama",
"model": "glm-5.2:cloud",
"apiBase": "http://localhost:11434"
}
]
}
Solução de Problemas
Error: model "glm-5.2:cloud" not found
Execute ollama pull glm-5.2:cloud primeiro para registrar o modelo, depois tente novamente. Se o pull falhar, verifique se você está logado no Ollama (ollama login) e se a conexão com a internet está funcionando.
Erro de autenticação ao fazer pull
A tag cloud requer uma conta do Ollama. Cadastre-se ou faça login em ollama.com, depois execute ollama login no terminal.
Respostas lentas
A tag glm-5.2:cloud roteia para inferência remota, portanto a velocidade de resposta depende da latência de rede e da carga do servidor da Z.ai. Esse é o comportamento esperado para um modelo hospedado.
Porta 11434 já em uso
Outra instância do Ollama está em execução, ou outro processo ocupou a porta. Pare o outro processo ou inicie o Ollama em uma porta personalizada:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
Atualize suas chamadas de API para usar a porta 11435.
Comando ollama não encontrado após a instalação
No Linux, o script de instalação coloca o binário em /usr/local/bin. Se esse caminho não estiver no PATH, adicione:
export PATH=$PATH:/usr/local/bin
Adicione essa linha ao ~/.bashrc ou ~/.zshrc para torná-la permanente.
Perguntas Frequentes
É possível executar o GLM-5.2 no Ollama?
Sim. O GLM-5.2 está disponível na biblioteca do Ollama em ollama.com/library/glm-5.2. A tag glm-5.2:cloud processa a inferência através da infraestrutura hospedada da Z.ai — você não precisa baixar mais de 240 GB de pesos do modelo e ainda obtém a experiência completa de desenvolvimento do Ollama.
Qual é o comando do Ollama para o GLM-5.2?
ollama run glm-5.2:cloud
Fazer pull antes de executar:
ollama pull glm-5.2:cloud
Quanta RAM é necessária para o GLM-5.2 no Ollama?
Para a tag glm-5.2:cloud (inferência hospedada), qualquer máquina moderna funciona — sem requisitos especiais de RAM. Para inferência completamente local usando pesos GGUF quantizados, o mínimo é de aproximadamente 256 GB de memória unificada (para a quantização de 2 bits UD-IQ2_XXS). A variante de 4 bits requer 500+ GB.
Executar o GLM-5.2 localmente via Ollama é gratuito?
Os pesos do modelo GLM-5.2 são lançados sob a licença MIT, portanto são gratuitos para usar. Executar via tag glm-5.2:cloud roteia as requisições para a API hospedada da Z.ai — verifique ollama.com e os termos da Z.ai para os preços atuais de inferência em nuvem. A inferência GGUF completamente local em seu próprio hardware não tem custo por token.
Como usar o GLM-5.2 com o Claude Code via Ollama?
Defina estas variáveis de ambiente antes de iniciar sua sessão do Claude Code:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud
Em seguida, inicie o Ollama em segundo plano com ollama serve &. O Claude Code roteará as requisições de completions através do seu endpoint local do Ollama, encaminhando-as para o GLM-5.2.
Qual é a janela de contexto do GLM-5.2?
O GLM-5.2 suporta uma janela de contexto de 976K tokens (aproximadamente 1 milhão de tokens), uma das maiores janelas de contexto disponíveis em qualquer modelo em meados de 2026. Isso o torna particularmente adequado para tarefas envolvendo grandes bases de código, documentos longos ou análise de múltiplos arquivos.
Guias Relacionados
Guias relacionados
Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Requisitos de Hardware do GLM 5.2: Guia Completo de RAM, VRAM e GPU
O GLM 5.2 é um modelo MoE com 744 bilhões de parâmetros lançado sob licença MIT. Aqui está tudo o que você precisa saber sobre o hardware necessário para executá-lo localmente.

Preços do GLM 5.2: Custo da API, Planos de Assinatura e Gratuito (2026)
Guia completo de preços do GLM 5.2 em 2026: custos de tokens da API, planos de assinatura GLM Coding Plan (Lite/Pro/Max/Team), preços no OpenRouter e opções de acesso gratuito.

GLM 5.2 Review: Benchmarks, Performance em Código e Vale a Pena Usar?
O GLM 5.2 foi lançado em 13 de junho de 2026 com 744B parâmetros MoE, janela de contexto de 1 milhão de tokens, licença MIT e pontuações em benchmarks que rivalizam com os melhores modelos closed-source a cerca de um sexto do custo de API do GPT-5.5.
Ainda decidindo o que ler depois?
Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.
