Guias do Gemma 4

Como Executar o GLM-5.2 no Ollama: Tag Cloud, Configuração Local e Guia da API

7 min de leitura
glm 5.2ollamalocal llmglm 5.2 ollamazhipu ai
Como Executar o GLM-5.2 no Ollama: Tag Cloud, Configuração Local e Guia da API

Resposta Rápida

Sim, você pode executar o GLM-5.2 no Ollama. A biblioteca oficial do Ollama lista o GLM-5.2 sob a tag glm-5.2:cloud, que roteia requisições de inferência para a infraestrutura hospedada da Z.ai através da interface unificada do Ollama — você obtém a experiência completa de desenvolvimento do Ollama sem precisar baixar mais de 241 GB de pesos do modelo localmente. A maneira mais rápida de começar:

ollama run glm-5.2:cloud

Se você quiser executar o GLM-5.2 completamente no seu próprio hardware, isso requer RAM significativa (mínimo de 256 GB para a menor quantização). Esse caminho é coberto na seção de hardware abaixo.


Pré-requisitos

Antes de executar o GLM-5.2 no Ollama, certifique-se de que os seguintes requisitos estão atendidos.

Ollama instalado e atualizado

O GLM-5.2 requer uma versão recente do Ollama. Como instalar ou atualizar:

# macOS (Homebrew)
brew install ollama
# ou atualizar
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# Baixe o instalador em https://ollama.com/download

Verificar a versão instalada:

ollama --version

Conexão com a internet (necessária para a tag cloud)

A tag glm-5.2:cloud roteia requisições para a API de inferência da Z.ai. É necessária uma conexão ativa com a internet e uma conta do Ollama. Faça login em ollama.com se ainda não o fez.

Requisitos de hardware

Modo de execução Mínimo Recomendado
glm-5.2:cloud (hospedado) Qualquer máquina moderna Qualquer máquina moderna
Local 2-bit (UD-IQ2_XXS) 256 GB de memória unificada M4 Ultra Mac Studio / estação de trabalho
Local 4-bit (Q4_K_M) 500+ GB de RAM Servidor multi-GPU
Local precisão total (FP16) 1,7 TB Cluster empresarial

Para a maioria dos desenvolvedores, glm-5.2:cloud é a escolha prática. O deployment local é coberto separadamente na seção de variantes.


Passo a Passo: Executar o GLM-5.2 no Ollama

Passo 1: Instalar ou atualizar o Ollama

Execute o comando de instalação apropriado para sua plataforma (consulte os Pré-requisitos). Confirmar a instalação:

ollama --version

Se o comando não for encontrado, a instalação não foi concluída — execute o script de instalação novamente.

Passo 2: Fazer pull do modelo GLM-5.2

Faça pull do modelo antes de executá-lo para armazenar em cache a configuração localmente (para a tag cloud, nenhum arquivo de pesos grande é baixado):

ollama pull glm-5.2:cloud

Passo 3: Executar o modelo

Iniciar uma sessão de chat interativa:

ollama run glm-5.2:cloud

O Ollama abrirá um prompt onde você pode digitar mensagens diretamente. Pressione Ctrl+D ou digite /bye para sair.

Passo 4: Testar com um prompt de exemplo

Depois que a sessão estiver aberta, experimente um teste rápido para confirmar que tudo está funcionando:

>>> Escreva uma função Python que leia um arquivo CSV e retorne uma lista de dicionários.

O GLM-5.2 é otimizado para tarefas de programação de longo prazo, lidando bem com prompts de engenharia detalhados. Você também pode testar sua janela de contexto de 976K com entradas maiores.


Variantes do Modelo GLM-5.2 Disponíveis no Ollama

Em junho de 2026, a biblioteca do Ollama lista a seguinte tag para o GLM-5.2:

Tag Tipo Janela de contexto Melhor para
glm-5.2:cloud Hospedado (inferência Z.ai) 976K tokens Maioria dos desenvolvedores — sem requisitos de hardware local

Nota: No momento da publicação, não há tag local glm-5.2:latest ou quantizada na biblioteca oficial do Ollama. Consulte ollama.com/library/glm-5.2/tags para a lista mais atual — tags quantizadas locais podem ser adicionadas após a publicação deste artigo.

Executar o GLM-5.2 completamente local (avançado)

O GLM-5.2 é um modelo Mixture-of-Experts de 744 bilhões de parâmetros com aproximadamente 40 bilhões de parâmetros ativos por token. O modelo é lançado sob a licença MIT com pesos abertos. Para inferência local fora da tag cloud do Ollama, as versões GGUF quantizadas da Unsloth são o caminho mais acessível:

Quantização Tamanho em disco Memória mínima
UD-IQ2_XXS (2-bit dinâmico) ~241 GB 256 GB de memória unificada
UD-IQ2_M (2-bit dinâmico) ~239 GB 256 GB de memória unificada
UD-Q4_K_XL (4-bit dinâmico) ~476 GB 500+ GB

Esses tamanhos tornam o GLM-5.2 prático apenas em hardware de ponta: Apple M4 Ultra Mac Studio (configuração de 192 GB ou superior) ou estações de trabalho com múltiplas GPUs e grande RAM de sistema. Para a maioria dos desenvolvedores, glm-5.2:cloud através do Ollama é o ponto de partida correto.


Usando o GLM-5.2 com a API do Ollama

Depois que o GLM-5.2 estiver em execução, o Ollama expõe uma API REST local em http://localhost:11434. A API é compatível com OpenAI, o que significa que qualquer ferramenta que funcione com a API da OpenAI também funciona com o Ollama.

curl — endpoint generate

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "prompt": "Escreva um Dockerfile para um app Node.js com multi-stage builds.",
    "stream": false
  }'

curl — endpoint de chat compatível com OpenAI

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2:cloud",
    "messages": [
      {"role": "system", "content": "Você é um engenheiro de software especialista."},
      {"role": "user", "content": "Explique a diferença entre um processo e uma thread."}
    ]
  }'

Python — biblioteca Ollama

from ollama import chat

response = chat(
    model='glm-5.2:cloud',
    messages=[
        {'role': 'user', 'content': 'Revise este código Python e sugira melhorias.'}
    ],
)
print(response.message.content)

Python — OpenAI SDK (compatibilidade direta)

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # exigido pelo SDK, não usado pelo Ollama
)

response = client.chat.completions.create(
    model="glm-5.2:cloud",
    messages=[
        {"role": "system", "content": "Você é um engenheiro de software sênior."},
        {"role": "user", "content": "Escreva uma query SQL para encontrar linhas duplicadas em uma tabela."}
    ]
)
print(response.choices[0].message.content)

JavaScript

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'glm-5.2:cloud',
  messages: [{ role: 'user', content: 'Gere uma REST API em Express.js.' }],
})
console.log(response.message.content)

Usando o GLM-5.2 no Ollama com Claude Code / Cursor

Como o Ollama expõe uma API compatível com OpenAI, você pode apontar assistentes de programação como Claude Code ou Cursor para o endpoint local do Ollama para usar o GLM-5.2 como modelo de backend.

Com Claude Code

Definir variáveis de ambiente para redirecionar as chamadas de API do Claude Code para a instância local do Ollama:

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

Iniciar o Ollama em segundo plano antes da sessão do Claude Code:

ollama serve &
ollama run glm-5.2:cloud

Com Cursor

  1. Abrir as configurações do Cursor (Cmd+, no macOS, Ctrl+, no Windows/Linux)
  2. Navegar para ModelsAdd custom model
  3. Definir o nome do modelo como glm-5.2:cloud
  4. Definir a URL base como http://localhost:11434/v1
  5. Definir a chave de API como ollama (qualquer string não vazia funciona)
  6. Salvar e selecionar o modelo na barra lateral de chat

Com Continue (extensão do VS Code)

Em ~/.continue/config.json:

{
  "models": [
    {
      "title": "GLM-5.2",
      "provider": "ollama",
      "model": "glm-5.2:cloud",
      "apiBase": "http://localhost:11434"
    }
  ]
}

Solução de Problemas

Error: model "glm-5.2:cloud" not found

Execute ollama pull glm-5.2:cloud primeiro para registrar o modelo, depois tente novamente. Se o pull falhar, verifique se você está logado no Ollama (ollama login) e se a conexão com a internet está funcionando.

Erro de autenticação ao fazer pull

A tag cloud requer uma conta do Ollama. Cadastre-se ou faça login em ollama.com, depois execute ollama login no terminal.

Respostas lentas

A tag glm-5.2:cloud roteia para inferência remota, portanto a velocidade de resposta depende da latência de rede e da carga do servidor da Z.ai. Esse é o comportamento esperado para um modelo hospedado.

Porta 11434 já em uso

Outra instância do Ollama está em execução, ou outro processo ocupou a porta. Pare o outro processo ou inicie o Ollama em uma porta personalizada:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

Atualize suas chamadas de API para usar a porta 11435.

Comando ollama não encontrado após a instalação

No Linux, o script de instalação coloca o binário em /usr/local/bin. Se esse caminho não estiver no PATH, adicione:

export PATH=$PATH:/usr/local/bin

Adicione essa linha ao ~/.bashrc ou ~/.zshrc para torná-la permanente.


Perguntas Frequentes

É possível executar o GLM-5.2 no Ollama?

Sim. O GLM-5.2 está disponível na biblioteca do Ollama em ollama.com/library/glm-5.2. A tag glm-5.2:cloud processa a inferência através da infraestrutura hospedada da Z.ai — você não precisa baixar mais de 240 GB de pesos do modelo e ainda obtém a experiência completa de desenvolvimento do Ollama.

Qual é o comando do Ollama para o GLM-5.2?

ollama run glm-5.2:cloud

Fazer pull antes de executar:

ollama pull glm-5.2:cloud

Quanta RAM é necessária para o GLM-5.2 no Ollama?

Para a tag glm-5.2:cloud (inferência hospedada), qualquer máquina moderna funciona — sem requisitos especiais de RAM. Para inferência completamente local usando pesos GGUF quantizados, o mínimo é de aproximadamente 256 GB de memória unificada (para a quantização de 2 bits UD-IQ2_XXS). A variante de 4 bits requer 500+ GB.

Executar o GLM-5.2 localmente via Ollama é gratuito?

Os pesos do modelo GLM-5.2 são lançados sob a licença MIT, portanto são gratuitos para usar. Executar via tag glm-5.2:cloud roteia as requisições para a API hospedada da Z.ai — verifique ollama.com e os termos da Z.ai para os preços atuais de inferência em nuvem. A inferência GGUF completamente local em seu próprio hardware não tem custo por token.

Como usar o GLM-5.2 com o Claude Code via Ollama?

Defina estas variáveis de ambiente antes de iniciar sua sessão do Claude Code:

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
export OPENAI_MODEL=glm-5.2:cloud

Em seguida, inicie o Ollama em segundo plano com ollama serve &. O Claude Code roteará as requisições de completions através do seu endpoint local do Ollama, encaminhando-as para o GLM-5.2.

Qual é a janela de contexto do GLM-5.2?

O GLM-5.2 suporta uma janela de contexto de 976K tokens (aproximadamente 1 milhão de tokens), uma das maiores janelas de contexto disponíveis em qualquer modelo em meados de 2026. Isso o torna particularmente adequado para tarefas envolvendo grandes bases de código, documentos longos ou análise de múltiplos arquivos.


Guias Relacionados

Guias relacionados

Continue no cluster do Gemma 4 com o proximo guia que combina com a decisao que voce esta tomando agora.

Ainda decidindo o que ler depois?

Volte para o hub de guias para navegar por comparacoes de modelos, tutoriais de configuracao e paginas de planejamento de hardware.