GLM 5.2 é Gratuito? Todas as Formas de Usar de Graça em 2026

Resposta Rápida: O GLM 5.2 é Gratuito?

Sim — o GLM 5.2 é gratuito de várias formas, dependendo de como você usa.

Os pesos do modelo são lançados sob licença MIT e disponíveis gratuitamente no Hugging Face.
O Cloudflare Workers AI hospeda o GLM 5.2 no LLM Playground sem cadastro e sem pagamento.
O z.ai web chat tem um plano gratuito para conversas gerais e tarefas leves de programação.
O Ollama oferece a tag glm-5.2:cloud que encaminha a inferência para GPUs do Ollama Cloud.
Auto-hospedagem via llama.cpp ou vLLM após baixar os pesos é completamente gratuita para sempre.

O que não é gratuito: chamadas diretas à API de produção do z.ai — $1,40 por milhão de tokens de entrada e $4,40 por milhão de tokens de saída (em junho de 2026). Assinaturas do GLM Coding Plan começam em cerca de $3–6/mês para o plano Lite.

Formas Gratuitas de Usar o GLM 5.2

1. Z.ai Web Chat (Plano Gratuito)

Acesse z.ai e comece a conversar. O plano gratuito não exige cartão de crédito e permite usar o GLM 5.2 para conversas cotidianas, perguntas e respostas, e tarefas leves de programação. Há limites de taxa de requisições — verifique as cotas atuais no z.ai antes de depender dele com frequência, pois as cotas podem mudar.

2. Cloudflare Workers AI Playground (Sem Cadastro)

O Workers AI LLM Playground da Cloudflare hospeda o GLM 5.2 sem necessidade de conta ou autenticação. Abra a página, digite seu prompt e receba uma resposta instantânea — a maneira mais rápida de testar o modelo sem nenhuma configuração.

3. Ollama (Tag glm-5.2:cloud)

Com o Ollama instalado, a tag glm-5.2:cloud encaminha a inferência para GPUs do Ollama Cloud em vez da sua máquina local:

ollama run glm-5.2:cloud

Sem necessidade de grandes quantidades de VRAM local. Verifique as tags disponíveis e limites de uso em ollama.com/library/glm-5.2.

4. Hugging Face Inference Providers (Janela Gratuita Limitada)

Logo após o lançamento em junho de 2026, o Hugging Face abriu uma janela de inferência gratuita via Inference Providers. Verifique o status atual na página do modelo zai-org/GLM-5.2.

5. Puter.js (Gratuito, Sem Backend)

O Puter.js permite acesso gratuito a modelos Z.ai GLM pelo lado do navegador, sem chave de API nem cadastro em backend. Há alguns limites de taxa, mas zero configuração necessária.

6. Auto-hospedagem dos Pesos com Licença MIT

Baixe os pesos do Hugging Face (zai-org/GLM-5.2) e execute localmente com llama.cpp, vLLM ou LM Studio. Após o download, nenhum custo por token é gerado jamais. Os requisitos de hardware são elevados: o modelo em precisão total tem ~1,51 TB. Versões GGUF quantizadas de unsloth/GLM-5.2-GGUF reduzem isso significativamente (o menor quant de 2 bits precisa de ~241 GB de VRAM).

O GLM 5.2 é Open Source?

Sim. O GLM 5.2 é open-weight e lançado sob a licença MIT.

A licença MIT é uma das licenças open source mais permissivas disponíveis. Ela concede o direito de:

Baixar, usar e modificar os pesos do modelo gratuitamente
Fazer fine-tuning do modelo para seus próprios propósitos
Implantar comercialmente sem pagar royalties
Redistribuir ou sublicenciar

Sem restrições regionais — os pesos estão disponíveis globalmente sem bloqueios geográficos.

Os pesos do modelo estão hospedados em:

Hugging Face: zai-org/GLM-5.2
ModelScope (para usuários na China)

"Open-weight" vs "totalmente open-source": Os pesos e a licença são completamente abertos. Algumas discussões distinguem "open-weight" (pesos liberados) de "totalmente open-source" (dados de treinamento e código também liberados). O código de inferência e os pesos do modelo GLM 5.2 estão disponíveis livremente; detalhes completos da infraestrutura de treinamento podem não estar totalmente publicados.

Limitações do Plano Gratuito do GLM 5.2

Método de Acesso	Custo	Limitações
Z.ai web chat	Gratuito	Limite de taxa; verificar cotas atuais no z.ai
Cloudflare Workers AI Playground	Gratuito	Apenas para testes; não para produção
Ollama glm-5.2:cloud	Gratuito (Ollama Cloud)	Sujeito às políticas de uso do Ollama Cloud
Hugging Face Inference Providers	Gratuito (limitado)	Pode expirar ou ser limitado
Puter.js	Gratuito	Limites de taxa por aplicativo
Auto-hospedagem	Gratuito para sempre	Limitado pelo seu próprio hardware

Para uso em produção em grande escala, os planos gratuitos geralmente não são suficientes.

API Gratuita do GLM 5.2

Existe uma API Gratuita para o GLM 5.2?

Não existe uma API permanentemente gratuita e ilimitada do Z.ai. Porém, há algumas opções quase gratuitas:

Créditos para novos usuários: O z.ai concede créditos gratuitos a novas contas no cadastro. O valor exato pode variar — verifique em docs.z.ai no momento do cadastro.
Cota gratuita da Z.ai Coding CLI: O Z.ai disponibilizou uma grande cota gratuita de tokens para sua CLI de programação (relatórios da comunidade citam cerca de 300 milhões de tokens) para atrair desenvolvedores. Elegibilidade e cotas estão sujeitas a alterações.
Cloudflare Workers AI: Gratuito para testes, mas não adequado para chamadas de API em produção.
Puter.js: Fornece uma interface similar a API sem chave para aplicativos de navegador.

Preços da API Paga (em junho de 2026)

Tokens de entrada: $1,40 por milhão de tokens
Tokens de saída: $4,40 por milhão de tokens
Entrada em cache: Reduzido significativamente com caching de prompt (taxas exatas de cache em docs.z.ai)

O GLM 5.2 custa cerca de um sexto comparado a modelos frontier como o GPT-5.5. Sempre verifique os preços atuais e oficiais em docs.z.ai/guides/overview/pricing.

Como Obter uma Chave de API Z.ai

Acesse z.ai e crie uma conta
Navegue até a seção de gerenciamento de chaves de API
Gere uma nova chave
Use-a no endpoint compatível com OpenAI (a API é compatível com o formato de chat completions da OpenAI)

Quando Você Precisa Pagar?

Considere um plano pago quando:

Acesso à API de produção além dos créditos de avaliação gratuitos for necessário
Sua aplicação requer volumes altos de requisições que excedem os limites de taxa do plano gratuito
Você usa o GLM 5.2 dentro de uma IDE de programação (Cursor, Cline, Claude Code) — os GLM Coding Plans são projetados para isso
Você precisa de garantias de SLA ou throughput prioritário
Você não pode fazer auto-hospedagem devido a restrições de hardware, mas precisa de uptime confiável

Se você está apenas avaliando o modelo, as opções gratuitas acima (especialmente Cloudflare e o plano gratuito do z.ai) são mais do que suficientes.

Como Usar o GLM 5.2 de Graça: Passo a Passo

O caminho mais rápido não exige conta nem download.

Método A: Cloudflare Workers AI (Zero Configuração, Recomendado para Testes)

Abra o navegador e acesse developers.cloudflare.com/workers-ai/models/glm-5.2/
Encontre a seção "LLM Playground" na página
Digite seu prompt no campo de entrada
Clique em "Run" ou pressione Enter
Leia sua resposta — sem login, sem cartão de crédito

Método B: Z.ai Web Chat (Plano Gratuito, Melhor para Uso Contínuo)

Acesse z.ai
Crie uma conta gratuita (cadastro por e-mail, sem cartão de crédito)
Selecione o modelo GLM 5.2 no seletor de modelos
Comece a conversar

Método C: Tag Cloud do Ollama (Para Desenvolvedores)

Instale o Ollama: curl -fsSL https://ollama.com/install.sh | sh
Baixe o modelo hospedado na nuvem: ollama run glm-5.2:cloud
Digite seu prompt e pressione Enter
Use o endpoint da API local em http://localhost:11434 em seus aplicativos

Método D: Auto-hospedagem com llama.cpp (Controle Máximo)

Instale o llama.cpp: siga as instruções em github.com/ggml-org/llama.cpp
Baixe um GGUF quantizado de huggingface.co/unsloth/GLM-5.2-GGUF (escolha o tamanho que cabe no seu VRAM)
Execute: llama-server -m GLM-5.2-Q2_K.gguf --host 0.0.0.0 --port 8080
Chame a API local em http://localhost:8080 — completamente gratuito, para sempre

Perguntas Frequentes

O GLM 5.2 é gratuito?

Parcialmente sim. Os pesos do GLM 5.2 têm licença MIT, permitindo download e auto-hospedagem gratuitos; o Cloudflare Workers AI Playground permite testes gratuitos (sem cadastro); o z.ai web chat tem plano gratuito. Chamadas diretas à API de produção do z.ai são pagas (junho de 2026: entrada $1,40/milhão de tokens, saída $4,40/milhão de tokens).

O GLM 5.2 é open source?

Sim. O GLM 5.2 é lançado sob a licença MIT — uma das licenças open source mais permissivas. Você pode baixar, modificar, fazer fine-tune e implantar comercialmente os pesos do modelo sem royalties e sem restrições regionais. Os pesos estão hospedados em zai-org/GLM-5.2 no Hugging Face.

Posso usar o GLM 5.2 sem me cadastrar?

Sim. O Cloudflare Workers AI LLM Playground permite executar o GLM 5.2 diretamente no navegador sem conta. O Puter.js também oferece acesso baseado em navegador sem chave. Para uso contínuo, uma conta gratuita no z.ai oferece mais recursos.

Existe uma API gratuita para o GLM 5.2?

Não há uma permanentemente ilimitada. O Z.ai concede créditos gratuitos a novos usuários no cadastro. Para acesso à API completamente gratuito sem limites de taxa, a auto-hospedagem dos pesos com licença MIT é a única solução permanente.

Como usar o GLM 5.2 de graça?

O método mais simples: acesse developers.cloudflare.com/workers-ai/models/glm-5.2/ e use o LLM Playground — sem cadastro necessário. Para uso gratuito contínuo, crie uma conta gratuita no z.ai. Para uso de desenvolvedor sem custos por token, baixe os pesos do Hugging Face e execute localmente com llama.cpp ou Ollama.

Quais são os limites do plano gratuito do GLM 5.2?

O plano gratuito do z.ai web chat tem limite de taxa (números exatos podem mudar — verifique no z.ai). O Cloudflare Playground é apenas para testes, não é uma API de produção. Os créditos de API para novos usuários são finitos. A auto-hospedagem é tecnicamente ilimitada, mas requer hardware significativo (mínimo ~241 GB de VRAM para a versão quantizada menor).