GLM-5.2 API

Use Z.ai GLM-5.2 a través de EvoLink con una sola clave API mediante un endpoint compatible con OpenAI (`/v1/chat/completions`). Con ~1M de contexto, deep thinking, tool calling y prompt caching, es ideal para coding agents, flujos de trabajo agénticos, Q&A de repositorios y asistentes que usan herramientas desde $1.00/1M tokens de entrada.

Tipo de modelo:

Precio: $1.000(~ 68 credits) per 1M input tokens

Máxima estabilidad con 99.9% de disponibilidad garantizada. Recomendado para producción.

Todas las versiones usan el mismo endpoint API. Solo cambia el parámetro model.

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ
GLM-5.2	1,000,000	131,072	$1.000-29% (68 Credits)	$3.500-20% (238 Credits)	$0.250-4% (17 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

GLM-5.2 API

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Enrute Z.ai GLM-5.2 a través de EvoLink para coding agents, uso agéntico de herramientas, Q&A de repositorios y análisis de contexto largo con una ventana de contexto de ~1M, deep thinking y prompt caching. Conéctese mediante un endpoint compatible con OpenAI, con precios desde $1.00/1M tokens de entrada.

Acceso y encaje del flujo

Ideal para

Agentes de código

Model ID

glm-5.2

Acceso

OpenAI-compatible

Contexto

Ventana 1M

Input

$1.00/1M

Integrado

Thinking + tools + caché

Ver precios Gateway para CLIs de código

¿Qué puedes construir con la API GLM-5.2?

Coding Agents y herramientas para desarrolladores

Construya copilots de codificación y agentes que manejen Q&A de repositorios, generación de código y revisión. Como GLM-5.2 habla la API Chat Completions de OpenAI, se integra en extensiones de editor, CLIs de codificación y frameworks de agentes que ya admiten endpoints compatibles con OpenAI, mientras que el deep thinking maneja el razonamiento multi-paso en una sola API.

Comenzar a construir

Caso de uso de la API GLM-5.2 para codificación

Uso agéntico de herramientas y function calling

Impulse agentes autónomos que llaman herramientas, consultan APIs y orquestan flujos de trabajo multi-paso. El function calling y el deep thinking de GLM-5.2 le permiten planificar, invocar herramientas y reaccionar a los resultados, para que pueda construir agentes de investigación, pipelines de datos y automatización de tareas en un solo endpoint.

Construir agentes

Caso de uso de la API GLM-5.2 para agentes

Procesamiento de documentos y repositorios de contexto largo

Procese contratos, informes, bases de código y grandes bases de conocimiento sin fragmentación agresiva. La ventana de contexto de ~1M es ideal para resúmenes estructurados, pipelines de extracción y análisis de repositorios completos, mientras que el prompt caching mantiene asequibles los prefijos largos repetidos.

Procesar documentos

Caso de uso de la API GLM-5.2 para documentos

Por qué los equipos eligen la API GLM-5.2

Los equipos eligen GLM-5.2 en EvoLink cuando necesitan razonamiento sólido de codificación y agéntico, contexto largo, acceso compatible con OpenAI y precios de tokens predecibles sin construir una integración específica de proveedor.

Acceso compatible con OpenAI

Llame a GLM-5.2 a través de un endpoint `/v1/chat/completions` compatible con OpenAI con una sola clave EvoLink. El código y las herramientas existentes del SDK de OpenAI funcionan sin reconstruir su ruta de integración — solo cambie la URL base y el nombre del modelo.

Costo de producción predecible

Los precios de tokens visibles facilitan la presupuestación: entrada desde $1.00/1M, salida desde $3.50/1M y lecturas de caché desde alrededor de $0.25/1M para prompts repetidos. El precio es una tarifa plana en todo el contexto de ~1M sin recargo por contexto largo, y el almacenamiento de entrada en caché es gratuito durante una promoción por tiempo limitado.

Thinking, herramientas y caching

Use ~1M de contexto para prompts grandes, active el deep thinking para razonamiento complejo, llame herramientas con function calling estructurado y confíe en el prompt caching para reducir el costo del contexto repetido.

Comparación de modelos

GLM-5.2 vs GPT-5.5 vs Claude Opus 4.8

Use estos tres modelos como shortlist para coding agents. Compare repo Q&A, refactors multiarchivo, PR review y trazas de tool calling con las mismas tareas.

Modelo	Mejor para	Prueba contra GLM-5.2	Rol de ruta
GLM-5.2	Coding agents compatibles con OpenAI, repos con contexto 1M y tareas de ingeniería sensibles al coste.	Repo Q&A completo, retención de contexto largo, bucles de herramientas, prompt caching y coste por tarea exitosa.	Candidato a ruta por defecto o ruta eficiente en coste para coding agents.
GPT-5.5	Razonamiento y coding flagship de OpenAI con fuerte encaje de SDK y ecosistema de herramientas.	Debugging difícil, revisión de arquitectura, workflows GPT existentes y escaladas premium.	Benchmark GPT premium o ruta de escalado.
Claude Opus 4.8	Razonamiento complejo, long-horizon agentic coding y trabajo de ingeniería de alta autonomía.	Refactors multiarchivo, calidad de PR review, recuperación en tool use y sesiones largas de agente.	Benchmark Claude premium para las trazas de coding-agent más difíciles.

La página de producto no debe declarar un ganador universal. La decisión útil es qué ruta gana en sus propias trazas de ingeniería.

Leer la guía completa

Cómo integrar la API GLM-5.2

Mantenga su cliente compatible con OpenAI existente, apúntelo a EvoLink, establezca el modelo en glm-5.2 y use la misma ruta para flujos de trabajo de coding-agent, agénticos y de contexto largo.

Paso 1 — Autenticación

Cree una clave API de EvoLink y establezca la URL base de EvoLink. Use autenticación Bearer con el endpoint compatible con OpenAI.

Paso 2 — Establecer campos requeridos

Envíe `model: glm-5.2` con su array `messages`. Reutilice prompts de sistema y prefijos estables para beneficiarse del prompt caching en cargas de trabajo repetidas.

Paso 3 — Ajustar salidas

Ajuste temperature, top_p, max_tokens y stream como de costumbre. Pase `tools` para function calling. Nota: el thinking está activado de forma predeterminada y aumenta los tokens de salida — establezca `thinking` en deshabilitado para reducir el costo cuando no necesite razonamiento profundo.

Características de la API GLM-5.2 para equipos de producción

Controles concretos y señales de despliegue en lugar de una descripción genérica del modelo

Thinking

Modo deep thinking

Active el thinking para matemáticas, lógica y análisis complejo multi-paso. El razonamiento se expone como un campo o bloque de contenido separado, para que pueda mostrar u ocultar la cadena de pensamiento en su producto. Está activado de forma predeterminada y se puede deshabilitar por solicitud.

Context

Ventana de contexto de ~1M

Ajuste bases de código completas, documentos largos y contexto multi-turno en una sola solicitud antes de recurrir a fragmentación agresiva u orquestación multi-paso.

Tools

Tool calling y function calling

Defina herramientas y deje que GLM-5.2 las planifique e invoque con argumentos estructurados, habilitando agentes autónomos, orquestación de APIs y automatización de tareas.

Compatibility

API compatible con OpenAI

Conéctese con el SDK de OpenAI mediante `/v1/chat/completions` cambiando la URL base y el nombre del modelo — sin reconstruir la integración.

Caching

Prompt Caching

Los prefijos repetidos y prompts de sistema se facturan a una tarifa de lectura de caché más baja, lo que ayuda a los flujos de trabajo de agentes recurrentes y al tráfico de producción de alto volumen. El almacenamiento de entrada en caché es gratuito durante una promoción por tiempo limitado.

Pricing

Precios de tokens planos

GLM-5.2 usa una única tarifa plana en toda su ventana de contexto de ~1M, sin recargo por contexto largo, por lo que el costo escala de manera predecible con el tamaño del prompt.

Preguntas frecuentes sobre la API GLM-5.2

Everything you need to know about the product and billing.

Los precios de GLM-5.2 en EvoLink comienzan en alrededor de $1.00 por 1M de tokens de entrada y $3.50 por 1M de tokens de salida. Las lecturas de caché comienzan en alrededor de $0.25 por 1M de tokens, y el almacenamiento de entrada en caché es gratuito durante una promoción por tiempo limitado. El precio es una tarifa plana en toda la ventana de contexto de ~1M, sin recargo por contexto largo.

GLM-5.2 es ideal para coding agents, CLIs de codificación y herramientas de editor compatibles con OpenAI, uso agéntico de herramientas, Q&A de repositorios, flujos de trabajo de investigación y análisis de documentos largos que se benefician de ~1M de contexto, deep thinking, function calling y prompt caching.

GLM-5.2 admite una ventana de contexto de aproximadamente 1M de tokens, facturada a una única tarifa plana en toda la ventana sin recargo por contexto largo.

Sí. GLM-5.2 admite un modo deep thinking para razonamiento complejo (activado de forma predeterminada, se puede deshabilitar), function calling estructurado para uso agéntico de herramientas y prompt caching para que los prefijos repetidos se facturen a una tarifa de lectura de caché más baja. Es un modelo de texto y no acepta entrada de imagen, video o audio.

Compárelo en el workload que realmente planea desplegar: repo Q&A, revisión multiarchivo, loops de coding agent, tool calling, latencia y coste total de tokens. GLM-5.2 es un candidato sólido cuando importan el contexto largo y el encaje como agente de ingeniería, mientras que las tareas más simples pueden enrutarse mejor a modelos de menor coste a través del mismo gateway de EvoLink.

Sí. EvoLink expone GLM-5.2 en un endpoint compatible con OpenAI (`/v1/chat/completions`). Cambie la URL base y establezca el modelo en glm-5.2 para usar el SDK de OpenAI o cualquier cliente compatible con OpenAI.

Generalmente sí. Como GLM-5.2 habla la API Chat Completions de OpenAI, se integra en CLIs de codificación, herramientas de editor y frameworks de agentes que admiten endpoints compatibles con OpenAI. Para patrones de configuración adyacentes, consulte Un Gateway para 3 CLIs de Codificación y Gateway frente a APIs Directas.

Use el enum de modelo `glm-5.2` en el cuerpo de la solicitud. EvoLink enrutará la solicitud a GLM-5.2 a través del proveedor óptimo.