GLM-5.2 est maintenant disponibleEn savoir plus

GLM-5.2 API

Utilisez Z.ai GLM-5.2 via EvoLink avec une seule clé API sur un endpoint compatible OpenAI (/v1/chat/completions). Avec une fenêtre de contexte ~1M, un raisonnement approfondi, l'appel d'outils et le prompt caching, il convient aux coding agents, workflows agentiques, Q&A de dépôts et assistants utilisant des outils à partir de $1.00/1M tokens d'entrée.
Type de modèle:

Prix: $1.000(~ 68 credits) per 1M input tokens

Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.

Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.

GLM-5.2 API

Routez Z.ai GLM-5.2 via EvoLink pour les coding agents, l'utilisation agentique d'outils, le Q&A de dépôts et l'analyse long-contexte avec une fenêtre de contexte ~1M, un raisonnement approfondi et le prompt caching. Connectez-vous via un endpoint compatible OpenAI, avec des tarifs à partir de $1.00/1M tokens d'entrée.

Accès et usage cible

Idéal pour

Agents de code

Model ID

glm-5.2

Accès

OpenAI-compatible

Contexte

Fenêtre 1M

Input

$1.00/1M

Intégré

Thinking + outils + cache

Présentation de l'API GLM-5.2

Que pouvez-vous construire avec l'API GLM-5.2 ?

Coding Agents & outils pour développeurs

Créez des copilotes de codage et des agents qui gèrent le Q&A de dépôts, la génération de code et la revue. Parce que GLM-5.2 parle l'API OpenAI Chat Completions, il s'intègre dans les extensions d'éditeur, les CLIs de codage et les frameworks d'agents qui supportent déjà les endpoints compatibles OpenAI, tandis que le raisonnement approfondi gère le raisonnement multi-étapes dans une seule API.

Cas d'usage de l'API GLM-5.2 pour le codage

Utilisation agentique d'outils & appel de fonctions

Pilotez des agents autonomes qui appellent des outils, interrogent des API et orchestrent des workflows multi-étapes. L'appel de fonctions et le raisonnement approfondi de GLM-5.2 lui permettent de planifier, d'invoquer des outils et de réagir aux résultats, afin que vous puissiez construire des agents de recherche, des pipelines de données et de l'automatisation de tâches sur un seul endpoint.

Cas d'usage de l'API GLM-5.2 pour les agents

Traitement long-contexte de documents & de dépôts

Traitez des contrats, rapports, bases de code et grandes bases de connaissances sans chunking agressif. La fenêtre de contexte ~1M convient aux synthèses structurées, pipelines d'extraction et analyse de dépôts complets, tandis que le prompt caching maintient les longs préfixes répétés abordables.

Cas d'usage de l'API GLM-5.2 pour les documents

Pourquoi les équipes choisissent l'API GLM-5.2

Les équipes choisissent GLM-5.2 sur EvoLink lorsqu'elles ont besoin d'un raisonnement de codage et agentique solide, d'un long contexte, d'un accès compatible OpenAI et de tarifs token prévisibles sans construire une intégration spécifique à un fournisseur.

Accès compatible OpenAI

Appelez GLM-5.2 via un endpoint /v1/chat/completions compatible OpenAI avec une seule clé EvoLink. Le code et les outils OpenAI SDK existants fonctionnent sans reconstruire votre chemin d'intégration — changez simplement l'URL de base et le nom du modèle.

Coût de production prévisible

Les tarifs token visibles facilitent la budgétisation : entrée à partir de $1.00/1M, sortie à partir de $3.50/1M et lectures de cache à environ $0.25/1M pour les prompts répétés. La tarification est un tarif unique sur l'ensemble du contexte ~1M, sans surcoût long-contexte, et le stockage de l'entrée mise en cache est gratuit pendant une promotion à durée limitée.

Thinking, outils et caching

Utilisez le contexte ~1M pour les grands prompts, activez le raisonnement approfondi pour le raisonnement complexe, appelez des outils avec un appel de fonctions structuré et comptez sur le prompt caching pour réduire le coût du contexte répété.

Comparaison de modèles

GLM-5.2 vs GPT-5.5 vs Claude Opus 4.8

Utilisez ces trois modèles comme shortlist pour coding agents. Comparez-les sur les mêmes traces de repo Q&A, refactor multi-fichiers, PR review et tool calling.

ModèleMeilleur usageTest face à GLM-5.2Rôle de routage
GLM-5.2Coding agents compatibles OpenAI, travaux de dépôt avec contexte 1M et tâches engineering sensibles au coût.Repo Q&A complet, rétention long contexte, boucles outils, prompt caching et coût par tâche réussie.Candidat route par défaut ou route optimisée coût pour coding agents.
GPT-5.5Raisonnement et coding OpenAI flagship avec bon alignement SDK et écosystème outils.Debugging difficile, revue architecture, workflows GPT existants et cas premium.Benchmark GPT premium ou route d'escalade.
Claude Opus 4.8Raisonnement complexe, long-horizon agentic coding et travail engineering très autonome.Refactors multi-fichiers, qualité PR review, reprise après erreurs outils et longues sessions agent.Benchmark Claude premium pour les traces coding-agent les plus difficiles.

La page produit ne doit pas déclarer un gagnant universel. La bonne décision est la route qui gagne sur vos propres traces engineering.

Lire le guide complet

Comment intégrer l'API GLM-5.2

Conservez votre client compatible OpenAI existant, pointez-le vers EvoLink, définissez le modèle sur glm-5.2 et utilisez la même route pour les workflows de coding-agent, agentiques et long-contexte.

Comment intégrer l'API GLM-5.2
1

Étape 1 — Authentification

Créez une clé API EvoLink et définissez l'URL de base EvoLink. Utilisez l'authentification Bearer avec l'endpoint compatible OpenAI.

2

Étape 2 — Définir les champs requis

Envoyez `model: glm-5.2` avec votre tableau `messages`. Réutilisez les prompts système stables et les préfixes pour bénéficier du prompt caching sur les charges de travail répétées.

3

Étape 3 — Ajuster les sorties

Ajustez temperature, top_p, max_tokens et stream comme d'habitude. Passez `tools` pour l'appel de fonctions. Remarque : thinking est activé par défaut et augmente les tokens de sortie — définissez `thinking` sur désactivé pour réduire le coût lorsque vous n'avez pas besoin de raisonnement approfondi.

Fonctionnalités de l'API GLM-5.2 pour les équipes de production

Contrôles concrets et signaux de déploiement plutôt qu'un aperçu générique du modèle

Thinking

Mode de raisonnement approfondi

Activez thinking pour les mathématiques, la logique et l'analyse complexe multi-étapes. Le raisonnement est exposé comme un champ ou un bloc de contenu séparé, afin que vous puissiez afficher ou masquer la chaîne de pensée dans votre produit. Il est activé par défaut et peut être désactivé par requête.

Context

Fenêtre de contexte ~1M

Intégrez des bases de code entières, de longs documents et un contexte multi-tours dans une seule requête avant de recourir au chunking agressif ou à l'orchestration multi-passes.

Tools

Appel d'outils & appel de fonctions

Définissez des outils et laissez GLM-5.2 les planifier et les invoquer avec des arguments structurés, permettant des agents autonomes, l'orchestration d'API et l'automatisation de tâches.

Compatibility

API compatible OpenAI

Connectez-vous avec le SDK OpenAI via /v1/chat/completions en changeant l'URL de base et le nom du modèle — aucune reconstruction d'intégration requise.

Caching

Prompt Caching

Les préfixes répétés et les prompts système sont facturés à un tarif de lecture de cache inférieur, ce qui aide les workflows d'agents récurrents et le trafic de production à volume élevé. Le stockage de l'entrée mise en cache est gratuit pendant une promotion à durée limitée.

Pricing

Tarification token unique

GLM-5.2 utilise un tarif unique sur l'ensemble de sa fenêtre de contexte ~1M, sans surcoût long-contexte, donc le coût évolue de manière prévisible avec la taille du prompt.

FAQ de l'API GLM-5.2

Everything you need to know about the product and billing.

Les tarifs de GLM-5.2 sur EvoLink commencent à environ $1.00 par 1M de tokens d'entrée et $3.50 par 1M de tokens de sortie. Les lectures de cache commencent à environ $0.25 par 1M de tokens, et le stockage de l'entrée mise en cache est gratuit pendant une promotion à durée limitée. La tarification est un tarif unique sur l'ensemble de la fenêtre de contexte ~1M, sans surcoût long-contexte.
GLM-5.2 est particulièrement adapté aux coding agents, aux CLIs de codage et outils d'éditeur compatibles OpenAI, à l'utilisation agentique d'outils, au Q&A de dépôts, aux workflows de recherche et à l'analyse de documents longs qui bénéficient d'un contexte ~1M, d'un raisonnement approfondi, de l'appel de fonctions et du prompt caching.
GLM-5.2 supporte une fenêtre de contexte d'environ 1M tokens, facturée selon un tarif unique sur l'ensemble de la fenêtre sans surcoût long-contexte.
Oui. GLM-5.2 supporte un mode de raisonnement approfondi pour le raisonnement complexe (activé par défaut, peut être désactivé), un appel de fonctions structuré pour l'utilisation agentique d'outils, et le prompt caching afin que les préfixes répétés soient facturés à un tarif de lecture de cache inférieur. C'est un modèle texte et il n'accepte pas d'entrée image, vidéo ou audio.
Comparez-le sur la charge de travail que vous prévoyez réellement de déployer : Q&A de dépôts, revue multi-fichiers, boucles de coding agent, appel d'outils, latence et coût token total. GLM-5.2 est un candidat solide lorsque le long contexte et l'adéquation aux agents d'ingénierie comptent, tandis que les tâches plus simples peuvent être mieux routées vers des modèles moins coûteux via le même gateway EvoLink.
Oui. EvoLink expose GLM-5.2 sur un endpoint compatible OpenAI (/v1/chat/completions). Changez l'URL de base et définissez le modèle sur glm-5.2 pour utiliser le SDK OpenAI ou tout client compatible OpenAI.
Généralement oui. Parce que GLM-5.2 parle l'API OpenAI Chat Completions, il s'intègre dans les CLIs de codage, les outils d'éditeur et les frameworks d'agents qui supportent les endpoints compatibles OpenAI. Pour les modèles de configuration adjacents, voir One Gateway for 3 Coding CLIs et Gateway vs Direct APIs.
Utilisez l'enum de modèle `glm-5.2` dans le corps de la requête. EvoLink acheminera la requête vers GLM-5.2 via le fournisseur optimal.