Série GPT-5.1 (API)
Accédez à la famille GPT‑5.1 via la passerelle API unifiée d’EvoLink. GPT‑5.1 prend en charge 400k de contexte, 128k tokens de sortie max et un knowledge cutoff au 30 sept 2024. Activez le streaming, function calling, structured outputs et le prompt caching si votre compte et endpoint le permettent.
PRICING
| PLAN | CONTEXT WINDOW | MAX OUTPUT | INPUT | OUTPUT | CACHE READ |
|---|---|---|---|---|---|
| GPT-5.1 | 400.0K | 128.0K | $1.00-20% $1.25Official Price | $8.00-20% $10.00Official Price | $0.104-17% $0.125Official Price |
| GPT-5.1 (Beta) | 400.0K | 128.0K | $0.325-74% $1.25Official Price | $2.60-74% $10.00Official Price | $0.033-74% $0.125Official Price |
Pricing Note: Price unit: USD / 1M tokens
Cache Hit: Price applies to cached prompt tokens.
Two ways to run GPT-5.1 — pick the tier that matches your workload.
- · GPT-5.1: the default tier for production reliability and predictable availability.
- · GPT-5.1 (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.
Construisez avec l’API GPT‑5.1 — intelligence prête pour la production
Utilisez l’API GPT‑5.1 pour un chat fiable, des workflows d’outils et une gestion du long contexte à grande échelle. Intégrez via Responses ou Chat Completions, activez le streaming et les structured outputs, et épinglez des snapshots pour la stabilité des versions.

Que peut accomplir l’API GPT‑5.1 ?
Analyse de contexte massif
Traitez de grandes entrées et des historiques de conversation longs avec la fenêtre de contexte 400k et jusqu’à 128k tokens de sortie. Utile pour reviewer des dépôts, analyser de longs documents ou mener des recherches multi‑étapes sans chunking fragile.

Raisonnement avancé
Pour les tâches multi‑étapes — planification, aide au code, support à la décision — utilisez le reasoning effort configurable. GPT‑5.1 prend en charge none, low, medium et high pour équilibrer vitesse, coût et profondeur.

Prompt caching
Le prompt caching est automatique pour les prompts ≥ 1 024 tokens. Réutilisez des préfixes stables (system prompts, politiques, few‑shot) et choisissez in_memory ou 24h pour réduire le recalcul et augmenter le débit.

Pourquoi les développeurs choisissent l’API GPT‑5.1
GPT‑5.1 est une famille de modèles avec aliases et snapshots, pour un comportement stable en production et un chemin de mise à niveau clair.
Conception en famille de modèles
Utilisez des aliases orientés chat ou code comme gpt-5.1-chat-latest ou gpt-5.1-codex (si disponibles), tout en conservant une surface API cohérente.
Workflows long‑contexte pratiques
Une fenêtre de contexte 400k avec jusqu’à 128k tokens de sortie garde les tâches cohérentes et réduit le besoin de pipelines de chunking complexes.
Fonctions API pour l’intégration production
Streaming, function calling, structured outputs et prompt caching sont pris en charge par GPT‑5.1, pour des systèmes de production réels.
Comment intégrer l’API GPT‑5.1
Commencez à utiliser GPT‑5.1 via la passerelle unifiée d’EvoLink en trois étapes.
Étape 1 — Obtenir votre clé API
Créez un compte, générez une clé API et configurez vos variables d’environnement. L’accès à certaines variantes GPT‑5.1 peut dépendre du niveau d’usage et de la vérification de l’organisation.
Étape 2 — Configurer votre client
Utilisez votre SDK préféré ou des appels HTTP directs. Définissez l’URL de base sur votre endpoint gateway et choisissez Responses ou Chat Completions. Passez l’alias de modèle cible (par exemple gpt-5.1 ou gpt-5.1-chat-latest).
Étape 3 — Commencer à construire
Envoyez d’abord une petite requête de test, puis ajoutez le streaming, function calling, structured outputs ou le caching. Surveillez des champs usage comme prompt_tokens_details.cached_tokens pour valider le comportement.
Capacités principales de l’API
Spécifications techniques de l’API GPT‑5.1
Long contexte (si disponible)
GPT‑5.1 liste une fenêtre de contexte 400k et jusqu’à 128k tokens de sortie, avec un knowledge cutoff au 30 sept 2024.
Prompt caching (si supporté)
Caching automatique pour prompts >= 1 024 tokens avec correspondance exacte du préfixe. Utilisez prompt_cache_retention in_memory ou 24h.
Variantes orientées raisonnement
Le reasoning effort configurable (none, low, medium, high) permet d’arbitrer vitesse, coût et profondeur par requête.
Function / Tool calling
Définissez des outils JSON schema et routez des appels structurés vers vos systèmes via Responses et Chat Completions.
Structured outputs (si disponible)
Des réponses JSON conformes au schéma sont prises en charge par GPT‑5.1 ; vérifiez le support endpoint pour les formats structurés.
Streaming
Diffusez des tokens partiels pour des interfaces réactives via des endpoints supportés comme Responses ou Realtime.
API GPT‑5.1 – FAQ
Everything you need to know about the product and billing.