Seedance 2.0 API — Coming SoonGet early access

Série GPT-5.1 (API)

Accédez à la famille GPT‑5.1 via la passerelle API unifiée d’EvoLink. GPT‑5.1 prend en charge 400k de contexte, 128k tokens de sortie max et un knowledge cutoff au 30 sept 2024. Activez le streaming, function calling, structured outputs et le prompt caching si votre compte et endpoint le permettent.

Run With API
Using coding CLIs? Run GPT-5.1 via EvoCode — One API for Code Agents & CLIs. (View Docs)
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
GPT-5.1400.0K128.0K
$1.00-20%
$1.25Official Price
$8.00-20%
$10.00Official Price
$0.104-17%
$0.125Official Price
GPT-5.1 (Beta)400.0K128.0K
$0.325-74%
$1.25Official Price
$2.60-74%
$10.00Official Price
$0.033-74%
$0.125Official Price

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Two ways to run GPT-5.1 — pick the tier that matches your workload.

  • · GPT-5.1: the default tier for production reliability and predictable availability.
  • · GPT-5.1 (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.

Construisez avec l’API GPT‑5.1 — intelligence prête pour la production

Utilisez l’API GPT‑5.1 pour un chat fiable, des workflows d’outils et une gestion du long contexte à grande échelle. Intégrez via Responses ou Chat Completions, activez le streaming et les structured outputs, et épinglez des snapshots pour la stabilité des versions.

Visualisation de l’API GPT‑5.1

Que peut accomplir l’API GPT‑5.1 ?

Analyse de contexte massif

Traitez de grandes entrées et des historiques de conversation longs avec la fenêtre de contexte 400k et jusqu’à 128k tokens de sortie. Utile pour reviewer des dépôts, analyser de longs documents ou mener des recherches multi‑étapes sans chunking fragile.

Traitement de long contexte

Raisonnement avancé

Pour les tâches multi‑étapes — planification, aide au code, support à la décision — utilisez le reasoning effort configurable. GPT‑5.1 prend en charge none, low, medium et high pour équilibrer vitesse, coût et profondeur.

Raisonnement avancé

Prompt caching

Le prompt caching est automatique pour les prompts ≥ 1 024 tokens. Réutilisez des préfixes stables (system prompts, politiques, few‑shot) et choisissez in_memory ou 24h pour réduire le recalcul et augmenter le débit.

Optimisation des coûts

Pourquoi les développeurs choisissent l’API GPT‑5.1

GPT‑5.1 est une famille de modèles avec aliases et snapshots, pour un comportement stable en production et un chemin de mise à niveau clair.

Conception en famille de modèles

Utilisez des aliases orientés chat ou code comme gpt-5.1-chat-latest ou gpt-5.1-codex (si disponibles), tout en conservant une surface API cohérente.

Workflows long‑contexte pratiques

Une fenêtre de contexte 400k avec jusqu’à 128k tokens de sortie garde les tâches cohérentes et réduit le besoin de pipelines de chunking complexes.

Fonctions API pour l’intégration production

Streaming, function calling, structured outputs et prompt caching sont pris en charge par GPT‑5.1, pour des systèmes de production réels.

Comment intégrer l’API GPT‑5.1

Commencez à utiliser GPT‑5.1 via la passerelle unifiée d’EvoLink en trois étapes.

1

Étape 1 — Obtenir votre clé API

Créez un compte, générez une clé API et configurez vos variables d’environnement. L’accès à certaines variantes GPT‑5.1 peut dépendre du niveau d’usage et de la vérification de l’organisation.

2

Étape 2 — Configurer votre client

Utilisez votre SDK préféré ou des appels HTTP directs. Définissez l’URL de base sur votre endpoint gateway et choisissez Responses ou Chat Completions. Passez l’alias de modèle cible (par exemple gpt-5.1 ou gpt-5.1-chat-latest).

3

Étape 3 — Commencer à construire

Envoyez d’abord une petite requête de test, puis ajoutez le streaming, function calling, structured outputs ou le caching. Surveillez des champs usage comme prompt_tokens_details.cached_tokens pour valider le comportement.

Capacités principales de l’API

Spécifications techniques de l’API GPT‑5.1

Capacité

Long contexte (si disponible)

GPT‑5.1 liste une fenêtre de contexte 400k et jusqu’à 128k tokens de sortie, avec un knowledge cutoff au 30 sept 2024.

Efficacité

Prompt caching (si supporté)

Caching automatique pour prompts >= 1 024 tokens avec correspondance exacte du préfixe. Utilisez prompt_cache_retention in_memory ou 24h.

Intelligence

Variantes orientées raisonnement

Le reasoning effort configurable (none, low, medium, high) permet d’arbitrer vitesse, coût et profondeur par requête.

Intégration

Function / Tool calling

Définissez des outils JSON schema et routez des appels structurés vers vos systèmes via Responses et Chat Completions.

Fiabilité

Structured outputs (si disponible)

Des réponses JSON conformes au schéma sont prises en charge par GPT‑5.1 ; vérifiez le support endpoint pour les formats structurés.

Performance

Streaming

Diffusez des tokens partiels pour des interfaces réactives via des endpoints supportés comme Responses ou Realtime.

API GPT‑5.1 – FAQ

Everything you need to know about the product and billing.

OpenAI indique une fenêtre de contexte de 400 000 tokens et jusqu’à 128 000 tokens de sortie pour GPT‑5.1, avec un knowledge cutoff au 30 sept 2024. Utilisez votre dashboard et la documentation modèle comme source de vérité pour votre compte.
Le prompt caching est automatique pour les prompts d’au moins 1 024 tokens et ne fonctionne qu’avec des correspondances exactes de préfixe. Réglez prompt_cache_retention sur in_memory ou 24h. Les tokens mis en cache apparaissent dans usage.prompt_tokens_details.cached_tokens, et les caches sont limités à votre organisation.
GPT‑5.1 prend en charge reasoning.effort avec none (par défaut), low, medium et high. Utilisez un effort faible pour les tâches sensibles à la latence et un effort élevé pour un raisonnement multi‑étapes approfondi.
Oui. GPT‑5.1 prend en charge le streaming, le function calling et les structured outputs. Il est disponible sur des endpoints comme Responses, Chat Completions, Realtime, Assistants et Batch, sous réserve de disponibilité du compte et de l’endpoint.
Les cache hits nécessitent des correspondances exactes de préfixe. Placez les instructions et exemples statiques en début de prompt, les données utilisateur dynamiques à la fin, et gardez des définitions d’outils identiques. Vous pouvez aussi utiliser prompt_cache_key pour influencer le routage et améliorer les hits sur des préfixes partagés.
Les structured outputs imposent la conformité au schéma JSON, et GPT‑5.1 les liste comme supportés. La disponibilité peut dépendre de l’endpoint ; vérifiez la documentation modèle pour votre compte.
Utilisez des IDs de snapshot pour épingler une version spécifique et éviter de dépendre d’un alias latest si vous avez besoin de cohérence stricte. La page GPT‑5.1 liste des IDs comme gpt-5.1-2025-11-13.
OpenAI liste les prix GPT‑5.1 par 1 M de tokens pour l’entrée, l’entrée en cache et la sortie (par exemple : 1,25 $ / 0,125 $ / 10,00 $). Les prix réels via EvoLink peuvent varier selon le routage, le plan et les remises — utilisez toujours le tableau de tarifs et vos données de facturation comme référence.