Seedance 2.0 API — 即将上线Get early access

GPT-5.1 系列 (API)

通过 EvoLink 的统一 API 网关访问 GPT-5.1 模型系列。GPT-5.1 支持 400k 上下文、128k 最大输出 Token,知识截止日期为 2024 年 9 月 30 日。当您的账户和端点支持时,可启用流式传输、函数调用、结构化输出和提示词缓存。
Run With API
Using coding CLIs? Run GPT-5.1 via EvoCode — One API for Code Agents & CLIs. (View Docs)
$

定价

方案上下文窗口最大输出输入输出缓存读取
GPT-5.1400.0K128.0K
$1.00-20%
$1.25官方价格
$8.00-20%
$10.00官方价格
$0.104-17%
$0.125官方价格
GPT-5.1 (Beta)400.0K128.0K
$0.325-74%
$1.25官方价格
$2.60-74%
$10.00官方价格
$0.033-74%
$0.125官方价格

定价说明: 价格单位:USD / 1M tokens

缓存命中: 适用于缓存的提示词 Tokens 价格。

在 EvoLink 上运行 GPT-5.1 有两种方式,您可以选择适合您需求的层级。

  • · GPT-5.1: 默认层级,适合生产环境的可靠性和可预测的可用性。
  • · GPT-5.1 (Beta): 低成本层级,尽力而为的可用性;推荐用于可接受重试的工作负载。

使用 GPT-5.1 API 构建 — 生产级智能

使用 GPT-5.1 API 获得可靠的聊天性能、支持工具调用的工作流以及可扩展的长上下文处理能力。通过 Responses 或 Chat Completions 进行集成,启用流式传输和结构化输出,并固定快照以确保发布稳定性。

GPT-5.1 API 可视化

GPT-5.1 API 能实现什么?

海量上下文分析

利用 GPT-5.1 的 400k 上下文窗口和高达 128k 的输出 Token 处理更大的输入和更长的对话历史。这对于审查代码库、分析 long 文档或运行多步骤研究非常有用,无需过多的手动分块。

大型上下文处理

高级推理

对于需要多步思考的问题——如规划、编程辅助和决策支持——使用可配置的推理努力(Reasoning Effort)。GPT-5.1 支持 none、low、medium 和 high 档位,以便您平衡速度、成本和深度。

高级推理

提示词缓存

对于 1,024 个 Token 或更长的提示词,自动启用提示词缓存。复用稳定的前缀(系统提示词、政策、少样本示例),并选择内存或 24 小时保留,以减少重复处理并提高吞吐量。

成本优化

为什么开发者选择 GPT-5.1 API

GPT-5.1 是一个包含快照和别名的模型系列,为您提供稳定的生产行为和清晰的升级路径。

模型系列设计

在保持一致的 API 界面的同时,根据可用性使用面向聊天或面向编程的别名,如 gpt-5.1-chat-latest 或 gpt-5.1-codex。

实用的长上下文工作流

400k 上下文窗口和高达 128k 的输出 Token 保持了任务的连贯性,并减少了对复杂分块流水线的需求。

面向生产集成的 API 特性

GPT-5.1 支持流式传输、函数调用、结构化输出和提示词缓存,因此该模型能够完美契合真实的生产系统。

如何集成 GPT-5.1 API

通过 EvoLink 的统一网关,只需三步即可开始使用 GPT-5.1。

1

第 1 步 — 获取您的 API 密钥

创建账户,生成 API 密钥,并配置您的环境变量。对特定 GPT-5.1 变体的访问权限可能取决于用量层级和组织验证。

2

第 2 步 — 配置您的客户端

使用您偏好的 SDK 或直接进行 HTTP 调用。将 Base URL 设置为您的网关端点,并选择 Responses 或 Chat Completions。传递您想要定位的模型别名(例如 gpt-5.1 或 gpt-5.1-chat-latest)。

3

第 3 步 — 开始构建

先发送一个小型测试请求,然后添加流式传输、函数调用、结构化输出或缓存。监控响应中的使用字段(如 prompt_tokens_details.cached_tokens)以验证行为。

核心 API 能力

GPT-5.1 API 技术规格

容量

长上下文(可用时)

GPT-5.1 列出了 400k 上下文窗口和高达 128k 的输出 Token,知识截止日期为 2024 年 9 月 30 日。

效率

提示词缓存(支持时)

针对 >= 1,024 Token且前缀完全匹配的提示词自动缓存。支持内存或 24 小时缓存保留。

智能

推理导向变体

可配置的推理努力(none, low, medium, high)让您在每次请求中权衡速度、成本和深度。

集成

函数 / 工具调用

定义 JSON Schema 工具,并在 Responses 和 Chat Completions 等端点间将结构化调用路由到您的系统。

可靠性

结构化输出(可用时)

GPT-5.1 支持遵循 Schema 的 JSON 响应;请确认端点对结构化输出格式的支持情况。

性能

流式传输

通过 Responses 或 Realtime 等支持的端点流式传输部分 Token,以实现响应式 UI。

GPT-5.1 API - 常见问题

Everything you need to know about the product and billing.

OpenAI 的模型文档列出了 GPT-5.1 的 400,000 Token 上下文窗口和高达 128,000 的最大输出 Token,知识截止日期为 2024 年 9 月 30 日。请以您的控制台和模型文档作为您账户的最终依据。
提示词缓存对于 1,024 Token 或更长的提示词是自动开启的,且仅在完全匹配前缀时生效。将 prompt_cache_retention 设置为 in_memory 或 24h。缓存的 Token 会显示在 usage.prompt_tokens_details.cached_tokens 中,且缓存作用域限定在您的组织内。
GPT-5.1 支持 reasoning.effort 值为 none(默认)、low、medium 和 high。对延迟敏感的任务使用较低的努力值,对深度的多步推理使用较高的努力值。
是的。GPT-5.1 支持流式传输、函数调用和结构化输出。它可在 Responses、Chat Completions、Realtime、Assistants 和 Batch 等端点上使用,具体取决于账户和端点的可用性。
缓存命中需要前缀完全匹配。将静态指令和示例放在开头,将动态用户数据放在末尾,并保持工具定义完全一致。您还可以使用 prompt_cache_key 来影响路由并提高共享前缀的缓存命中率。
结构化输出强制执行 JSON Schema 遵循,GPT-5.1 将结构化输出列为支持项。可用性仍可能取决于端点,请在您账户的模型文档中确认支持情况。
使用快照模型 ID 来固定特定版本,如果您需要严格的一致性,请避免依赖最新的别名。GPT-5.1 模型页面列出了快照 ID,如 gpt-5.1-2025-11-13。
OpenAI 列出了 GPT-5.1 的输入、缓存输入和输出的每百万 Token 定价(例如:$1.25 / $0.125 / $10.00)。通过 EvoLink 的实际价格可能因路由、计划和折扣而异,请始终以定价表和您控制台的用量/账单数据为准。