GPT-5.1 系列 (API)

通过 EvoLink 的统一 API 网关访问 GPT-5.1 模型系列。GPT-5.1 支持 400k 上下文、128k 最大输出 Token，知识截止日期为 2024 年 9 月 30 日。当您的账户和端点支持时，可启用流式传输、函数调用、结构化输出和提示词缓存。

Run With API

Using coding CLIs? Run GPT-5.1 via EvoCode — One API for Code Agents & CLIs. (View Docs)

定价

方案	上下文窗口	最大输出	输入	输出	缓存读取
GPT-5.1	400.0K	128.0K	$1.00-20% $1.25官方价格	$8.00-20% $10.00官方价格	$0.104-17% $0.125官方价格
GPT-5.1 (Beta)	400.0K	128.0K	$0.325-74% $1.25官方价格	$2.60-74% $10.00官方价格	$0.033-74% $0.125官方价格

定价说明：价格单位：USD / 1M tokens

缓存命中：适用于缓存的提示词 Tokens 价格。

在 EvoLink 上运行 GPT-5.1 有两种方式，您可以选择适合您需求的层级。

· GPT-5.1: 默认层级，适合生产环境的可靠性和可预测的可用性。
· GPT-5.1 (Beta): 低成本层级，尽力而为的可用性；推荐用于可接受重试的工作负载。

使用 GPT-5.1 API 构建 — 生产级智能

使用 GPT-5.1 API 获得可靠的聊天性能、支持工具调用的工作流以及可扩展的长上下文处理能力。通过 Responses 或 Chat Completions 进行集成，启用流式传输和结构化输出，并固定快照以确保发布稳定性。

GPT-5.1 API 能实现什么？

海量上下文分析

利用 GPT-5.1 的 400k 上下文窗口和高达 128k 的输出 Token 处理更大的输入和更长的对话历史。这对于审查代码库、分析 long 文档或运行多步骤研究非常有用，无需过多的手动分块。

探索上下文能力

高级推理

对于需要多步思考的问题——如规划、编程辅助和决策支持——使用可配置的推理努力（Reasoning Effort）。GPT-5.1 支持 none、low、medium 和 high 档位，以便您平衡速度、成本和深度。

测试推理能力

提示词缓存

对于 1,024 个 Token 或更长的提示词，自动启用提示词缓存。复用稳定的前缀（系统提示词、政策、少样本示例），并选择内存或 24 小时保留，以减少重复处理并提高吞吐量。

了解缓存

为什么开发者选择 GPT-5.1 API

GPT-5.1 是一个包含快照和别名的模型系列，为您提供稳定的生产行为和清晰的升级路径。

模型系列设计

在保持一致的 API 界面的同时，根据可用性使用面向聊天或面向编程的别名，如 gpt-5.1-chat-latest 或 gpt-5.1-codex。

实用的长上下文工作流

400k 上下文窗口和高达 128k 的输出 Token 保持了任务的连贯性，并减少了对复杂分块流水线的需求。

面向生产集成的 API 特性

GPT-5.1 支持流式传输、函数调用、结构化输出和提示词缓存，因此该模型能够完美契合真实的生产系统。

如何集成 GPT-5.1 API

通过 EvoLink 的统一网关，只需三步即可开始使用 GPT-5.1。

第 1 步 — 获取您的 API 密钥

创建账户，生成 API 密钥，并配置您的环境变量。对特定 GPT-5.1 变体的访问权限可能取决于用量层级和组织验证。

第 2 步 — 配置您的客户端

使用您偏好的 SDK 或直接进行 HTTP 调用。将 Base URL 设置为您的网关端点，并选择 Responses 或 Chat Completions。传递您想要定位的模型别名（例如 gpt-5.1 或 gpt-5.1-chat-latest）。

第 3 步 — 开始构建

先发送一个小型测试请求，然后添加流式传输、函数调用、结构化输出或缓存。监控响应中的使用字段（如 prompt_tokens_details.cached_tokens）以验证行为。

查看 API 文档

核心 API 能力

GPT-5.1 API 技术规格

容量

长上下文（可用时）

GPT-5.1 列出了 400k 上下文窗口和高达 128k 的输出 Token，知识截止日期为 2024 年 9 月 30 日。

效率

提示词缓存（支持时）

针对 >= 1,024 Token且前缀完全匹配的提示词自动缓存。支持内存或 24 小时缓存保留。

智能

推理导向变体

可配置的推理努力（none, low, medium, high）让您在每次请求中权衡速度、成本和深度。

集成

函数 / 工具调用

定义 JSON Schema 工具，并在 Responses 和 Chat Completions 等端点间将结构化调用路由到您的系统。

可靠性

结构化输出（可用时）

GPT-5.1 支持遵循 Schema 的 JSON 响应；请确认端点对结构化输出格式的支持情况。

性能

流式传输

通过 Responses 或 Realtime 等支持的端点流式传输部分 Token，以实现响应式 UI。

GPT-5.1 API - 常见问题

Everything you need to know about the product and billing.

OpenAI 的模型文档列出了 GPT-5.1 的 400,000 Token 上下文窗口和高达 128,000 的最大输出 Token，知识截止日期为 2024 年 9 月 30 日。请以您的控制台和模型文档作为您账户的最终依据。

提示词缓存对于 1,024 Token 或更长的提示词是自动开启的，且仅在完全匹配前缀时生效。将 prompt_cache_retention 设置为 in_memory 或 24h。缓存的 Token 会显示在 usage.prompt_tokens_details.cached_tokens 中，且缓存作用域限定在您的组织内。

GPT-5.1 支持 reasoning.effort 值为 none（默认）、low、medium 和 high。对延迟敏感的任务使用较低的努力值，对深度的多步推理使用较高的努力值。

是的。GPT-5.1 支持流式传输、函数调用和结构化输出。它可在 Responses、Chat Completions、Realtime、Assistants 和 Batch 等端点上使用，具体取决于账户和端点的可用性。

缓存命中需要前缀完全匹配。将静态指令和示例放在开头，将动态用户数据放在末尾，并保持工具定义完全一致。您还可以使用 prompt_cache_key 来影响路由并提高共享前缀的缓存命中率。

结构化输出强制执行 JSON Schema 遵循，GPT-5.1 将结构化输出列为支持项。可用性仍可能取决于端点，请在您账户的模型文档中确认支持情况。

使用快照模型 ID 来固定特定版本，如果您需要严格的一致性，请避免依赖最新的别名。GPT-5.1 模型页面列出了快照 ID，如 gpt-5.1-2025-11-13。

OpenAI 列出了 GPT-5.1 的输入、缓存输入和输出的每百万 Token 定价（例如：$1.25 / $0.125 / $10.00）。通过 EvoLink 的实际价格可能因路由、计划和折扣而异，请始终以定价表和您控制台的用量/账单数据为准。