GPT-5.1 系列 (API)
定价
| 方案 | 上下文窗口 | 最大输出 | 输入 | 输出 | 缓存读取 |
|---|---|---|---|---|---|
| GPT-5.1 | 400.0K | 128.0K | $1.00-20% $1.25官方价格 | $8.00-20% $10.00官方价格 | $0.104-17% $0.125官方价格 |
| GPT-5.1 (Beta) | 400.0K | 128.0K | $0.325-74% $1.25官方价格 | $2.60-74% $10.00官方价格 | $0.033-74% $0.125官方价格 |
定价说明: 价格单位:USD / 1M tokens
缓存命中: 适用于缓存的提示词 Tokens 价格。
在 EvoLink 上运行 GPT-5.1 有两种方式,您可以选择适合您需求的层级。
- · GPT-5.1: 默认层级,适合生产环境的可靠性和可预测的可用性。
- · GPT-5.1 (Beta): 低成本层级,尽力而为的可用性;推荐用于可接受重试的工作负载。
使用 GPT-5.1 API 构建 — 生产级智能
使用 GPT-5.1 API 获得可靠的聊天性能、支持工具调用的工作流以及可扩展的长上下文处理能力。通过 Responses 或 Chat Completions 进行集成,启用流式传输和结构化输出,并固定快照以确保发布稳定性。

GPT-5.1 API 能实现什么?
海量上下文分析
利用 GPT-5.1 的 400k 上下文窗口和高达 128k 的输出 Token 处理更大的输入和更长的对话历史。这对于审查代码库、分析 long 文档或运行多步骤研究非常有用,无需过多的手动分块。

高级推理
对于需要多步思考的问题——如规划、编程辅助和决策支持——使用可配置的推理努力(Reasoning Effort)。GPT-5.1 支持 none、low、medium 和 high 档位,以便您平衡速度、成本和深度。


为什么开发者选择 GPT-5.1 API
GPT-5.1 是一个包含快照和别名的模型系列,为您提供稳定的生产行为和清晰的升级路径。
模型系列设计
在保持一致的 API 界面的同时,根据可用性使用面向聊天或面向编程的别名,如 gpt-5.1-chat-latest 或 gpt-5.1-codex。
实用的长上下文工作流
400k 上下文窗口和高达 128k 的输出 Token 保持了任务的连贯性,并减少了对复杂分块流水线的需求。
面向生产集成的 API 特性
GPT-5.1 支持流式传输、函数调用、结构化输出和提示词缓存,因此该模型能够完美契合真实的生产系统。
如何集成 GPT-5.1 API
通过 EvoLink 的统一网关,只需三步即可开始使用 GPT-5.1。
第 1 步 — 获取您的 API 密钥
创建账户,生成 API 密钥,并配置您的环境变量。对特定 GPT-5.1 变体的访问权限可能取决于用量层级和组织验证。
第 2 步 — 配置您的客户端
使用您偏好的 SDK 或直接进行 HTTP 调用。将 Base URL 设置为您的网关端点,并选择 Responses 或 Chat Completions。传递您想要定位的模型别名(例如 gpt-5.1 或 gpt-5.1-chat-latest)。
第 3 步 — 开始构建
先发送一个小型测试请求,然后添加流式传输、函数调用、结构化输出或缓存。监控响应中的使用字段(如 prompt_tokens_details.cached_tokens)以验证行为。
核心 API 能力
GPT-5.1 API 技术规格
长上下文(可用时)
GPT-5.1 列出了 400k 上下文窗口和高达 128k 的输出 Token,知识截止日期为 2024 年 9 月 30 日。
提示词缓存(支持时)
针对 >= 1,024 Token且前缀完全匹配的提示词自动缓存。支持内存或 24 小时缓存保留。
推理导向变体
可配置的推理努力(none, low, medium, high)让您在每次请求中权衡速度、成本和深度。
函数 / 工具调用
定义 JSON Schema 工具,并在 Responses 和 Chat Completions 等端点间将结构化调用路由到您的系统。
结构化输出(可用时)
GPT-5.1 支持遵循 Schema 的 JSON 响应;请确认端点对结构化输出格式的支持情况。
流式传输
通过 Responses 或 Realtime 等支持的端点流式传输部分 Token,以实现响应式 UI。
GPT-5.1 API - 常见问题
Everything you need to know about the product and billing.