
GPT Image 2(2026):OpenAI 官方状态与接入思路

GPT Image 2(2026):OpenAI 官方状态与接入思路
- 截至 2026 年 4 月 22 日,OpenAI 已经为
gpt-image-2提供了官方公开模型页。 - 在 EvoLink 上,
gpt-image-2已经可以直接接入,gpt-image-2-beta也作为补充测试线路保留。 - 对开发者来说,真正重要的是:哪些信息属于 OpenAI 官方确认、provider 当前怎么暴露模型,以及系统该怎么设计,后续迁移才不会卡住。
所以这篇文章不会先讲营销口径,而是先把 OpenAI 官方状态讲清楚,再讨论在 EvoLink 上最稳的接入思路。
这篇指南写给真正在做图像业务的团队:商品图生成、图片编辑流水线、创意自动化、原型图输出、多步骤 AI 交互。我们会讲清楚三件事:
- OpenAI 官方确认了什么?
- 关于 GPT Image 2 的讨论里,哪些还只是不明确、未写清或 provider 特定实现?
- 如果你现在就要做图像生成工作流,最稳的接入与迁移思路是什么?
要点速览
- 截至 2026 年 4 月 22 日,OpenAI 已公开
gpt-image-2的官方模型页。 - OpenAI 官方模型页已经给开发者一个明确锚点:
gpt-image-2是官方公开模型名。 - 单次生成或编辑任务,OpenAI 推荐使用 Image API。
- 多轮对话式图像编辑体验,OpenAI 推荐使用 Responses API。
- EvoLink 当前同时提供
gpt-image-2和gpt-image-2-beta,其中前者更适合作为默认接入线路。 - 想“为 GPT Image 2 做准备”?最稳的做法是:把厂商模型名和渠道路由名分开管理,并在架构上做好模型路由抽象。
现在大家在搜 "GPT Image 2" 时,真正关心的是什么
现在问题已经不再是“这个名字是不是还只是市场叫法”,而是同一个关键词背后混合了几种完全不同的需求。
实际上,"GPT Image 2" 至少对应四类搜索意图:
- "OpenAI 在 GPT Image 1.5 之后出新模型了吗?"
- "ChatGPT 的图像功能是不是又升级了?"
- "我的 API 集成要不要换成新模型 ID?"
- "现在怎么搭架构,以后迁移才省事?"
OpenAI 官方确认了什么
1. gpt-image-2 现在已经有官方公开模型页
gpt-image-2 提供了公开模型页,这意味着 GPT Image 2 不再只是市场叫法,或者开发者社区里的占位词。这很重要,因为它给开发者划了一条新的清晰边界:什么是 OpenAI 官方已确认的,什么仍然只是渠道实现细节或外部表述。
2. OpenAI 提供两条主要的图像 API 集成路径
当前文档把图像相关的 API 分成两种风格:
- Image API:适合单次生成或编辑一张图片。
- Responses API:适合对话式、多步骤、可反复修改的图像体验。
这个选择直接影响系统设计。很多团队纠结模型名称,却忽略了更根本的架构问题:你到底是在做一个一次性出图工具,还是一个可迭代的编辑工作流。
3. 后台模式(Background Mode)已有文档
4. 编辑和高保真图像输入已经是公开功能
当前文档已经支持了很多人以为要等"下一代模型"才有的能力:
- 图像生成与图像编辑
- Responses API 中的多轮编辑
- 输入图像的高保真保留
- 编辑流程中的蒙版(mask)支持
换句话说,"下一代图像工作流"的大部分能力,在当前技术栈里已经可以用了。
Thinking Mode:生成前先推理
GPT Image 2 有一个不太被讨论、但在架构上很有意义的变化:它集成了推理能力。
- 拆解复杂 prompt——把布局、物体摆放、文字渲染等子任务分开处理
- 数对象、验空间约束——先确认数量和位置关系,再决定构图
- 消除歧义——当 prompt 中有冲突要求时,模型会先规划怎么处理,而不是随机折中
这个能力在老模型经常翻车的场景上最明显:多个文字区块的信息图、10 个以上物体需要精确摆放的场景,或者需要事实准确性的图(比如地图、标注图)。
如果你的 prompt 很简单("沙发上的一只猫"),thinking mode 的差别不大。如果你的 prompt 结构化且精确("一个产品对比表,5 行 3 列,指定表头,底部有品牌 footer"),提升会很显著。
- Thinking mode 是 ChatGPT 产品体验的一部分。通过原始 API 调用和通过 ChatGPT 界面调用时,推理行为的暴露程度可能不同。
- OpenAI 没有在 Image API 中单独提供"thinking mode 开关",推理行为内置在模型本身。
- 不要假设每个 provider 路由都暴露了相同级别的推理能力。用你自己的 prompt 实测。
分辨率与文字渲染能力
GPT Image 2 在两个方面带来了生产级别的输出质量提升。
实际使用中,最常见的尺寸包括:
| size 参数 | 典型用途 |
|---|---|
1024x1024 | 标准正方形 |
1024x1536 / 1536x1024 | 竖版 / 横版 |
auto | 让模型根据 prompt 自动选择 |
这是大多数团队会立刻感受到的能力提升。GPT Image 2 可以处理:
- 拉丁文字——即使是小字号也能近乎完美
- CJK 文字(中文、日文、韩文)——原生渲染,不再乱码
- 高密度排版——包装设计稿、信息图、带可读文字的 UI 截图
- 弯曲和透视文字——瓶身、路牌、有角度的表面上的文字
之前的模型经常拼错字、粘连字母,或者小字完全不可读。GPT Image 2 在这方面进步很大。
OpenAI 还没有完全写清楚的内容
这是现在最容易被写混的地方。
- 所有第三方平台都会用完全一样的请求模型名来暴露它
- 一个叫
gpt-image-2-beta的路由名,就等于 OpenAI 官方命名语义上的gpt-image-2 - 从
gpt-image-1.5到gpt-image-2的官方迁移指南 GPT Image 2的官方延迟基准测试- "文字渲染提升 40%"或"成功率 95%"之类的官方性能对比
任何把这些差异直接抹平的写法,都会削弱文章可信度。
对大多数团队来说,更现实的做法是:先用 OpenAI 官方文档确认厂商层事实,再把 EvoLink beta 文档当作当前路由接入层的实现说明来读。
EvoLink 接入:以 GPT Image 2 为主,Beta 作为补充
gpt-image-2 直接接入,同时也保留 gpt-image-2-beta 作为补充测试线路。gpt-image-2 应该是主模型名。如果你需要做灰度验证、效果对比或分阶段测试,再去用 gpt-image-2-beta 就可以,不需要让 beta 抢主线。目前可用内容包括:
- GPT Image 2 产品页——查看模型能力和使用场景
- Playground 在线试用——零代码测试提示词和工作流
- 完整的 API 文档——当前 GPT Image 2 路线的接入说明
- 支持文生图、图生图、图像编辑
- 异步任务处理——适配长时间生成任务
接入方式和你熟悉的 OpenAI 兼容格式一致:
- 默认请求模型名:
gpt-image-2 - 生成端点:
/v1/images/generations - 通过任务状态流获取异步结果
- 可选
image_urls参数,支持参考图编辑或图生图 - 可选
callback_url参数,用于 HTTPS 任务完成回调 - 支持的宽高比:
1:1、3:2、2:3、auto - 返回的图片链接默认保留 24 小时
- 补充测试线路:
gpt-image-2-beta
gpt-image-2。只有在你明确要做灰度测试、效果对比或阶段性验证时,才需要额外用到 gpt-image-2-beta。怎么在 EvoLink 上调用 GPT Image 2
gpt-image-2 作为统一图像生成端点的请求模型名:curl --request POST \
--url https://api.evolink.ai/v1/images/generations \
--header "Authorization: Bearer $EVOLINK_API_KEY" \
--header "Content-Type: application/json" \
--data '{
"model": "gpt-image-2",
"prompt": "一张高级感的陶瓷咖啡杯产品图,放在大理石台面上,柔和的窗光,干净的电商构图",
"size": "1:1"
}'import requests
response = requests.post(
"https://api.evolink.ai/v1/images/generations",
headers={
"Authorization": f"Bearer {EVOLINK_API_KEY}",
"Content-Type": "application/json",
},
json={
"model": "gpt-image-2",
"prompt": "一张高级感的陶瓷咖啡杯产品图,放在大理石台面上,柔和的窗光,干净的电商构图",
"size": "1:1",
},
)
task = response.json()
task_id = task["data"]["task_id"]
# 轮询 task_id 直到完成,然后保存返回的图片 URLconst response = await fetch("https://api.evolink.ai/v1/images/generations", {
method: "POST",
headers: {
Authorization: `Bearer ${EVOLINK_API_KEY}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "gpt-image-2",
prompt:
"一张高级感的陶瓷咖啡杯产品图,放在大理石台面上,柔和的窗光,干净的电商构图",
size: "1:1",
}),
});
const task = await response.json();
const taskId = task.data?.task_id;
// 轮询 taskId 直到完成,然后保存返回的图片 URLimage_urls 参数。开发流程很简单:
- 在 GPT Image 2 Playground 里测试提示词
- 切换到 API 调用,指定
model: "gpt-image-2" - 轮询异步任务结果
- 在 24 小时有效期内保存图片链接
怎么搭一个不怕迁移的架构
gpt-image-2 路线,还是在对比其它图像模型,架构上做好这几件事,以后换模型就不痛苦。gpt-image-1.5 仍然是重要的对比基线
gpt-image-2 现在已经有官方公开模型页,gpt-image-1.5 仍然是团队做能力对比、稳定性评估和迁移设计时的重要参考。它已经覆盖了大多数团队关心的核心能力:- 文生图
- 图像编辑
- 通过 Responses API 实现对话式图像工作流
- 比上一代更好的文字渲染
- 更高保真度的输入图像保留
gpt-image-1.5 是最稳的默认选择。从第一天就把模型路由抽象出来
这是真正的"为 GPT Image 2 做准备"策略——不要在代码里到处硬编码模型名,把路由决策集中到服务层。
type ImageJobType =
| "hero_image"
| "text_heavy_mockup"
| "product_edit"
| "creative_iteration";
function selectImageModel(jobType: ImageJobType): string {
switch (jobType) {
case "text_heavy_mockup":
return "gpt-image-1.5"; // 需要对齐旧文档时的保守选择
case "hero_image":
case "product_edit":
case "creative_iteration":
default:
return "gpt-image-2"; // 默认走最新模型
}
}等你需要切换模型,或者要对齐不同 provider 的路由名时,改的只是路由表,不是全仓库搜索替换。
异步架构是必须的
不管用哪个模型,图像生成的延迟波动都够大了。OpenAI 文档明确提到复杂提示词可能需要最多 2 分钟,后台模式是官方推荐的处理方式。
一个生产级的架构应该是:
- 提交图像请求
- 立即返回任务 ID
- 后台轮询
- 完成后存储结果
- 最终素材就绪后更新 UI
用 Responses API 实现的最小轮询示例:
import OpenAI from "openai";
const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
export async function submitImageJob(prompt: string) {
const response = await client.responses.create({
model: "gpt-4o",
input: prompt,
tools: [{ type: "image_generation" }],
background: true,
});
return response.id;
}
export async function waitForImage(responseId: string) {
let resp = await client.responses.retrieve(responseId);
while (resp.status === "queued" || resp.status === "in_progress") {
await new Promise((resolve) => setTimeout(resolve, 2000));
resp = await client.responses.retrieve(responseId);
}
return resp;
}这个模式不管将来模型叫什么名字,都能用。
GPT Image 2 的编辑能力到了什么水平
如果你的场景是单次图像生成或编辑,优先走 Image API;如果是多轮对话式图像工作流,再考虑 Responses API。
OpenAI 当前文档已经覆盖了以下编辑能力:
- 图像编辑 和 多轮编辑
- 高保真输入 和 蒙版编辑工作流
所以如果你想做背景替换、小物体编辑、迭代式视觉精修、品牌元素保留(logo、人脸等),现在就可以开始——不需要等。
定价:去哪里看
gpt-image-2 的 token 定价。核心数字:图像输出 $30.00 / 1M tokens,略低于 gpt-image-1.5 的 $32.00 / 1M tokens。1024×1024 下,GPT Image 2 的低质量更便宜,但 GPT Image 1.5 在中高质量下更便宜。完整定价对比和质量分级详情,请查看:
- GPT Image 2 vs GPT Image 1.5 — 各质量等级的逐项对比
- GPT Image 2 产品页 — EvoLink 线路定价和成本计算器
做预算时,把三个定价视角分开管理:
- OpenAI 官方基线 — 可公开核查的价格
- Provider 线路价格 — 通过 EvoLink 或其他 provider 实际支付的价格
- 内部预算视角 — 团队用于预测的综合成本,包含重试成本、失败率和质量分布
内容审核:如何处理 moderation_blocked 错误
- 输入过滤——安全模型在生成开始前检查你的 prompt 和输入图片
- 输出过滤——生成的图片在返回给你之前会被再次检查
moderation_blocked 错误,且不会返回图片。- Prompt 描述了逼真的暴力、露骨内容,或把公众人物放在误导性场景中
- 参考图本身包含违反政策的内容
- 模糊描述被安全模型保守地解读
async function generateWithModerationHandling(prompt: string) {
const result = await generateImage(prompt);
if (result.error?.type === "moderation_blocked") {
// 记录待审,不要用同样的 prompt 自动重试
logModerationBlock(prompt, result.error);
return { status: "blocked", reason: result.error.message };
}
return { status: "ok", data: result.data };
}- 不要自动重试被审核拦截的请求。同一个 prompt 会再次被拦。
- 如果你接受用户提交的 prompt,先用 OpenAI 免费的
omni-moderation-latest端点预过滤,再发给gpt-image-2。这样可以在付费生成之前拦住大多数违规。 - GPT Image 模型支持
moderation参数,值为"auto"(标准过滤)或"low"(更宽松)。默认是"auto"。 - 如果审核拦截出乎意料,可以改写 prompt,更明确地描述你想要的视觉内容,同时避免容易触发安全过滤的用语。
Batch API:批量生成降本 50%
| 特性 | 说明 |
|---|---|
| 成本优惠 | 输入和输出 token 价格打五折 |
| 交付时间 | 24 小时内返回结果(非实时) |
| 速率限制 | 独立的更高配额池,不和同步请求争抢 |
- 隔夜批量跑图,不需要立刻拿到结果
- 从模板批量生成上百张商品图
- 大规模 A/B 测试多个 prompt 变体
- 任何 24 小时内交付可接受的工作流
- 面向用户的实时生成(playground、在线编辑)
- 秒级或分钟级出图的需求
- 交互式 prompt 迭代
gpt-image-2 的 Batch API。EvoLink 和 OpenAI 直连的批量处理选项可能不同。务实的成本策略
方案一:一次生成,迭代编辑
- 用
gpt-image-1.5生成基础图 - 用编辑和多轮工作流做精修
- 只需要改一个区域时,避免整张重新生成
方案二:按任务类型路由
- 标准商品图 ->
gpt-image-2 - 商品编辑 ->
gpt-image-2 - 文字密集型设计稿(需对齐旧文档)->
gpt-image-1.5 - 未来试验模型 -> 单独隔离的测试桶
重点不是猜下一个模型叫什么,而是让未来换模型的成本尽可能低。
典型业务场景怎么落地
如果想把这篇文章真正用起来,最有帮助的不是继续追模型名,而是把常见业务场景和推荐线路对上。
| 业务场景 | 更推荐的线路 | 为什么 |
|---|---|---|
| 电商商品主图生成 | gpt-image-2 | 适合直接接入生产链路,减少命名和路由切换成本 |
| 背景替换、局部编辑、品牌元素保留 | gpt-image-2 | 更适合围绕图像编辑工作流直接落地 |
| 创意团队做新提示词实验 | gpt-image-2-beta | 更适合做灰度验证和结果对比 |
| Agent 驱动的异步出图流水线 | gpt-image-2 | 主线路更适合作为稳定编排目标,配合任务轮询或回调 |
| 团队内部做 A/B 效果对比 | gpt-image-2 + gpt-image-2-beta | 用正式线路跑主样本,用 beta 路线做补充比较 |
如果你是做业务系统,而不是单次试玩,真正应该优先做对的是:
- 任务异步化
- 路由抽象
- 图片结果保存
- 正式线路和测试线路分开
现在该怎么行动
到这一步,大多数团队其实已经不缺“更多消息”,而是缺一个明确动作顺序。
如果你今天就要推进项目,比较实用的路径是:
- 现在就试用 GPT Image 2,评估它适不适合你的业务场景
- 现在就接入 到开发或测试环境
- 等后续官方文档和 provider 路由进一步稳定后,只需要调整路由配置,平滑切换
当前 GPT Image 技术栈已经有足够的能力来搭建:
- 图像生成流水线
- 编辑工作流
- 迭代精修循环
- 异步任务调度
- 成本感知路由
后续还值得关注什么
gpt-image-2 官方模型页。接下来更值得关注的信号是:- 更新后的图像生成文档,列出新的 GPT Image 系列成员
- 新模型的官方定价表
- 变更日志或发布说明
- 从当前 GPT Image 模型的官方迁移指南
gpt-image-2 作为主接入目标,只有在需要额外测试时再补用 gpt-image-2-beta。上线前检查清单
如果你准备把 GPT Image 2 真正接进业务,而不只是看一遍文档,建议上线前至少确认这几件事:
- 代码里有没有把模型名写死在多个地方,而不是统一走路由配置
- 生产默认线路是不是
gpt-image-2,而不是把 beta 路线误当主线 - 是否已经给
gpt-image-2-beta单独留了开关,避免测试线路误进生产 - 是否已经处理异步任务状态,而不是假设请求一定会立刻返回最终图片
- 是否已经在 24 小时有效期内保存图片结果,而不是依赖临时链接
- 是否已经区分“OpenAI 官方模型信息”和“EvoLink 当前 provider 路由实现”
- 是否已经准备好回调或轮询机制,适配长时间生成任务
常见问题
既然 GPT Image 2 已公开,现在还需要异步架构吗?
需要。OpenAI 文档已经说明复杂提示词可能需要最多 2 分钟,后台模式是推荐的处理方式。
现在就能做迭代式图像编辑吗?
可以。OpenAI 当前文档覆盖了图像编辑、多轮编辑、蒙版和高保真图像输入。
后续如果模型名或 provider 路由再变化,需要重写应用吗?
如果你现在就把模型路由抽象出来,就不需要。未来的模型切换应该是路由表的修改,而不是全应用重构。
在 EvoLink 上怎么理解 gpt-image-2 和 gpt-image-2-beta?
gpt-image-2。在 EvoLink 上,gpt-image-2 适合作为主接入线路,gpt-image-2-beta 更适合作为补充测试线路,用于效果对比、灰度验证或阶段性测试。现在要接的话,最实用的默认选择是什么?
gpt-image-2。只有在你明确需要做灰度测试、A/B 对比或阶段性验证时,再额外启用 gpt-image-2-beta。GPT Image 2 有 thinking mode 吗?
有。GPT Image 2 可以在生成前对复杂 prompt 做推理——拆解子任务、验证空间约束、消除歧义。这是模型架构内置的能力,不是一个单独的开关。在结构化 prompt(信息图、多物体场景、文字密集构图)上效果最明显。
GPT Image 2 支持多大的分辨率?
OpenAI 官方文档说明 GPT Image 2 支持"数千种有效分辨率",并列出了 1024x1024 和 1536x1024 等常见示例。实际可用的分辨率集合因 provider 而异,在生产环境确定分辨率之前,请先查阅你所用 provider 的文档。
遇到内容审核错误怎么办?
omni-moderation-latest 端点预过滤,再发给 gpt-image-2。GPT Image 2 可以用 Batch API 吗?
可以。OpenAI 的 Batch API 提供 50% 成本优惠,24 小时内异步交付。具体可用性请和你的 provider 确认,因为不同平台的批量处理选项可能不同。
在哪里可以快速对比整个 GPT Image 系列?
开始使用
gpt-image-2-beta。相关文章
参考来源
- OpenAI 模型总览:https://platform.openai.com/docs/models
- OpenAI GPT Image 2 模型页面:https://developers.openai.com/api/docs/models/gpt-image-2
- OpenAI 图像生成指南:https://developers.openai.com/api/docs/guides/image-generation
- OpenAI Images and vision 指南:https://developers.openai.com/api/docs/guides/images-vision
- OpenAI GPT Image prompting 指南:https://developers.openai.com/cookbook/examples/multimodal/image-gen-models-prompting-guide
- OpenAI ChatGPT Images 2.0 公告:https://openai.com/index/introducing-chatgpt-images-2-0/
- OpenAI ChatGPT Images 2.0 system card:https://deploymentsafety.openai.com/chatgpt-images-2-0/
- OpenAI GPT Image 1.5 模型页面:https://platform.openai.com/docs/models/gpt-image-1.5
- OpenAI API 定价:https://platform.openai.com/docs/pricing
- OpenAI Batch API 指南:https://platform.openai.com/docs/guides/batch
- OpenAI 后台模式指南:https://developers.openai.com/api/docs/guides/background


