Gemini Omni 即将上线了解更多
GPT Image 2(2026):OpenAI 官方状态与接入思路
guide

GPT Image 2(2026):OpenAI 官方状态与接入思路

EvoLink Team
EvoLink Team
Product Team
2026年4月22日
32 分钟阅读

GPT Image 2(2026):OpenAI 官方状态与接入思路

如果你在搜 GPT Image 2,最先要搞清楚的不是“谁先有”,而是下面三件更实际的事:
  1. 截至 2026 年 4 月 22 日,OpenAI 已经为 gpt-image-2 提供了官方公开模型页。
  2. 在 EvoLink 上,gpt-image-2 已经可以直接接入,gpt-image-2-beta 也作为补充测试线路保留。
  3. 对开发者来说,真正重要的是:哪些信息属于 OpenAI 官方确认、provider 当前怎么暴露模型,以及系统该怎么设计,后续迁移才不会卡住。

所以这篇文章不会先讲营销口径,而是先把 OpenAI 官方状态讲清楚,再讨论在 EvoLink 上最稳的接入思路。

这篇指南写给真正在做图像业务的团队:商品图生成、图片编辑流水线、创意自动化、原型图输出、多步骤 AI 交互。我们会讲清楚三件事:

  • OpenAI 官方确认了什么
  • 关于 GPT Image 2 的讨论里,哪些还只是不明确、未写清或 provider 特定实现
  • 如果你现在就要做图像生成工作流,最稳的接入与迁移思路是什么?

要点速览

  • 截至 2026 年 4 月 22 日,OpenAI 已公开 gpt-image-2 的官方模型页。
  • OpenAI 官方模型页已经给开发者一个明确锚点:gpt-image-2 是官方公开模型名。
  • 单次生成或编辑任务,OpenAI 推荐使用 Image API
  • 多轮对话式图像编辑体验,OpenAI 推荐使用 Responses API
  • EvoLink 当前同时提供 gpt-image-2gpt-image-2-beta,其中前者更适合作为默认接入线路。
  • 想“为 GPT Image 2 做准备”?最稳的做法是:把厂商模型名和渠道路由名分开管理,并在架构上做好模型路由抽象

现在大家在搜 "GPT Image 2" 时,真正关心的是什么

现在问题已经不再是“这个名字是不是还只是市场叫法”,而是同一个关键词背后混合了几种完全不同的需求。

实际上,"GPT Image 2" 至少对应四类搜索意图:

  1. "OpenAI 在 GPT Image 1.5 之后出新模型了吗?"
  2. "ChatGPT 的图像功能是不是又升级了?"
  3. "我的 API 集成要不要换成新模型 ID?"
  4. "现在怎么搭架构,以后迁移才省事?"
所以这篇文章的重点,不是继续讨论名字真不真,而是把官方模型信息、EvoLink 当前接入方式、以及可落地的工程策略讲清楚。

OpenAI 官方确认了什么

1. gpt-image-2 现在已经有官方公开模型页

OpenAI 现在已经为 gpt-image-2 提供了公开模型页,这意味着 GPT Image 2 不再只是市场叫法,或者开发者社区里的占位词。

这很重要,因为它给开发者划了一条新的清晰边界:什么是 OpenAI 官方已确认的,什么仍然只是渠道实现细节或外部表述。

2. OpenAI 提供两条主要的图像 API 集成路径

当前文档把图像相关的 API 分成两种风格:

  • Image API:适合单次生成或编辑一张图片。
  • Responses API:适合对话式、多步骤、可反复修改的图像体验。

这个选择直接影响系统设计。很多团队纠结模型名称,却忽略了更根本的架构问题:你到底是在做一个一次性出图工具,还是一个可迭代的编辑工作流。

3. 后台模式(Background Mode)已有文档

OpenAI Responses API 文档中包含了 后台模式(background mode),这是官方推荐的长时间任务处理方式。
OpenAI 的图像生成指南明确提到,复杂提示词可能需要最多 2 分钟。这意味着正经的生产系统必须从一开始就按异步来设计。

4. 编辑和高保真图像输入已经是公开功能

当前文档已经支持了很多人以为要等"下一代模型"才有的能力:

  • 图像生成与图像编辑
  • Responses API 中的多轮编辑
  • 输入图像的高保真保留
  • 编辑流程中的蒙版(mask)支持

换句话说,"下一代图像工作流"的大部分能力,在当前技术栈里已经可以用了。

Thinking Mode:生成前先推理

GPT Image 2 有一个不太被讨论、但在架构上很有意义的变化:它集成了推理能力。

根据 OpenAI 的 ChatGPT Images 2.0 公告system card,模型可以在生成像素之前先对 prompt 做推理。实际效果是:
  • 拆解复杂 prompt——把布局、物体摆放、文字渲染等子任务分开处理
  • 数对象、验空间约束——先确认数量和位置关系,再决定构图
  • 消除歧义——当 prompt 中有冲突要求时,模型会先规划怎么处理,而不是随机折中

这个能力在老模型经常翻车的场景上最明显:多个文字区块的信息图、10 个以上物体需要精确摆放的场景,或者需要事实准确性的图(比如地图、标注图)。

对开发者意味着什么:

如果你的 prompt 很简单("沙发上的一只猫"),thinking mode 的差别不大。如果你的 prompt 结构化且精确("一个产品对比表,5 行 3 列,指定表头,底部有品牌 footer"),提升会很显著。

需要注意的地方:
  • Thinking mode 是 ChatGPT 产品体验的一部分。通过原始 API 调用和通过 ChatGPT 界面调用时,推理行为的暴露程度可能不同。
  • OpenAI 没有在 Image API 中单独提供"thinking mode 开关",推理行为内置在模型本身。
  • 不要假设每个 provider 路由都暴露了相同级别的推理能力。用你自己的 prompt 实测。

分辨率与文字渲染能力

GPT Image 2 在两个方面带来了生产级别的输出质量提升。

分辨率:
根据 OpenAI 的图像生成指南,GPT Image 2 支持"数千种有效分辨率"。官方文档列出了 1024x10241536x1024 等常见示例,但并未定义单一的硬性最大值。

实际使用中,最常见的尺寸包括:

size 参数典型用途
1024x1024标准正方形
1024x1536 / 1536x1024竖版 / 横版
auto让模型根据 prompt 自动选择
具体支持的分辨率集合可能因 provider 路由而异。部分 provider 通过自有实现提供更高分辨率(2K 或 4K)。在生产环境确定分辨率之前,请务必查阅 provider 的文档,并参考 OpenAI 的 size calculator 确认你所使用的路由实际支持哪些尺寸。
文字渲染:

这是大多数团队会立刻感受到的能力提升。GPT Image 2 可以处理:

  • 拉丁文字——即使是小字号也能近乎完美
  • CJK 文字(中文、日文、韩文)——原生渲染,不再乱码
  • 高密度排版——包装设计稿、信息图、带可读文字的 UI 截图
  • 弯曲和透视文字——瓶身、路牌、有角度的表面上的文字

之前的模型经常拼错字、粘连字母,或者小字完全不可读。GPT Image 2 在这方面进步很大。

关于精确度的说明: OpenAI 的表述是"可靠的文字渲染"和"清晰的字形"。第三方测试报告了"字符级准确率 99%"这样的数字。我们引用的是 OpenAI 文档中记录的能力描述;具体百分比会因 prompt 复杂度、语言和字号不同而有差异。请用你自己的场景实测。

OpenAI 还没有完全写清楚的内容

这是现在最容易被写混的地方。

截至 2026 年 4 月 22 日,下面这些点在 OpenAI 官方文档和不同 provider 的实际接入方式之间,仍然可能存在差异:
  • 所有第三方平台都会用完全一样的请求模型名来暴露它
  • 一个叫 gpt-image-2-beta 的路由名,就等于 OpenAI 官方命名语义上的 gpt-image-2
  • gpt-image-1.5gpt-image-2 的官方迁移指南
  • GPT Image 2 的官方延迟基准测试
  • "文字渲染提升 40%"或"成功率 95%"之类的官方性能对比

任何把这些差异直接抹平的写法,都会削弱文章可信度。

对大多数团队来说,更现实的做法是:先用 OpenAI 官方文档确认厂商层事实,再把 EvoLink beta 文档当作当前路由接入层的实现说明来读。

如果你看完上面的官方状态与能力判断后,想直接落地接入,这里给一个更实用的结论:EvoLink 当前已经提供 gpt-image-2 直接接入,同时也保留 gpt-image-2-beta 作为补充测试线路。
对外叙事里,gpt-image-2 应该是主模型名。如果你需要做灰度验证、效果对比或分阶段测试,再去用 gpt-image-2-beta 就可以,不需要让 beta 抢主线。

目前可用内容包括:

  • GPT Image 2 产品页——查看模型能力和使用场景
  • Playground 在线试用——零代码测试提示词和工作流
  • 完整的 API 文档——当前 GPT Image 2 路线的接入说明
  • 支持文生图、图生图、图像编辑
  • 异步任务处理——适配长时间生成任务

接入方式和你熟悉的 OpenAI 兼容格式一致:

  • 默认请求模型名:gpt-image-2
  • 生成端点:/v1/images/generations
  • 通过任务状态流获取异步结果
  • 可选 image_urls 参数,支持参考图编辑或图生图
  • 可选 callback_url 参数,用于 HTTPS 任务完成回调
  • 支持的宽高比:1:13:22:3auto
  • 返回的图片链接默认保留 24 小时
  • 补充测试线路:gpt-image-2-beta
对大多数团队来说,最干净的默认做法是直接接 gpt-image-2。只有在你明确要做灰度测试、效果对比或阶段性验证时,才需要额外用到 gpt-image-2-beta
当前 EvoLink 的主接入线路使用 gpt-image-2 作为统一图像生成端点的请求模型名:
curl --request POST \
  --url https://api.evolink.ai/v1/images/generations \
  --header "Authorization: Bearer $EVOLINK_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "gpt-image-2",
    "prompt": "一张高级感的陶瓷咖啡杯产品图,放在大理石台面上,柔和的窗光,干净的电商构图",
    "size": "1:1"
  }'
Python:
import requests

response = requests.post(
    "https://api.evolink.ai/v1/images/generations",
    headers={
        "Authorization": f"Bearer {EVOLINK_API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-image-2",
        "prompt": "一张高级感的陶瓷咖啡杯产品图,放在大理石台面上,柔和的窗光,干净的电商构图",
        "size": "1:1",
    },
)

task = response.json()
task_id = task["data"]["task_id"]
# 轮询 task_id 直到完成,然后保存返回的图片 URL
JavaScript / Node.js:
const response = await fetch("https://api.evolink.ai/v1/images/generations", {
  method: "POST",
  headers: {
    Authorization: `Bearer ${EVOLINK_API_KEY}`,
    "Content-Type": "application/json",
  },
  body: JSON.stringify({
    model: "gpt-image-2",
    prompt:
      "一张高级感的陶瓷咖啡杯产品图,放在大理石台面上,柔和的窗光,干净的电商构图",
    size: "1:1",
  }),
});

const task = await response.json();
const taskId = task.data?.task_id;
// 轮询 taskId 直到完成,然后保存返回的图片 URL
如果需要参考图编辑或图生图,同一路由上也支持 image_urls 参数。

开发流程很简单:

  1. GPT Image 2 Playground 里测试提示词
  2. 切换到 API 调用,指定 model: "gpt-image-2"
  3. 轮询异步任务结果
  4. 在 24 小时有效期内保存图片链接
想直接上手?从 GPT Image 2 产品页开始。如果你确实需要 beta 路线的细节,再看 GPT Image 2 beta API 文档

怎么搭一个不怕迁移的架构

不管你现在用的是 EvoLink 的标准 gpt-image-2 路线,还是在对比其它图像模型,架构上做好这几件事,以后换模型就不痛苦。

gpt-image-1.5 仍然是重要的对比基线

即使 gpt-image-2 现在已经有官方公开模型页,gpt-image-1.5 仍然是团队做能力对比、稳定性评估和迁移设计时的重要参考。它已经覆盖了大多数团队关心的核心能力:
  • 文生图
  • 图像编辑
  • 通过 Responses API 实现对话式图像工作流
  • 比上一代更好的文字渲染
  • 更高保真度的输入图像保留
如果你的业务需要和 OpenAI 公开文档严格对齐,gpt-image-1.5 是最稳的默认选择。

从第一天就把模型路由抽象出来

这是真正的"为 GPT Image 2 做准备"策略——不要在代码里到处硬编码模型名,把路由决策集中到服务层。

type ImageJobType =
  | "hero_image"
  | "text_heavy_mockup"
  | "product_edit"
  | "creative_iteration";

function selectImageModel(jobType: ImageJobType): string {
  switch (jobType) {
    case "text_heavy_mockup":
      return "gpt-image-1.5"; // 需要对齐旧文档时的保守选择
    case "hero_image":
    case "product_edit":
    case "creative_iteration":
    default:
      return "gpt-image-2";  // 默认走最新模型
  }
}

等你需要切换模型,或者要对齐不同 provider 的路由名时,改的只是路由表,不是全仓库搜索替换。

异步架构是必须的

不管用哪个模型,图像生成的延迟波动都够大了。OpenAI 文档明确提到复杂提示词可能需要最多 2 分钟,后台模式是官方推荐的处理方式。

一个生产级的架构应该是:

  1. 提交图像请求
  2. 立即返回任务 ID
  3. 后台轮询
  4. 完成后存储结果
  5. 最终素材就绪后更新 UI

用 Responses API 实现的最小轮询示例:

import OpenAI from "openai";

const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

export async function submitImageJob(prompt: string) {
  const response = await client.responses.create({
    model: "gpt-4o",
    input: prompt,
    tools: [{ type: "image_generation" }],
    background: true,
  });

  return response.id;
}

export async function waitForImage(responseId: string) {
  let resp = await client.responses.retrieve(responseId);

  while (resp.status === "queued" || resp.status === "in_progress") {
    await new Promise((resolve) => setTimeout(resolve, 2000));
    resp = await client.responses.retrieve(responseId);
  }

  return resp;
}

这个模式不管将来模型叫什么名字,都能用。

GPT Image 2 的编辑能力到了什么水平

如果你的场景是单次图像生成或编辑,优先走 Image API;如果是多轮对话式图像工作流,再考虑 Responses API。

OpenAI 当前文档已经覆盖了以下编辑能力:

  • 图像编辑多轮编辑
  • 高保真输入蒙版编辑工作流

所以如果你想做背景替换、小物体编辑、迭代式视觉精修、品牌元素保留(logo、人脸等),现在就可以开始——不需要等。

有一点要注意:文档支持的是更好的保留和更高的保真度,不是承诺所有情况下都"像素级完美"。

定价:去哪里看

OpenAI 已在官方定价页发布 gpt-image-2 的 token 定价。核心数字:图像输出 $30.00 / 1M tokens,略低于 gpt-image-1.5 的 $32.00 / 1M tokens。
但实际每张图的成本取决于质量等级、分辨率和 prompt 复杂度。在 1024×1024 下,GPT Image 2 的低质量更便宜,但 GPT Image 1.5 在中高质量下更便宜。

完整定价对比和质量分级详情,请查看:

做预算时,把三个定价视角分开管理:

  1. OpenAI 官方基线 — 可公开核查的价格
  2. Provider 线路价格 — 通过 EvoLink 或其他 provider 实际支付的价格
  3. 内部预算视角 — 团队用于预测的综合成本,包含重试成本、失败率和质量分布

内容审核:如何处理 moderation_blocked 错误

GPT Image 2 使用两阶段内容审核机制,详见 OpenAI 的 system card
  1. 输入过滤——安全模型在生成开始前检查你的 prompt 和输入图片
  2. 输出过滤——生成的图片在返回给你之前会被再次检查
任何一阶段触发违规,你都会收到 moderation_blocked 错误,且不会返回图片。
常见触发原因:
  • Prompt 描述了逼真的暴力、露骨内容,或把公众人物放在误导性场景中
  • 参考图本身包含违反政策的内容
  • 模糊描述被安全模型保守地解读
生产环境怎么处理:
async function generateWithModerationHandling(prompt: string) {
  const result = await generateImage(prompt);

  if (result.error?.type === "moderation_blocked") {
    // 记录待审,不要用同样的 prompt 自动重试
    logModerationBlock(prompt, result.error);
    return { status: "blocked", reason: result.error.message };
  }

  return { status: "ok", data: result.data };
}
实战建议:
  • 不要自动重试被审核拦截的请求。同一个 prompt 会再次被拦。
  • 如果你接受用户提交的 prompt,先用 OpenAI 免费的 omni-moderation-latest 端点预过滤,再发给 gpt-image-2。这样可以在付费生成之前拦住大多数违规。
  • GPT Image 模型支持 moderation 参数,值为 "auto"(标准过滤)或 "low"(更宽松)。默认是 "auto"
  • 如果审核拦截出乎意料,可以改写 prompt,更明确地描述你想要的视觉内容,同时避免容易触发安全过滤的用语。

Batch API:批量生成降本 50%

如果你的工作流需要批量生图——商品目录生产、营销素材批量制作、批量测试——OpenAI 的 Batch API 可以大幅降低成本。
Batch API 提供什么:
特性说明
成本优惠输入和输出 token 价格打五折
交付时间24 小时内返回结果(非实时)
速率限制独立的更高配额池,不和同步请求争抢
适合的场景:
  • 隔夜批量跑图,不需要立刻拿到结果
  • 从模板批量生成上百张商品图
  • 大规模 A/B 测试多个 prompt 变体
  • 任何 24 小时内交付可接受的工作流
不适合的场景:
  • 面向用户的实时生成(playground、在线编辑)
  • 秒级或分钟级出图的需求
  • 交互式 prompt 迭代
成本叠加: Batch API 的五折优惠可以和缓存文本输入折扣叠加(复用 prompt 时 $1.25 vs $5.00 / 1M tokens)。对于大规模重复 prompt 的场景,叠加后的节省很可观。
注意: 请先确认你的 provider 是否支持 gpt-image-2 的 Batch API。EvoLink 和 OpenAI 直连的批量处理选项可能不同。

务实的成本策略

方案一:一次生成,迭代编辑

  • gpt-image-1.5 生成基础图
  • 用编辑和多轮工作流做精修
  • 只需要改一个区域时,避免整张重新生成

方案二:按任务类型路由

  • 标准商品图 -> gpt-image-2
  • 商品编辑 -> gpt-image-2
  • 文字密集型设计稿(需对齐旧文档)-> gpt-image-1.5
  • 未来试验模型 -> 单独隔离的测试桶

重点不是猜下一个模型叫什么,而是让未来换模型的成本尽可能低。

典型业务场景怎么落地

如果想把这篇文章真正用起来,最有帮助的不是继续追模型名,而是把常见业务场景和推荐线路对上。

业务场景更推荐的线路为什么
电商商品主图生成gpt-image-2适合直接接入生产链路,减少命名和路由切换成本
背景替换、局部编辑、品牌元素保留gpt-image-2更适合围绕图像编辑工作流直接落地
创意团队做新提示词实验gpt-image-2-beta更适合做灰度验证和结果对比
Agent 驱动的异步出图流水线gpt-image-2主线路更适合作为稳定编排目标,配合任务轮询或回调
团队内部做 A/B 效果对比gpt-image-2 + gpt-image-2-beta用正式线路跑主样本,用 beta 路线做补充比较

如果你是做业务系统,而不是单次试玩,真正应该优先做对的是:

  • 任务异步化
  • 路由抽象
  • 图片结果保存
  • 正式线路和测试线路分开

现在该怎么行动

到这一步,大多数团队其实已经不缺“更多消息”,而是缺一个明确动作顺序。

如果你今天就要推进项目,比较实用的路径是:

  • 现在就试用 GPT Image 2,评估它适不适合你的业务场景
  • 现在就接入 到开发或测试环境
  • 等后续官方文档和 provider 路由进一步稳定后,只需要调整路由配置,平滑切换

当前 GPT Image 技术栈已经有足够的能力来搭建:

  • 图像生成流水线
  • 编辑工作流
  • 迭代精修循环
  • 异步任务调度
  • 成本感知路由
想直接开始? 可以从 EvoLink 的 GPT Image 2开始。想要最保守地对齐 OpenAI 已公开能力,也可以用 EvoLink 上的 GPT Image 1.5

后续还值得关注什么

OpenAI 已经跨过了第一道门槛,也就是公开 gpt-image-2 官方模型页。接下来更值得关注的信号是:
  • 更新后的图像生成文档,列出新的 GPT Image 系列成员
  • 新模型的官方定价表
  • 变更日志或发布说明
  • 从当前 GPT Image 模型的官方迁移指南
在这些信息进一步完善之前,比较稳妥的做法是:先按公开文档搭好可迁移架构,把 gpt-image-2 作为主接入目标,只有在需要额外测试时再补用 gpt-image-2-beta

上线前检查清单

如果你准备把 GPT Image 2 真正接进业务,而不只是看一遍文档,建议上线前至少确认这几件事:

  • 代码里有没有把模型名写死在多个地方,而不是统一走路由配置
  • 生产默认线路是不是 gpt-image-2,而不是把 beta 路线误当主线
  • 是否已经给 gpt-image-2-beta 单独留了开关,避免测试线路误进生产
  • 是否已经处理异步任务状态,而不是假设请求一定会立刻返回最终图片
  • 是否已经在 24 小时有效期内保存图片结果,而不是依赖临时链接
  • 是否已经区分“OpenAI 官方模型信息”和“EvoLink 当前 provider 路由实现”
  • 是否已经准备好回调或轮询机制,适配长时间生成任务

常见问题

既然 GPT Image 2 已公开,现在还需要异步架构吗?

需要。OpenAI 文档已经说明复杂提示词可能需要最多 2 分钟,后台模式是推荐的处理方式。

现在就能做迭代式图像编辑吗?

可以。OpenAI 当前文档覆盖了图像编辑、多轮编辑、蒙版和高保真图像输入。

后续如果模型名或 provider 路由再变化,需要重写应用吗?

如果你现在就把模型路由抽象出来,就不需要。未来的模型切换应该是路由表的修改,而不是全应用重构。

OpenAI 官方模型名是 gpt-image-2。在 EvoLink 上,gpt-image-2 适合作为主接入线路,gpt-image-2-beta 更适合作为补充测试线路,用于效果对比、灰度验证或阶段性测试。

现在要接的话,最实用的默认选择是什么?

如果你要直接落地,默认先接 gpt-image-2。只有在你明确需要做灰度测试、A/B 对比或阶段性验证时,再额外启用 gpt-image-2-beta

GPT Image 2 有 thinking mode 吗?

有。GPT Image 2 可以在生成前对复杂 prompt 做推理——拆解子任务、验证空间约束、消除歧义。这是模型架构内置的能力,不是一个单独的开关。在结构化 prompt(信息图、多物体场景、文字密集构图)上效果最明显。

GPT Image 2 支持多大的分辨率?

OpenAI 官方文档说明 GPT Image 2 支持"数千种有效分辨率",并列出了 1024x1024 和 1536x1024 等常见示例。实际可用的分辨率集合因 provider 而异,在生产环境确定分辨率之前,请先查阅你所用 provider 的文档。

遇到内容审核错误怎么办?

不要自动重试。记录被拦截的 prompt,人工检查,必要时改写。如果你接受用户提交的 prompt,建议先用 OpenAI 免费的 omni-moderation-latest 端点预过滤,再发给 gpt-image-2

GPT Image 2 可以用 Batch API 吗?

可以。OpenAI 的 Batch API 提供 50% 成本优惠,24 小时内异步交付。具体可用性请和你的 provider 确认,因为不同平台的批量处理选项可能不同。

在哪里可以快速对比整个 GPT Image 系列?

可以打开 GPT Image 系列页面,一页看完 GPT Image 2、GPT Image 1.5 和 GPT Image 1 的对比,再决定用哪条线路或者深入读哪篇模型专题。

开始使用

如果你想现在就开始接 GPT Image 2,EvoLink 已经提供了直接接入;如果你还想做额外测试,也可以再试 gpt-image-2-beta
在 EvoLink 上对比图像模型

相关文章

参考来源

准备好把 AI 成本降低 89% 吗?

现在就开始使用 EvoLink,体验智能 API 路由的强大能力。