
OpenAI 推出了改进的 ChatGPT Images 体验,并通过 API 以 GPT Image 1.5 (
gpt-image-1.5) 的形式提供相同的模型。该版本强调更强的指令遵循、更精确的编辑、改进的密集文本渲染,以及与之前迭代相比高达 4 倍 的图像生成速度。对于构建创意工具、电子商务管道或营销自动化的 B2B SaaS 团队来说,关键的转变不是“更漂亮的图片”——而是更可靠的编辑,能够跨迭代保留重要细节(例如,肖像、构图、品牌元素)。
本指南侧重于生产现实:定价、延迟模式、安全拒绝和可扩展的系统设计,以及统一网关方法(如 EvoLink.ai)如何减少跨多个图像模型的集成开销。
执行摘要:GPT Image 1.5 在生产中改变了什么
GPT Image 1.5 被定位为 OpenAI 发布时最强大的通用文生图模型,重点在于:
- 指令遵循:更可靠的更改,“细致到微小细节”。
- 编辑与保留:更擅长应用编辑,同时保持关键元素的一致性(包括面部肖像和跨编辑的品牌视觉效果)。
- 文本渲染:改进了在图像中渲染密集文本的能力。
- 速度:生成速度高达 4 倍(据 OpenAI 报告)。
它没有神奇解决的问题:负载下的延迟变动、安全过滤器拒绝,以及扩展高质量或高分辨率生成时的成本激增。这些是您必须为此设计的架构问题。
竞争格局:GPT Image 1.5 vs Nano Banana Pro vs FLUX
2025 年选择图像模型是关于工作流契合度(编辑保真度、文本渲染、控制面、集成约束),而不仅仅是“审美偏好”。
| 类别 | GPT Image 1.5 (OpenAI) | Nano Banana Pro (Google DeepMind) | FLUX 系列 (Black Forest Labs) |
|---|---|---|---|
| 定位 | 通用图像生成 + 强大的编辑和指令依从性 | 基于 Gemini 3 构建;专注于“工作室级精度/控制”和清晰文本 | 文生图 + 编辑变体(例如,Kontext / Fill);API 使用和自托管选项 |
| 图像中的文本 | 改进的密集文本渲染 | 为海报/图表“生成清晰文本” | 因模型和工作流而异;强大的以编辑为中心的阵容 |
| 编辑与保留 | 强调精确编辑,跨编辑保留重要细节 | 强调编辑的精度/控制 | 强大的编辑目录 (Kontext / Fill 等) |
要点: 如果您的工作负载是品牌敏感的编辑(徽标、肖像、关键视觉连续性),GPT Image 1.5 的官方定位很强;如果您需要 Google 生态系统控制和“工作室质量”旋钮,Nano Banana Pro 是直接的同行;如果您优先考虑可配置的编辑管道或自托管选项,FLUX 可能很有吸引力,具体取决于您的基础设施限制。
生产性能:延迟模式和可靠性
在生产中,将 出图时间 (Time-to-Result, TTR) 作为一个分布 (p50/p95/p99) 进行跟踪,而不是单一的“平均值”。
图像模型的常见延迟驱动因素:
- 分辨率和宽高比(较大的输出需要更长时间)
- 提示复杂性和迭代编辑
- 流量峰值 / 排队
- 安全拒绝或瞬态故障后的重试循环
设计建议
- 使用 超时 + 幂等键(或您自己的请求 ID)
- 为长时间运行的生成添加 异步作业队列
- 实施 优雅回退(较低质量、较小尺寸或替代模型)



安全过滤器:将拒绝计划为一等结果
OpenAI 的图像 API 执行安全策略;提示或编辑可能会被拒绝。在生产中,您应该将“被拒绝”视为正常结果:
- 向用户显示可操作的 UI 反馈
- 记录拒绝类别(如果可用)
- 提供安全的重新提示建议
- 避免重试风暴(限制重试速率)
定价:官方 GPT Image 1.5 成本(每张图像 + Token)
OpenAI 发布了两者:
- 按质量和尺寸的每张图像价格
- 图像 token 价格(用于 token 核算中的图像输入/输出)
每张图像价格(官方)
| 质量 | 1024×1024 | 1024×1536 | 1536×1024 |
|---|---|---|---|
| 低 | $0.009 | $0.013 | $0.013 |
| 中 | $0.034 | $0.05 | $0.05 |
| 高 | $0.133 | $0.2 | $0.2 |
OpenAI 还指出,GPT Image 1.5 的图像输入和输出比 GPT Image 1 便宜 20%。
图像 token 价格(官方)
gpt-image-1.5:图像 token 输入 $8 / 输出 $32 每 100 万 tokengpt-image-1:图像 token 输入 $10 / 输出 $40 每 100 万 token
为什么这很重要: 如果您的产品进行多步编辑(上传 → 编辑 → 重新编辑),token 化的图像 I/O 会对单位经济效益产生重大影响。您的计费模型应该反映这一点。
开发者体验:您应该围绕什么进行架构
即使模型很强,交付可靠的产品也需要针对以下方面进行工程设计:
- 速率限制和背压(为 429 做好计划并排队请求)
- 跨提供商的 架构漂移(不同的参数、错误代码、响应格式)
- 可观察性(每个请求的成本、延迟百分位数、失败原因、回退率)
EvoLink 角度:统一 API 模式
统一网关方法可以通过以下方式减少运营负担:
- 跨供应商标准化请求/响应格式
- 添加路由规则(例如,为文本密集型海报选择 GPT Image 1.5;在可接受时为照片级真实场景选择另一个模型)
- 实施回退策略,当提供商拒绝或出错时
- 提供集中式使用分析用于成本和性能跟踪
快速入门:通过 EvoLink 使用 GPT Image 1.5
EvoLink 为 GPT Image 1.5 提供了一个统一端点,支持文生图、图生图和图像编辑模式,并具有异步处理功能。
端点:
POST https://api.evolink.ai/v1/images/generations请求参数:
| 参数 | 类型 | 必填 | 描述 |
|---|---|---|---|
| model | string | 是 | 使用 gpt-image-1.5-lite |
| prompt | string | 是 | 图像描述,最大 2000 token |
| size | enum | 否 | 1:1, 3:4, 4:3, 1024x1024, 1024x1536, 1536x1024 |
| quality | enum | 否 | low, medium, high, auto (默认) |
| image_urls | array | 否 | 1-16 个参考图像用于编辑,每个最大 50MB |
| n | integer | 否 | 图像数量(目前支持 1) |
示例:文生图
curl --request POST \
--url https://api.evolink.ai/v1/images/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "gpt-image-1.5-lite",
"prompt": "A professional product photo of a sleek smartwatch on a marble surface, soft studio lighting, 4K quality",
"size": "1024x1024",
"quality": "high"
}'示例:图像编辑
curl --request POST \
--url https://api.evolink.ai/v1/images/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "gpt-image-1.5-lite",
"prompt": "Change the background to a sunset beach scene, keep the product unchanged",
"image_urls": ["https://your-cdn.example.com/product-photo.jpg"],
"size": "1024x1024",
"quality": "high"
}'响应格式
API 返回一个异步任务。使用返回的 ID 轮询任务状态:
{
"created": 1757156493,
"id": "task-unified-1757156493-imcg5zqt",
"model": "gpt-image-1.5-lite",
"status": "pending",
"progress": 0,
"task_info": {
"can_cancel": true,
"estimated_time": 100
},
"usage": {
"credits_reserved": 2.5
}
}注意: 生成的图像在 24 小时 后过期。请及时下载并存储它们。


结论
GPT Image 1.5 (
gpt-image-1.5) 是 2025 年生产图像工作流的重要一步,OpenAI 明确强调了更好的指令遵循、保留重要细节的更精确编辑、改进的文本渲染以及高达 4 倍的生成速度。为了大规模可靠地交付,请将图像视为基础设施问题:测量延迟分布,使用官方每张图像定价进行预算,优雅地处理安全拒绝,并设计保护用户体验和单位经济效益的路由/回退模式。
如果您正在构建多模型图像功能,统一 API 层可以简化集成并加速迭代——而不会将您锁定在单一供应商中。



