文章深入介绍了 OpenAI 最新发布的旗舰图像模型 GPT Image 1.5,详细阐述了其在指令遵循、编辑能力和生成速度上的显著提升,并强调了在多轮编辑中保持光照、构图和人物一致性的核心创新能力。文中引用 Artificial Analysis 和 GenAI 的第三方测评数据,全面对比了 GPT Image 1.5 与竞品如 Gemini 3.0 Pro Image 在文生图和图像编辑方面的具体表现,突出了 GPT Image 1.5 在指令遵循度上的领先。此外,作者基于官方 Prompt 指南,系统性地梳理了通用 Prompt 骨架、关键控制参数以及针对高频任务(如信息图、写实照片)和编辑类工作流(如风格迁移、虚拟试穿)的详细技巧,极大地提升了模型的可用性。最后,通过作者的实测案例,直观展示了 GPT Image 1.5 和 Gemini 3 Pro Image 在处理复杂 Prompt 和多图融合时的差异与特点,揭示了 GPT Image 1.5 在特定复杂场景下仍有提升空间的问题。
新版 ChatGPT Images[1] 已上线:换了全新旗舰图像模型,主打“你想怎么改就怎么改”,生成速度最高快 4×。它在编辑时更能严格按你的意图行动,只修改要求改的部分,同时尽量保持光照、构图与人物外观(脸部相似度)在多轮编辑中的一致性,因此修图、试穿/试发型、风格化与概念重塑都会更可信、更像原图。

指令遵循能力更稳定,既提升精细编辑,也能支撑更复杂的原创构图与元素关系控制;文字渲染也更强,能处理更密、更小的文本并保持版式可用。整体输出在一些实用维度上更自然、更“直接可用”(例如复杂人群/小脸等场景的表现更好)。
产品形态上,ChatGPT 里新增专门的 Images 创作空间(侧边栏入口),提供预设滤镜与灵感模板来加速尝试与迭代,并支持一次性相貌上传以便后续复用;还支持在其他图片生成中继续发起新生成,减少等待。

可用性:新模型已对所有 ChatGPT 用户逐步开放;API 以 GPT-Image-1.5 提供。ChatGPT 新的 Images 体验对大多数用户逐步开放,Business/Enterprise 晚些。API 侧强调更适合品牌/电商等需要跨编辑保持 Logo 与关键视觉一致的工作流,并且相较 GPT Image 1,图像输入/输出成本便宜 20%。官方也明确:进步明显但仍有不足,后续还会继续改进。

第三方测评
Artificial Analysis
GPT Image 1.5 在 Artificial Analysis Image Arena[2] 中同时拿下文生图与图像编辑第 1,超越 Nano Banana Pro;作为 OpenAI 最新旗舰图像生成模型,它相较此前版本在画质与提示词还原度上都有提升,并按 token 计费、价格随分辨率与质量档位变化:以 1MP 为例,高质量约 $133/千张,低质量约 $9/千张。

GenAI
GenAI[3] 图像编辑测评榜:对多种最先进(SOTA)的图像编辑模型,在特定提示词与挑战上的表现进行对比,重点关注“纯文本指令驱动的图像修改”。比赛规则:
- 不允许“多轮补救提示”(把同一张图连续喂给模型,用多次纠错提示逐步修正);目标必须在一次尝试中完成。
- “编辑”指仅依据文本指令对图像进行修改;因此不允许使用 img2img 或手动遮罩进行修复/局部重绘(inpainting)。
- 为保证公平,会根据每个模型的优势对提示词做必要的调参和微调。


指标说明:
- 通过/失败(Pass/Fail):统计每个模型通过了多少项测试。用于粗略衡量模型是否能完成任务。
- 综合(Combined):加权得分,综合考虑通过/失败、合规性(对提示词的遵循程度)以及质量评分,提供更细致的对比。
- 指令遵循度(Compliance):用于衡量模型“可控性”(steerability),即它多大程度能按提示词指令行事。数值越高表示越贴合提示词;数值越低表示需要更多次尝试才能得到合格结果。该指标只对通过测试的样本计算。
从测评可以看出,综合能力还是 Gemini 3.0 Pro Image(Nano Banana Pro)更强劲,但 GPT Image 1.5 的指令遵循不可小觑,直奔 90%,比 Gemini 3 高出了 13%。
Hacker News
在 Hacker News[4] 上的讨论,我截了张图。

小结
从测评基本可以得出 GPT-Image-1.5 在指令遵循、还原度上都有巨大提升。以下是 Artificial Analysis 做的几张对比测试图,大家可自行感受。
文字生成图像 Prompt:A curious cat peeking out from a pile of autumn leaves.

文字生成图像 Prompt:A close-up, photorealistic view of a hummingbird feeding on a bright red hibiscus, shimmering emerala feathers catching the morning light, wings frozen in mid-beat.

Prompt:A retro-inspired advertisement for a local diner, featuring a chrome milkshake holder and a cheeseburger ] on a red-checkered tablecloth under neon lighting, with the text 'Classic Comfort, Every Time!'

图像编辑 Prompt:Change the car's color to orange

图像编辑 Prompt:Insert a family of yellow ducks crossing the railroad

Prompt 指南
为了让大家更好的使用 Image 1.5,官方也编写了 Prompt 指南提供参考(Gpt-image-1.5 Prompting Guide[5]),指南主要针对 API 使用,但核心技巧都是通用的,我整理出来了。
1) 通用写法骨架
按固定顺序写:用途/成品形态 → 场景/背景 → 主体 → 关键细节 → 构图/布局 → 约束(改什么/不改什么);复杂需求用分段/标签,别塞成一段长文。
2) “更像你想要的”关键控制杆
- 具体而非泛泛:材质、形状、纹理、媒介(照片/水彩/3D)说清楚;写实更建议用镜头、景别、光线、机位来控风格,而不是 “8K/超清”。
- 构图/版式要点名:近景/远景、俯拍/平视、留白、元素摆位(如 “logo 右上”)。
- 明确“改 vs 保留”:编辑时用“只改 X + 其余保持不变”,并在每次迭代都重复保留清单防漂移。
- 图中文字:把“必须出现的文案”放进引号(或全大写),并约束字体风格/大小/颜色/位置;难拼写可逐字母拼。
- 多图输入:按 “Image 1/2/3:是什么”逐一标注,并说清“把谁的什么放到哪、谁的风格套到谁”。
- 别一口吃成胖子:先出干净底稿,再用“小改动”迭代(如只调光、只删元素)。
3) 参数与取舍(速度/质量/一致性)
- quality:追求细节/密集文字/复杂版式 → 用 high;追求低延迟/高吞吐 → 先从 low 试起。
- input_fidelity(编辑时):涉及人物相貌保持、较大幅度改场景/合成 → 倾向 high。
- n:一次要多方案就直接让模型出多张变体。
4) 高频任务的“提示词要点”
- 信息图/图表:明确受众、结构与层级;密文字更建议高质量。
- 图片内翻译/本地化:强调“除文字外全部不变”,排版层级、间距、字重尽量保持,翻译要逐字准确、不加词。
- 写实自然照片:把它当“现场抓拍”来写,强调真实纹理/瑕疵,避免“棚拍、过度精修、电影调色”。
- UI Mock:把产品当“已上线”描述,强调布局、层级、间距、真实组件,少用概念艺术词。
- Logo/品牌图形:先给品牌气质与使用场景,再强调“干净、可缩放、负空间平衡、矢量感、无侵权”。
5) 编辑类工作流的“硬约束写法”
- 风格迁移:先锁定要保留的风格线索(调色/笔触/颗粒等),再写要替换的新内容,并加“背景/构图/禁止新增元素”等硬约束。
- 虚拟试穿:把“人”锁死(脸、体型、姿态、发型、表情),只允许改衣服;要求真实布料褶皱/遮挡与光影一致,禁止改背景/镜头/加字加 logo。
- 草图→渲染:把 prompt 当“规格书”:保留布局/比例/透视,再补材料/光线/环境;加“不要新增元素/文字”。
- 抠图/商品图:要求透明 RGBA、边缘干净无毛边;标签文字必须清晰且不变;可选轻微接触阴影;强调“不重风格,只轻度抛光”。
- 广告图含真实文字:文案放引号并要求“逐字渲染、不可多字符”,再约束字体与位置;不够准就用小幅排版/措辞微调迭代。
- 光照/天气替换:只改环境条件(光线方向、阴影、雾雪、地面湿度等),机位/几何/物体位置要保持。
- 合成(人/物进场景、多图拼接):明确“从哪张图搬什么→放到哪→哪些不变”,并要求匹配光照、透视、尺度、阴影。
😅
注意,经测试抠图并非是是真正把背景去掉,而且搞成了网格背景。以下是测试 prompt:
💡 Prompt

Extract the product from the input image.
Output: transparent background (RGBA PNG), crisp silhouette, no halos/fringing.
Preserve product geometry and label legibility exactly.
Optional: subtle, realistic contact shadow in the alpha (no hard cut line).
Do not restyle the product; only remove background and lightly polish.
输出结果:

小结
总结成 Prompt 模板:
Goal/Output:
- 你要的成品类型与用途(海报 / 电商主图 / UI mock / 信息图 / 写实照片 / 风格插画)
Scene:
- 背景/环境 + 主体 + 动作/关系
Style:
- 媒介与风格(照片/水彩/3D)+ 关键质感(材质、纹理、瑕疵/颗粒)
Composition/Layout:
- 景别/机位/光线 + 元素摆位(留白、居中、角落放字/标识)
Text (verbatim, if any):
- "必须出现的文案"
- 字体风格/大小/颜色/位置/只出现一次
Edit constraints (for edits):
- Change ONLY: X
- Preserve exactly: A, B, C(每次迭代都重复这行)
- Negative: no watermark / no extra text / no logos / no new objects
实测
我自己也垫了一些图,测了几个官方推荐 Prompt,发现 Gemini 3.0 Pro Image 与 GPT Image 1.5 是各有特色。
悬浮 3D 头像
💡 Prompt

Create a hyper-stylized 3D floating head of a bratty, glamorous version of the subject with a bothered, unimpressed expression: half-lidded eyes, arched brows, and a subtle lip curl, delivering classic “mean girl” attitude. Their smooth skin has a glossy vinyl finish with strong highlighter on cheekbones and nose, catching soft studio light. Apply holographic, iridescent eyeshadow shifting from purple to teal with crisp specular glints. Style their thick hair in slick, glossy, sculpted waves or a sleek updo, reflecting light like polished acrylic. Add a small metallic chrome nose piercing (stud or hoop) with subtle brushed-metal reflections. The head floats isolated against a plain white neutral background, tilted 15 degrees, like a premium product render. Use bright, diffuse studio lighting with no harsh shadows, emphasizing gloss, plasticity, and subsurface scattering for realistic depth. The mood is bratty, fashionable, coolly detached. Camera angle is a close-up portrait, straight-on, with an 85mm lens. Textures are ultra-smooth, high-gloss, cartoon-style plastic skin, lips, and hair.
让 GPT 和 Gemini 将原图和生成图放在一张图里,似乎 GPT 表现更好(傲娇感十足),Gemini 还把原图修改掉了,不知道为啥。


💡 Prompt

Transform the subjects or image into an adorable chibi-style character with a tiny body and an oversized head. If the image contains a person or multiple people, give them large, sparkling eyes, soft rounded facial features, and a cheerful expression while preserving their recognizable traits such as key facial features, hairstyle, accessories, or distinctive clothing; if the image contains an object, animal, or scene, reinterpret its most recognizable features using the same chibi proportions and simplified, cute styling. Keep the overall look short and cute, with smooth pastel shading and simplified details. Make the final image bright, expressive, and irresistibly charming, like a collectible chibi mascot.
在以上 prompt 基础上,我又加了一句 坐在 🐝 上,手里拿着 🌈,事实证明,它会继承上下文风格,在此基础上进行进行修改。

融合图
💡 Prompt


融合成一张图,眉目传情,卿卿我我
这个 prompt 就比较尴尬了,如果不特别提及,它会生成奇怪的画风,就像这样:

再次发送 男生是一个人,画面就正常了许多(这个手感觉很不合理)。

反观 Gemini 3 Pro,同样提示词,一次就成功了。

继续输入 换成图中的白发男子,Gemini 也稳稳拿下(感觉 Gemini 人物更接近原图风格)。

References
[1]
ChatGPT Images:https://openai.com/index/new-chatgpt-images-is-here
[2]
Artificial Analysis Image Arena:https://artificialanalysis.ai/image/leaderboard/text-to-image
[3]
GenAI:https://genai-showdown.specr.net/image-editing
[4]
Hacker News:https://news.ycombinator.com/item?id=46291941
[5]
Gpt-image-1.5 Prompting Guide:https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide
