这一次,OpenAI干掉了90%人类设计师

marsbit发布于2026-04-23更新于2026-04-23

文章摘要

OpenAI发布新一代图像生成模型GPT-Image 2,标志着AI绘图从“画得像”迈入“逻辑对”的新阶段。该模型具备思维建模能力,能在生成图像前进行逻辑推理,例如准确计算里程、匹配地理信息并遵循UI规范。其图像质量在多项评测中登顶,可生成包含精准中文、复杂构图和商业级设计的图像,成本仅需几美元。 模型支持多轮对话修改,通过Responses API实现自然交互,显著提升了汉字渲染能力,几乎杜绝了以往常见的乱码问题,但仍存在小字模糊等技术局限。尽管在处理极端复杂任务时可能出现延迟,且面临深度伪造的伦理挑战,GPT-Image 2已被视为可直接投入商业应用的生产力工具,可能对90%的设计师岗位造成冲击。

文 | 硅基星芒

Sam Altman那个著名的梗,这次应验在所有人身上了。

去年宣传GPT-5的时候,这位OpenAI的CEO说了一句后来被全网玩坏的话:“那种感觉,就像看到原子弹爆炸,整个人眩晕瘫坐。”此后每逢AI圈发布新品、配上夸张文案,这个梗就被拉出来反复鞭尸。

但前天深夜,眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等OpenAI出牌的用户。

奥特曼照例故作神秘,发了一条推文:“我们准备了一些有趣的东西。”

到了凌晨三点,GPT-Image 2落地。全球AI界直接炸场。

“Images are a language, not decoration.”

这是OpenAI写在发布页上的第一句话。翻译过来就一个意思:从今天起,图像不再是装饰品,它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。

过去一整年,AI绘图还困在“画得像不像”的审美泥潭里。GPT-Image 2一出现,直接按下了切换键——AI生图正式进入“逻辑对不对”的智力考场。

这款模型的精度,用“恐怖”来形容不过分。

在Artificial Analysis的文生图和图像编辑排行榜上双双登顶,实战表现更是碾压级的。

那种感觉,就像视频生成领域Seedance 2.0降临时一样,它早就不当人类的辅助工具了,它在定义新的行业标准。

注:本文的图片全部由GPT-Image 2生成,图片内容纯属虚构。

01  思维引擎的觉醒

过去,人们评判一个图像模型好不好,第一标准是像不像真人、像不像参照物。

在GPT-Image 2这个怪物面前,这套标准过时了。彻底过时。

新模型最核心的突破点在这儿:它是一个支持思考模式的图像模型。

什么意思?用户输入提示词之后,模型不再简单去噪、拼接像素。它先在后台完成一次思维建模,再动笔。

Linux.do社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面:

图源:https://cdn3.linux.do/original/4X/0/f/3/0f37c8bc968e3d563cc6100d8e7f80ee305661ff.jpeg

这张图让不少开发者倒吸一口凉气。雷总面部特征精准还原——简直像照片——图中还赫然显示着:直播目标1313km、已跑里程425.7km、剩余里程887.3km。更绝的是,当前海拔标着3658m。

3658m是什么概念?从北京到拉萨,进入藏区的典型海拔,恰好就是这个数。

在人类眼里,这不过是简单的数学加减法和地理常识。但请你想一想:对于一个图像模型来说,数学逻辑 + 地理常识 + UI规范的三重统一,意味着什么?

结论很直接:在生成第一个像素之前,GPT-Image 2已经完成了一轮推理。它理解了“里程”的含义,理解了加减法的逻辑关系,也理解了高海拔地区的视觉特征。

这哪里是画画。这是思考。

02  从玩具到生产力

在这种能力面前,所有人对图像模型的态度,该变一变了。

它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过“可用”门槛,直接冲进“好用”区间——一个能扔进商业场景直接干活的工具。

拿海报设计来说。GPT-Image 2的构图审美、光影处理、对品牌调性的拿捏,毫无疑问达到了绝大多数普通人类设计师难以企及的高度。

图源:https://cdn3.linux.do/original/4X/7/a/1/7a12ccd6b745be5ad8828eb0ac225d218fb43cbc.jpeg

在人类社会中,聘请一位高级美工设计一张商业级海报,沟通成本、时间成本和上千元的设计报酬往往对中小企业来说是沉重的负担。

然而,有了GPT-Image 2,即使效果不满意调整几十次,成本也不过是几美元的级别。

在海报设计、营销素材、插画配图这些领域,用户在乎的根本不是“真不真”,在乎的是“好不好看、准不准”。正因如此,AI的替代效率是毁灭性的

在同步更新的开发者文档中,还隐藏着一个令人兴奋的细节:示例代码中频繁出现了model: “gpt-5.4”。

思考模式加上旗舰模型,这个组合暗示了一件事:GPT-Image 2绝非孤立产品。它是为下一代大语言模型而生的视觉终端。

通过新的Responses API,生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能,首次生图结束后,用户可以提出各种让乙方头疼的指令进行修改。

通过新的Responses API,生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能,第一版生成后,用户可以提出各种让乙方设计师血压飙升的指令:“背景再暗一点。”“Logo往旁边挪几个像素。”

这些交互式实时修改需求,恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在,迎刃而解。

03  中文渲染的巅峰

GPT-Image 2虽然是国外的模型,国内用户却一边倒地叫好。

原因只有一个:它对汉字的支持,堪称完美。

在社区的实测返图中,你能看到罗永浩和王自如的名场面辩论:

图源:https://cdn3.linux.do/original/4X/0/9/7/097ed46991d2464442aebc6b1076a292cc839fec.jpeg

能看到马斯克直播带货老干妈:

图源:https://cdn3.linux.do/original/4X/2/f/a/2fa77cf040e6337643829df4ec5ca6467d2866b2.jpeg

甚至能看到医生写的药方:

图源:https://cdn3.linux.do/original/4X/9/f/f/9ffeab83675648b43116cd0763f6c8b560611ae6.jpeg

这些图片中的文字,早已不再是歪七扭八、胡乱拼凑的“伪汉字”,而是具备书法韵味、字体层次感和排版艺术的成熟设计稿。

显然,OpenAI在训练集里灌入了海量中文语料图像,做了针对性强训

和前代模型比起来,GPT-Image 2的强大得以更加淋漓尽致地体现。

在对比测试中,前代模型1.5版本虽然能画出像菜谱的东西,但仔细一看,文字几乎全是乱码。

图源:https://cdn3.linux.do/optimized/4X/2/b/3/2b38f3c1a134515d564f07f81661c0bd9578c6b9_2_750x750.jpeg

但GPT-Image 2生成的相同菜谱,却让人看到了文字清晰度和审美已经有了里程碑式的突破。

图源:https://cdn3.linux.do/original/4X/0/2/5/02513b10135d824ccb1c22bd0c7eb441f1e34455.jpeg

对于上百个中文字符的提示词,五个步骤仍然清晰可见,图文一致性令人满意。这不仅是一张图,还是一套可复现的实操方案。

不过,这里也带出一个有趣的技术问题:图像模型真的彻底解决了乱码问题吗?

我的判断是:恐怕没有。

大语言模型生成token,靠的是语义逻辑。强化学习阶段以概率为依据,高质量语料越多,逻辑越合理。但图像模型的本质,终究是像素生成。像素之间的逻辑关系,跟文字之间的逻辑关系,根本不是一回事。

换句话说,强大如GPT-Image 2,也并没有真正“理解”文字的规律。它只是死记硬背了文字在像素层面上的长相。

一张与奥特曼谈生意的图暴露了这一点:两箱饮料包装上大大的“蒙牛”和“王老吉”写得极其完美,底下的小字却依然是模糊的色块。

图源:https://cdn3.linux.do/original/4X/d/7/c/d7c4fb063202bcbf56b9ca0623aa0ce6fc26e542.jpeg

在现有技术范式下,生成逻辑还是“按像素排布”,离“按字符渲染”差着本质的一步。极细微处的乱码,可能永远无法彻底根除。

但话说回来,对90%以上的商业应用场景而言,这已经足够了。

04  尚未封神的缺陷与边界

即便已经坐上世界第一的宝座,GPT-Image 2也有它笨拙的一面。

实测中发现,由于思考模式会调用联网搜索并进行逻辑推演,在处理极其复杂的虚构任务时,模型偶尔会陷入逻辑怪圈——思考了接近40分钟,仍然无法作答。

与此同时,API宣称的支持2K甚至4K分辨率,意味着极高的token消耗和延迟。

对于普通用户来说,如何在极致画质和响应速度之间取得平衡,是未来使用中的必修课。

在技术领域,强大的能力永远是一把双刃剑。

无论是图像模型还是视频模型,都不可避免地要面对深度伪造的伦理挑战。

目前的大部分实测案例中,AI生成的都是知名人物,但若是将他们换成各种社交媒体上发布过照片的普通人,在不认识本人的情况下已经极难分辨出真假。

除了背景中偶尔出现的乱码可能会让AI露馅,人体本身已经没有任何破绽。

因此,那些曾经必须由真人完成的领域,正在面临着前所未有的信任危机。

GPT-Image 2的发布,让生图模型从玩具走向了生产力工具。

过去人们用AI提供灵感,而如今的AI开始尝试接管从构思、计算、排版到成品的全流程。

对于设计从业者来说,这是一个充满FOMO的时代。

但对于那些善于利用工具、具备产品审美和逻辑思维的人来说,这又是一个最好的时代。

图像开始学会思考,文字不再是像素的杂音。

人们距离那个所思即所得的视觉奇点,可能真的只有一步之遥了。

相关问答

QGPT-Image 2相比之前的AI生图模型有哪些核心突破?

AGPT-Image 2的核心突破在于它支持思考模式,生成图像前会先进行逻辑推理和思维建模,而不仅仅是像素拼接。它能够理解数学逻辑、地理常识和UI规范,实现多重统一,使得生成的图像在逻辑和细节上更加精准。

QGPT-Image 2在商业设计领域的应用优势是什么?

AGPT-Image 2在商业设计领域的优势包括:能够快速生成高质量的海报、营销素材和插画配图,成本极低(几美元即可多次调整),审美和细节处理达到高级人类设计师水平,同时支持多轮对话修改,大幅减少沟通和时间成本。

QGPT-Image 2对中文的支持如何?是否还存在乱码问题?

AGPT-Image 2对中文的支持非常出色,生成的汉字清晰、具有书法韵味和排版艺术,远超前代模型。但细微处(如小字)仍可能存在模糊或乱码,因为其生成逻辑基于像素排布而非字符渲染,尚未彻底解决乱码问题。

QGPT-Image 2目前存在哪些缺陷或局限性?

AGPT-Image 2的缺陷包括:处理复杂虚构任务时可能陷入逻辑怪圈导致长时间无法响应;高分辨率(如2K或4K)生成会带来极高的token消耗和延迟;同时,它面临深度伪造的伦理挑战,可能被滥用生成难以辨别的虚假图像。

QGPT-Image 2的发布对设计行业可能产生什么影响?

AGPT-Image 2的发布可能颠覆设计行业,它能够接管从构思到成品的全流程,替代大量基础设计工作,导致90%的人类设计师面临失业风险。但对于善于利用工具、具备产品审美和逻辑思维的人,它提供了高效的生产力工具,加速创作过程。

你可能也喜欢

以太坊基金会主席打破沉默,阐述新使命及内部紧张关系

以太坊基金会主席Aya Miyaguchi阐述了该组织的新使命,称这一转变是内部争论日益紧张、基金会同时面临过多压力后的必要调整。她表示,新使命由董事会提出,但由她于去年年底建议。触发因素并非单一争议,而是结构性问题:EF已成为各种竞争期望的焦点,技术讨论变得政治化、个人化,同时基金会规模扩张导致其核心被多方不同愿景拉扯。 Miyaguchi强调,以太坊基金会只是以太坊众多节点之一,其中心性的减弱并非责任退缩,而是以太坊成熟超越其最初机构的证明。她回顾了自己自2012年以来的行业经历,指出自2018年担任执行董事以来,目标就是帮助以太坊超越基金会发展。基金会通过孵化Uniswap、ENS等项目,支持ETHGlobal黑客松,以及通过Gitcoin等“资助资助者”来刻意分散权力而非保留控制权。 目前,EF持有的ETH已不足总量的0.2%,其角色也按设计变得更集中。新使命的核心是维护和加速使以太坊“具有独特价值、竞争力且值得构建”的特性与目标,聚焦于CROPS及“不可剥夺的用户自我主权和自我主权协调”。Miyaguchi否认更专注的EF意味着减少对应用推广的关心,认为恰恰相反,日常用户和机构都依赖于以太坊的根本价值主张。 此番表态之际,EF在2026年经历了多位高级贡献者的离职潮。Miyaguchi承认,随着基金会变得更加专注和有主见,团队规模自然会变小、更集中,这是选择的一部分。Vitalik Buterin此前也发文描述了基金会向更精简、更专注结构的过渡,减少作为以太坊中心的作用,更注重维护网络的长期特性。

bitcoinist1小时前

以太坊基金会主席打破沉默,阐述新使命及内部紧张关系

bitcoinist1小时前

稳定币战局迎来新竞争者——这一次拥有50万个零售网点

全球跨境支付巨头速汇金于6月2日推出自有品牌美元稳定币MGUSD,旨在为其全球汇款网络提供金融服务基础层。此举标志着其稳定币战略从依赖第三方基础设施(如USDC)转向自主发行与管理,直接掌控发行、储备管理和收益。 作为拥有85年历史、覆盖200多个国家、约50万零售网点和超5000万客户的传统支付机构,速汇金发行稳定币具有重大意义。它将使稳定币更易被拉丁美洲、非洲和东南亚等依赖汇款的广大人群接受,推动加密货币在传统金融中的普及。 此次推出的时机紧随美国2026年《GENIUS法案》生效,该法案为稳定币建立了首个正式监管框架,速汇金CEO表示这正是公司拓展数字美元服务所需的监管护栏。MGUSD是此新监管窗口期内首个面向消费者的主要稳定币。 速汇金近年逐步构建数字支付体系,包括2021年与Stellar合作、2025年整合Fireblocks、2026年成为Tempo区块链验证节点,直至推出自有稳定币。这一系列动作减少了对外部伙伴的依赖,增强了对支付栈的控制。 这一进展表明,稳定币经济已不再是加密货币行业的专属叙事,而是正在融入全球主流支付体系。一家拥有数十年合规经验和庞大现金网络的汇款巨头发行自有稳定币,标志着该领域与全球金融融合的关键一步。

bitcoinist2小时前

稳定币战局迎来新竞争者——这一次拥有50万个零售网点

bitcoinist2小时前

交易

现货
合约

热门文章

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对MEME(MEME)币价的意见。

活动图片