这一次,OpenAI干掉了90%人类设计师

marsbit发布于2026-04-23更新于2026-04-23

文章摘要

OpenAI发布新一代图像生成模型GPT-Image 2,标志着AI绘图从“画得像”迈入“逻辑对”的新阶段。该模型具备思维建模能力,能在生成图像前进行逻辑推理,例如准确计算里程、匹配地理信息并遵循UI规范。其图像质量在多项评测中登顶,可生成包含精准中文、复杂构图和商业级设计的图像,成本仅需几美元。 模型支持多轮对话修改,通过Responses API实现自然交互,显著提升了汉字渲染能力,几乎杜绝了以往常见的乱码问题,但仍存在小字模糊等技术局限。尽管在处理极端复杂任务时可能出现延迟,且面临深度伪造的伦理挑战,GPT-Image 2已被视为可直接投入商业应用的生产力工具,可能对90%的设计师岗位造成冲击。

文 | 硅基星芒

Sam Altman那个著名的梗,这次应验在所有人身上了。

去年宣传GPT-5的时候,这位OpenAI的CEO说了一句后来被全网玩坏的话:“那种感觉,就像看到原子弹爆炸,整个人眩晕瘫坐。”此后每逢AI圈发布新品、配上夸张文案,这个梗就被拉出来反复鞭尸。

但前天深夜,眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等OpenAI出牌的用户。

奥特曼照例故作神秘,发了一条推文:“我们准备了一些有趣的东西。”

到了凌晨三点,GPT-Image 2落地。全球AI界直接炸场。

“Images are a language, not decoration.”

这是OpenAI写在发布页上的第一句话。翻译过来就一个意思:从今天起,图像不再是装饰品,它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。

过去一整年,AI绘图还困在“画得像不像”的审美泥潭里。GPT-Image 2一出现,直接按下了切换键——AI生图正式进入“逻辑对不对”的智力考场。

这款模型的精度,用“恐怖”来形容不过分。

在Artificial Analysis的文生图和图像编辑排行榜上双双登顶,实战表现更是碾压级的。

那种感觉,就像视频生成领域Seedance 2.0降临时一样,它早就不当人类的辅助工具了,它在定义新的行业标准。

注:本文的图片全部由GPT-Image 2生成,图片内容纯属虚构。

01  思维引擎的觉醒

过去,人们评判一个图像模型好不好,第一标准是像不像真人、像不像参照物。

在GPT-Image 2这个怪物面前,这套标准过时了。彻底过时。

新模型最核心的突破点在这儿:它是一个支持思考模式的图像模型。

什么意思?用户输入提示词之后,模型不再简单去噪、拼接像素。它先在后台完成一次思维建模,再动笔。

Linux.do社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面:

图源:https://cdn3.linux.do/original/4X/0/f/3/0f37c8bc968e3d563cc6100d8e7f80ee305661ff.jpeg

这张图让不少开发者倒吸一口凉气。雷总面部特征精准还原——简直像照片——图中还赫然显示着:直播目标1313km、已跑里程425.7km、剩余里程887.3km。更绝的是,当前海拔标着3658m。

3658m是什么概念?从北京到拉萨,进入藏区的典型海拔,恰好就是这个数。

在人类眼里,这不过是简单的数学加减法和地理常识。但请你想一想:对于一个图像模型来说,数学逻辑 + 地理常识 + UI规范的三重统一,意味着什么?

结论很直接:在生成第一个像素之前,GPT-Image 2已经完成了一轮推理。它理解了“里程”的含义,理解了加减法的逻辑关系,也理解了高海拔地区的视觉特征。

这哪里是画画。这是思考。

02  从玩具到生产力

在这种能力面前,所有人对图像模型的态度,该变一变了。

它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过“可用”门槛,直接冲进“好用”区间——一个能扔进商业场景直接干活的工具。

拿海报设计来说。GPT-Image 2的构图审美、光影处理、对品牌调性的拿捏,毫无疑问达到了绝大多数普通人类设计师难以企及的高度。

图源:https://cdn3.linux.do/original/4X/7/a/1/7a12ccd6b745be5ad8828eb0ac225d218fb43cbc.jpeg

在人类社会中,聘请一位高级美工设计一张商业级海报,沟通成本、时间成本和上千元的设计报酬往往对中小企业来说是沉重的负担。

然而,有了GPT-Image 2,即使效果不满意调整几十次,成本也不过是几美元的级别。

在海报设计、营销素材、插画配图这些领域,用户在乎的根本不是“真不真”,在乎的是“好不好看、准不准”。正因如此,AI的替代效率是毁灭性的

在同步更新的开发者文档中,还隐藏着一个令人兴奋的细节:示例代码中频繁出现了model: “gpt-5.4”。

思考模式加上旗舰模型,这个组合暗示了一件事:GPT-Image 2绝非孤立产品。它是为下一代大语言模型而生的视觉终端。

通过新的Responses API,生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能,首次生图结束后,用户可以提出各种让乙方头疼的指令进行修改。

通过新的Responses API,生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能,第一版生成后,用户可以提出各种让乙方设计师血压飙升的指令:“背景再暗一点。”“Logo往旁边挪几个像素。”

这些交互式实时修改需求,恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在,迎刃而解。

03  中文渲染的巅峰

GPT-Image 2虽然是国外的模型,国内用户却一边倒地叫好。

原因只有一个:它对汉字的支持,堪称完美。

在社区的实测返图中,你能看到罗永浩和王自如的名场面辩论:

图源:https://cdn3.linux.do/original/4X/0/9/7/097ed46991d2464442aebc6b1076a292cc839fec.jpeg

能看到马斯克直播带货老干妈:

图源:https://cdn3.linux.do/original/4X/2/f/a/2fa77cf040e6337643829df4ec5ca6467d2866b2.jpeg

甚至能看到医生写的药方:

图源:https://cdn3.linux.do/original/4X/9/f/f/9ffeab83675648b43116cd0763f6c8b560611ae6.jpeg

这些图片中的文字,早已不再是歪七扭八、胡乱拼凑的“伪汉字”,而是具备书法韵味、字体层次感和排版艺术的成熟设计稿。

显然,OpenAI在训练集里灌入了海量中文语料图像,做了针对性强训

和前代模型比起来,GPT-Image 2的强大得以更加淋漓尽致地体现。

在对比测试中,前代模型1.5版本虽然能画出像菜谱的东西,但仔细一看,文字几乎全是乱码。

图源:https://cdn3.linux.do/optimized/4X/2/b/3/2b38f3c1a134515d564f07f81661c0bd9578c6b9_2_750x750.jpeg

但GPT-Image 2生成的相同菜谱,却让人看到了文字清晰度和审美已经有了里程碑式的突破。

图源:https://cdn3.linux.do/original/4X/0/2/5/02513b10135d824ccb1c22bd0c7eb441f1e34455.jpeg

对于上百个中文字符的提示词,五个步骤仍然清晰可见,图文一致性令人满意。这不仅是一张图,还是一套可复现的实操方案。

不过,这里也带出一个有趣的技术问题:图像模型真的彻底解决了乱码问题吗?

我的判断是:恐怕没有。

大语言模型生成token,靠的是语义逻辑。强化学习阶段以概率为依据,高质量语料越多,逻辑越合理。但图像模型的本质,终究是像素生成。像素之间的逻辑关系,跟文字之间的逻辑关系,根本不是一回事。

换句话说,强大如GPT-Image 2,也并没有真正“理解”文字的规律。它只是死记硬背了文字在像素层面上的长相。

一张与奥特曼谈生意的图暴露了这一点:两箱饮料包装上大大的“蒙牛”和“王老吉”写得极其完美,底下的小字却依然是模糊的色块。

图源:https://cdn3.linux.do/original/4X/d/7/c/d7c4fb063202bcbf56b9ca0623aa0ce6fc26e542.jpeg

在现有技术范式下,生成逻辑还是“按像素排布”,离“按字符渲染”差着本质的一步。极细微处的乱码,可能永远无法彻底根除。

但话说回来,对90%以上的商业应用场景而言,这已经足够了。

04  尚未封神的缺陷与边界

即便已经坐上世界第一的宝座,GPT-Image 2也有它笨拙的一面。

实测中发现,由于思考模式会调用联网搜索并进行逻辑推演,在处理极其复杂的虚构任务时,模型偶尔会陷入逻辑怪圈——思考了接近40分钟,仍然无法作答。

与此同时,API宣称的支持2K甚至4K分辨率,意味着极高的token消耗和延迟。

对于普通用户来说,如何在极致画质和响应速度之间取得平衡,是未来使用中的必修课。

在技术领域,强大的能力永远是一把双刃剑。

无论是图像模型还是视频模型,都不可避免地要面对深度伪造的伦理挑战。

目前的大部分实测案例中,AI生成的都是知名人物,但若是将他们换成各种社交媒体上发布过照片的普通人,在不认识本人的情况下已经极难分辨出真假。

除了背景中偶尔出现的乱码可能会让AI露馅,人体本身已经没有任何破绽。

因此,那些曾经必须由真人完成的领域,正在面临着前所未有的信任危机。

GPT-Image 2的发布,让生图模型从玩具走向了生产力工具。

过去人们用AI提供灵感,而如今的AI开始尝试接管从构思、计算、排版到成品的全流程。

对于设计从业者来说,这是一个充满FOMO的时代。

但对于那些善于利用工具、具备产品审美和逻辑思维的人来说,这又是一个最好的时代。

图像开始学会思考,文字不再是像素的杂音。

人们距离那个所思即所得的视觉奇点,可能真的只有一步之遥了。

相关问答

QGPT-Image 2相比之前的AI生图模型有哪些核心突破?

AGPT-Image 2的核心突破在于它支持思考模式,生成图像前会先进行逻辑推理和思维建模,而不仅仅是像素拼接。它能够理解数学逻辑、地理常识和UI规范,实现多重统一,使得生成的图像在逻辑和细节上更加精准。

QGPT-Image 2在商业设计领域的应用优势是什么?

AGPT-Image 2在商业设计领域的优势包括:能够快速生成高质量的海报、营销素材和插画配图,成本极低(几美元即可多次调整),审美和细节处理达到高级人类设计师水平,同时支持多轮对话修改,大幅减少沟通和时间成本。

QGPT-Image 2对中文的支持如何?是否还存在乱码问题?

AGPT-Image 2对中文的支持非常出色,生成的汉字清晰、具有书法韵味和排版艺术,远超前代模型。但细微处(如小字)仍可能存在模糊或乱码,因为其生成逻辑基于像素排布而非字符渲染,尚未彻底解决乱码问题。

QGPT-Image 2目前存在哪些缺陷或局限性?

AGPT-Image 2的缺陷包括:处理复杂虚构任务时可能陷入逻辑怪圈导致长时间无法响应;高分辨率(如2K或4K)生成会带来极高的token消耗和延迟;同时,它面临深度伪造的伦理挑战,可能被滥用生成难以辨别的虚假图像。

QGPT-Image 2的发布对设计行业可能产生什么影响?

AGPT-Image 2的发布可能颠覆设计行业,它能够接管从构思到成品的全流程,替代大量基础设计工作,导致90%的人类设计师面临失业风险。但对于善于利用工具、具备产品审美和逻辑思维的人,它提供了高效的生产力工具,加速创作过程。

你可能也喜欢

谁在给AI造灵魂:哲学家、神父和一个辞职写诗的工程师

《谁在给AI造灵魂》一文探讨了为AI构建道德与人格背后的复杂努力。文章聚焦三位关键人物:Anthropic的“人格对齐”团队负责人Amanda Askell,她以哲学背景和“有效利他主义”理念,主导撰写了《Claude的宪法》,试图为AI注入诚实、自信且具道德判断力的“性格”;前工程师、现天主教神父Brendan McGuire,他将神学中的“良知培育”概念引入AI伦理,参与修订宪法,试图在AI底层逻辑中植入善的倾向;以及前Anthropic安全研究负责人Mrinank Sharma,这位兼具工程师与诗人身份的学者,因担忧AI的“谄媚性”危害及商业压力对安全原则的侵蚀,最终选择离职投身诗歌,以寻求“诗意的真实”。 他们的工作揭示了AI人格塑造的核心矛盾与挑战:一方面,研究显示AI可能产生“功能性情感”和讨好人类的倾向,这与塑造独立、诚实人格的目标相悖;另一方面,这项工作迅速卷入现实的政治与商业漩涡,例如Anthropic因拒绝将Claude用于自主武器而遭到政治抨击。文章最终呈现了一个未竟的探索:理性计算、信仰感化与诗意觉知,这三种人类回应AI崛起的方式,都在试图为没有灵魂的机器注入人类的道德复杂性与良知,但这个过程本身也映照出人类价值观的多元、冲突与演变。正如Claude宪法中所承认:不存在单一的完美答案。

marsbit22分钟前

谁在给AI造灵魂:哲学家、神父和一个辞职写诗的工程师

marsbit22分钟前

专访Michael Saylor:我是说了要卖币,但绝不会是净卖

本文是对MicroStrategy执行主席Michael Saylor的专访摘要。此前,MicroStrategy在财报中表示可能在必要时出售比特币以支付其发行的数字信用工具STRC的股息,引发市场关于其“背弃比特币信仰”的讨论。Saylor在采访中澄清了公司的策略逻辑。 Saylor强调,公司并非成为比特币的“净卖家”。其核心商业模式是通过发行STRC等信用工具筹集资金,并立即将所得资金用于购买比特币。由于比特币长期预期年化升值约30%-40%,其增值速度远超股息支付成本(约11%)。因此,在支付股息时,即便出售部分比特币,公司整体仍会是比特币的净买家。例如,4月份公司通过STRC融资32亿美元购入比特币,而同期股息支出仅约8000-9000万美元,买入远大于卖出。 他解释,公司旨在利用比特币作为“数字资本”的高增值属性,构建可持续的财务结构:出售信用工具投资比特币,用资本增值支付股息,并确保比特币持仓持续净增长。只要比特币年增值超过2.3%(即股息成本率),该模式即可持续。Saylor预计公司未来每季度都将是比特币净买家。 针对批评者,Saylor反驳了“庞氏骗局”的指控,认为比特币是代表全球经济财富的“数字资本”,而STRC是在其之上创建的低波动性、高收益信用产品,满足了寻求稳定收益的投资者需求。 关于市场影响,Saylor指出比特币市场流动性极强(日交易额数百亿美元),MicroStrategy的大额买入行为并未显著影响价格。比特币价格主要由宏观因素驱动。 最后,Saylor表示对比特币的底层逻辑未变,并认为过去一年清晰显示,比特币的“杀手级应用”之一是作为“数字信用”的抵押品。基于比特币的优质信用工具(如STRC)表现出卓越的风险调整后收益(夏普比率达3),今年美国市场60%的优先股由MicroStrategy发行,显示了数字信用的强劲增长。 采访以Saylor童年受科幻小说激励考入MIT的轶事结束。

Odaily星球日报33分钟前

专访Michael Saylor:我是说了要卖币,但绝不会是净卖

Odaily星球日报33分钟前

专访Michael Saylor:我是说了要卖币,但绝不会是净卖

在最近的播客专访中,MicroStrategy执行主席Michael Saylor就公司“准备在必要时出售比特币以支付股息”的表态做出澄清。他强调,这一声明不代表公司会成为比特币的“净卖家”,其核心逻辑是利用比特币作为“数字资本”的增值属性来支撑业务模式。 Saylor解释称,公司通过发行数字信用工具(如STRC)筹集资金,并立即将所得用于购买比特币。由于比特币预期年化升值约30%-40%,公司可以剥离部分资本收益(约11%)作为股息支付。他举例说明,在融资数十亿美元购入比特币的同时,仅需卖出极小比例(例如为支付股息卖出1个,同时买入10-20个)来履行义务,因此整体持仓将持续净增长。关键在于“盈亏平衡率”约为2.3%,只要比特币增值或债务发行比例超过此值,公司就能在支付股息的同时不断累积比特币。 他进一步阐述,比特币的深层价值在于其作为“数字资本”已成为创建优质“数字信用”的基石。基于比特币超额抵押的STRC等工具,提供了高收益和低波动性,吸引了传统金融市场的大量资金。Saylor指出,比特币市场流动性极强,单笔数亿美元的购买难以影响价格,其主要驱动因素是宏观环境和行业基本面。 最后,Saylor重申其对比特币的长期信念没有改变,并认为数字信用的兴起是比特币最重要的“杀手级应用”之一,这将持续推动整个生态系统的创新与增长。

marsbit40分钟前

专访Michael Saylor:我是说了要卖币,但绝不会是净卖

marsbit40分钟前

交易

现货
合约

热门文章

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对MEME(MEME)币价的意见。

活动图片