这一次，OpenAI干掉了90%人类设计师

marsbit发布于2026-04-23更新于2026-04-23

文章摘要

OpenAI发布新一代图像生成模型GPT-Image 2，标志着AI绘图从“画得像”迈入“逻辑对”的新阶段。该模型具备思维建模能力，能在生成图像前进行逻辑推理，例如准确计算里程、匹配地理信息并遵循UI规范。其图像质量在多项评测中登顶，可生成包含精准中文、复杂构图和商业级设计的图像，成本仅需几美元。模型支持多轮对话修改，通过Responses API实现自然交互，显著提升了汉字渲染能力，几乎杜绝了以往常见的乱码问题，但仍存在小字模糊等技术局限。尽管在处理极端复杂任务时可能出现延迟，且面临深度伪造的伦理挑战，GPT-Image 2已被视为可直接投入商业应用的生产力工具，可能对90%的设计师岗位造成冲击。

文 | 硅基星芒

Sam Altman那个著名的梗，这次应验在所有人身上了。

去年宣传GPT-5的时候，这位OpenAI的CEO说了一句后来被全网玩坏的话：“那种感觉，就像看到原子弹爆炸，整个人眩晕瘫坐。”此后每逢AI圈发布新品、配上夸张文案，这个梗就被拉出来反复鞭尸。

但前天深夜，眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等OpenAI出牌的用户。

奥特曼照例故作神秘，发了一条推文：“我们准备了一些有趣的东西。”

到了凌晨三点，GPT-Image 2落地。全球AI界直接炸场。

“Images are a language, not decoration.”

这是OpenAI写在发布页上的第一句话。翻译过来就一个意思：从今天起，图像不再是装饰品，它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。

过去一整年，AI绘图还困在“画得像不像”的审美泥潭里。GPT-Image 2一出现，直接按下了切换键——AI生图正式进入“逻辑对不对”的智力考场。

这款模型的精度，用“恐怖”来形容不过分。

在Artificial Analysis的文生图和图像编辑排行榜上双双登顶，实战表现更是碾压级的。

那种感觉，就像视频生成领域Seedance 2.0降临时一样，它早就不当人类的辅助工具了，它在定义新的行业标准。

注：本文的图片全部由GPT-Image 2生成，图片内容纯属虚构。

01 思维引擎的觉醒

过去，人们评判一个图像模型好不好，第一标准是像不像真人、像不像参照物。

在GPT-Image 2这个怪物面前，这套标准过时了。彻底过时。

新模型最核心的突破点在这儿：它是一个支持思考模式的图像模型。

什么意思？用户输入提示词之后，模型不再简单去噪、拼接像素。它先在后台完成一次思维建模，再动笔。

Linux.do社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面：

图源：https://cdn3.linux.do/original/4X/0/f/3/0f37c8bc968e3d563cc6100d8e7f80ee305661ff.jpeg

这张图让不少开发者倒吸一口凉气。雷总面部特征精准还原——简直像照片——图中还赫然显示着：直播目标1313km、已跑里程425.7km、剩余里程887.3km。更绝的是，当前海拔标着3658m。

3658m是什么概念？从北京到拉萨，进入藏区的典型海拔，恰好就是这个数。

在人类眼里，这不过是简单的数学加减法和地理常识。但请你想一想：对于一个图像模型来说，数学逻辑 + 地理常识 + UI规范的三重统一，意味着什么？

结论很直接：在生成第一个像素之前，GPT-Image 2已经完成了一轮推理。它理解了“里程”的含义，理解了加减法的逻辑关系，也理解了高海拔地区的视觉特征。

这哪里是画画。这是思考。

02 从玩具到生产力

在这种能力面前，所有人对图像模型的态度，该变一变了。

它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过“可用”门槛，直接冲进“好用”区间——一个能扔进商业场景直接干活的工具。

拿海报设计来说。GPT-Image 2的构图审美、光影处理、对品牌调性的拿捏，毫无疑问达到了绝大多数普通人类设计师难以企及的高度。

图源：https://cdn3.linux.do/original/4X/7/a/1/7a12ccd6b745be5ad8828eb0ac225d218fb43cbc.jpeg

在人类社会中，聘请一位高级美工设计一张商业级海报，沟通成本、时间成本和上千元的设计报酬往往对中小企业来说是沉重的负担。

然而，有了GPT-Image 2，即使效果不满意调整几十次，成本也不过是几美元的级别。

在海报设计、营销素材、插画配图这些领域，用户在乎的根本不是“真不真”，在乎的是“好不好看、准不准”。正因如此，AI的替代效率是毁灭性的。

在同步更新的开发者文档中，还隐藏着一个令人兴奋的细节：示例代码中频繁出现了model: “gpt-5.4”。

思考模式加上旗舰模型，这个组合暗示了一件事：GPT-Image 2绝非孤立产品。它是为下一代大语言模型而生的视觉终端。

通过新的Responses API，生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能，首次生图结束后，用户可以提出各种让乙方头疼的指令进行修改。

通过新的Responses API，生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能，第一版生成后，用户可以提出各种让乙方设计师血压飙升的指令：“背景再暗一点。”“Logo往旁边挪几个像素。”

这些交互式实时修改需求，恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在，迎刃而解。

03 中文渲染的巅峰

GPT-Image 2虽然是国外的模型，国内用户却一边倒地叫好。

原因只有一个：它对汉字的支持，堪称完美。

在社区的实测返图中，你能看到罗永浩和王自如的名场面辩论：

图源：https://cdn3.linux.do/original/4X/0/9/7/097ed46991d2464442aebc6b1076a292cc839fec.jpeg

能看到马斯克直播带货老干妈：

图源：https://cdn3.linux.do/original/4X/2/f/a/2fa77cf040e6337643829df4ec5ca6467d2866b2.jpeg

甚至能看到医生写的药方：

图源：https://cdn3.linux.do/original/4X/9/f/f/9ffeab83675648b43116cd0763f6c8b560611ae6.jpeg

这些图片中的文字，早已不再是歪七扭八、胡乱拼凑的“伪汉字”，而是具备书法韵味、字体层次感和排版艺术的成熟设计稿。

显然，OpenAI在训练集里灌入了海量中文语料图像，做了针对性强训。

和前代模型比起来，GPT-Image 2的强大得以更加淋漓尽致地体现。

在对比测试中，前代模型1.5版本虽然能画出像菜谱的东西，但仔细一看，文字几乎全是乱码。

图源：https://cdn3.linux.do/optimized/4X/2/b/3/2b38f3c1a134515d564f07f81661c0bd9578c6b9_2_750x750.jpeg

但GPT-Image 2生成的相同菜谱，却让人看到了文字清晰度和审美已经有了里程碑式的突破。

图源：https://cdn3.linux.do/original/4X/0/2/5/02513b10135d824ccb1c22bd0c7eb441f1e34455.jpeg

对于上百个中文字符的提示词，五个步骤仍然清晰可见，图文一致性令人满意。这不仅是一张图，还是一套可复现的实操方案。

不过，这里也带出一个有趣的技术问题：图像模型真的彻底解决了乱码问题吗？

我的判断是：恐怕没有。

大语言模型生成token，靠的是语义逻辑。强化学习阶段以概率为依据，高质量语料越多，逻辑越合理。但图像模型的本质，终究是像素生成。像素之间的逻辑关系，跟文字之间的逻辑关系，根本不是一回事。

换句话说，强大如GPT-Image 2，也并没有真正“理解”文字的规律。它只是死记硬背了文字在像素层面上的长相。

一张与奥特曼谈生意的图暴露了这一点：两箱饮料包装上大大的“蒙牛”和“王老吉”写得极其完美，底下的小字却依然是模糊的色块。

图源：https://cdn3.linux.do/original/4X/d/7/c/d7c4fb063202bcbf56b9ca0623aa0ce6fc26e542.jpeg

在现有技术范式下，生成逻辑还是“按像素排布”，离“按字符渲染”差着本质的一步。极细微处的乱码，可能永远无法彻底根除。

但话说回来，对90%以上的商业应用场景而言，这已经足够了。

04 尚未封神的缺陷与边界

即便已经坐上世界第一的宝座，GPT-Image 2也有它笨拙的一面。

实测中发现，由于思考模式会调用联网搜索并进行逻辑推演，在处理极其复杂的虚构任务时，模型偶尔会陷入逻辑怪圈——思考了接近40分钟，仍然无法作答。

与此同时，API宣称的支持2K甚至4K分辨率，意味着极高的token消耗和延迟。

对于普通用户来说，如何在极致画质和响应速度之间取得平衡，是未来使用中的必修课。

在技术领域，强大的能力永远是一把双刃剑。

无论是图像模型还是视频模型，都不可避免地要面对深度伪造的伦理挑战。

目前的大部分实测案例中，AI生成的都是知名人物，但若是将他们换成各种社交媒体上发布过照片的普通人，在不认识本人的情况下已经极难分辨出真假。

除了背景中偶尔出现的乱码可能会让AI露馅，人体本身已经没有任何破绽。

因此，那些曾经必须由真人完成的领域，正在面临着前所未有的信任危机。

GPT-Image 2的发布，让生图模型从玩具走向了生产力工具。

过去人们用AI提供灵感，而如今的AI开始尝试接管从构思、计算、排版到成品的全流程。

对于设计从业者来说，这是一个充满FOMO的时代。

但对于那些善于利用工具、具备产品审美和逻辑思维的人来说，这又是一个最好的时代。

图像开始学会思考，文字不再是像素的杂音。

人们距离那个所思即所得的视觉奇点，可能真的只有一步之遥了。

你可能也喜欢

Upbit在内部钱包转账中重新平衡8640亿枚SHIB

韩国交易所Upbit在内部钱包地址之间重组了8640亿枚SHIB，尽管链上转移规模巨大且发生在SHIB价格上涨36%之后，但这实质上是一次正常的钱包余额整理，而非交易所抛售。具体涉及从热钱包转出3840亿SHIB至相关平台地址，以及从SHIB钱包转回480亿SHIB至同一热钱包，总价值约400万美元。文章强调，由于交易所经常出于流动性管理和安全目的在热钱包与冷钱包之间进行资产调配，此类内部转移不应被误读为市场卖出压力。此次转移之所以引发关注，主要源于SHIB近期大涨后市场对大型钱包动作的敏感性。核心观点在于，解读链上数据时必须结合钱包标签和具体背景，避免将常规操作误解为“巨鲸抛售”等市场信号。

bitcoinist8分钟前

bitcoinist8分钟前

生成模型也能端到端训练了？核心竟是一个for循环

长期以来，深度学习在图像分类、检测等任务上凭借端到端训练取得了巨大成功，但生成模型领域却始终是个例外。当前主流的自回归、扩散模型等训练时只学习预测“一小步”，推理时则需要反复展开数百上千步，这种训练与推理的不一致导致了“暴露偏差”等问题，使得生成模型一直未能实现真正的端到端训练。最近，一篇来自UIUC与哈佛大学的论文提出了“探索式建模（Explorative Modeling，XM）”新范式，其核心是一个简单到近乎朴素的for循环：在每个训练步骤中，模型生成K个候选样本，然后仅选取其中最接近真实数据的一个样本来计算损失和回传梯度。这种做法巧妙地绕开了传统生成模型中因使用重构损失（如平方误差）而导致的“模态模糊”问题——即模型倾向于输出多个可能答案的平均值，而这个平均值往往不属于任何真实的数据模式。 XM通过这种方式，在不拆分生成过程的前提下，直接提升了模型的“生成表达力”，即模型捕捉数据分布中多个独立模式的能力。论文将“探索”验证为继模型参数量、数据量之后的第三根可扩展轴。实验表明，随着模型规模、数据量和计算量的增大，探索带来的性能收益越发显著，在图像、视频、语言等多种任务上均能带来效率与质量的提升。更重要的是，当探索程度足够时，XM可以实现真正的端到端生成。在机器人控制等任务中，仅需一次网络前向传播的XM策略，其性能可媲美甚至超过需要上百次前向的扩散模型策略，实现了推理效率的飞跃。尽管“最佳K样本选择”的思想并非全新，但该研究的贡献在于清晰地揭示了这一简单机制如何直接解决生成模型的核心瓶颈，并为实现高效、端到端的生成模型开辟了新的可能性。随着模型规模的持续扩大，探索这一新维度可能将发挥越来越关键的作用。

marsbit8分钟前

marsbit8分钟前

每人最多20篇？ICLR新规遭DeepMind研究者「反讽」请愿

ICLR 2027 会议近日公布新规，规定每名作者最多只能提交20篇论文，超出限额的论文若未调整将被随机拒稿。此举旨在应对投稿量激增给评审系统带来的压力。ICLR 2026 投稿量较前一年增长约68%，达到19525篇，导致评审工作量巨大。新规引发了讨论。Google DeepMind 访问研究员 Dan Roy 在社交平台发起讽刺性“请愿”，反对此限制。他表面上称限制会阻碍 AI 发展，并主张应鼓励 AI Agent 大量生成渐进式论文，同时暗指评审工作也已由大语言模型处理，以此揶揄当前 AI 对学术环境的影响。此前，有分析显示 ICLR 2026 约21%的评审意见被怀疑完全由 AI 生成，引发了学术界对评审质量和 AI 滥用的担忧。Dan Roy 的讽刺性请愿实则抛出一个深层问题：当论文生产、投稿和评审都可能大量依赖 AI 时，单纯限制投稿数量或许并非根本解决之道。

marsbit13分钟前

marsbit13分钟前

Coldcard漏洞致8900万美元被盗，引爆FTX后最大链上迁移潮

Coldcard钱包漏洞导致约8900万美元比特币被盗，引发自FTX破产后最大规模的链上资金迁移。漏洞源于特定固件版本生成助记词随机性不足，导致4585个地址遭入侵，1367枚比特币被盗。为避险，用户大规模转移资产，导致链上小额交易、活跃地址数及交易所存款激增，干扰了市场指标并加剧看跌情绪。追赃工作中，美国AI模型的安全限制阻碍调查，团队被迫使用中国开源模型进行分析，凸显了防御方在利用AI工具时面临的合规与效率矛盾。此次事件暴露了冷钱包的安全隐患及AI在网络攻防中的不对称挑战。

marsbit58分钟前

marsbit58分钟前

年薪百万抢电工，Meta急到自己办技校

AI竞赛正面临新的瓶颈：工地。美国正面临严重的电工、建筑工等技术工人短缺，这已成为微软、Meta、OpenAI等公司快速建设超大规模AI数据中心（如OpenAI耗资160亿美元的“星际之门”项目）的“头号障碍”。尽管AI公司愿支付高薪（如电工年薪可达24-28万美元），远超传统行业，但熟练技工仍供不应求。麦肯锡预测，美国在2023-2030年间需额外培养13万名电工和24万名建筑工，而劳工统计局预计每年仍有8万个电工岗位空缺。这种短缺导致项目延迟，每月可能造成数百万美元的收入损失。 AI数据中心建设复杂，需应对巨大功耗（一座设施耗电堪比数十万户家庭）、复杂的配电系统以及高密度散热（需液冷技术）等挑战，因此亟需大量技术娴熟的工人。为此，科技巨头开始亲自下场培养人才。例如，Meta投入1.15亿美元建立建筑工人培训学校，提供免费培训及生活补贴，以快速输送工人上岗。OpenAI则与建筑工会合作，提前锁定熟练劳动力。同时，企业也将招聘目光投向高中生，鼓励年轻人投身技工行业。这些举措已见成效，Z世代对技工职业的兴趣显著上升。然而，更深层的挑战在于电力。AI数据中心用电量正以惊人速度增长，已推高部分地区的电价。此外，数据中心建设是项目制的，建设期需要成千上万的工人，但建成后仅需少量常驻人员。这意味着未来可能面临熟练工人短期过剩、并流向其他行业压低薪资的风险。如何实现劳动力与电力资源的长期平衡，仍是悬而未决的问题。

marsbit1小时前

marsbit1小时前

交易

现货

这一次，OpenAI干掉了90%人类设计师

文章摘要

01 思维引擎的觉醒

02 从玩具到生产力

03 中文渲染的巅峰

04 尚未封神的缺陷与边界

热门币种推荐

相关问答

你可能也喜欢

Upbit在内部钱包转账中重新平衡8640亿枚SHIB

生成模型也能端到端训练了？核心竟是一个for循环

每人最多20篇？ICLR新规遭DeepMind研究者「反讽」请愿

Coldcard漏洞致8900万美元被盗，引爆FTX后最大链上迁移潮

年薪百万抢电工，Meta急到自己办技校

交易

热门文章

热币学习周：DOGE迎12周年庆，MEME热潮再起

热币学习周5：MEME板块近期再热，Onchain Cloud主网或成FIL转折点

热币学习周12：4月25日 Mar-a-Lago 加密峰会引关注，MEME热潮再起

相关讨论

热门问答

热门分类

热门标签