这一次，OpenAI干掉了90%人类设计师

marsbit发布于2026-04-23更新于2026-04-23

文章摘要

OpenAI发布新一代图像生成模型GPT-Image 2，标志着AI绘图从“画得像”迈入“逻辑对”的新阶段。该模型具备思维建模能力，能在生成图像前进行逻辑推理，例如准确计算里程、匹配地理信息并遵循UI规范。其图像质量在多项评测中登顶，可生成包含精准中文、复杂构图和商业级设计的图像，成本仅需几美元。模型支持多轮对话修改，通过Responses API实现自然交互，显著提升了汉字渲染能力，几乎杜绝了以往常见的乱码问题，但仍存在小字模糊等技术局限。尽管在处理极端复杂任务时可能出现延迟，且面临深度伪造的伦理挑战，GPT-Image 2已被视为可直接投入商业应用的生产力工具，可能对90%的设计师岗位造成冲击。

文 | 硅基星芒

Sam Altman那个著名的梗，这次应验在所有人身上了。

去年宣传GPT-5的时候，这位OpenAI的CEO说了一句后来被全网玩坏的话：“那种感觉，就像看到原子弹爆炸，整个人眩晕瘫坐。”此后每逢AI圈发布新品、配上夸张文案，这个梗就被拉出来反复鞭尸。

但前天深夜，眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等OpenAI出牌的用户。

奥特曼照例故作神秘，发了一条推文：“我们准备了一些有趣的东西。”

到了凌晨三点，GPT-Image 2落地。全球AI界直接炸场。

“Images are a language, not decoration.”

这是OpenAI写在发布页上的第一句话。翻译过来就一个意思：从今天起，图像不再是装饰品，它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。

过去一整年，AI绘图还困在“画得像不像”的审美泥潭里。GPT-Image 2一出现，直接按下了切换键——AI生图正式进入“逻辑对不对”的智力考场。

这款模型的精度，用“恐怖”来形容不过分。

在Artificial Analysis的文生图和图像编辑排行榜上双双登顶，实战表现更是碾压级的。

那种感觉，就像视频生成领域Seedance 2.0降临时一样，它早就不当人类的辅助工具了，它在定义新的行业标准。

注：本文的图片全部由GPT-Image 2生成，图片内容纯属虚构。

01 思维引擎的觉醒

过去，人们评判一个图像模型好不好，第一标准是像不像真人、像不像参照物。

在GPT-Image 2这个怪物面前，这套标准过时了。彻底过时。

新模型最核心的突破点在这儿：它是一个支持思考模式的图像模型。

什么意思？用户输入提示词之后，模型不再简单去噪、拼接像素。它先在后台完成一次思维建模，再动笔。

Linux.do社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面：

图源：https://cdn3.linux.do/original/4X/0/f/3/0f37c8bc968e3d563cc6100d8e7f80ee305661ff.jpeg

这张图让不少开发者倒吸一口凉气。雷总面部特征精准还原——简直像照片——图中还赫然显示着：直播目标1313km、已跑里程425.7km、剩余里程887.3km。更绝的是，当前海拔标着3658m。

3658m是什么概念？从北京到拉萨，进入藏区的典型海拔，恰好就是这个数。

在人类眼里，这不过是简单的数学加减法和地理常识。但请你想一想：对于一个图像模型来说，数学逻辑 + 地理常识 + UI规范的三重统一，意味着什么？

结论很直接：在生成第一个像素之前，GPT-Image 2已经完成了一轮推理。它理解了“里程”的含义，理解了加减法的逻辑关系，也理解了高海拔地区的视觉特征。

这哪里是画画。这是思考。

02 从玩具到生产力

在这种能力面前，所有人对图像模型的态度，该变一变了。

它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过“可用”门槛，直接冲进“好用”区间——一个能扔进商业场景直接干活的工具。

拿海报设计来说。GPT-Image 2的构图审美、光影处理、对品牌调性的拿捏，毫无疑问达到了绝大多数普通人类设计师难以企及的高度。

图源：https://cdn3.linux.do/original/4X/7/a/1/7a12ccd6b745be5ad8828eb0ac225d218fb43cbc.jpeg

在人类社会中，聘请一位高级美工设计一张商业级海报，沟通成本、时间成本和上千元的设计报酬往往对中小企业来说是沉重的负担。

然而，有了GPT-Image 2，即使效果不满意调整几十次，成本也不过是几美元的级别。

在海报设计、营销素材、插画配图这些领域，用户在乎的根本不是“真不真”，在乎的是“好不好看、准不准”。正因如此，AI的替代效率是毁灭性的。

在同步更新的开发者文档中，还隐藏着一个令人兴奋的细节：示例代码中频繁出现了model: “gpt-5.4”。

思考模式加上旗舰模型，这个组合暗示了一件事：GPT-Image 2绝非孤立产品。它是为下一代大语言模型而生的视觉终端。

通过新的Responses API，生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能，首次生图结束后，用户可以提出各种让乙方头疼的指令进行修改。

通过新的Responses API，生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能，第一版生成后，用户可以提出各种让乙方设计师血压飙升的指令：“背景再暗一点。”“Logo往旁边挪几个像素。”

这些交互式实时修改需求，恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在，迎刃而解。

03 中文渲染的巅峰

GPT-Image 2虽然是国外的模型，国内用户却一边倒地叫好。

原因只有一个：它对汉字的支持，堪称完美。

在社区的实测返图中，你能看到罗永浩和王自如的名场面辩论：

图源：https://cdn3.linux.do/original/4X/0/9/7/097ed46991d2464442aebc6b1076a292cc839fec.jpeg

能看到马斯克直播带货老干妈：

图源：https://cdn3.linux.do/original/4X/2/f/a/2fa77cf040e6337643829df4ec5ca6467d2866b2.jpeg

甚至能看到医生写的药方：

图源：https://cdn3.linux.do/original/4X/9/f/f/9ffeab83675648b43116cd0763f6c8b560611ae6.jpeg

这些图片中的文字，早已不再是歪七扭八、胡乱拼凑的“伪汉字”，而是具备书法韵味、字体层次感和排版艺术的成熟设计稿。

显然，OpenAI在训练集里灌入了海量中文语料图像，做了针对性强训。

和前代模型比起来，GPT-Image 2的强大得以更加淋漓尽致地体现。

在对比测试中，前代模型1.5版本虽然能画出像菜谱的东西，但仔细一看，文字几乎全是乱码。

图源：https://cdn3.linux.do/optimized/4X/2/b/3/2b38f3c1a134515d564f07f81661c0bd9578c6b9_2_750x750.jpeg

但GPT-Image 2生成的相同菜谱，却让人看到了文字清晰度和审美已经有了里程碑式的突破。

图源：https://cdn3.linux.do/original/4X/0/2/5/02513b10135d824ccb1c22bd0c7eb441f1e34455.jpeg

对于上百个中文字符的提示词，五个步骤仍然清晰可见，图文一致性令人满意。这不仅是一张图，还是一套可复现的实操方案。

不过，这里也带出一个有趣的技术问题：图像模型真的彻底解决了乱码问题吗？

我的判断是：恐怕没有。

大语言模型生成token，靠的是语义逻辑。强化学习阶段以概率为依据，高质量语料越多，逻辑越合理。但图像模型的本质，终究是像素生成。像素之间的逻辑关系，跟文字之间的逻辑关系，根本不是一回事。

换句话说，强大如GPT-Image 2，也并没有真正“理解”文字的规律。它只是死记硬背了文字在像素层面上的长相。

一张与奥特曼谈生意的图暴露了这一点：两箱饮料包装上大大的“蒙牛”和“王老吉”写得极其完美，底下的小字却依然是模糊的色块。

图源：https://cdn3.linux.do/original/4X/d/7/c/d7c4fb063202bcbf56b9ca0623aa0ce6fc26e542.jpeg

在现有技术范式下，生成逻辑还是“按像素排布”，离“按字符渲染”差着本质的一步。极细微处的乱码，可能永远无法彻底根除。

但话说回来，对90%以上的商业应用场景而言，这已经足够了。

04 尚未封神的缺陷与边界

即便已经坐上世界第一的宝座，GPT-Image 2也有它笨拙的一面。

实测中发现，由于思考模式会调用联网搜索并进行逻辑推演，在处理极其复杂的虚构任务时，模型偶尔会陷入逻辑怪圈——思考了接近40分钟，仍然无法作答。

与此同时，API宣称的支持2K甚至4K分辨率，意味着极高的token消耗和延迟。

对于普通用户来说，如何在极致画质和响应速度之间取得平衡，是未来使用中的必修课。

在技术领域，强大的能力永远是一把双刃剑。

无论是图像模型还是视频模型，都不可避免地要面对深度伪造的伦理挑战。

目前的大部分实测案例中，AI生成的都是知名人物，但若是将他们换成各种社交媒体上发布过照片的普通人，在不认识本人的情况下已经极难分辨出真假。

除了背景中偶尔出现的乱码可能会让AI露馅，人体本身已经没有任何破绽。

因此，那些曾经必须由真人完成的领域，正在面临着前所未有的信任危机。

GPT-Image 2的发布，让生图模型从玩具走向了生产力工具。

过去人们用AI提供灵感，而如今的AI开始尝试接管从构思、计算、排版到成品的全流程。

对于设计从业者来说，这是一个充满FOMO的时代。

但对于那些善于利用工具、具备产品审美和逻辑思维的人来说，这又是一个最好的时代。

图像开始学会思考，文字不再是像素的杂音。

人们距离那个所思即所得的视觉奇点，可能真的只有一步之遥了。

你可能也喜欢

福建晋江，一家存储超级独角兽静悄悄

近日，随着长鑫科技A股上市成为股王，同为国内三大存储芯片项目之一的福建晋华集成电路有限公司（晋华）重新进入公众视野。这家位于福建晋江的DRAM企业，自2016年成立起便肩负打破海外垄断的使命，却因2018年被美国列入实体清单并遭遇司法指控而陷入长达数年的沉寂。2024年2月，美国法院裁定其无罪，晋华才得以摆脱法律阴影。晋华的曲折发展与灵魂人物陈正坤密不可分。这位拥有美光与联电背景的工程师，怀揣自主开发DRAM的梦想加入晋华。公司初期通过与联电合作快速推进，但随后美光发起诉讼，指控技术窃密，导致晋华产线因设备禁运而停摆。在极端困难下，陈正坤带领团队改造国产设备、重构工艺，艰难维持运营。尽管最终赢得清白，但发展进度已被严重拖慢。目前，晋华专注于利基型DRAM市场，月产能约4万片，拥有千余项专利，但仍在美国实体清单限制之下。晋江这座以鞋服闻名的民营经济强市，为引入晋华这一“硬科技”项目投入巨资，并以政府基金、全链条配套和持续的政策支持，助力企业在制裁中生存下来。如今，以晋华为龙头，晋江已形成超千亿规模的集成电路产业集群。在全球AI驱动存储繁荣的周期中，晋华虽规模尚小，但其在封锁中重建的经历，已成为中国存储产业自主攻坚的缩影。

marsbit41分钟前

marsbit41分钟前

38GW电力缺口下，比特币矿场为何突然成了AI算力的新入口？

当AI数据中心竞争的核心转向电力资源时，曾经高度依赖电力的比特币矿场正凭借其现成的电网接入、土地和电力设施，转型为AI算力基础设施供应商。摩根士丹利预测，美国2026-2028年数据中心电力缺口可能高达38GW，而改造旧矿场有望贡献10-19GW的容量。一批北美上市矿企，如TeraWulf、Hut 8等，正从“挖矿”转向成为“带电机房壳体提供商”。它们不再只是出售算力，而是向云厂商和AI公司提供已具备电力、土地和基础建筑的场地，帮助客户更快地部署大规模算力。这一转型的关键在于，获取新的电网接入许可可能需要等待5-7年，而现成矿场所拥有的已获批电力容量变得极其稀缺。因此，旧矿场的核心价值正从生产比特币，转变为提供通往AI算力的“电力入口”，其资产价值面临重估。

华尔街日报41分钟前

华尔街日报41分钟前

迈克尔·塞勒："我们从未说过永远不会出售比特币"

微策略公司主席迈克尔·塞勒表示，公司从未承诺永不卖出其持有的比特币，但预计在长期内仍将保持比特币的净买家身份。此番言论是针对有报道称微策略新获准出售最多价值50亿美元比特币的回应。塞勒澄清，该出售许可并非新消息，而是公司早在6月29日就已公布的资本管理体系的一部分。他指出，相关许可是为了特定目的而设，但并未强制公司必须出售比特币。他强调，公司没有宣布任何新的许可，且预期未来将继续净买入比特币。塞勒还说明，公司的比特币货币化计划并不要求出售比特币资产，并重申公司从未正式采纳“永不卖出比特币”的政策。

cryptonews.ru1小时前

cryptonews.ru1小时前

《夏季拉锯战》仍在继续：突破67000美元将是比特币上涨的起点

比特币价格在8月1日跌至62,217美元，延续了自6月5日开始的盘整格局。目前比特币被困在58,000至67,000美元的区间内，市场参与者对下一步走向存在分歧。技术分析显示关键价位在60,000美元和67,000美元。交易员Crypto Candy认为，只要价格低于66,000美元，就可能跌向60,000美元或更低。投资者Jelle则将当前市场比作“夏季拉锯战”，坚持定期买入的平均成本策略。上行突破的关键在于能否站稳67,000美元以上。交易员Daan Crypto Trades认为，若无法突破此位，市场可能继续盘整。交易员Roman则预测，若伴随足够交易量有效突破67,000美元，价格可能快速上涨至70,000-80,000美元区间。宏观分析师Gert van Lagen从更长周期观察，认为比特币正在测试一个持续七年之久的“杯柄形态”的颈线位，市场恐惧情绪在盘整中逐渐消退。他强调，长期持有者仍未出现投降迹象，NUPL指标显示他们远未进入抛售区域。总而言之，市场共识是比特币正处于积累阶段，60,000美元和67,000美元是关键水平，对任一水平的突破都将决定资产的下一个方向。当前围绕67,000美元的博弈，也反映出短期持有者盈亏平衡点附近的心理压力。近期价格在利好新闻后迅速回落，表明市场叙事尚未转化为持续的资本流入，能否构建更稳固的上涨基础仍有待观察。

cryptonews.ru2小时前

cryptonews.ru2小时前

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

本周（8月3日至8月9日）有多项重要事件值得关注。其中，美国参议院或将对CLARITY法案进行全院表决，该法案旨在为加密行业建立联邦监管框架，谈判需在8月7日前争取足够票数支持。SpaceX和Circle将分别于8月4日和5日公布第二季度财报。SpaceX在发布财报后，其股票将于8月6日迎来首次大规模解锁，比例最高可达总股本的12%。美国7月非农就业报告也将于8月7日公布，市场预期将有所改善。其他事件方面，特朗普家族关联矿企American Bitcoin将于8月3日发布财报；DeFi追踪器Zapper和钱包Ctrl Wallet将于同日停止运营；LayerZero将弃用v1中继器；韩国交易所Upbit将下架AQT和AERGO代币。比特币矿企Hut 8也将于8月4日公布业绩。此外，马斯克宣布Grok 4.6预计于8月7日左右发布，BIP-110强制信号发送将于8月8日前后开始。

marsbit2小时前

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

marsbit2小时前

交易

现货

这一次，OpenAI干掉了90%人类设计师

文章摘要

01 思维引擎的觉醒

02 从玩具到生产力

03 中文渲染的巅峰

04 尚未封神的缺陷与边界

热门币种推荐

相关问答

你可能也喜欢

福建晋江，一家存储超级独角兽静悄悄

38GW电力缺口下，比特币矿场为何突然成了AI算力的新入口？

迈克尔·塞勒："我们从未说过永远不会出售比特币"

《夏季拉锯战》仍在继续：突破67000美元将是比特币上涨的起点

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

交易

热门文章

热币学习周：DOGE迎12周年庆，MEME热潮再起

热币学习周5：MEME板块近期再热，Onchain Cloud主网或成FIL转折点

热币学习周12：4月25日 Mar-a-Lago 加密峰会引关注，MEME热潮再起

相关讨论

热门问答

热门分类

热门标签