这一次,OpenAI干掉了90%人类设计师

marsbit發佈於 2026-04-23更新於 2026-04-23

文章摘要

OpenAI发布新一代图像生成模型GPT-Image 2,标志着AI绘图从“画得像”迈入“逻辑对”的新阶段。该模型具备思维建模能力,能在生成图像前进行逻辑推理,例如准确计算里程、匹配地理信息并遵循UI规范。其图像质量在多项评测中登顶,可生成包含精准中文、复杂构图和商业级设计的图像,成本仅需几美元。 模型支持多轮对话修改,通过Responses API实现自然交互,显著提升了汉字渲染能力,几乎杜绝了以往常见的乱码问题,但仍存在小字模糊等技术局限。尽管在处理极端复杂任务时可能出现延迟,且面临深度伪造的伦理挑战,GPT-Image 2已被视为可直接投入商业应用的生产力工具,可能对90%的设计师岗位造成冲击。

文 | 硅基星芒

Sam Altman那个著名的梗,这次应验在所有人身上了。

去年宣传GPT-5的时候,这位OpenAI的CEO说了一句后来被全网玩坏的话:“那种感觉,就像看到原子弹爆炸,整个人眩晕瘫坐。”此后每逢AI圈发布新品、配上夸张文案,这个梗就被拉出来反复鞭尸。

但前天深夜,眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等OpenAI出牌的用户。

奥特曼照例故作神秘,发了一条推文:“我们准备了一些有趣的东西。”

到了凌晨三点,GPT-Image 2落地。全球AI界直接炸场。

“Images are a language, not decoration.”

这是OpenAI写在发布页上的第一句话。翻译过来就一个意思:从今天起,图像不再是装饰品,它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。

过去一整年,AI绘图还困在“画得像不像”的审美泥潭里。GPT-Image 2一出现,直接按下了切换键——AI生图正式进入“逻辑对不对”的智力考场。

这款模型的精度,用“恐怖”来形容不过分。

在Artificial Analysis的文生图和图像编辑排行榜上双双登顶,实战表现更是碾压级的。

那种感觉,就像视频生成领域Seedance 2.0降临时一样,它早就不当人类的辅助工具了,它在定义新的行业标准。

注:本文的图片全部由GPT-Image 2生成,图片内容纯属虚构。

01  思维引擎的觉醒

过去,人们评判一个图像模型好不好,第一标准是像不像真人、像不像参照物。

在GPT-Image 2这个怪物面前,这套标准过时了。彻底过时。

新模型最核心的突破点在这儿:它是一个支持思考模式的图像模型。

什么意思?用户输入提示词之后,模型不再简单去噪、拼接像素。它先在后台完成一次思维建模,再动笔。

Linux.do社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面:

图源:https://cdn3.linux.do/original/4X/0/f/3/0f37c8bc968e3d563cc6100d8e7f80ee305661ff.jpeg

这张图让不少开发者倒吸一口凉气。雷总面部特征精准还原——简直像照片——图中还赫然显示着:直播目标1313km、已跑里程425.7km、剩余里程887.3km。更绝的是,当前海拔标着3658m。

3658m是什么概念?从北京到拉萨,进入藏区的典型海拔,恰好就是这个数。

在人类眼里,这不过是简单的数学加减法和地理常识。但请你想一想:对于一个图像模型来说,数学逻辑 + 地理常识 + UI规范的三重统一,意味着什么?

结论很直接:在生成第一个像素之前,GPT-Image 2已经完成了一轮推理。它理解了“里程”的含义,理解了加减法的逻辑关系,也理解了高海拔地区的视觉特征。

这哪里是画画。这是思考。

02  从玩具到生产力

在这种能力面前,所有人对图像模型的态度,该变一变了。

它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过“可用”门槛,直接冲进“好用”区间——一个能扔进商业场景直接干活的工具。

拿海报设计来说。GPT-Image 2的构图审美、光影处理、对品牌调性的拿捏,毫无疑问达到了绝大多数普通人类设计师难以企及的高度。

图源:https://cdn3.linux.do/original/4X/7/a/1/7a12ccd6b745be5ad8828eb0ac225d218fb43cbc.jpeg

在人类社会中,聘请一位高级美工设计一张商业级海报,沟通成本、时间成本和上千元的设计报酬往往对中小企业来说是沉重的负担。

然而,有了GPT-Image 2,即使效果不满意调整几十次,成本也不过是几美元的级别。

在海报设计、营销素材、插画配图这些领域,用户在乎的根本不是“真不真”,在乎的是“好不好看、准不准”。正因如此,AI的替代效率是毁灭性的

在同步更新的开发者文档中,还隐藏着一个令人兴奋的细节:示例代码中频繁出现了model: “gpt-5.4”。

思考模式加上旗舰模型,这个组合暗示了一件事:GPT-Image 2绝非孤立产品。它是为下一代大语言模型而生的视觉终端。

通过新的Responses API,生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能,首次生图结束后,用户可以提出各种让乙方头疼的指令进行修改。

通过新的Responses API,生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能,第一版生成后,用户可以提出各种让乙方设计师血压飙升的指令:“背景再暗一点。”“Logo往旁边挪几个像素。”

这些交互式实时修改需求,恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在,迎刃而解。

03  中文渲染的巅峰

GPT-Image 2虽然是国外的模型,国内用户却一边倒地叫好。

原因只有一个:它对汉字的支持,堪称完美。

在社区的实测返图中,你能看到罗永浩和王自如的名场面辩论:

图源:https://cdn3.linux.do/original/4X/0/9/7/097ed46991d2464442aebc6b1076a292cc839fec.jpeg

能看到马斯克直播带货老干妈:

图源:https://cdn3.linux.do/original/4X/2/f/a/2fa77cf040e6337643829df4ec5ca6467d2866b2.jpeg

甚至能看到医生写的药方:

图源:https://cdn3.linux.do/original/4X/9/f/f/9ffeab83675648b43116cd0763f6c8b560611ae6.jpeg

这些图片中的文字,早已不再是歪七扭八、胡乱拼凑的“伪汉字”,而是具备书法韵味、字体层次感和排版艺术的成熟设计稿。

显然,OpenAI在训练集里灌入了海量中文语料图像,做了针对性强训

和前代模型比起来,GPT-Image 2的强大得以更加淋漓尽致地体现。

在对比测试中,前代模型1.5版本虽然能画出像菜谱的东西,但仔细一看,文字几乎全是乱码。

图源:https://cdn3.linux.do/optimized/4X/2/b/3/2b38f3c1a134515d564f07f81661c0bd9578c6b9_2_750x750.jpeg

但GPT-Image 2生成的相同菜谱,却让人看到了文字清晰度和审美已经有了里程碑式的突破。

图源:https://cdn3.linux.do/original/4X/0/2/5/02513b10135d824ccb1c22bd0c7eb441f1e34455.jpeg

对于上百个中文字符的提示词,五个步骤仍然清晰可见,图文一致性令人满意。这不仅是一张图,还是一套可复现的实操方案。

不过,这里也带出一个有趣的技术问题:图像模型真的彻底解决了乱码问题吗?

我的判断是:恐怕没有。

大语言模型生成token,靠的是语义逻辑。强化学习阶段以概率为依据,高质量语料越多,逻辑越合理。但图像模型的本质,终究是像素生成。像素之间的逻辑关系,跟文字之间的逻辑关系,根本不是一回事。

换句话说,强大如GPT-Image 2,也并没有真正“理解”文字的规律。它只是死记硬背了文字在像素层面上的长相。

一张与奥特曼谈生意的图暴露了这一点:两箱饮料包装上大大的“蒙牛”和“王老吉”写得极其完美,底下的小字却依然是模糊的色块。

图源:https://cdn3.linux.do/original/4X/d/7/c/d7c4fb063202bcbf56b9ca0623aa0ce6fc26e542.jpeg

在现有技术范式下,生成逻辑还是“按像素排布”,离“按字符渲染”差着本质的一步。极细微处的乱码,可能永远无法彻底根除。

但话说回来,对90%以上的商业应用场景而言,这已经足够了。

04  尚未封神的缺陷与边界

即便已经坐上世界第一的宝座,GPT-Image 2也有它笨拙的一面。

实测中发现,由于思考模式会调用联网搜索并进行逻辑推演,在处理极其复杂的虚构任务时,模型偶尔会陷入逻辑怪圈——思考了接近40分钟,仍然无法作答。

与此同时,API宣称的支持2K甚至4K分辨率,意味着极高的token消耗和延迟。

对于普通用户来说,如何在极致画质和响应速度之间取得平衡,是未来使用中的必修课。

在技术领域,强大的能力永远是一把双刃剑。

无论是图像模型还是视频模型,都不可避免地要面对深度伪造的伦理挑战。

目前的大部分实测案例中,AI生成的都是知名人物,但若是将他们换成各种社交媒体上发布过照片的普通人,在不认识本人的情况下已经极难分辨出真假。

除了背景中偶尔出现的乱码可能会让AI露馅,人体本身已经没有任何破绽。

因此,那些曾经必须由真人完成的领域,正在面临着前所未有的信任危机。

GPT-Image 2的发布,让生图模型从玩具走向了生产力工具。

过去人们用AI提供灵感,而如今的AI开始尝试接管从构思、计算、排版到成品的全流程。

对于设计从业者来说,这是一个充满FOMO的时代。

但对于那些善于利用工具、具备产品审美和逻辑思维的人来说,这又是一个最好的时代。

图像开始学会思考,文字不再是像素的杂音。

人们距离那个所思即所得的视觉奇点,可能真的只有一步之遥了。

相關問答

QGPT-Image 2相比之前的AI生图模型有哪些核心突破?

AGPT-Image 2的核心突破在于它支持思考模式,生成图像前会先进行逻辑推理和思维建模,而不仅仅是像素拼接。它能够理解数学逻辑、地理常识和UI规范,实现多重统一,使得生成的图像在逻辑和细节上更加精准。

QGPT-Image 2在商业设计领域的应用优势是什么?

AGPT-Image 2在商业设计领域的优势包括:能够快速生成高质量的海报、营销素材和插画配图,成本极低(几美元即可多次调整),审美和细节处理达到高级人类设计师水平,同时支持多轮对话修改,大幅减少沟通和时间成本。

QGPT-Image 2对中文的支持如何?是否还存在乱码问题?

AGPT-Image 2对中文的支持非常出色,生成的汉字清晰、具有书法韵味和排版艺术,远超前代模型。但细微处(如小字)仍可能存在模糊或乱码,因为其生成逻辑基于像素排布而非字符渲染,尚未彻底解决乱码问题。

QGPT-Image 2目前存在哪些缺陷或局限性?

AGPT-Image 2的缺陷包括:处理复杂虚构任务时可能陷入逻辑怪圈导致长时间无法响应;高分辨率(如2K或4K)生成会带来极高的token消耗和延迟;同时,它面临深度伪造的伦理挑战,可能被滥用生成难以辨别的虚假图像。

QGPT-Image 2的发布对设计行业可能产生什么影响?

AGPT-Image 2的发布可能颠覆设计行业,它能够接管从构思到成品的全流程,替代大量基础设计工作,导致90%的人类设计师面临失业风险。但对于善于利用工具、具备产品审美和逻辑思维的人,它提供了高效的生产力工具,加速创作过程。

你可能也喜歡

50倍存储后,孙宇晨永远在看下一个十年

孙宇晨以拍下巴菲特午餐、吃下天价香蕉等出位行为闻名,也面临SEC诉讼等争议,但其投资眼光常被忽略。早在2016年,他就建议年轻人投资比特币、英伟达、特斯拉等。以英伟达为例,若当时投资1万元,至2026年5月价值约240万元。 2025年底,他预言“存储是新的石油”,随后西部数据分拆的闪迪(SNDK)股价一年内大涨近50倍。当市场狂热追逐存储概念时,孙宇晨已将目光投向更具未来感的赛道:具身智能、无人机、空间计算和太空探索。 他认为,具身智能(如人形机器人)正从执行代码转向“看世界做事”,是AI在物理世界落地的关键。无人机已在军事、农业、物流等领域跑通商业闭环。空间计算(如苹果Vision Pro)旨在让AI理解物理空间,是机器人、自动驾驶等的基础。在太空领域,他本人于2025年乘坐蓝色起源飞船完成亚轨道飞行,并看好太空经济与区块链的结合。 他的投资逻辑是:押注确定性的赛道,两端布局,不赌单家公司。例如在机器人领域,既押注特斯拉(身体/制造),也押注英伟达(大脑/AI芯片);在无人机领域,看好其在军事应用中替代传统装备的趋势;在太空领域,关注即将IPO的SpaceX及其产业链。 孙宇晨将这些趋势串联起来,描绘出一幅“物理AI”改变现实世界运行方式的图景:从工厂机器人到自动驾驶,从无人机蜂群到星际探索。他认为,过去互联网改变了信息流动,而未来AI将重塑物理世界本身。

marsbit38 分鐘前

50倍存储后,孙宇晨永远在看下一个十年

marsbit38 分鐘前

史上最昂贵中期选举背后的亿万富翁们

彭博社分析指出,2026年美国中期选举已成为史上最昂贵的一选战,联邦政治委员会已募集超47亿美元,预计政治广告支出将达108亿美元。亿万富豪成为关键资金力量,其捐款不仅争夺国会控制权,也直接影响与自身利益密切相关的政策走向,如财富税、加密货币与人工智能监管等。 目前巨额资金多流向共和党阵营。顶级个人捐赠者包括:乔治·索罗斯(1.026亿美元)主要支持进步主义事业;埃隆·马斯克(8480万美元)大力支持特朗普阵营及共和党竞选委员会;Jeff Yass(8180万美元)是特朗普MAGA Inc.的最大金主之一,关注择校权等议题;OpenAI联合创始人Greg Brockman夫妇(5000万美元)支持特朗普及人工智能议题。 其他重要捐赠者有:Richard Uihlein(4530万美元)资助保守派议程;风投家Marc Andreessen(4470万美元)和Ben Horowitz(4440万美元)聚焦加密货币与人工智能政策;Miriam Adelson(4260万美元)长期支持特朗普及亲以色列政策;对冲基金大佬Paul Singer(3392万美元)转向支持特朗普对以强硬立场;建材巨头Diane Hendricks(2579万美元)亦是特朗普的坚定支持者。 匿名政治捐款的占比持续攀升。随着11月选举日临近,预计将有更多富豪加入顶级捐赠者行列。这场选举的结果将深刻影响美国未来两年的政策方向。

marsbit40 分鐘前

史上最昂贵中期选举背后的亿万富翁们

marsbit40 分鐘前

交易

現貨
合約

熱門文章

什麼是 MEME 2.0

Memecoin 2.0:$MEME 2.0 在加密貨幣世界中的崛起 引言 在不斷演變的加密貨幣環境中,一個新的競爭者出現了。Memecoin 2.0,以 $MEME 2.0 為象徵,將 meme 幣的概念提升到一個令人興奮的新水平。作為原始 Memecoin 的副產品,該項目透過將焦點從典型的金融激勵轉移到引人入勝和娛樂性的體驗,吸引了加密社區的注意。Memecoin 2.0 在以太坊區塊鏈上運行,勇敢地重新定義了加密領域中的社區參與。 什麼是 Memecoin 2.0,$MEME 2.0? Memecoin 2.0 在本質上是一個優先考慮社區精神和與 meme 文化相關的趣味的加密貨幣項目。與專注於實際用例和具體利益的傳統加密貨幣不同,Memecoin 2.0 通過擁抱數字貨幣的輕鬆一面,脫穎而出。 該項目在沒有實用性承諾、結構化路線圖或財務回報的情況下存在,而是專注於培養圍繞 meme 和共享樂趣的活躍社區。通過這樣做,它利用了在線空間中日益增長的 meme 文化趨勢,使其成為數字資產世界中的獨特參與者。 Memecoin 2.0 的創造者,$MEME 2.0 儘管對 Memecoin 2.0 的起源進行了廣泛的研究,但其創造者的具體身份仍然未知。在加密社區中,這種匿名性並不罕見,許多項目由個人或團體牽頭,這些人或團體更願意隱身於幕後。創造者缺乏公開可用信息的情況可以被視為一種戰略性舉措,將焦點放在社區參與而非個人在該領域的聲譽上。 Memecoin 2.0 的投資者,$MEME 2.0 有關 Memecoin 2.0 的投資者或財務支持的信息稀少。這一細節的缺乏可能表明該項目要麼是自籌資金,要麼其對社區而非傳統投資結構的關注吸引了不同類型的支持者。由於 meme 幣的世界通常涉及更多的基層參與而非機構投資,這一做法與社區驅動項目的精神相契合。 Memecoin 2.0,$MEME 2.0 如何運作? Memecoin 2.0 完全運行在以太坊區塊鏈上,充分利用其強大的安全性和可擴展性。通過利用以太坊的優勢,Memecoin 2.0 可以為用戶交互提供一個安全的環境,同時確保交易既高效又具成本效益。 Memecoin 2.0 的一個獨特特徵在於其社區驅動的結構。$MEME 2.0 代幣的價值和流行度來自於用戶的積極參與,而不是內在的實用性。這一設計強化了該項目對加密貨幣娛樂方面的關注,這暗示著笑聲和社區參與是推動其成功的真正貨幣。 此外,該項目符合 meme 幣更廣泛的生態系統,在這裡,每個 meme 幣的價值根據文化、趨勢和社區參與而波動,而不是基於傳統的經濟原則。 Memecoin 2.0,$MEME 2.0 的時間線 為了更好地了解 Memecoin 2.0 的演變和里程碑,以下是重點突顯其歷史中的重要事件的時間線: 2024:Memecoin 2.0 被公認為原始 Memecoin 的衍生品,致力於在繁榮的 meme 幣背景中建立自己,同時在以太坊區塊鏈上運行。 2024 年 7 月 13 日:Memecoin 2.0 正式以社區為中心的 meme 幣身份確立於以太坊網絡,強調其以娛樂為中心的方式,邀請用戶參與其成長。 關於 Memecoin 2.0,$MEME 2.0 的關鍵點 幾個關鍵特徵定義了 Memecoin 2.0: 以社區為中心的方式:Memecoin 2.0 的核心任務是創造一種有趣、引人入勝的社區體驗,充分利用來自 meme 文化的集體樂趣。 建於以太坊:在以太坊區塊鏈上運行為該項目提供了基本基礎設施,確保安全性和可擴展性。 缺乏實用性或路線圖:與傳統加密貨幣截然不同,Memecoin 2.0 並不承諾任何實用功能或財務回報,重申其對社區參與和社會互動的承諾。 聚焦於 meme 文化:通過擁抱 meme 現象的幽默和文化方面,Memecoin 2.0 為用戶提供了一個在線下和在線上參與加密貨幣的平臺。 額外背景:meme 幣的意義 meme 幣已成為一個獨特的加密貨幣類別,通常受到幽默和輕鬆交易方式的驅動。這些幣通常缺乏重大的實用性或發展路線圖,吸引用戶以有趣、社區互動和文化相關性的承諾。 在更廣泛的加密生態系統中,meme 幣重新喚起了社區參與的重要性,挑戰僅以利潤為驅動的方式。像 Memecoin 2.0 這樣的項目開創了一個娛樂與財務願望可以和諧共存的時代,將區塊鏈變成創意和社交互動的遊樂場。 結論 Memecoin 2.0,或 $MEME 2.0,體現了一場新的加密貨幣浪潮,將社區參與置於嚴格的財務結構之上。專注於幽默和社交互動,它利用了圍繞 meme 文化的魅力。通過在以太坊區塊鏈上運行,Memecoin 2.0 利用這一技術的能力,同時堅定不移地致力於數字貨幣的娛樂價值。 隨著加密貨幣周圍的空間不斷演變,Memecoin 2.0 證明了數字資產的未來很可能寄託在共享體驗、笑聲和穩固的社區聯繫上。在這個不可預測的加密世界中,也許快樂和傳統財務收益一樣有價值。

142 人學過發佈於 2024.04.04更新於 2024.12.03

什麼是 MEME 2.0

如何購買MEME

歡迎來到HTX.com!在這裡,購買Memeland (MEME)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Memeland (MEME)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Memeland (MEME)購買Memeland (MEME)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Memeland (MEME)在HTX的現貨市場輕鬆交易Memeland (MEME)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

472 人學過發佈於 2024.12.12更新於 2025.03.21

如何購買MEME

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 MEME (MEME)幣價的意見。

活动图片