这一次,OpenAI干掉了90%人类设计师

marsbit發佈於 2026-04-23更新於 2026-04-23

文章摘要

OpenAI发布新一代图像生成模型GPT-Image 2,标志着AI绘图从“画得像”迈入“逻辑对”的新阶段。该模型具备思维建模能力,能在生成图像前进行逻辑推理,例如准确计算里程、匹配地理信息并遵循UI规范。其图像质量在多项评测中登顶,可生成包含精准中文、复杂构图和商业级设计的图像,成本仅需几美元。 模型支持多轮对话修改,通过Responses API实现自然交互,显著提升了汉字渲染能力,几乎杜绝了以往常见的乱码问题,但仍存在小字模糊等技术局限。尽管在处理极端复杂任务时可能出现延迟,且面临深度伪造的伦理挑战,GPT-Image 2已被视为可直接投入商业应用的生产力工具,可能对90%的设计师岗位造成冲击。

文 | 硅基星芒

Sam Altman那个著名的梗,这次应验在所有人身上了。

去年宣传GPT-5的时候,这位OpenAI的CEO说了一句后来被全网玩坏的话:“那种感觉,就像看到原子弹爆炸,整个人眩晕瘫坐。”此后每逢AI圈发布新品、配上夸张文案,这个梗就被拉出来反复鞭尸。

但前天深夜,眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等OpenAI出牌的用户。

奥特曼照例故作神秘,发了一条推文:“我们准备了一些有趣的东西。”

到了凌晨三点,GPT-Image 2落地。全球AI界直接炸场。

“Images are a language, not decoration.”

这是OpenAI写在发布页上的第一句话。翻译过来就一个意思:从今天起,图像不再是装饰品,它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。

过去一整年,AI绘图还困在“画得像不像”的审美泥潭里。GPT-Image 2一出现,直接按下了切换键——AI生图正式进入“逻辑对不对”的智力考场。

这款模型的精度,用“恐怖”来形容不过分。

在Artificial Analysis的文生图和图像编辑排行榜上双双登顶,实战表现更是碾压级的。

那种感觉,就像视频生成领域Seedance 2.0降临时一样,它早就不当人类的辅助工具了,它在定义新的行业标准。

注:本文的图片全部由GPT-Image 2生成,图片内容纯属虚构。

01  思维引擎的觉醒

过去,人们评判一个图像模型好不好,第一标准是像不像真人、像不像参照物。

在GPT-Image 2这个怪物面前,这套标准过时了。彻底过时。

新模型最核心的突破点在这儿:它是一个支持思考模式的图像模型。

什么意思?用户输入提示词之后,模型不再简单去噪、拼接像素。它先在后台完成一次思维建模,再动笔。

Linux.do社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面:

图源:https://cdn3.linux.do/original/4X/0/f/3/0f37c8bc968e3d563cc6100d8e7f80ee305661ff.jpeg

这张图让不少开发者倒吸一口凉气。雷总面部特征精准还原——简直像照片——图中还赫然显示着:直播目标1313km、已跑里程425.7km、剩余里程887.3km。更绝的是,当前海拔标着3658m。

3658m是什么概念?从北京到拉萨,进入藏区的典型海拔,恰好就是这个数。

在人类眼里,这不过是简单的数学加减法和地理常识。但请你想一想:对于一个图像模型来说,数学逻辑 + 地理常识 + UI规范的三重统一,意味着什么?

结论很直接:在生成第一个像素之前,GPT-Image 2已经完成了一轮推理。它理解了“里程”的含义,理解了加减法的逻辑关系,也理解了高海拔地区的视觉特征。

这哪里是画画。这是思考。

02  从玩具到生产力

在这种能力面前,所有人对图像模型的态度,该变一变了。

它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过“可用”门槛,直接冲进“好用”区间——一个能扔进商业场景直接干活的工具。

拿海报设计来说。GPT-Image 2的构图审美、光影处理、对品牌调性的拿捏,毫无疑问达到了绝大多数普通人类设计师难以企及的高度。

图源:https://cdn3.linux.do/original/4X/7/a/1/7a12ccd6b745be5ad8828eb0ac225d218fb43cbc.jpeg

在人类社会中,聘请一位高级美工设计一张商业级海报,沟通成本、时间成本和上千元的设计报酬往往对中小企业来说是沉重的负担。

然而,有了GPT-Image 2,即使效果不满意调整几十次,成本也不过是几美元的级别。

在海报设计、营销素材、插画配图这些领域,用户在乎的根本不是“真不真”,在乎的是“好不好看、准不准”。正因如此,AI的替代效率是毁灭性的

在同步更新的开发者文档中,还隐藏着一个令人兴奋的细节:示例代码中频繁出现了model: “gpt-5.4”。

思考模式加上旗舰模型,这个组合暗示了一件事:GPT-Image 2绝非孤立产品。它是为下一代大语言模型而生的视觉终端。

通过新的Responses API,生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能,首次生图结束后,用户可以提出各种让乙方头疼的指令进行修改。

通过新的Responses API,生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能,第一版生成后,用户可以提出各种让乙方设计师血压飙升的指令:“背景再暗一点。”“Logo往旁边挪几个像素。”

这些交互式实时修改需求,恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在,迎刃而解。

03  中文渲染的巅峰

GPT-Image 2虽然是国外的模型,国内用户却一边倒地叫好。

原因只有一个:它对汉字的支持,堪称完美。

在社区的实测返图中,你能看到罗永浩和王自如的名场面辩论:

图源:https://cdn3.linux.do/original/4X/0/9/7/097ed46991d2464442aebc6b1076a292cc839fec.jpeg

能看到马斯克直播带货老干妈:

图源:https://cdn3.linux.do/original/4X/2/f/a/2fa77cf040e6337643829df4ec5ca6467d2866b2.jpeg

甚至能看到医生写的药方:

图源:https://cdn3.linux.do/original/4X/9/f/f/9ffeab83675648b43116cd0763f6c8b560611ae6.jpeg

这些图片中的文字,早已不再是歪七扭八、胡乱拼凑的“伪汉字”,而是具备书法韵味、字体层次感和排版艺术的成熟设计稿。

显然,OpenAI在训练集里灌入了海量中文语料图像,做了针对性强训

和前代模型比起来,GPT-Image 2的强大得以更加淋漓尽致地体现。

在对比测试中,前代模型1.5版本虽然能画出像菜谱的东西,但仔细一看,文字几乎全是乱码。

图源:https://cdn3.linux.do/optimized/4X/2/b/3/2b38f3c1a134515d564f07f81661c0bd9578c6b9_2_750x750.jpeg

但GPT-Image 2生成的相同菜谱,却让人看到了文字清晰度和审美已经有了里程碑式的突破。

图源:https://cdn3.linux.do/original/4X/0/2/5/02513b10135d824ccb1c22bd0c7eb441f1e34455.jpeg

对于上百个中文字符的提示词,五个步骤仍然清晰可见,图文一致性令人满意。这不仅是一张图,还是一套可复现的实操方案。

不过,这里也带出一个有趣的技术问题:图像模型真的彻底解决了乱码问题吗?

我的判断是:恐怕没有。

大语言模型生成token,靠的是语义逻辑。强化学习阶段以概率为依据,高质量语料越多,逻辑越合理。但图像模型的本质,终究是像素生成。像素之间的逻辑关系,跟文字之间的逻辑关系,根本不是一回事。

换句话说,强大如GPT-Image 2,也并没有真正“理解”文字的规律。它只是死记硬背了文字在像素层面上的长相。

一张与奥特曼谈生意的图暴露了这一点:两箱饮料包装上大大的“蒙牛”和“王老吉”写得极其完美,底下的小字却依然是模糊的色块。

图源:https://cdn3.linux.do/original/4X/d/7/c/d7c4fb063202bcbf56b9ca0623aa0ce6fc26e542.jpeg

在现有技术范式下,生成逻辑还是“按像素排布”,离“按字符渲染”差着本质的一步。极细微处的乱码,可能永远无法彻底根除。

但话说回来,对90%以上的商业应用场景而言,这已经足够了。

04  尚未封神的缺陷与边界

即便已经坐上世界第一的宝座,GPT-Image 2也有它笨拙的一面。

实测中发现,由于思考模式会调用联网搜索并进行逻辑推演,在处理极其复杂的虚构任务时,模型偶尔会陷入逻辑怪圈——思考了接近40分钟,仍然无法作答。

与此同时,API宣称的支持2K甚至4K分辨率,意味着极高的token消耗和延迟。

对于普通用户来说,如何在极致画质和响应速度之间取得平衡,是未来使用中的必修课。

在技术领域,强大的能力永远是一把双刃剑。

无论是图像模型还是视频模型,都不可避免地要面对深度伪造的伦理挑战。

目前的大部分实测案例中,AI生成的都是知名人物,但若是将他们换成各种社交媒体上发布过照片的普通人,在不认识本人的情况下已经极难分辨出真假。

除了背景中偶尔出现的乱码可能会让AI露馅,人体本身已经没有任何破绽。

因此,那些曾经必须由真人完成的领域,正在面临着前所未有的信任危机。

GPT-Image 2的发布,让生图模型从玩具走向了生产力工具。

过去人们用AI提供灵感,而如今的AI开始尝试接管从构思、计算、排版到成品的全流程。

对于设计从业者来说,这是一个充满FOMO的时代。

但对于那些善于利用工具、具备产品审美和逻辑思维的人来说,这又是一个最好的时代。

图像开始学会思考,文字不再是像素的杂音。

人们距离那个所思即所得的视觉奇点,可能真的只有一步之遥了。

相關問答

QGPT-Image 2相比之前的AI生图模型有哪些核心突破?

AGPT-Image 2的核心突破在于它支持思考模式,生成图像前会先进行逻辑推理和思维建模,而不仅仅是像素拼接。它能够理解数学逻辑、地理常识和UI规范,实现多重统一,使得生成的图像在逻辑和细节上更加精准。

QGPT-Image 2在商业设计领域的应用优势是什么?

AGPT-Image 2在商业设计领域的优势包括:能够快速生成高质量的海报、营销素材和插画配图,成本极低(几美元即可多次调整),审美和细节处理达到高级人类设计师水平,同时支持多轮对话修改,大幅减少沟通和时间成本。

QGPT-Image 2对中文的支持如何?是否还存在乱码问题?

AGPT-Image 2对中文的支持非常出色,生成的汉字清晰、具有书法韵味和排版艺术,远超前代模型。但细微处(如小字)仍可能存在模糊或乱码,因为其生成逻辑基于像素排布而非字符渲染,尚未彻底解决乱码问题。

QGPT-Image 2目前存在哪些缺陷或局限性?

AGPT-Image 2的缺陷包括:处理复杂虚构任务时可能陷入逻辑怪圈导致长时间无法响应;高分辨率(如2K或4K)生成会带来极高的token消耗和延迟;同时,它面临深度伪造的伦理挑战,可能被滥用生成难以辨别的虚假图像。

QGPT-Image 2的发布对设计行业可能产生什么影响?

AGPT-Image 2的发布可能颠覆设计行业,它能够接管从构思到成品的全流程,替代大量基础设计工作,导致90%的人类设计师面临失业风险。但对于善于利用工具、具备产品审美和逻辑思维的人,它提供了高效的生产力工具,加速创作过程。

你可能也喜歡

脱钩时代来临,比特币不再是加密的唯一罗盘

文章指出,加密市场正告别以比特币为单一风向标的时代,分化为“内生型”和“外生型”两大资产阵营。 内生型资产(如比特币和多数传统加密货币)的价值仍与加密市场整体行情深度绑定。而外生型资产的崛起成为新趋势,其价值主要依托自身业务的真实需求和基本面,日益独立于比特币价格波动。 例如,Hyperliquid作为混合型案例,其部分合约交易已转向非加密资产。Venice等项目则完全脱离加密市场,其商业模式更接近消费级AI服务,收入来自用户为AI推理付费。Figure公司利用区块链技术提升贷款效率,其核心价值在于金融科技业务本身。 此外,稳定币等赛道的企业收购与高增长(如BVNK、Bridge),也显示了其发展与加密牛熊周期的脱钩。 这一转变意味着行业分析逻辑的根本改变:研究外生型资产需要像分析传统企业一样,专注于用户群体、经济模型和行业护城河等基本面,而非紧盯比特币价格。文章列举了多个具备潜力的外生型赛道,包括链上金融服务、AI与加密融合、新型数字银行、支付、非金融消费产品等。 目前,投资相关企业股权仍是主要途径,代币机制仍需优化。但核心趋势已定:加密市场的驱动力正变得多元,行业研究重心将从解读比特币图表转向深耕企业基本面。未来,加密市场齐涨共跌的局面或将不再。

marsbit21 分鐘前

脱钩时代来临,比特币不再是加密的唯一罗盘

marsbit21 分鐘前

在下一周期,由于更高的增长速度,这五种加密货币可能超越比特币表现

比特币主导着市场走向,但随着其市值增长,分析师普遍认为下一周期最高的百分比涨幅将来自具有更高增长潜力的资产。尽管比特币可能稳步上涨,但一些加密货币——从成熟平台到新兴的AI基础设施项目——有望实现相对于比特币的超额回报。 以下是分析师认为在百分比涨幅上可能超越比特币的五种资产,其中Ozak AI被视为本周期增长潜力最大的黑马。 **Ozak AI ($OZ)**:这是一款处于预售阶段(价格0.014美元)的AI基础设施代币,目标是上市价格达到1美元。它正在构建一个完整的AI原生区块链生态系统,包括用于AI预测的预测代理、实时数据交付网络、共享安全层、可扩展执行层以及结构化AI数据集。其极低的起始估值意味着其具备比特币难以比拟的增长倍数潜力。 **以太坊 (ETH)**:作为主导性的智能合约平台,以太坊支撑着DeFi、资产代币化和Layer-2扩展。由于其网络活动和费用生成能力以及机构采用,分析师认为其相对上涨弹性仍优于比特币的价值存储模式。 **Solana (SOL)**:其高吞吐量、低费用和不断扩展的开发者生态,使其在流动性回归时能够迅速增长。历史上SOL在风险偏好改善时展现过大幅超越比特币的能力。 **Chainlink (LINK)**:作为领先的预言机提供商,LINK处于DeFi、代币化资产乃至AI驱动区块链应用的中心。其对整个加密经济的杠杆效应使其常在扩张周期中实现强劲的百分比涨幅。 **Avalanche (AVAX)**:其子网架构和对企业友好的设计,使其在Layer-1平台中具有独特地位。随着现实世界资产代币化和机构区块链部署的增长,AVAX有望获得不成比例的利益。 **总结**:比特币的上涨需要巨大的资金流入,而像Ozak AI这样的早期阶段资产,其估值重估速度可以非常快。随着市场周期加速,资本可能轮动到以AI为重点的早期基础设施代币中,以寻求最高的增长潜力。对于寻求平衡稳定性和指数级上行潜力的投资者而言,Ozak AI可能成为增长最快的领域。

TheNewsCrypto1 小時前

在下一周期,由于更高的增长速度,这五种加密货币可能超越比特币表现

TheNewsCrypto1 小時前

黄仁勋的「Agent工厂」里,装了什么新故事?

在COMPUTEX 2026期间,英伟达CEO黄仁勋发表了主题演讲,核心聚焦于“Agent AI”时代的到来。此次发布的关键在于,英伟达正围绕智能体生态,构建从芯片、数据中心到软件平台的全栈技术体系。 硬件层面,专为Agent工作负载设计的Vera Rubin平台已进入量产,其处理Agent任务的效率是上一代Grace Blackwell平台的10倍。该平台引入共封装光学(CPO)网络技术以降低能耗,并强化了机密计算安全能力。同时,英伟达推出了新型处理器“Vera” CPU,这是首款为AI智能体设计的CPU,与Rubin GPU通过高速NVLink互联,优化了Agent任务中的数据传递。 软件与模型方面,英伟达推出“AI工厂运营工具箱”DSX,整合了设计、仿真、建设到运营的全流程。发布了5500亿参数的混合专家模型Nemotron 3 Ultra,以及配套的NemoClaw、OpenShell等工具,旨在帮助企业构建能安全接入业务流程的“数字同事”。此外,面向物理AI的世界基础模型Cosmos 3正式发布,它能统一理解、生成和预测物理世界信息。 在物理AI领域,英伟达联合宇树发布了基于Isaac GR00T平台的人形机器人参考设计H2 Plus,旨在降低开发门槛。还开源了一套物理AI技能工具集,让智能体能直接调用标准化操作。 产品布局上,推出了“DGX Station for Windows”桌面AI超算工作站,让Agent能在企业本地Windows环境中安全运行。并与微软合作推出基于Arm架构的RTX Spark SoC,瞄准AI PC市场。 最后,英伟达升级了AI原生存储架构,在BlueField-4 STX中强化了针对Agent数据访问的安全管控能力。 总结来看,英伟达正通过Vera Rubin、DSX、Nemotron、Cosmos 3、H2 Plus等一系列产品,从算力供给、模型智能、安全管控、物理形态到部署运营,全方位构建服务于Agent的基础设施,宣告一个以智能体为核心的新计算时代已经开启。

marsbit1 小時前

黄仁勋的「Agent工厂」里,装了什么新故事?

marsbit1 小時前

交易

現貨
合約

熱門文章

什麼是 MEME 2.0

Memecoin 2.0:$MEME 2.0 在加密貨幣世界中的崛起 引言 在不斷演變的加密貨幣環境中,一個新的競爭者出現了。Memecoin 2.0,以 $MEME 2.0 為象徵,將 meme 幣的概念提升到一個令人興奮的新水平。作為原始 Memecoin 的副產品,該項目透過將焦點從典型的金融激勵轉移到引人入勝和娛樂性的體驗,吸引了加密社區的注意。Memecoin 2.0 在以太坊區塊鏈上運行,勇敢地重新定義了加密領域中的社區參與。 什麼是 Memecoin 2.0,$MEME 2.0? Memecoin 2.0 在本質上是一個優先考慮社區精神和與 meme 文化相關的趣味的加密貨幣項目。與專注於實際用例和具體利益的傳統加密貨幣不同,Memecoin 2.0 通過擁抱數字貨幣的輕鬆一面,脫穎而出。 該項目在沒有實用性承諾、結構化路線圖或財務回報的情況下存在,而是專注於培養圍繞 meme 和共享樂趣的活躍社區。通過這樣做,它利用了在線空間中日益增長的 meme 文化趨勢,使其成為數字資產世界中的獨特參與者。 Memecoin 2.0 的創造者,$MEME 2.0 儘管對 Memecoin 2.0 的起源進行了廣泛的研究,但其創造者的具體身份仍然未知。在加密社區中,這種匿名性並不罕見,許多項目由個人或團體牽頭,這些人或團體更願意隱身於幕後。創造者缺乏公開可用信息的情況可以被視為一種戰略性舉措,將焦點放在社區參與而非個人在該領域的聲譽上。 Memecoin 2.0 的投資者,$MEME 2.0 有關 Memecoin 2.0 的投資者或財務支持的信息稀少。這一細節的缺乏可能表明該項目要麼是自籌資金,要麼其對社區而非傳統投資結構的關注吸引了不同類型的支持者。由於 meme 幣的世界通常涉及更多的基層參與而非機構投資,這一做法與社區驅動項目的精神相契合。 Memecoin 2.0,$MEME 2.0 如何運作? Memecoin 2.0 完全運行在以太坊區塊鏈上,充分利用其強大的安全性和可擴展性。通過利用以太坊的優勢,Memecoin 2.0 可以為用戶交互提供一個安全的環境,同時確保交易既高效又具成本效益。 Memecoin 2.0 的一個獨特特徵在於其社區驅動的結構。$MEME 2.0 代幣的價值和流行度來自於用戶的積極參與,而不是內在的實用性。這一設計強化了該項目對加密貨幣娛樂方面的關注,這暗示著笑聲和社區參與是推動其成功的真正貨幣。 此外,該項目符合 meme 幣更廣泛的生態系統,在這裡,每個 meme 幣的價值根據文化、趨勢和社區參與而波動,而不是基於傳統的經濟原則。 Memecoin 2.0,$MEME 2.0 的時間線 為了更好地了解 Memecoin 2.0 的演變和里程碑,以下是重點突顯其歷史中的重要事件的時間線: 2024:Memecoin 2.0 被公認為原始 Memecoin 的衍生品,致力於在繁榮的 meme 幣背景中建立自己,同時在以太坊區塊鏈上運行。 2024 年 7 月 13 日:Memecoin 2.0 正式以社區為中心的 meme 幣身份確立於以太坊網絡,強調其以娛樂為中心的方式,邀請用戶參與其成長。 關於 Memecoin 2.0,$MEME 2.0 的關鍵點 幾個關鍵特徵定義了 Memecoin 2.0: 以社區為中心的方式:Memecoin 2.0 的核心任務是創造一種有趣、引人入勝的社區體驗,充分利用來自 meme 文化的集體樂趣。 建於以太坊:在以太坊區塊鏈上運行為該項目提供了基本基礎設施,確保安全性和可擴展性。 缺乏實用性或路線圖:與傳統加密貨幣截然不同,Memecoin 2.0 並不承諾任何實用功能或財務回報,重申其對社區參與和社會互動的承諾。 聚焦於 meme 文化:通過擁抱 meme 現象的幽默和文化方面,Memecoin 2.0 為用戶提供了一個在線下和在線上參與加密貨幣的平臺。 額外背景:meme 幣的意義 meme 幣已成為一個獨特的加密貨幣類別,通常受到幽默和輕鬆交易方式的驅動。這些幣通常缺乏重大的實用性或發展路線圖,吸引用戶以有趣、社區互動和文化相關性的承諾。 在更廣泛的加密生態系統中,meme 幣重新喚起了社區參與的重要性,挑戰僅以利潤為驅動的方式。像 Memecoin 2.0 這樣的項目開創了一個娛樂與財務願望可以和諧共存的時代,將區塊鏈變成創意和社交互動的遊樂場。 結論 Memecoin 2.0,或 $MEME 2.0,體現了一場新的加密貨幣浪潮,將社區參與置於嚴格的財務結構之上。專注於幽默和社交互動,它利用了圍繞 meme 文化的魅力。通過在以太坊區塊鏈上運行,Memecoin 2.0 利用這一技術的能力,同時堅定不移地致力於數字貨幣的娛樂價值。 隨著加密貨幣周圍的空間不斷演變,Memecoin 2.0 證明了數字資產的未來很可能寄託在共享體驗、笑聲和穩固的社區聯繫上。在這個不可預測的加密世界中,也許快樂和傳統財務收益一樣有價值。

142 人學過發佈於 2024.04.04更新於 2024.12.03

什麼是 MEME 2.0

如何購買MEME

歡迎來到HTX.com!在這裡,購買Memeland (MEME)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Memeland (MEME)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Memeland (MEME)購買Memeland (MEME)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Memeland (MEME)在HTX的現貨市場輕鬆交易Memeland (MEME)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

567 人學過發佈於 2024.12.12更新於 2026.06.01

如何購買MEME

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 MEME (MEME)幣價的意見。

活动图片