奥特曼「红色警戒」5个月后,GPT Image 2屠榜,断层领先反杀谷歌

marsbitXuất bản vào 2026-04-27Cập nhật gần nhất vào 2026-04-27

【导读】被Google按了半年头,OpenAI终于祭出一记反杀。GPT Image 2上线12小时,就登顶Arena文生图榜,领先Nano Banana 2达241分。Arena官方称,这是Image Arena文生图排行榜迄今最大的分差。

发布当天,三榜通杀。

GPT Image 2上线12小时,Text-to-Image(文生图)、Single-Image Edit(单图编辑)、Multi-Image Edit(多图编辑)三个分榜全部登顶。

Arena官方原话:「a clean sweep」(全胜)。

文生图主榜,GPT Image 2 1512分,Nano Banana 2 1271分。241分差距,Arena史上最大。

「没有任何模型曾以这种差距统治过Image Arena」,Arena官方表示。

在Image Arena所有盲测对决中,GPT Image 2的胜率是93%:100张图配对盲选,93张人们选了OpenAI那张。

「如果把DALL-E看作洞穴壁画,把Images 1.0视为古代艺术,那么Images 2.0就是文艺复兴」。

OpenAI在发布会开场中这样介绍Images 2.0,奥特曼更是将它称作跨代升级:

这好像一下子从GPT-3跃升到了GPT-5。

https://www.youtube.com/watch?v=sWkGomJ3TLI

OpenAI官方API文档对Images 2.0给出了一个最高级的评价。

https://developers.openai.com/api/docs/models/gpt-image-2

但真正的故事,并不在数据里。

被Google压了半年,OpenAI总算扳回一局

时间倒回2025年8月。

Google放出了Nano Banana。这个在Gemini里嵌入的图像生成模型,在C端瞬间引爆。

三个月后的Q3财报会上,Google CEO Sundar Pichai亲口披露了一组数字:Gemini月活,从7月的4.5亿涨到10月的6.5亿。

Google Labs负责人Josh Woodward称,这一增长很大程度上来自Nano Banana带动的图像生成热潮。

11月,Google再发Nano Banana Pro。文本渲染能力惊艳,AI图像第一次能把字写对,OpenAI在C端被反超。

11月18日,Google再补一刀。Gemini 3发布即登顶LM Arena,1501分,首个突破1500的前沿模型。

这一月底,奥特曼对全公司发了一份「红色警戒」(code red)的内部备忘录。

据The Information报道,奥特曼私下告诉员工,Gemini 3可能给OpenAI带来经济逆风。Yahoo Finance后续披露:code red之下,OpenAI暂停了AI Agent等其他产品的研发,资源全部倾斜到ChatGPT。

12月,OpenAI仓促拿出GPT Image 1.5。Arena第一,但C端没能引爆。

2026年2月,Google再补一刀,Nano Banana 2登场,Arena再度领先。

OpenAI又输了一次。

一直到4月21日,GPT Image 2上线,OpenAI这才实现反超,重新扳回一局。

画图AI将被重新定义

GPT Image 2凭什么能领先241分?

核心答案藏在架构层面。

GPT Image 2不是Stable Diffusion那一代的扩散模型。

OpenAI研究负责人Boyuan Chen称这是「revamped from scratch」(从零重构)的「generalist model」(通用模型),OpenAI的内部叫法是「图像版的GPT」。

但Chen在press briefing时拒绝公开承认它具体是扩散还是自回归架构。

外界普遍把它理解为「带推理规划的图像生成系统」:画之前先规划,再下笔。这正是GPT Image 2和上一代图像模型最大的不同。

OpenAI在官方说明里给了它一个新标签:首个具备原生思考能力的图像模型(image model with native thinking capabilities)。

画之前先想、画完自己检查、需要时联网搜索资料、一次能产出8张前后连贯的图。

这不是画笔,是会思考的视觉助理。

Arena榜单分项数据显示:

文字渲染(Text Rendering)单项,GPT Image 2比前代涨了316分;卡通动漫和人像各涨296分;3个产品/3D/写实分类,整体在+247到+277分区间。

文字渲染是2025年11月Nano Banana Pro首次解决的问题,但当时准确率94%。GPT Image 2把它推到了99%。

OpenAI发布会现场演示:让GPT Image 2画一碗米饭,其中只有一粒米上写有模型名字。

具体到能力展示,OpenAI总裁Greg Brockman在自己的X账号上做了示范。

第一个案例,老照片修复。

褪色发黄的家庭老照片,一个提示词,立刻变身高清彩色版。

OpenAI官方API文档里那句「high-fidelity image inputs」(高保真图像输入),说的就是模型对原图细节的保留能力:输入端能精确读取褪色的、破损的、模糊的老照片细节,输出端才能重新渲染出清晰版。

第二个案例中,Brockman转发了用户@doodlestein的一组测试图:用同一个复杂提示词让GPT Image 2画一张数学解释图。

他评价说,即便是复杂提示词,GPT Image 2也能生成风格各异的图。

@doodlestein 测试GPT Image 2用同一个提示词画一张线性代数解释图。模型一口气画出4个完全不同的版本:同样是Mona Lisa+特征向量教学,每个版本的构图、配色、信息密度完全不同。

这个案例真正价值不在「能画数学图」,而是解决了过去两年中AI生图的一个重要的痛点:输出单一、变体可控性差。

GPT Image 2第一次让「一个prompt给我4个完全不同的方向」变成了产品级能力。

业内一位LM Arena资深测试者点评道:

GPT Image 2和Nano Banana Pro之间的差距,跟Nano Banana Pro和DALL-E之间的差距一样大。

跨了整整一代。

GPT Image 2 Thinking模式生成的manga风格漫画页:从一个简单提示词出发,模型保持角色一致性、铺出多格剧情。

DALL-E退役,Adobe Canva被逼到墙角

发布当天,下游工具集成的速度比技术圈预期的还快。

Figma、Canva、Adobe Firefly、fal、Hermes Agent,全部在4月21日当天完成集成。

API定价更是暗藏杀机:

高质量出图$0.21一张;ChatGPT Plus $20一个月,图像生成已经包含在套餐里。

这个差价背后,可能带来2026年图像生成行业最大的产业重构。

GPT Image 2生成的photorealistic candid(写实抓拍)。海岸、阴天、复古车、胶片质感——这种过去要专业摄影师外拍+后期才能达到的视觉效果,现在API $0.21一张。OpenAI研究员Gabriel Goh说,photorealism是他对这个模型最兴奋的能力。

5月12日,DALL-E 2和DALL-E 3正式退役。

它们是2022年开启了整个AIGC视觉革命的开山祖师。三年后,被OpenAI自家的继承者,亲手送入历史。

OpenAI在官方发布说明里提到:

图像不是装饰,是语言。一张好图做的事和一个好句子一样:选择、排列、揭示。

这代表了一种产品哲学的转向。

当然,也不是没有反方声音。ZDNet在实测中发现,GPT Image 2无法准确复刻品牌logo,连ZDNet自己的logo都被画歪了。

Nano Banana 2在portrait realism和multi-reference一致性上仍有优势。

GPT Image 2虽然还不够完美,但赛道格局已经出现了变化。

渲染时代结束了,推理时代刚开始

Google把推理塞进图像模型里。OpenAI把图像工具塞进推理模型里。242分Elo差距测的就是二者架构上的差异。

implicator.ai的这句评价,划分了图像生成的两个时代。

2022到2025年,是渲染时代。

DALL-E、Midjourney、Stable Diffusion,目标都是「画得像」。模型是画笔,用户是画师,prompt是画稿。

GPT Image 2代表的是一个推理时代。

模型先思考再下笔,能搜索、能自检、能完成任务。它不是画笔,是会画画的助手。

GPT Image 2发布真正值得重视的,是图像生成走向「会思考」这件事本身。

短期看,Black Forest Labs(Flux 2)麻烦可能最大。

Kingy AI直言:作为diffusion-first(扩散为先)的厂商,Flux 2的整条技术流水线在架构上和「token-by-token」的推理路线是冲突的。

要么融合,要么重写,没有第三条路。

中期看,Google可能会在下个季度反击。Nano Banana 3,或者Imagen-Reason,时间不会太久。

长期看,这件事的影响远不止图像生成。

当AI开始用「思考」来产出图像、视频、音频、代码,整个生成式AI的范式都会跟着发生变化。

去年12月,奥特曼在备忘录里敲下「code red」的时候,应该没想到五个月后会以这种方式回到Arena榜首。

但这次反杀的真正意义,可能不是OpenAI赢了Google,而是OpenAI改写了图像生成赛道的规则。

Arena.AI单图编辑榜(Image Edit Arena):GPT Image 2 (medium) 仍以1510+分继续登顶,第二、三、四、五名全部被OpenAI自家模型和Google Gemini系列占据。https://arena.ai/leaderboard/image-edit

Google下一拳什么时候出?这个问题决定了2026下半年AI格局的走向。

而在那一拳挥出来之前,GPT Image 2会在Arena榜首坐多久,没人知道。

参考资料:

https://x.com/gdb/status/2048449695622586576

https://arena.ai/leaderboard/image-edit

本文来自微信公众号“新智元”,编辑:元宇

Tiền kỹ thuật số thịnh hành

Nội dung Liên quan

Ngoài sân cỏ: Trò chơi đầu cơ xoay quanh World Cup

Bên cạnh sân cỏ, World Cup 2026 đã tạo ra một mạng lưới đầu cơ đa dạng, biến sự kiện thể thao thành một thí nghiệm đầu tư toàn cầu kéo dài hàng tháng. Thị trường dự đoán (như Polymarket, Kalshi) nổi lên như một kịch bản đầu cơ mới, thu hút khối lượng giao dịch khổng lồ, thậm chí lấn át sự phát triển của các nền tảng cá cược truyền thống vốn vẫn là thị trường cơ bản lớn nhất. Các cổ phiếu khái niệm liên quan đến World Cup, như cổ phiếu "gà rán" của Hàn Quốc hay cổ phiếu liên quan đến đội tuyển Nhật Bản, biến động mạnh theo kết quả thi đấu và tâm lý người hâm mộ. Thị trường vé xem trở thành sân chơi đầu cơ phức tạp, với việc bán lại vé, giao dịch quyền mua vé (RTB) và cả hành vi "bán khống" vé trên các sàn thứ cấp. Các mặt hàng sưu tầm như sticker Panini hay áo đấu phiên bản giới hạn cũng được săn đón và định giá lại trên thị trường thứ cấp. Lĩnh vực tiền điện tử chứng kiến sự bùng nổ của các meme coin lợi dụng chủ đề World Cup, mang lại lợi nhuận siêu tốc cho một số ít nhưng cũng tiềm ẩn rủi ro sụp đổ lớn. Cuối cùng, một lớp dịch vụ khác thu lợi bằng cách cung cấp công cụ theo dõi giá vé, thông tin hoặc lời khuyên cá cược cho chính những người tham gia vào cuộc chơi đầu cơ này. Tóm lại, World Cup không chỉ là lễ hội bóng đá mà còn là một cửa sổ toàn cầu hiếm có, nơi sự chú ý, cảm xúc và nguồn lực được nén lại, tạo ra một hệ sinh thái đầu cơ đa tầng phức tạp xoay quanh nó.

marsbit32 phút trước

Ngoài sân cỏ: Trò chơi đầu cơ xoay quanh World Cup

marsbit32 phút trước

Tuyên Bố ETF Hyperliquid Thu Hút Sự Chú Ý Khi Câu Chuyện HYPE Phát Triển Trên X

Tuyên bố từ AlphaOnChain trên X (trước đây là Twitter) ngày 20 tháng 6 cho biết ba quỹ ETF Hyperliquid (HYPE) được ra mắt vào tháng 5 năm 2026 đã tích lũy tổng cộng 158 triệu USD tài sản. Trong đó, ETF Bitwise HYPE được cho là có 88 triệu USD và ETF 21Shares HYPE có 66 triệu USD. Thông tin này đã thu hút sự chú ý vào cuối tuần, củng cố cho nhận định rằng HYPE đang trở thành một trong những đồng altcoin được theo dõi sát sao, khi các nhà giao dịch tìm kiếm cơ hội vượt trội ngoài Bitcoin và Ethereum. Tuy nhiên, bài viết nhấn mạnh một cảnh báo quan trọng: các con số này đến từ một bài đăng trên mạng xã hội, chưa được xác minh bởi dữ liệu chính thức từ nhà phát hành quỹ, hồ sơ trao đổi hoặc trang thông tin quỹ. Do đó, chúng nên được coi là một tín hiệu cho thấy sự quan tâm ngày càng tăng xung quanh đồng tiền HYPE, chứ không phải là bằng chứng cuối cùng về dòng tiền thực tế. Hyperliquid thu hút cộng đồng nhờ hệ sinh thái tập trung vào giao dịch perpetual trên chuỗi và cơ sở hạ tầng sàn giao dịch. Nếu các sản phẩm ETF liên quan đến HYPE thực sự thu hút được lượng tài sản đáng kể, điều này có thể cho thấy nhu cầu từ cả tổ chức và nhà đầu tư cá nhân đang bắt đầu mở rộng sang các tài sản crypto có rủi ro cao hơn. Đối với các nhà giao dịch, dù sự quan tâm trên mạng xã hội có thể tác động ngắn hạn đến thị trường, nhưng sự tăng trưởng bền vững thường cần đến nhu cầu đã được xác nhận, thanh khoản và sự phát triển liên tục của hệ sinh thái.

bitcoinist1 giờ trước

Tuyên Bố ETF Hyperliquid Thu Hút Sự Chú Ý Khi Câu Chuyện HYPE Phát Triển Trên X

bitcoinist1 giờ trước

Codex Sử Dụng Máy Tính Như Thế Nào? Ba Lối Vào Và Ranh Giới Quyền Hạn

Bài viết phân tích ba phương thức chính để Codex tương tác với máy tính: Computer Use, Tiện ích Chrome và Trình duyệt trong ứng dụng. Computer Use là phương thức mạnh mẽ nhất, cho phép Codex điều khiển giao diện đồ họa của các ứng dụng macOS/Windows, cài đặt hệ thống, thậm chí iOS Simulator. Nó phù hợp cho các quy trình không có API hoặc công cụ cấu trúc, nhưng chậm hơn và có ranh giới quyền truy cập rộng nhất, đòi hỏi sự giám sát cẩn thận. Tiện ích Chrome cấp cho Codex quyền truy cập vào trạng thái Chrome đã đăng nhập của người dùng, bao gồm cookie, hồ sơ và các tab mở. Nó lý tưởng cho các tác vụ trên Gmail, LinkedIn, Salesforce, bảng điều khiển nội bộ hoặc nghiên cứu xuyên nhiều trang web, đồng thời hỗ trợ kiểm soát đa tab hiệu quả. Trình duyệt trong ứng dụng là một trình duyệt biệt lập bên trong luồng Codex, không kế thừa trạng thái đăng nhập hay tiện ích mở rộng. Nó hoàn hảo cho việc phát triển và gỡ lỗi web (máy chủ cục bộ, lỗi giao diện, bố cục responsive) và cho phép chú thích trực tiếp trên các phần tử trang, tạo vòng phản hồi nhanh giữa chỉnh sửa mã và xem trước. Appshots không phải là một phương thức điều khiển, mà là công cụ để người dùng cung cấp ngữ cảnh hình ảnh (chụp cửa sổ) cho Codex, giúp nó hiểu vấn đề cần giải quyết. Thông điệp cốt lõi: Không phải mọi tác vụ đều cần Computer Use. Nên chọn phương thức có phạm vi quyền hẹp nhất, an toàn nhất và được cấu trúc hóa nhất cho từng công việc cụ thể. Ưu tiên sử dụng plugin/MCP nếu có, sau đó mới xem xét đến Trình duyệt trong ứng dụng, Tiện ích Chrome, và chỉ dùng Computer Use cho "chặng đường cuối" khi các công cụ khác không đáp ứng được. Điều này đảm bảo hiệu quả và an toàn, đồng thời duy trì quyền giám sát của người dùng đối với các hành động quan trọng.

marsbit2 giờ trước

Codex Sử Dụng Máy Tính Như Thế Nào? Ba Lối Vào Và Ranh Giới Quyền Hạn

marsbit2 giờ trước

Quy tắc sắt của thiết bị bán dẫn đang bị phá vỡ

Quy tắc bất thành văn lâu nay trong ngành thiết bị bán dẫn, nơi các nhà sản xuất chip thường ép giảm giá (khoảng 10%) cho các đơn hàng lặp lại, đang bị phá vỡ. Gần đây, một số nhà cung cấp thiết bị chính của SK Hynix đã đề nghị tăng giá 3-4%, phản ánh sự thay đổi quyền lực thị trường. Nguyên nhân chính là cơn sốt mở rộng sản xuất để đáp ứng nhu cầu AI, dẫn đến tình trạng thiếu hụt thiết bị nghiêm trọng. Cụ thể, thiết bị TCB (Thermal Compression Bonding) đang "bán chạy" nhờ làn sóng đặt hàng cho sản xuất HBM4, chiplet AI và CPU. Các nhà sản xuất chính như Hanmi Semiconductor, Hanwha Semitech và ASMPT nhận được nhiều đơn hàng lớn. Trong khi đó, công nghệ Hybrid Bonding tiên tiến hơn sẽ được áp dụng rộng rãi hơn từ HBM5, còn ở giai đoạn hiện tại, TCB vẫn là giải pháp thực tế. Không chỉ vậy, sự thiếu hụt còn lan sang chính chuỗi cung ứng thiết bị. Các linh kiện quan trọng để sản xuất thiết bị kiểm tra bán dẫn như FPGA, CPU, Driver IC cũng khan hiếm do bị ưu tiên cung cấp cho các trung tâm dữ liệu AI, làm chậm tiến độ giao hàng thiết bị kiểm tra. Các báo cáo từ SEMI và Counterpoint dự báo một chu kỳ tăng trưởng mạnh mẽ cho ngành thiết bị bán dẫn, thúc đẩy bởi ba xu hướng: mở rộng công nghệ logic tiên tiến (TSMC, Intel, Samsung), bùng nổ sản xuất HBM (SK Hynix, Micron) và đầu tư lớn vào đóng gói tiên tiến (CoWoS, C2S). Tóm lại, các nhà cung cấp thiết bị then chốt nắm giữ công nghệ không thể thay thế trong các lĩnh vực này đang nắm giữ chìa khóa cho năng lực sản xuất trong kỷ nguyên AI, từ đó định hình lại cán cân quyền lực và định giá trong toàn ngành.

marsbit2 giờ trước

Quy tắc sắt của thiết bị bán dẫn đang bị phá vỡ

marsbit2 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua BANANA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Banana Gun (BANANA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Banana Gun (BANANA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Banana Gun (BANANA) của BạnSau khi mua Banana Gun (BANANA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Banana Gun (BANANA)Giao dịch Banana Gun (BANANA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 244Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Làm thế nào để Mua BANANA

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của BANANA (BANANA) được trình bày dưới đây.

活动图片