比Nano Banana还夯的生图模型泄露,截图不再是证据了 | 附提示词

marsbitXuất bản vào 2026-04-19Cập nhật gần nhất vào 2026-04-19

Tóm tắt

近日,LM Arena评测平台短暂出现了三个匿名图像模型,据推测为OpenAI尚未正式发布的GPT Image 2。该模型在文字渲染、指令跟随、真实感和世界知识等方面表现突出,尤其在多语言文字(包括中文)的生成上准确率大幅提升,能生成高度逼真的证件、界面和产品标签图像。 这一进步使得截图作为证据的可信度受到挑战,但也为设计、产品原型制作及内容配图等场景带来便利。与此同时,GPT Image 2在多项测试中表现优于Google的Nano Banana Pro及Midjourney等模型。 目前该模型仍处于A/B测试阶段,预计将在5月随DALL-E系列服务退役后正式发布。用户可尝试在LM Arena平台体验,并参考社区推荐提示词生成高质量图像。

你对文生图的印象还停留在 Nano Banana 吗?

可是孩子,时代又变了。

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

4 月初,LM Arena 评测平台上出现了三个匿名图像模型,代号分别是 maskingtape-alpha、packingtape-alpha、gaffertape-alpha。几小时后它们消失了。

OpenAI 官方还没有正式宣布这个模型,但根据 API 返回的元数据和用户侧的测试记录,它已经有了一个被广泛接受的名字:GPT Image 2。

截图不能再当证据了

过去几年,AI 生图模型最明显的短板之一就是图片里的文字。DALL-E 3 时代,你让它在图里写「Hello」,出来的可能是「Hellp」甚至「Hl10」,字母像喝醉了一样东倒西歪。GPT Image 1 好了很多,能处理简单的英文标签。到 GPT Image 1.5 ,其对英文文字的渲染准确率已经接近 95%,但在中文、日文、韩文等非拉丁字母体系上仍有明显缺陷。

而 GPT Image 2 的泄露样图改变了这个印象。

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

图片里的文字,该是什么就是什么。中文清晰,字形准确,笔画完整。有人测试生成一张身份证样式的图片,姓名、地址、证件号码全部正确渲染,排版规整,初看像是真实文件的照片。

这是个好消息。文字渲染的进步,意味着生成信息图、海报、产品包装、排版复杂的图表,都变得更可靠了。

但硬币总有另一面。一个能生成以假乱真的证件样式图、精确渲染 UI 截图的模型,自然也让「截图可以作为证据」这件事变得越来越可疑。

对比来看,这也是 GPT Image 系列和其他模型的核心差异所在。Midjourney 至今在文字渲染上毫无建树,Stable Diffusion 系列也是老问题。根据泄露的 Arena 测试结果,GPT Image 2 在文字渲染、指令跟随、照片真实感和世界知识四个维度上均超过 Midjourney,后者的优势主要保留在艺术风格和美学控制上。

它真的知道这个世界长什么样吗

有测试者让模型生成一个假想的 GPT-8 产品定价页面,结果出来的图,排版确实是 OpenAI 官网的风格,按钮位置和字体选用像是从真实界面截取的,价格表格的层级逻辑也是对的。

GPT Image 2 能生成与真实软件界面极为相似的图像,包括浏览器窗口、移动端应用界面、数据可视化图表,保真度是上一代产品无法比拟的。

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

这将带来一些很有意思的实际用途。设计师在做产品原型的时候,不需要先打开 Figma 画一堆框架,直接用文字描述想要的界面,出来的就是一张可以用来和团队讨论的参考图。做投资人 Deck 时,不需要等工程师写代码就能展示一个「产品截图」。写文档的时候,用来配图的示例界面可以直接生成,不用对着空白页面想截图从哪里找。

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

生图这件事,已经不只是「生图」了

OpenAI 已经宣布 DALL-E 2 和 DALL-E 3 将于 2026 年 5 月 12 日正式停止服务。Azure OpenAI 的 DALL-E 3 已经在 2 月提前退役了。

DALL-E 是很多人第一次接触 AI 生图的地方,从那些模糊的早期作品到今天,才短短几年。

与此同时,2026 年初刚刚凭借 Nano Banana Pro 确立行业地位的 Google,或许将感受到压力。早期测试报告显示,GPT Image 2 在真实感、文字渲染和世界知识三个维度上同时超越了 Nano Banana Pro,这种三连胜并不常见。

对于创作者来说,感受是复杂的。插图师、平面设计师、摄影师,已经不是第一次面对这个话题了。自 GPT Image 1 发布以来,自由职业平面设计职位数量下降了约 18%。AI 在某些场景下确实取代了「我要雇一个人做这件事」的决策,但它也在创造新的工作方式,让一个人能做的事变多了。

生图模型的进化速度,已经不再给人留出太多适应时间了。GPT Image 1 从上线到 1.5,不过几个月。1.5 到 2,大概也就半年。每一代都在解决上一代的核心短板,同时打开新的可能性。

GPT Image 2 现在还处于 A/B 测试阶段,部分 ChatGPT 用户已经随机获得了访问权限。正式发布的时间窗口,普遍预测就在 5 月 DALL-E 退役前后。想要提前体验的话,目前可以在 LM Arena 评测平台碰碰运气。

Test Address: https://arena.ai

根据社区反馈和该模型的已知优势,以下提示模板可以最大限度地提高你的成功几率:

UI/截图提示:一张照片级逼真的手机银行应用截图,清晰显示交易记录,其中日期、金额和商户名称清晰可辨。iPhone 16 屏幕,自然手持手机,咖啡店背景。

产品标签提示:一张照片级精酿啤酒瓶产品照片,标签细节清晰,显示酒厂名称「Oakridge Brewing Co.」,酒精度 6.8%,山脉标志及配料表。棚内布光,白色背景。

标识提示:一张东京夜间巷道的街景照片,可见多处日英双语霓虹灯招牌,包括写有「Ichiban Ramen — Est. 1987」的拉面店招牌、卡拉 OK 酒吧招牌以及各种发光的广告牌。雨后湿滑的人行道上映着灯光。

界面/世界知识提示:一张照片级真实的 YouTube 视频截图,展示了一段名为「如何在 2026 年组装电脑」的视频,该视频拥有 230 万次观看,配有逼真的评论区、侧边栏推荐视频以及频道信息。桌面浏览器视图。

宽屏触发提示:这是一张电影般的宽银幕照片,拍摄了宜家门店黄昏时分的外观,展示了发光的宜家招牌、停车场里有逼真的汽车,以及进进出出的购物者。黄金时刻灯光,格式 16:9。

未标注图片来源及参考:https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

本文来自微信公众号“APPSO”,作者:发现明日产品的

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QGPT Image 2相比前代模型在文字渲染方面有哪些显著提升?

AGPT Image 2在文字渲染方面实现了显著突破,能够准确生成中文、英文等多种语言的文字,字形和笔画完整清晰。例如,它可以生成排版规整的身份证样式图片,甚至能正确渲染复杂的UI界面文字,解决了早期模型(如DALL-E 3)文字错乱的问题。

QGPT Image 2的泄露对‘截图作为证据’的可靠性有何影响?

AGPT Image 2能够生成高度逼真的证件、UI界面等图像,且文字渲染极其准确,这使得伪造的截图难以被肉眼识别。因此,传统上依赖截图作为证据的可靠性大幅降低,因为AI生成的虚假截图可能以假乱真。

QGPT Image 2在哪些实际应用场景中具有优势?

AGPT Image 2在生成信息图、产品原型设计、投资演示、文档配图等场景中优势明显。例如,设计师可以直接用文字描述生成界面参考图,无需手动绘制;投资者能快速生成产品截图用于Deck展示,提高效率。

QGPT Image 2与Google的Nano Banana Pro相比如何?

A根据早期测试,GPT Image 2在真实感、文字渲染和世界知识三个关键维度上均超越了Google的Nano Banana Pro,实现了全面领先。而Nano Banana Pro仅在艺术风格控制上可能保留部分优势。

Q如何提前体验GPT Image 2模型?

A目前GPT Image 2处于A/B测试阶段,部分ChatGPT用户可能随机获得访问权限。用户也可以尝试通过LM Arena评测平台(https://arena.ai)碰运气,但需注意该模型尚未正式发布,OpenAI计划在2026年5月DALL-E退役前后推出。

Nội dung Liên quan

Phía sau bảng điểm AI, ẩn giấu một "người ra đề" người Hoa

Bài viết này giới thiệu Giáo sư Văn Hổ Trần (Chen Wenhu), một nhà khoa học máy tính người Hoa hiện công tác tại Đại học Waterloo, Canada, và là người đứng sau các bộ đánh giá tiêu chuẩn quan trọng trong ngành AI như MMLU-Pro, MMMU và MMMU-Pro. Khi các mô hình AI tiên tiến như GPT-4, Claude hay Gemini đạt điểm số gần tuyệt đối trên các bài kiểm tra cũ như MMLU, cộng đồng cần một thước đo mới để phân biệt khả năng thực sự. Năm 2024, nhóm của Giáo sư Văn Hổ Trần tại Phòng thí nghiệm TIGER (còn gọi là Hổ Đầu Bang) đã phát triển MMLU-Pro. Bộ dữ liệu mới này với hơn 12.000 câu hỏi đã mở rộng lựa chọn, tăng cường các câu hỏi suy luận và loại bỏ những câu đơn giản, giúp giảm đáng kể điểm số của các mô hình và đánh giá ổn định hơn. Ông cũng là tác giả chính của MMMU - bộ tiêu chuẩn đánh giá đa phương thức (multimodal) đầu tiên yêu cầu mô hình kết hợp hiểu biết hình ảnh phức tạp (biểu đồ, bản đồ, công thức) với kiến thức chuyên ngành để trả lời câu hỏi. Phiên bản nâng cấp MMMU-Pro sau đó được tạo ra để đảm bảo mô hình thực sự xử lý thông tin thị giác chứ không chỉ dựa vào văn bản. Bài viết cho thấy công việc của Giáo sư Văn Hổ Trần bắt nguồn từ hướng nghiên cứu lâu dài về hiểu thông tin phức tạp và trả lời câu hỏi dựa trên tri thức. Kinh nghiệm thực tế của ông từ khi tham gia phát triển mô hình Gemini tại Google DeepMind và hiện tại là tại Phòng thí nghiệm Siêu Trí tuệ của Meta, cùng với việc phòng thí nghiệm của ông cũng tự phát triển các mô hình (như UniVideo, Vamba), đã giúp ông thiết kế ra những bài đánh giá sát thực tế, phát hiện đúng điểm mạnh yếu của mô hình. Tác giả kết luận rằng trong khi sự chú ý của ngành AI thường đổ dồn vào các nhà sáng lập hay lãnh đạo nổi tiếng, thì sự đóng góp của các nhà nghiên cứu như Giáo sư Văn Hổ Trần trong việc xây dựng "ngôn ngữ chung" để đánh giá tiến bộ AI là vô cùng quan trọng.

marsbit14 phút trước

Phía sau bảng điểm AI, ẩn giấu một "người ra đề" người Hoa

marsbit14 phút trước

STRC Mất Neo 11%, Bánh Xe Vĩnh Cửu Của Strategy Còn Chạy Không?

Strategy, công ty nắm giữ Bitcoin lớn nhất thế giới, đang đối mặt với thách thức nghiêm trọng khi cổ phiếu ưu đãi STRC của họ liên tục mất giá trị so với mệnh giá mục tiêu 100 USD, hiện đã giảm hơn 11%. STRC vốn được thiết kế như một công cụ tài chính ổn định để huy động vốn mua Bitcoin mà không làm loãng cổ phần phổ thông (MSTR). Cơ chế "bánh đà vốn" của Strategy – phát hành STRC, gây quỹ, mua BTC, tăng giá trị tài sản ròng và củng cố niềm tin vào STRC – phụ thuộc vào việc STRC duy trì quanh mệnh giá 100 USD. Dù Strategy đã tăng cổ tức lên 11.5% và tăng tần suất chi trả, STRC vẫn tiếp tục giảm giá. Nguyên nhân được cho là do sự bán tháo của các quỹ arbitrage sử dụng đòn bẩy và, quan trọng hơn, là sự lo ngại ngày càng tăng về tình hình thanh khoản và cấu trúc vốn của công ty. Một báo cáo của JPMorgan chỉ ra dự trữ tiền mặt của Strategy chỉ đủ chi trả cổ tức ưu đãi trong khoảng 6.3 tháng. Dù Strategy tuyên bố lượng Bitcoin dự trữ có thể chi trả trong 32 năm, việc họ lần đầu bán ra 32 BTC gần đây đã làm dấy lên lo ngại rằng công ty có thể phải bán Bitcoin để đáp ứng nghĩa vụ trong tương lai, phá vỡ cam kết "hodl" trước đó. Tình trạng mất giá kéo dài của STRC làm suy yếu khả năng gây quỹ then chốt của Strategy. Nếu không thể huy động vốn mới và dự trữ tiền mặt cạn kiệt, áp lực phải bán Bitcoin để trả cổ tức sẽ gia tăng. Điều này không chỉ ảnh hưởng đến STRC mà còn đe dọa đảo ngược vai trò của Strategy từ "người mua lớn" thành "người bán tiềm năng" trên thị trường Bitcoin, gây áp lực giảm giá đáng kể.

Odaily星球日报28 phút trước

STRC Mất Neo 11%, Bánh Xe Vĩnh Cửu Của Strategy Còn Chạy Không?

Odaily星球日报28 phút trước

Vị trí công việc mới được săn đón nhất tại Thung lũng Silicon đã xuất hiện

Trong ba năm qua, ngành AI tập trung vào các nhà khoa học mô hình. Nhưng giờ đây, OpenAI, Anthropic và Google đang ráo riết tuyển dụng một vị trí mới: Kỹ sư Triển khai Tiền tuyến (Forward Deployment Engineer - FDE). Vai trò này bùng nổ, với số lượng tuyển dụng tăng 42 lần từ 2023-2025, báo hiệu một sự chuyển hướng lớn: cuộc chiến về mô hình đã kết thúc, và cuộc chiến triển khai thực tế bắt đầu. Các công ty nhận ra vấn đề không còn là công nghệ, mà là việc doanh nghiệp không biết cách sử dụng AI hiệu quả. Nhiều doanh nghiệp mua AI nhưng không thấy thay đổi lớn vì gặp phải các rào cản tổ chức nội bộ như dữ liệu lịch sử lộn xộn, quy trình phê duyệt phức tạp và hệ thống cũ khó tích hợp. Mô hình AI giống như một động cơ tên lửa gắn trên cỗ xe ngựa – mạnh mẽ nhưng vô dụng nếu không thay đổi toàn bộ hệ thống. Palantir Technologies là công ty tiên phong trong mô hình FDE, cử kỹ sư đến tận nơi khách hàng để hiểu và cải thiện quy trình làm việc thực tế. Phương pháp này giờ đây trở thành bài học cho toàn ngành. Tháng 5/2026, ba gã khổng lồ AI cùng hành động: Anthropic thành lập liên doanh 1,5 tỷ USD để triển khai Claude, OpenAI thành lập công ty con DeployCo với 4 tỷ USD và mua lại công ty tư vấn Tomoro, còn Google Cloud tuyển dụng ồ ạt FDE. Điều này cho thấy trọng tâm đã chuyển từ phát triển mô hình sang triển khai ứng dụng. Vai trò của FDE là "giao kết quả", không chỉ là phần mềm. Họ cần kỹ năng kỹ thuật sâu, hiểu biết về tổ chức và khả năng hợp tác để vượt qua các rào cản về quyền lực, văn hóa và trách nhiệm trong doanh nghiệp – những yếu tố chiếm tới 80% nguyên nhân thất bại của dự án AI. Tóm lại, khi công nghệ AI trở nên phổ biến và rẻ hơn, thứ đắt giá nhất chính là khả năng thấu hiểu tổ chức và thay đổi quy trình. Sự nổi lên của FDE chứng tỏ phần khó nhất của cuộc cách mạng công nghệ không phải là kỹ thuật, mà là con người.

marsbit28 phút trước

Vị trí công việc mới được săn đón nhất tại Thung lũng Silicon đã xuất hiện

marsbit28 phút trước

Khi World Cup Va chạm với Agent: Từ Web2 đến Web3, Ví tiền sẽ tiến tới Agentic Wallet như thế nào?

World Cup là một bối cảnh thích hợp để quan sát sự phát triển của ví tiền điện tử. Trong sự kiện này, các ví Web3 như imToken đã thử nghiệm tích hợp AI Agent vào các hoạt động dự đoán thị trường (ví dụ: Polymarket), cho phép người dùng tương tác với các thị trường dự đoán thông qua Discord hoặc trang web một cách tự nhiên, sau đó được Agent dẫn dắt một cách liền mạch trở lại giao dịch trên chuỗi. Điều này cho thấy sự thay đổi tiềm năng: ví không còn chỉ là một ứng dụng quản lý tài sản và ký giao dịch, mà đang trở thành "trình thông dịch ý định", nơi người dùng có thể diễn đạt nhu cầu bằng ngôn ngữ tự nhiên và để Agent phân tách thành các hành động cụ thể. Sự phát triển của Agentic Wallet không chỉ giới hạn trong Web3. Các gã khổng lồ thanh toán truyền thống như Mastercard (với Agent Pay) hay WeChat Pay cũng đang thử nghiệm để AI Agent tham gia vào lớp thanh toán, với trọng tâm là nhận dạng, ủy quyền, kiểm soát và giám sát. Điều này cho thấy xu hướng chung là AI đang thâm nhập vào lĩnh vực tài chính và giao dịch. Tuy nhiên, thách thức cốt lõi đối với ví Agentic không phải là tự động hóa, mà là thiết lập "ranh giới" an toàn rõ ràng. Vì ví xử lý tài sản thực, nên điều quan trọng là người dùng phải luôn nắm quyền kiểm soát: hiểu Agent là ai, nó có thể làm gì, thời gian ủy quyền, giới hạn số dư, và khả năng tạm dừng hoặc thu hồi ủy quyền. Tương lai của ví thông minh nằm ở việc biến các giao dịch phức tạp thành thông tin dễ hiểu cho người dùng, đảm bảo sự tiện lợi đi đôi với bảo mật. Các thử nghiệm trong bối cảnh World Cup chính là những bước đầu tiên hướng tới tương lai đó.

marsbit1 giờ trước

Khi World Cup Va chạm với Agent: Từ Web2 đến Web3, Ví tiền sẽ tiến tới Agentic Wallet như thế nào?

marsbit1 giờ trước

Tùy chọn không hoạt động trong DeFi? Vitalik có thể không nghĩ vậy

Tác giả phân tích đề xuất của Vitalik về một loại stablecoin thuật toán mới dựa trên cấu trúc quyền lợi giống hợp đồng quyền chọn (option). Trong thiết kế này, 1 ETH được tách thành hai phần: phần "P" đảm bảo giá trị ổn định tới một mức giá thực hiện nhất định, và phần "N" nhận toàn bộ lợi nhuận nếu giá vượt trên mức đó. Tổng của chúng luôn bằng 1 ETH, loại bỏ nhu cầu về cơ chế thanh lý. Tác giả chỉ ra rằng phần tài sản ổn định "P" thực chất giống một "covered call" (bán quyền chọn mua được bảo hiểm bằng tài sản cơ sở). Để duy trì tính ổn định, nó cần được gia hạn liên tục thành các quyền chọn có giá thực hiện thấp hơn (deep in-the-money), điều này dẫn đến rủi ro về trượt giá khi gia hạn và khả năng bị front-run. Thách thức lớn nhất là cần có người liên tục nắm giữ phần tài sản hưởng lợi từ xu hướng tăng "N" - một dạng đòn bẩy ETH không có phí funding hay rủi ro thanh lý. Nhu cầu dài hạn cho phần tài sản này là chìa khóa cho sự mở rộng của hệ thống. Bài viết kết luận rằng tiềm năng thực sự của hợp đồng quyền chọn trong DeFi có thể không nằm ở việc trở thành một sản phẩm giao dịch trực tiếp, mà là đóng vai trò là mô-đun cơ sở, công cụ định giá và phân bổ rủi ro cho các sản phẩm tài chính phức tạp hơn như stablecoin, sản phẩm có cấu trúc hay chỉ số.

marsbit2 giờ trước

Tùy chọn không hoạt động trong DeFi? Vitalik có thể không nghĩ vậy

marsbit2 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua BANANA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Banana Gun (BANANA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Banana Gun (BANANA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Banana Gun (BANANA) của BạnSau khi mua Banana Gun (BANANA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Banana Gun (BANANA)Giao dịch Banana Gun (BANANA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 243Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Làm thế nào để Mua BANANA

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của BANANA (BANANA) được trình bày dưới đây.

活动图片