比Nano Banana还夯的生图模型泄露,截图不再是证据了 | 附提示词

marsbitОпубликовано 2026-04-19Обновлено 2026-04-19

Введение

近日,LM Arena评测平台短暂出现了三个匿名图像模型,据推测为OpenAI尚未正式发布的GPT Image 2。该模型在文字渲染、指令跟随、真实感和世界知识等方面表现突出,尤其在多语言文字(包括中文)的生成上准确率大幅提升,能生成高度逼真的证件、界面和产品标签图像。 这一进步使得截图作为证据的可信度受到挑战,但也为设计、产品原型制作及内容配图等场景带来便利。与此同时,GPT Image 2在多项测试中表现优于Google的Nano Banana Pro及Midjourney等模型。 目前该模型仍处于A/B测试阶段,预计将在5月随DALL-E系列服务退役后正式发布。用户可尝试在LM Arena平台体验,并参考社区推荐提示词生成高质量图像。

你对文生图的印象还停留在 Nano Banana 吗?

可是孩子,时代又变了。

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

4 月初,LM Arena 评测平台上出现了三个匿名图像模型,代号分别是 maskingtape-alpha、packingtape-alpha、gaffertape-alpha。几小时后它们消失了。

OpenAI 官方还没有正式宣布这个模型,但根据 API 返回的元数据和用户侧的测试记录,它已经有了一个被广泛接受的名字:GPT Image 2。

截图不能再当证据了

过去几年,AI 生图模型最明显的短板之一就是图片里的文字。DALL-E 3 时代,你让它在图里写「Hello」,出来的可能是「Hellp」甚至「Hl10」,字母像喝醉了一样东倒西歪。GPT Image 1 好了很多,能处理简单的英文标签。到 GPT Image 1.5 ,其对英文文字的渲染准确率已经接近 95%,但在中文、日文、韩文等非拉丁字母体系上仍有明显缺陷。

而 GPT Image 2 的泄露样图改变了这个印象。

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

图片里的文字,该是什么就是什么。中文清晰,字形准确,笔画完整。有人测试生成一张身份证样式的图片,姓名、地址、证件号码全部正确渲染,排版规整,初看像是真实文件的照片。

这是个好消息。文字渲染的进步,意味着生成信息图、海报、产品包装、排版复杂的图表,都变得更可靠了。

但硬币总有另一面。一个能生成以假乱真的证件样式图、精确渲染 UI 截图的模型,自然也让「截图可以作为证据」这件事变得越来越可疑。

对比来看,这也是 GPT Image 系列和其他模型的核心差异所在。Midjourney 至今在文字渲染上毫无建树,Stable Diffusion 系列也是老问题。根据泄露的 Arena 测试结果,GPT Image 2 在文字渲染、指令跟随、照片真实感和世界知识四个维度上均超过 Midjourney,后者的优势主要保留在艺术风格和美学控制上。

它真的知道这个世界长什么样吗

有测试者让模型生成一个假想的 GPT-8 产品定价页面,结果出来的图,排版确实是 OpenAI 官网的风格,按钮位置和字体选用像是从真实界面截取的,价格表格的层级逻辑也是对的。

GPT Image 2 能生成与真实软件界面极为相似的图像,包括浏览器窗口、移动端应用界面、数据可视化图表,保真度是上一代产品无法比拟的。

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

这将带来一些很有意思的实际用途。设计师在做产品原型的时候,不需要先打开 Figma 画一堆框架,直接用文字描述想要的界面,出来的就是一张可以用来和团队讨论的参考图。做投资人 Deck 时,不需要等工程师写代码就能展示一个「产品截图」。写文档的时候,用来配图的示例界面可以直接生成,不用对着空白页面想截图从哪里找。

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

生图这件事,已经不只是「生图」了

OpenAI 已经宣布 DALL-E 2 和 DALL-E 3 将于 2026 年 5 月 12 日正式停止服务。Azure OpenAI 的 DALL-E 3 已经在 2 月提前退役了。

DALL-E 是很多人第一次接触 AI 生图的地方,从那些模糊的早期作品到今天,才短短几年。

与此同时,2026 年初刚刚凭借 Nano Banana Pro 确立行业地位的 Google,或许将感受到压力。早期测试报告显示,GPT Image 2 在真实感、文字渲染和世界知识三个维度上同时超越了 Nano Banana Pro,这种三连胜并不常见。

对于创作者来说,感受是复杂的。插图师、平面设计师、摄影师,已经不是第一次面对这个话题了。自 GPT Image 1 发布以来,自由职业平面设计职位数量下降了约 18%。AI 在某些场景下确实取代了「我要雇一个人做这件事」的决策,但它也在创造新的工作方式,让一个人能做的事变多了。

生图模型的进化速度,已经不再给人留出太多适应时间了。GPT Image 1 从上线到 1.5,不过几个月。1.5 到 2,大概也就半年。每一代都在解决上一代的核心短板,同时打开新的可能性。

GPT Image 2 现在还处于 A/B 测试阶段,部分 ChatGPT 用户已经随机获得了访问权限。正式发布的时间窗口,普遍预测就在 5 月 DALL-E 退役前后。想要提前体验的话,目前可以在 LM Arena 评测平台碰碰运气。

Test Address: https://arena.ai

根据社区反馈和该模型的已知优势,以下提示模板可以最大限度地提高你的成功几率:

UI/截图提示:一张照片级逼真的手机银行应用截图,清晰显示交易记录,其中日期、金额和商户名称清晰可辨。iPhone 16 屏幕,自然手持手机,咖啡店背景。

产品标签提示:一张照片级精酿啤酒瓶产品照片,标签细节清晰,显示酒厂名称「Oakridge Brewing Co.」,酒精度 6.8%,山脉标志及配料表。棚内布光,白色背景。

标识提示:一张东京夜间巷道的街景照片,可见多处日英双语霓虹灯招牌,包括写有「Ichiban Ramen — Est. 1987」的拉面店招牌、卡拉 OK 酒吧招牌以及各种发光的广告牌。雨后湿滑的人行道上映着灯光。

界面/世界知识提示:一张照片级真实的 YouTube 视频截图,展示了一段名为「如何在 2026 年组装电脑」的视频,该视频拥有 230 万次观看,配有逼真的评论区、侧边栏推荐视频以及频道信息。桌面浏览器视图。

宽屏触发提示:这是一张电影般的宽银幕照片,拍摄了宜家门店黄昏时分的外观,展示了发光的宜家招牌、停车场里有逼真的汽车,以及进进出出的购物者。黄金时刻灯光,格式 16:9。

未标注图片来源及参考:https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

本文来自微信公众号“APPSO”,作者:发现明日产品的

Трендовые криптовалюты

Связанные с этим вопросы

QGPT Image 2相比前代模型在文字渲染方面有哪些显著提升?

AGPT Image 2在文字渲染方面实现了显著突破,能够准确生成中文、英文等多种语言的文字,字形和笔画完整清晰。例如,它可以生成排版规整的身份证样式图片,甚至能正确渲染复杂的UI界面文字,解决了早期模型(如DALL-E 3)文字错乱的问题。

QGPT Image 2的泄露对‘截图作为证据’的可靠性有何影响?

AGPT Image 2能够生成高度逼真的证件、UI界面等图像,且文字渲染极其准确,这使得伪造的截图难以被肉眼识别。因此,传统上依赖截图作为证据的可靠性大幅降低,因为AI生成的虚假截图可能以假乱真。

QGPT Image 2在哪些实际应用场景中具有优势?

AGPT Image 2在生成信息图、产品原型设计、投资演示、文档配图等场景中优势明显。例如,设计师可以直接用文字描述生成界面参考图,无需手动绘制;投资者能快速生成产品截图用于Deck展示,提高效率。

QGPT Image 2与Google的Nano Banana Pro相比如何?

A根据早期测试,GPT Image 2在真实感、文字渲染和世界知识三个关键维度上均超越了Google的Nano Banana Pro,实现了全面领先。而Nano Banana Pro仅在艺术风格控制上可能保留部分优势。

Q如何提前体验GPT Image 2模型?

A目前GPT Image 2处于A/B测试阶段,部分ChatGPT用户可能随机获得访问权限。用户也可以尝试通过LM Arena评测平台(https://arena.ai)碰运气,但需注意该模型尚未正式发布,OpenAI计划在2026年5月DALL-E退役前后推出。

Похожее

За кулисами оценок ИИ стоит китайский «составитель заданий»

За заголовками AI-бенчмарков, таких как MMLU-Pro, MMMU и MMMU-Pro, стоит имя китайского исследователя Вэньху Чэня, доцента Университета Ватерлоо и основателя TIGER Lab. Его работа фокусируется на создании точных и сложных тестов для оценки способностей языковых и мультимодальных моделей. Когда старый стандарт MMLU перестал эффективно различать передовые модели, Чэнь и его команда разработали MMLU-Pro. Этот новый бенчмарк, содержащий более 12 000 вопросов, сделал задачи сложнее и стабильнее, что позволило снова выявить разницу между моделями, которые на старом тесте показывали почти идеальные результаты. В области мультимодального ИИ команда Чэня создала бенчмарк MMMU, который проверяет способность моделей понимать и рассуждать на основе комбинации текста, изображений, схем и других визуальных данных из профессиональных областей. Даже самые мощные модели изначально показывали на нём низкую точность, что выявило значительный пробел в их реальных способностях. Последующее обновление, MMMU-Pro, ещё больше усложнило задачу, предотвращая попытки моделей игнорировать визуальную информацию. Исследовательский интерес Чэня к сложным вопросам, требующим рассуждений и синтеза информации из разных источников, сформировался ещё во время его работы в Калифорнийском университете и позже в Google DeepMind над проектом Gemini. Этот практический опыт в разработке моделей помогает ему создавать более эффективные и «защищённые от обмана» тесты. Помимо оценки, его лаборатория также занимается исследованиями в области создания моделей, например, для работы с видео. В настоящее время Чэнь работает в лаборатории суперинтеллекта Meta, продолжая исследования в области данных и оценки для мультимодального ИИ. Его история является примером того, как китайские специалисты вносят ключевой вклад в развитие ИИ на фундаментальном уровне, часто оставаясь за кадром публичных обсуждений.

marsbit14 мин. назад

За кулисами оценок ИИ стоит китайский «составитель заданий»

marsbit14 мин. назад

STRC отвязался на 11%: продолжится ли вечное движение стратегии?

Акции привилегированного типа STRC компании MicroStrategy в настоящее время находятся в состоянии устойчивого «отрыва» от целевой номинальной стоимости в 100 долларов. С 15 мая скидка достигла более 11%, что ставит под сомнение ключевую цель дизайна данного продукта — функционирование в качестве ценной бумаги с доходом, стабильной рядом с номиналом. STRC является основным двигателем капитальной «маховика» MicroStrategy, позволяя через механизм ATM привлекать фиатные средства без размывания доли обычных акционеров (MSTR) для последующего увеличения резервов биткойна. Нынешний отрыв от номинала, несмотря на повышение дивидендной ставки до 11,5% и увеличение частоты выплат, сигнализирует о том, что рынок оценивает риски, выходящие за рамки самой доходности. Среди причин — технические факторы, такие как распродажи для снижения левериджа, и более глубокие опасения относительно ликвидности компании. Анализ JPMorgan указывает на ограниченность денежных резервов для покрытия дивидендных обязательств, в то время как MicroStrategy апеллирует к своим обширным резервам биткойна. Ключевой вопрос для рынка — будет ли компания в будущем вынуждена продавать биткойн для выполнения обязательств, что противоречит её прежнему нарративу о долгосрочном стратегическом холдинге. Устойчивый дисконт STRC ослабляет способность MicroStrategy к привлечению средств. Если эта ситуация продолжится, а денежные резервы будут истощаться, опасения относительно потенциальных продаж биткойна усилятся, что может превратить MicroStrategy из крупнейшего маржинального покупателя в продавца, оказывая значительное давление на рынок биткойна.

Odaily星球日报27 мин. назад

STRC отвязался на 11%: продолжится ли вечное движение стратегии?

Odaily星球日报27 мин. назад

В Кремниевой долине появилась самая востребованная новая вакансия

В Силиконовой долине растет спрос на новую роль — инженеров прямого развертывания (FDE). Это отражает ключевой сдвиг в ИИ-индустрии: акцент смещается с создания моделей на их практическое внедрение в бизнес. Крупнейшие компании, такие как OpenAI, Anthropic и Google, активно создают подразделения и нанимают FDE. Их задача — работать на местах у клиентов, интегрируя ИИ в сложные бизнес-процессы, преодолевая организационные барьеры, а не технические. Опыт Palantir показал, что успех зависит от понимания структуры компании, данных и рабочих потоков. Основная проблема внедрения ИИ — не технологии, а сопротивление внутри организации, распределение ответственности и устаревшие процессы. Таким образом, FDE становятся ключевыми фигурами в преобразовании бизнеса, сочетая технические знания с умением управлять изменениями в организации.

marsbit27 мин. назад

В Кремниевой долине появилась самая востребованная новая вакансия

marsbit27 мин. назад

Когда Кубок мира встречается с Agent: от Web2 к Web3, как кошельки идут к Agentic Wallet?

Чемпионат мира по футболу — это подходящий контекст для наблюдения за эволюцией кошельков Web3. Такие события, как выход команд в плей-офф или изменение коэффициентов, на платформах прогнозных рынков, подобных Polymarket, превращаются в торгуемые активы. Интеграция подобных активностей в основные кошельки Web3 может служить облегчённым входом для пользователей в ончейн-взаимодействие. Более значимым и ранним изменением становится внедрение AI Agent в сценарии использования кошельков, что меняет способ взаимодействия пользователей с блокчейном. Например, imToken в рамках активности, связанной с ЧМ, начал экспериментировать с AI Agent, позволяя пользователям через веб-интерфейс или Discord в естественной форме выражать намерение (например, «какие ставки на матч Португалии?»), после чего Agent помогает выстроить путь выполнения и незаметно вернуть пользователя в цепочку для завершения транзакции. Это можно рассматривать как раннюю форму «Agentic Wallet» — будущий Web3-кошелёк может не ограничиваться приложением, а становиться повсеместной «AI-формой кошелька». Ключевое изменение заключается в переходе от кошелька как «меню функций» к «интерпретатору намерений». Пользователь выражает цель на естественном языке, а Agent разбивает её на последовательность шагов, которую кошелёк затем превращает в ончейн-действия. Это отличается от простого добавления чат-бота. Тенденция выходит за рамки Web3. Такие игроки, как Mastercard с их решением Agent Pay for Machines, работают над инфраструктурой для авторизованных и контролируемых платежей через AI Agent, что подчёркивает растущую коммерческую значимость этого направления. В Web3-контексте вопросы доверия, разрешений и безопасности становятся ещё более критичными, поскольку транзакции необратимы. Таким образом, главный вызов для Agentic Wallet — не автоматизация как таковая, а определение границ и сохранение контроля пользователя. Кошелёк должен обеспечивать прозрачность: какой Agent что может делать, какие разрешения выданы, на какой срок, и позволять пользователю легко приостанавливать или отменять действия. Чем мощнее Agent, упрощающий сложные процессы, тем важнее роль кошелька как последнего защитного барьера, переводящего технические детали в понятные для пользователя условия и предупреждения. Эксперименты на таких событиях, как Чемпионат мира, являются отправной точкой для этой эволюции.

marsbit1 ч. назад

Когда Кубок мира встречается с Agent: от Web2 к Web3, как кошельки идут к Agentic Wallet?

marsbit1 ч. назад

Не работает ли опцион в DeFi? Виталик, возможно, так не думает

На протяжении долгого времени опционы в DeFi не были популярным инструментом из-за сложности, низкой ликвидности и недостатка естественного спроса. Однако Виталик Бутерин в своем последнем предложении по алгоритмическим стейблкоинам открыл новую возможность: использовать опционы не как самостоятельный продукт для торговли, а как базовый финансовый модуль для стейблкоинов, доходных продуктов и структурированных активов. В его дизайне стейбл-актив по сути представляет собой синтетический покрытый колл-опцион: 1 ETH делится на две части — одна обеспечивает «стабильную стоимость» ниже определенного страйка, а другая получает прибыль от роста выше страйка. Поскольку сумма двух частей всегда равна 1 ETH, система не требует долга, маржи или ликвидации, избегая ключевого риска традиционных CDP-стейблкоинов. Однако основная сложность заключается в том, что для поддержания стабильности стейбл-активу необходимо постоянно пролонгировать глубокие ITM-колл опционы, что создает проблемы с проскальзыванием, фронт-раннингом и ликвидностью. Кроме того, для каждого стейбл-актива должен существовать держатель соответствующего апсайд-актива — leveraged long позиции по ETH без финансирования и риска ликвидации. Устойчивый спрос на такую позицию определяет возможность масштабирования системы. Опыт Rysk показывает, что опционы в DeFi сложно масштабировать как прямой торговый инструмент, но они могут стать эффективной инфраструктурой для более сложных продуктов, таких как стейблкоины или структурированная доходность. Возможность опционов заключается не в том, чтобы стать следующим перпетуал-контрактом, а в том, чтобы стать движком ценообразования и распределения рисков для следующего поколения ончейн-финансовых продуктов.

marsbit2 ч. назад

Не работает ли опцион в DeFi? Виталик, возможно, так не думает

marsbit2 ч. назад

Торговля

Спот
Фьючерсы

Популярные статьи

Как купить BANANA

Добро пожаловать на HTX.com! Мы сделали приобретение Banana Gun (BANANA) простым и удобным. Следуйте нашему пошаговому руководству и отправляйтесь в свое крипто-путешествие.Шаг 1: Создайте аккаунт на HTXИспользуйте свой адрес электронной почты или номер телефона, чтобы зарегистрироваться и бесплатно создать аккаунт на HTX. Пройдите удобную регистрацию и откройте для себя весь функционал.Создать аккаунтШаг 2: Перейдите в Купить криптовалюту и выберите свой способ оплатыКредитная/Дебетовая Карта: Используйте свою карту Visa или Mastercard для мгновенной покупки Banana Gun (BANANA).Баланс: Используйте средства с баланса вашего аккаунта HTX для простой торговли.Третьи Лица: Мы добавили популярные способы оплаты, такие как Google Pay и Apple Pay, для повышения удобства.P2P: Торгуйте напрямую с другими пользователями на HTX.Внебиржевая Торговля (OTC): Мы предлагаем индивидуальные услуги и конкурентоспособные обменные курсы для трейдеров.Шаг 3: Хранение Banana Gun (BANANA)После приобретения вами Banana Gun (BANANA) храните их в своем аккаунте на HTX. В качестве альтернативы вы можете отправить их куда-либо с помощью перевода в блокчейне или использовать для торговли с другими криптовалютами.Шаг 4: Торговля Banana Gun (BANANA)С легкостью торгуйте Banana Gun (BANANA) на спотовом рынке HTX. Просто зайдите в свой аккаунт, выберите торговую пару, совершайте сделки и следите за ними в режиме реального времени. Мы предлагаем удобный интерфейс как для начинающих, так и для опытных трейдеров.

448 просмотров всегоОпубликовано 2024.03.29Обновлено 2026.06.02

Как купить BANANA

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на BANANA (BANANA) представлены ниже.

活动图片