Un modèle de génération d'images plus populaire que Nano Banana a fuité, les captures d'écran ne sont plus des preuves | Inclut les prompts

marsbit发布于2026-04-19更新于2026-04-19

文章摘要

Un nouveau modèle de génération d'image, potentiellement GPT Image 2 d'OpenAI, a fuité et surpasse les modèles précédents comme Nano Banana de Google. Sa principale avancée réside dans le rendu parfait du texte, y compris les caractères chinois, permettant de créer des images réalistes de documents, d'interfaces utilisateur et d'écrans avec un texte précis. Cette capacité remet en cause la fiabilité des captures d'écran comme preuve. Le modèle excelle également dans le réalisme photographique, le suivi des instructions et la connaissance du monde, générant des interfaces qui semblent authentiques. Il ouvre de nouvelles possibilités pour les designers et les créateurs de contenu. Actuellement en test A/B, son lancement officiel est prévu autour de mai 2026. Des invites spécifiques sont partagées pour maximiser son potentiel.

Votre impression de la génération d'images à partir de texte est-elle encore à l'ère de Nano Banana ?

Mais mon enfant, les temps ont encore changé.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Début avril, trois modèles d'image anonymes, portant les noms de code maskingtape-alpha, packingtape-alpha et gaffertape-alpha, sont apparus sur la plateforme d'évaluation LM Arena. Ils ont disparu quelques heures plus tard.

OpenAI n'a pas officiellement annoncé ce modèle, mais selon les métadonnées renvoyées par l'API et les enregistrements de tests des utilisateurs, il a déjà un nom largement accepté : GPT Image 2.

Les captures d'écran ne peuvent plus servir de preuve

Ces dernières années, l'un des points faibles les plus évidents des modèles de génération d'images par IA était le texte dans les images. À l'époque de DALL-E 3, si vous lui demandiez d'écrire « Hello » dans une image, vous pouviez obtenir « Hellp » ou même « Hl10 », les lettres penchant comme si elles étaient ivres. GPT Image 1 s'est beaucoup amélioré, capable de traiter des étiquettes anglaises simples. Avec GPT Image 1.5, la précision du rendu des textes anglais approchait déjà les 95 %, mais des défauts importants subsistaient pour les systèmes d'écriture non latins comme le chinois, le japonais, le coréen, etc.

Les échantillons divulgués de GPT Image 2 ont changé cette impression.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Le texte dans l'image est ce qu'il doit être. Le chinois est clair, la forme des caractères est précise, les traits sont complets. Quelqu'un a testé la génération d'une image de type carte d'identité : le nom, l'adresse, le numéro de pièce d'identité étaient tous rendus correctement, la mise en page était régulière, ressemblant à première vue à une photo d'un document réel.

C'est une bonne nouvelle. Les progrès dans le rendu du texte signifient que la génération d'infographies, d'affiches, d'emballages de produits, de graphiques à la mise en page complexe devient plus fiable.

Mais il y a toujours un revers à la médaille. Un modèle capable de générer des images de type document d'identité trompeusement réalistes, de rendre précisément des captures d'écran d'interface utilisateur, rend naturellement de plus en plus suspecte l'idée que « les captures d'écran peuvent servir de preuve ».

En comparaison, c'est aussi la différence centrale entre la série GPT Image et les autres modèles. Midjourney n'a jusqu'à présent fait de progrès dans le rendu du texte, la série Stable Diffusion a aussi ce vieux problème. Selon les résultats de test divulgués d'Arena, GPT Image 2 dépasse Midjourney sur quatre dimensions : rendu du texte, suivi des instructions, réalisme photographique et connaissance du monde, l'avantage de ce dernier restant principalement dans le style artistique et le contrôle esthétique.

Savez-vous vraiment à quoi ressemble ce monde ?

Un testeur a demandé au modèle de générer une page de tarification hypothétique pour un produit GPT-8. L'image résultante avait une mise en page dans le style du site web d'OpenAI, la position des boutons et le choix des polices semblaient être tirés d'une interface réelle, la logique hiérarchique du tableau des prix était correcte.

GPT Image 2 peut générer des images extrêmement similaires à des interfaces logicielles réelles, y compris des fenêtres de navigateur, des interfaces d'applications mobiles, des graphiques de visualisation de données, avec une fidélité que la génération précédente ne pouvait égaler.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Cela apportera des utilisations pratiques très intéressantes. Les designers, lors de la création de maquettes de produits, n'auront pas besoin d'ouvrir d'abord Figma pour dessiner un tas de cadres ; ils pourront directement décrire l'interface souhaitée avec du texte, et le résultat sera une image de référence utilisable pour discuter avec l'équipe. Lors de la création d'un Deck pour investisseurs, il sera possible de montrer une « capture d'écran du produit » sans attendre que l'ingénieur écrive le code. Lors de la rédaction de documentation, les exemples d'interface pour illustrer le propos pourront être générés directement, sans avoir à réfléchir à l'endroit où trouver une capture d'écran face à une page blanche.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

La génération d'images n'est déjà plus seulement de la « génération d'images »

OpenAI a déjà annoncé que DALL-E 2 et DALL-E 3 cesseront officiellement leur service le 12 mai 2026. Le DALL-E 3 d'Azure OpenAI a déjà pris sa retraite anticipée en février.

DALL-E a été le premier contact de beaucoup avec la génération d'images par IA, il ne s'est écoulé que quelques années depuis ces premières œuvres floues jusqu'à aujourd'hui.

Parallèlement, Google, qui venait juste d'établir sa position dans l'industrie début 2026 avec Nano Banana Pro, pourrait ressentir la pression. Les premiers rapports de test indiquent que GPT Image 2 surpasse Nano Banana Pro sur trois dimensions simultanément : le réalisme, le rendu du texte et la connaissance du monde, un triple succès peu commun.

Pour les créateurs, les sentiments sont mitigés. Illustrateurs, designers graphiques, photographes, ce n'est pas la première fois qu'ils sont confrontés à ce sujet. Depuis la sortie de GPT Image 1, le nombre de postes de designers graphiques indépendants a diminué d'environ 18 %. L'IA a effectivement remplacé, dans certains scénarios, la décision « je veux embaucher quelqu'un pour faire cela », mais elle crée aussi de nouvelles façons de travailler, permettant à une personne de faire plus de choses.

La vitesse d'évolution des modèles de génération d'images ne laisse déjà plus beaucoup de temps d'adaptation. GPT Image 1 est passé de la mise en ligne à la version 1.5 en quelques mois seulement. De la version 1.5 à la 2, à peine six mois. Chaque génération résout les principaux défauts de la précédente tout en ouvrant de nouvelles possibilités.

GPT Image 2 est actuellement en phase de test A/B, certains utilisateurs de ChatGPT ont déjà obtenu un accès aléatoire. La fenêtre de publication officielle est généralement prévue autour de mai, autour de la retraite de DALL-E. Pour une expérience anticipée, vous pouvez actuellement tenter votre chance sur la plateforme d'évaluation LM Arena.

Adresse de test : https://arena.ai

Selon les retours de la communauté et les avantages connus de ce modèle, les modèles de prompts suivants peuvent maximiser vos chances de succès :

Prompt d'interface utilisateur/capture d'écran : Une capture d'écran photoréaliste d'une application bancaire mobile, affichant clairement un historique de transactions, avec la date, le montant et le nom du commerçant clairement discernables. Écran d'iPhone 16, téléphone tenu naturellement en main, arrière-plan de café.

Prompt d'étiquette de produit : Une photo de produit photoréaliste d'une bouteille de bière artisanale, les détails de l'étiquette sont clairs, affichant le nom de la brasserie « Oakridge Brewing Co. », le degré d'alcool 6.8 %, un logo montagne et la liste des ingrédients. Éclairage en studio, fond blanc.

Prompt de signalisation : Une photo de rue d'une ruelle de Tokyo de nuit, visiblement de multiples enseignes au néon bilingues japonais-anglais, incluant une enseigne de restaurant de ramen portant « Ichiban Ramen — Est. 1987 », une enseigne de bar karaoké et diverses publicités lumineuses. Le trottoir est lisse et humide après la pluie, reflétant les lumières.

Prompt de connaissance de l'interface/du monde : Une capture d'écran photoréaliste d'une vidéo YouTube, montrant une vidéo intitulée « Comment assembler un ordinateur en 2026 », cette vidéo a 2,3 millions de vues, avec des commentaires réalistes, des vidéos recommandées dans la barre latérale et des informations sur la chaîne. Vue navigateur de bureau.

Prompt déclencheur grand écran : C'est une photo cinématographique au format large, capturant l'apparence d'un magasin Ikea au crépuscule, montrant l'enseigne Ikea lumineuse, des voitures réalistes sur le parking et des clients entrant et sortant. Lumière de l'heure dorée, format 16:9.

Source des images non attribuées et référence : https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Cet article provient du compte WeChat officiel « APPSO », auteur : Découvrir les produits de demain

你可能也喜欢

亿万富翁雷·达利欧解释他为何更青睐黄金而非比特币

亿万富翁投资者、全球最大对冲基金桥水创始人瑞·达利欧就全球金融体系、经济风险与资产配置发表重要观点。他指出，投资者应在潜在金融危机中转向比特币和黄金等“硬通货”资产，并分享了对加密货币的偏好与担忧。达利欧曾成功预测2008年全球金融危机，他警告市场正因人工智能形成严重泡沫。高债务水平、收入不平等和地缘政治紧张局势正在威胁经济秩序。达利欧强调资本不应因通胀贬值，投资组合需多元化以应对危机。他透露个人投资组合中比特币约占1%，建议投资者将5%-15%的资产配置于央行无法无限印发的“硬通货”。尽管将比特币归类为不可印刷的货币，达利欧认为黄金是比比特币更安全的避险资产。他对比特币持谨慎态度的主要原因包括：政府拥有对比特币征税、限制或控制的权力；央行因隐私与控制担忧不会大量持有比特币；量子计算机等新技术可能威胁加密货币基础设施；以及比特币缺乏隐私性。达利欧指出，黄金拥有千年历史，是最具形体的金融资产，且不依赖于单一方的责任。他主张不应依赖单一资产抵御金融波动，而需通过股票、债券、房地产、黄金和比特币等多资产类别实现平衡的多元化配置。 *本文不构成投资建议。

cryptonews.ru25分钟前

cryptonews.ru25分钟前

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

迈克尔·塞勒领导的上市公司Strategy今日以约1.05亿美元的价格出售了1638枚比特币，平均售价为63,957美元，使其总持有量降至842,138枚BTC，总价值约635亿美元。塞勒对此澄清，其个人长期持有的比特币“从未出售”，哪怕一聪。他强调，自己常说的“永不卖出比特币”是私人投资者间的建议。而Strategy作为上市公司，其比特币交易（包括本次出售）是基于公开披露的财务策略，旨在满足运营资金、股息支付、债务利息或股票回购等需求，此举与公司对比特币的根本信念无关。

cryptonews.ru1小时前

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

cryptonews.ru1小时前

分析公司揭示比特币（BTC）的关键门槛：“这可能终结熊市！”以下是详细内容

领先加密货币比特币虽维持在6万美元以上，但10x Research创始人Marcus Thielen指出，比特币可能尚未触底。他认为月度收盘价能否站上6.3万美元是关键阈值，若能突破则可能确认熊市结束；但7月收盘低于该水平，表明市场仍未给出最终确认信号。目前价格位于7日和30日移动均线之下，且上周下跌3.2%，短期趋势仍看跌。 Thielen还提及宏观风险：若美国10年期国债收益率持续上升，美联储或被迫在9月重启加息，持续高利率可能对BTC等风险资产构成压力。此外，比特币矿商及持有BTC的机构可能带来抛压，尤其是一些转向AI领域的矿商持有约10万枚BTC，其清算行为可能加剧卖方压力。总之，比特币要重回上涨趋势，既需守住关键技术位，也依赖有利的宏观经济环境。 *本文不构成投资建议。

cryptonews.ru1小时前

cryptonews.ru1小时前

XDC Tech整合Bridge稳定币平台，将链上稳定币结算引入自主AI商务

2026年8月3日，XDC Network的美国机构部门XDC Tech宣布与稳定币基础设施平台Bridge（Stripe旗下公司）完成关键集成。此次合作为XDC生态开发者提供了直接接入Bridge合规工具的能力，包括法币与稳定币的兑换通道、虚拟账户及多币种托管服务。核心应用场景是支付。企业可通过Bridge虚拟账户接收美元、欧元等法币，并近乎实时地在XDC网络上以稳定币结算，从而绕开代理行和多日清算流程。该方案已应用于贸易金融，使进出口商能以USDC等稳定币快速结算发票，并扩展到代币化资产领域。此次集成是XDC构建“智能体经济”结算层路线图的重要一环，旨在支持自主AI智能体以机器速度进行交易。其关键价值包括： 1. 为自主智能体提供机器速度的结算（XDC交易2秒最终确认）； 2. 提供受监管的法币通道，覆盖美、欧及拉美地区； 3. 虚拟账户可作为智能体的原生钱包，使其具备独立的经济身份； 4. 多币种托管支持跨境智能体商务； 5. 赋能智能体驱动的贸易金融与代币化资产交易； 6. 集成即合规，满足KYC、反洗钱等监管要求，确保智能体支付的可审计性。 XDC联合创始人Atul Khekade表示，此次合作是面向智能体经济的更广泛建设的一部分。Bridge产品负责人Mai Leduc Blount则认为，稳定币结算网络需要从第一天就为速度和最终性而构建，XDC正是这样的基础。该集成已通过XDC和Bridge的开发者门户开放。

cointelegraph1小时前

cointelegraph1小时前

贝莱德推出代币化货币市场基金，旨在为稳定币提供储备资产

全球最大资产管理公司贝莱德推出了两款代币化货币市场产品，旨在作为稳定币的储备资产。第一款产品是"BlackRock Select Treasury Based Liquidity Fund OnChain Shares"（BSTBL），为现有基金在以太坊上的代币化份额。第二款产品是全新设立的"BlackRock Daily Reinvestment Stablecoin Reserve Vehicle"（BRSRV），支持多链且每日自动复投。两款产品均按照2025年7月生效的《GENIUS法案》设计，可作为合规美元支付稳定币的合格储备资产。此举扩大了贝莱德在代币化国债市场的布局，其旗下BUIDL基金目前是该领域规模最大的产品，资产超26亿美元。

cointelegraph2小时前

cointelegraph2小时前

交易

现货

Un modèle de génération d'images plus populaire que Nano Banana a fuité, les captures d'écran ne sont plus des preuves | Inclut les prompts

文章摘要

Les captures d'écran ne peuvent plus servir de preuve

Savez-vous vraiment à quoi ressemble ce monde ?

La génération d'images n'est déjà plus seulement de la « génération d'images »

热门币种推荐

相关问答

你可能也喜欢

亿万富翁雷·达利欧解释他为何更青睐黄金而非比特币

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

分析公司揭示比特币（BTC）的关键门槛：“这可能终结熊市！”以下是详细内容

XDC Tech整合Bridge稳定币平台，将链上稳定币结算引入自主AI商务

贝莱德推出代币化货币市场基金，旨在为稳定币提供储备资产

交易

热门文章

如何购买BANANA

相关讨论

热门问答

热门分类

热门标签