Un modèle de génération d'images plus populaire que Nano Banana a fuité, les captures d'écran ne sont plus des preuves | Inclut les prompts

marsbit發佈於 2026-04-19更新於 2026-04-19

文章摘要

Un nouveau modèle de génération d'image, potentiellement GPT Image 2 d'OpenAI, a fuité et surpasse les modèles précédents comme Nano Banana de Google. Sa principale avancée réside dans le rendu parfait du texte, y compris les caractères chinois, permettant de créer des images réalistes de documents, d'interfaces utilisateur et d'écrans avec un texte précis. Cette capacité remet en cause la fiabilité des captures d'écran comme preuve. Le modèle excelle également dans le réalisme photographique, le suivi des instructions et la connaissance du monde, générant des interfaces qui semblent authentiques. Il ouvre de nouvelles possibilités pour les designers et les créateurs de contenu. Actuellement en test A/B, son lancement officiel est prévu autour de mai 2026. Des invites spécifiques sont partagées pour maximiser son potentiel.

Votre impression de la génération d'images à partir de texte est-elle encore à l'ère de Nano Banana ?

Mais mon enfant, les temps ont encore changé.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Début avril, trois modèles d'image anonymes, portant les noms de code maskingtape-alpha, packingtape-alpha et gaffertape-alpha, sont apparus sur la plateforme d'évaluation LM Arena. Ils ont disparu quelques heures plus tard.

OpenAI n'a pas officiellement annoncé ce modèle, mais selon les métadonnées renvoyées par l'API et les enregistrements de tests des utilisateurs, il a déjà un nom largement accepté : GPT Image 2.

Les captures d'écran ne peuvent plus servir de preuve

Ces dernières années, l'un des points faibles les plus évidents des modèles de génération d'images par IA était le texte dans les images. À l'époque de DALL-E 3, si vous lui demandiez d'écrire « Hello » dans une image, vous pouviez obtenir « Hellp » ou même « Hl10 », les lettres penchant comme si elles étaient ivres. GPT Image 1 s'est beaucoup amélioré, capable de traiter des étiquettes anglaises simples. Avec GPT Image 1.5, la précision du rendu des textes anglais approchait déjà les 95 %, mais des défauts importants subsistaient pour les systèmes d'écriture non latins comme le chinois, le japonais, le coréen, etc.

Les échantillons divulgués de GPT Image 2 ont changé cette impression.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Le texte dans l'image est ce qu'il doit être. Le chinois est clair, la forme des caractères est précise, les traits sont complets. Quelqu'un a testé la génération d'une image de type carte d'identité : le nom, l'adresse, le numéro de pièce d'identité étaient tous rendus correctement, la mise en page était régulière, ressemblant à première vue à une photo d'un document réel.

C'est une bonne nouvelle. Les progrès dans le rendu du texte signifient que la génération d'infographies, d'affiches, d'emballages de produits, de graphiques à la mise en page complexe devient plus fiable.

Mais il y a toujours un revers à la médaille. Un modèle capable de générer des images de type document d'identité trompeusement réalistes, de rendre précisément des captures d'écran d'interface utilisateur, rend naturellement de plus en plus suspecte l'idée que « les captures d'écran peuvent servir de preuve ».

En comparaison, c'est aussi la différence centrale entre la série GPT Image et les autres modèles. Midjourney n'a jusqu'à présent fait de progrès dans le rendu du texte, la série Stable Diffusion a aussi ce vieux problème. Selon les résultats de test divulgués d'Arena, GPT Image 2 dépasse Midjourney sur quatre dimensions : rendu du texte, suivi des instructions, réalisme photographique et connaissance du monde, l'avantage de ce dernier restant principalement dans le style artistique et le contrôle esthétique.

Savez-vous vraiment à quoi ressemble ce monde ?

Un testeur a demandé au modèle de générer une page de tarification hypothétique pour un produit GPT-8. L'image résultante avait une mise en page dans le style du site web d'OpenAI, la position des boutons et le choix des polices semblaient être tirés d'une interface réelle, la logique hiérarchique du tableau des prix était correcte.

GPT Image 2 peut générer des images extrêmement similaires à des interfaces logicielles réelles, y compris des fenêtres de navigateur, des interfaces d'applications mobiles, des graphiques de visualisation de données, avec une fidélité que la génération précédente ne pouvait égaler.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Cela apportera des utilisations pratiques très intéressantes. Les designers, lors de la création de maquettes de produits, n'auront pas besoin d'ouvrir d'abord Figma pour dessiner un tas de cadres ; ils pourront directement décrire l'interface souhaitée avec du texte, et le résultat sera une image de référence utilisable pour discuter avec l'équipe. Lors de la création d'un Deck pour investisseurs, il sera possible de montrer une « capture d'écran du produit » sans attendre que l'ingénieur écrive le code. Lors de la rédaction de documentation, les exemples d'interface pour illustrer le propos pourront être générés directement, sans avoir à réfléchir à l'endroit où trouver une capture d'écran face à une page blanche.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

La génération d'images n'est déjà plus seulement de la « génération d'images »

OpenAI a déjà annoncé que DALL-E 2 et DALL-E 3 cesseront officiellement leur service le 12 mai 2026. Le DALL-E 3 d'Azure OpenAI a déjà pris sa retraite anticipée en février.

DALL-E a été le premier contact de beaucoup avec la génération d'images par IA, il ne s'est écoulé que quelques années depuis ces premières œuvres floues jusqu'à aujourd'hui.

Parallèlement, Google, qui venait juste d'établir sa position dans l'industrie début 2026 avec Nano Banana Pro, pourrait ressentir la pression. Les premiers rapports de test indiquent que GPT Image 2 surpasse Nano Banana Pro sur trois dimensions simultanément : le réalisme, le rendu du texte et la connaissance du monde, un triple succès peu commun.

Pour les créateurs, les sentiments sont mitigés. Illustrateurs, designers graphiques, photographes, ce n'est pas la première fois qu'ils sont confrontés à ce sujet. Depuis la sortie de GPT Image 1, le nombre de postes de designers graphiques indépendants a diminué d'environ 18 %. L'IA a effectivement remplacé, dans certains scénarios, la décision « je veux embaucher quelqu'un pour faire cela », mais elle crée aussi de nouvelles façons de travailler, permettant à une personne de faire plus de choses.

La vitesse d'évolution des modèles de génération d'images ne laisse déjà plus beaucoup de temps d'adaptation. GPT Image 1 est passé de la mise en ligne à la version 1.5 en quelques mois seulement. De la version 1.5 à la 2, à peine six mois. Chaque génération résout les principaux défauts de la précédente tout en ouvrant de nouvelles possibilités.

GPT Image 2 est actuellement en phase de test A/B, certains utilisateurs de ChatGPT ont déjà obtenu un accès aléatoire. La fenêtre de publication officielle est généralement prévue autour de mai, autour de la retraite de DALL-E. Pour une expérience anticipée, vous pouvez actuellement tenter votre chance sur la plateforme d'évaluation LM Arena.

Adresse de test : https://arena.ai

Selon les retours de la communauté et les avantages connus de ce modèle, les modèles de prompts suivants peuvent maximiser vos chances de succès :

Prompt d'interface utilisateur/capture d'écran : Une capture d'écran photoréaliste d'une application bancaire mobile, affichant clairement un historique de transactions, avec la date, le montant et le nom du commerçant clairement discernables. Écran d'iPhone 16, téléphone tenu naturellement en main, arrière-plan de café.

Prompt d'étiquette de produit : Une photo de produit photoréaliste d'une bouteille de bière artisanale, les détails de l'étiquette sont clairs, affichant le nom de la brasserie « Oakridge Brewing Co. », le degré d'alcool 6.8 %, un logo montagne et la liste des ingrédients. Éclairage en studio, fond blanc.

Prompt de signalisation : Une photo de rue d'une ruelle de Tokyo de nuit, visiblement de multiples enseignes au néon bilingues japonais-anglais, incluant une enseigne de restaurant de ramen portant « Ichiban Ramen — Est. 1987 », une enseigne de bar karaoké et diverses publicités lumineuses. Le trottoir est lisse et humide après la pluie, reflétant les lumières.

Prompt de connaissance de l'interface/du monde : Une capture d'écran photoréaliste d'une vidéo YouTube, montrant une vidéo intitulée « Comment assembler un ordinateur en 2026 », cette vidéo a 2,3 millions de vues, avec des commentaires réalistes, des vidéos recommandées dans la barre latérale et des informations sur la chaîne. Vue navigateur de bureau.

Prompt déclencheur grand écran : C'est une photo cinématographique au format large, capturant l'apparence d'un magasin Ikea au crépuscule, montrant l'enseigne Ikea lumineuse, des voitures réalistes sur le parking et des clients entrant et sortant. Lumière de l'heure dorée, format 16:9.

Source des images non attribuées et référence : https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Cet article provient du compte WeChat officiel « APPSO », auteur : Découvrir les produits de demain

熱門幣種推薦

相關問答

QQu'est-ce que le GPT Image 2 et pourquoi est-il significatif ?

ALe GPT Image 2 est un modèle de génération d'images par IA, présumé être le successeur des modèles DALL-E d'OpenAI. Il est significatif car il surpasse considérablement ses prédécesseurs et les concurrents comme Midjourney et Nano Banana Pro dans des domaines clés comme le rendu du texte, le suivi des instructions, le réalisme photographique et la connaissance du monde. Sa fuite a suscité beaucoup d'attention en raison de ses capacités avancées.

QEn quoi le GPT Image 2 change-t-il la perception des captures d'écran comme preuve ?

ALe GPT Image 2 peut générer des images de faux documents (comme des cartes d'identité) et des interfaces utilisateur (comme des pages de tarification ou des captures d'écran d'applications) d'un réalisme si convaincant qu'il devient extrêmement difficile de distinguer le vrai du faux. Cette capacité remet en cause la fiabilité des captures d'écran en tant que preuve, car elles peuvent désormais être facilement falsifiées.

QQuels sont les avantages pratiques du GPT Image 2 pour les créateurs et les concepteurs ?

APour les créateurs et les concepteurs, le GPT Image 2 offre des avantages significatifs : il permet de générer rapidement des maquettes d'interface utilisateur réalistes pour des prototypes, de créer des visuels pour des présentations ou de la documentation sans avoir besoin de captures d'écran réelles, et de produire des images de produits avec un texte et des étiquettes parfaitement rendus, ce qui accélère considérablement le flux de travail.

QComment le GPT Image 2 se compare-t-il à d'autres modèles comme Midjourney et Nano Banana Pro ?

ASelon les tests et les fuites, le GPT Image 2 surpasse à la fois Midjourney et le Nano Banana Pro de Google dans plusieurs domaines critiques. Il est supérieur dans le rendu du texte (y compris les caractères non latins comme le chinois), le réalisme photographique, le suivi des instructions et la connaissance du monde (comme la recréation précise d'interfaces logicielles familières). Midjourney conserve un avantage dans le contrôle du style artistique et de l'esthétique.

QOù et comment les utilisateurs peuvent-ils essayer le GPT Image 2 ?

AActuellement, le GPT Image 2 n'est pas officiellement publié. Il est en phase de test A/B, et certains utilisateurs de ChatGPT y ont un accès aléatoire. Les utilisateurs peuvent également tenter leur chance sur la plateforme d'évaluation LM Arena (https://arena.ai) où le modèle est parfois disponible. Son lancement officiel est prévu autour du 12 mai 2026, date à laquelle les services DALL-E 2 et DALL-E 3 seront interrompus.

你可能也喜歡

CryptoQuant数据显示:山寨币面临自2020年以来最沉重的现货抛压

根据CryptoQuant的数据,山寨币正面临自2020年以来最沉重的现货抛售压力。数据显示,在漫长的净卖出周期中,累计买卖量差额达到约2090亿美元,突显出市场买盘极其疲软。 这种压力反映出零售需求疲弱、资金转向稳定币收益产品,以及投资者对比特币和以太坊之外的其他加密货币继续保持谨慎。尽管这种极端的抛售可能最终会成为一个逆向信号,表明市场持仓已变得一边倒,为潜在的反弹留下了空间,但目前的数据并未确认山寨币市场会立即反转。 分析指出,山寨币在整个周期中一直面临更安全或更明确替代品的竞争。比特币通过ETF吸引了机构资金,以太坊凭借质押、升级等叙事保持关注,而稳定币和收益产品则为交易者提供了无需承担小市值币种风险即可保持流动性的方式。这使得许多山寨币陷入困境:对保守资本而言风险过高,但波动性又不足以持续吸引投机性动量资金。当零售需求消退时,流动性迅速枯竭。 当前的市场状况更像是一个压力指标,表明山寨币严重失宠。然而,抛售压力读数本身并不能证明买家已准备好接管市场。最明确的看涨信号需要出现从净卖出转向持续的现货积累,同时主要山寨币板块广度改善。在此之前,这更像是一个衡量市场压力的指标,而非山寨币季节到来的保证触发器。

bitcoinist1 小時前

CryptoQuant数据显示:山寨币面临自2020年以来最沉重的现货抛压

bitcoinist1 小時前

交易

現貨
合約

熱門文章

如何購買BANANA

歡迎來到HTX.com!在這裡,購買Banana Gun (BANANA)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Banana Gun (BANANA)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Banana Gun (BANANA)購買Banana Gun (BANANA)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Banana Gun (BANANA)在HTX的現貨市場輕鬆交易Banana Gun (BANANA)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

307 人學過發佈於 2024.12.11更新於 2026.06.02

如何購買BANANA

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 BANANA (BANANA)幣價的意見。

活动图片