Un modèle de génération d'images plus populaire que Nano Banana a fuité, les captures d'écran ne sont plus des preuves | Inclut les prompts

marsbitPublié le 2026-04-19Dernière mise à jour le 2026-04-19

Résumé

Un nouveau modèle de génération d'image, potentiellement GPT Image 2 d'OpenAI, a fuité et surpasse les modèles précédents comme Nano Banana de Google. Sa principale avancée réside dans le rendu parfait du texte, y compris les caractères chinois, permettant de créer des images réalistes de documents, d'interfaces utilisateur et d'écrans avec un texte précis. Cette capacité remet en cause la fiabilité des captures d'écran comme preuve. Le modèle excelle également dans le réalisme photographique, le suivi des instructions et la connaissance du monde, générant des interfaces qui semblent authentiques. Il ouvre de nouvelles possibilités pour les designers et les créateurs de contenu. Actuellement en test A/B, son lancement officiel est prévu autour de mai 2026. Des invites spécifiques sont partagées pour maximiser son potentiel.

Votre impression de la génération d'images à partir de texte est-elle encore à l'ère de Nano Banana ?

Mais mon enfant, les temps ont encore changé.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Début avril, trois modèles d'image anonymes, portant les noms de code maskingtape-alpha, packingtape-alpha et gaffertape-alpha, sont apparus sur la plateforme d'évaluation LM Arena. Ils ont disparu quelques heures plus tard.

OpenAI n'a pas officiellement annoncé ce modèle, mais selon les métadonnées renvoyées par l'API et les enregistrements de tests des utilisateurs, il a déjà un nom largement accepté : GPT Image 2.

Les captures d'écran ne peuvent plus servir de preuve

Ces dernières années, l'un des points faibles les plus évidents des modèles de génération d'images par IA était le texte dans les images. À l'époque de DALL-E 3, si vous lui demandiez d'écrire « Hello » dans une image, vous pouviez obtenir « Hellp » ou même « Hl10 », les lettres penchant comme si elles étaient ivres. GPT Image 1 s'est beaucoup amélioré, capable de traiter des étiquettes anglaises simples. Avec GPT Image 1.5, la précision du rendu des textes anglais approchait déjà les 95 %, mais des défauts importants subsistaient pour les systèmes d'écriture non latins comme le chinois, le japonais, le coréen, etc.

Les échantillons divulgués de GPT Image 2 ont changé cette impression.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Le texte dans l'image est ce qu'il doit être. Le chinois est clair, la forme des caractères est précise, les traits sont complets. Quelqu'un a testé la génération d'une image de type carte d'identité : le nom, l'adresse, le numéro de pièce d'identité étaient tous rendus correctement, la mise en page était régulière, ressemblant à première vue à une photo d'un document réel.

C'est une bonne nouvelle. Les progrès dans le rendu du texte signifient que la génération d'infographies, d'affiches, d'emballages de produits, de graphiques à la mise en page complexe devient plus fiable.

Mais il y a toujours un revers à la médaille. Un modèle capable de générer des images de type document d'identité trompeusement réalistes, de rendre précisément des captures d'écran d'interface utilisateur, rend naturellement de plus en plus suspecte l'idée que « les captures d'écran peuvent servir de preuve ».

En comparaison, c'est aussi la différence centrale entre la série GPT Image et les autres modèles. Midjourney n'a jusqu'à présent fait de progrès dans le rendu du texte, la série Stable Diffusion a aussi ce vieux problème. Selon les résultats de test divulgués d'Arena, GPT Image 2 dépasse Midjourney sur quatre dimensions : rendu du texte, suivi des instructions, réalisme photographique et connaissance du monde, l'avantage de ce dernier restant principalement dans le style artistique et le contrôle esthétique.

Savez-vous vraiment à quoi ressemble ce monde ?

Un testeur a demandé au modèle de générer une page de tarification hypothétique pour un produit GPT-8. L'image résultante avait une mise en page dans le style du site web d'OpenAI, la position des boutons et le choix des polices semblaient être tirés d'une interface réelle, la logique hiérarchique du tableau des prix était correcte.

GPT Image 2 peut générer des images extrêmement similaires à des interfaces logicielles réelles, y compris des fenêtres de navigateur, des interfaces d'applications mobiles, des graphiques de visualisation de données, avec une fidélité que la génération précédente ne pouvait égaler.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Cela apportera des utilisations pratiques très intéressantes. Les designers, lors de la création de maquettes de produits, n'auront pas besoin d'ouvrir d'abord Figma pour dessiner un tas de cadres ; ils pourront directement décrire l'interface souhaitée avec du texte, et le résultat sera une image de référence utilisable pour discuter avec l'équipe. Lors de la création d'un Deck pour investisseurs, il sera possible de montrer une « capture d'écran du produit » sans attendre que l'ingénieur écrive le code. Lors de la rédaction de documentation, les exemples d'interface pour illustrer le propos pourront être générés directement, sans avoir à réfléchir à l'endroit où trouver une capture d'écran face à une page blanche.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

La génération d'images n'est déjà plus seulement de la « génération d'images »

OpenAI a déjà annoncé que DALL-E 2 et DALL-E 3 cesseront officiellement leur service le 12 mai 2026. Le DALL-E 3 d'Azure OpenAI a déjà pris sa retraite anticipée en février.

DALL-E a été le premier contact de beaucoup avec la génération d'images par IA, il ne s'est écoulé que quelques années depuis ces premières œuvres floues jusqu'à aujourd'hui.

Parallèlement, Google, qui venait juste d'établir sa position dans l'industrie début 2026 avec Nano Banana Pro, pourrait ressentir la pression. Les premiers rapports de test indiquent que GPT Image 2 surpasse Nano Banana Pro sur trois dimensions simultanément : le réalisme, le rendu du texte et la connaissance du monde, un triple succès peu commun.

Pour les créateurs, les sentiments sont mitigés. Illustrateurs, designers graphiques, photographes, ce n'est pas la première fois qu'ils sont confrontés à ce sujet. Depuis la sortie de GPT Image 1, le nombre de postes de designers graphiques indépendants a diminué d'environ 18 %. L'IA a effectivement remplacé, dans certains scénarios, la décision « je veux embaucher quelqu'un pour faire cela », mais elle crée aussi de nouvelles façons de travailler, permettant à une personne de faire plus de choses.

La vitesse d'évolution des modèles de génération d'images ne laisse déjà plus beaucoup de temps d'adaptation. GPT Image 1 est passé de la mise en ligne à la version 1.5 en quelques mois seulement. De la version 1.5 à la 2, à peine six mois. Chaque génération résout les principaux défauts de la précédente tout en ouvrant de nouvelles possibilités.

GPT Image 2 est actuellement en phase de test A/B, certains utilisateurs de ChatGPT ont déjà obtenu un accès aléatoire. La fenêtre de publication officielle est généralement prévue autour de mai, autour de la retraite de DALL-E. Pour une expérience anticipée, vous pouvez actuellement tenter votre chance sur la plateforme d'évaluation LM Arena.

Adresse de test : https://arena.ai

Selon les retours de la communauté et les avantages connus de ce modèle, les modèles de prompts suivants peuvent maximiser vos chances de succès :

Prompt d'interface utilisateur/capture d'écran : Une capture d'écran photoréaliste d'une application bancaire mobile, affichant clairement un historique de transactions, avec la date, le montant et le nom du commerçant clairement discernables. Écran d'iPhone 16, téléphone tenu naturellement en main, arrière-plan de café.

Prompt d'étiquette de produit : Une photo de produit photoréaliste d'une bouteille de bière artisanale, les détails de l'étiquette sont clairs, affichant le nom de la brasserie « Oakridge Brewing Co. », le degré d'alcool 6.8 %, un logo montagne et la liste des ingrédients. Éclairage en studio, fond blanc.

Prompt de signalisation : Une photo de rue d'une ruelle de Tokyo de nuit, visiblement de multiples enseignes au néon bilingues japonais-anglais, incluant une enseigne de restaurant de ramen portant « Ichiban Ramen — Est. 1987 », une enseigne de bar karaoké et diverses publicités lumineuses. Le trottoir est lisse et humide après la pluie, reflétant les lumières.

Prompt de connaissance de l'interface/du monde : Une capture d'écran photoréaliste d'une vidéo YouTube, montrant une vidéo intitulée « Comment assembler un ordinateur en 2026 », cette vidéo a 2,3 millions de vues, avec des commentaires réalistes, des vidéos recommandées dans la barre latérale et des informations sur la chaîne. Vue navigateur de bureau.

Prompt déclencheur grand écran : C'est une photo cinématographique au format large, capturant l'apparence d'un magasin Ikea au crépuscule, montrant l'enseigne Ikea lumineuse, des voitures réalistes sur le parking et des clients entrant et sortant. Lumière de l'heure dorée, format 16:9.

Source des images non attribuées et référence : https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Cet article provient du compte WeChat officiel « APPSO », auteur : Découvrir les produits de demain

Cryptos en tendance

Questions liées

QQu'est-ce que le GPT Image 2 et pourquoi est-il significatif ?

ALe GPT Image 2 est un modèle de génération d'images par IA, présumé être le successeur des modèles DALL-E d'OpenAI. Il est significatif car il surpasse considérablement ses prédécesseurs et les concurrents comme Midjourney et Nano Banana Pro dans des domaines clés comme le rendu du texte, le suivi des instructions, le réalisme photographique et la connaissance du monde. Sa fuite a suscité beaucoup d'attention en raison de ses capacités avancées.

QEn quoi le GPT Image 2 change-t-il la perception des captures d'écran comme preuve ?

ALe GPT Image 2 peut générer des images de faux documents (comme des cartes d'identité) et des interfaces utilisateur (comme des pages de tarification ou des captures d'écran d'applications) d'un réalisme si convaincant qu'il devient extrêmement difficile de distinguer le vrai du faux. Cette capacité remet en cause la fiabilité des captures d'écran en tant que preuve, car elles peuvent désormais être facilement falsifiées.

QQuels sont les avantages pratiques du GPT Image 2 pour les créateurs et les concepteurs ?

APour les créateurs et les concepteurs, le GPT Image 2 offre des avantages significatifs : il permet de générer rapidement des maquettes d'interface utilisateur réalistes pour des prototypes, de créer des visuels pour des présentations ou de la documentation sans avoir besoin de captures d'écran réelles, et de produire des images de produits avec un texte et des étiquettes parfaitement rendus, ce qui accélère considérablement le flux de travail.

QComment le GPT Image 2 se compare-t-il à d'autres modèles comme Midjourney et Nano Banana Pro ?

ASelon les tests et les fuites, le GPT Image 2 surpasse à la fois Midjourney et le Nano Banana Pro de Google dans plusieurs domaines critiques. Il est supérieur dans le rendu du texte (y compris les caractères non latins comme le chinois), le réalisme photographique, le suivi des instructions et la connaissance du monde (comme la recréation précise d'interfaces logicielles familières). Midjourney conserve un avantage dans le contrôle du style artistique et de l'esthétique.

QOù et comment les utilisateurs peuvent-ils essayer le GPT Image 2 ?

AActuellement, le GPT Image 2 n'est pas officiellement publié. Il est en phase de test A/B, et certains utilisateurs de ChatGPT y ont un accès aléatoire. Les utilisateurs peuvent également tenter leur chance sur la plateforme d'évaluation LM Arena (https://arena.ai) où le modèle est parfois disponible. Son lancement officiel est prévu autour du 12 mai 2026, date à laquelle les services DALL-E 2 et DALL-E 3 seront interrompus.

Lectures associées

Derrière le bulletin de notes de l'IA, se cache un « examinateur » chinois

À chaque publication d'un modèle d'IA de pointe, l'attention se porte sur des "bulletins de notes" bien connus comme MMLU-Pro, MMMU et MMMU-Pro. Ces benchmarks sont devenus les épreuves standard pour évaluer et comparer les capacités des grands modèles de langage et multimodaux. Derrière ces outils d'évaluation influents se trouve Chen Wenhu, professeur assistant à l'Université de Waterloo. Face à l'obsolescence d'anciens benchmarks comme le MMLU original, où les modèles atteignaient des scores quasi parfaits, Chen et son équipe ont créé MMLU-Pro. Cette nouvelle "feuille d'examen", plus difficile avec plus de choix et des questions nécessitant un raisonnement, permet de mieux différencier les performances des modèles. Dans le domaine multimodal, leur benchmark MMMU, et sa version améliorée MMMU-Pro, évaluent la capacité des modèles à comprendre et raisonner à partir d'informations complexes combinant texte, images, tableaux, etc., comme dans des problèmes universitaires. Chen, dont les recherches portent sur la compréhension d'informations complexes, a travaillé chez Google DeepMind sur Gemini avant de fonder le TIGERLab. Son équipe développe également des modèles (comme UniVideo pour la vidéo), une expérience qui l'aide à concevoir de meilleures évaluations. Il travaille désormais au sein du laboratoire Superintelligence de Meta sur les données et l'évaluation multimodales. Son parcours illustre le rôle crucial, bien que moins médiatisé, des chercheurs qui conçoivent les outils permettant de mesurer objectivement les progrès de l'IA.

marsbitIl y a 8 mins

Derrière le bulletin de notes de l'IA, se cache un « examinateur » chinois

marsbitIl y a 8 mins

STRC se détache de 11%, le moteur perpétuel de Strategy peut-il encore tourner ?

Le titre préférentiel STRC de MicroStrategy connaît une dépréciation persistante, s'éloignant de plus de 11% de sa valeur nominale cible de 100 USD. Cette situation remet en question le mécanisme central conçu pour maintenir le titre autour de cette valeur via un ajustement dynamique des dividendes, actuellement portés à 11.5% sans effet correctif. STRC est le moteur du modèle de financement de MicroStrategy, permettant des émissions via un programme ATM pour lever des fonds et acheter du Bitcoin, sans dilution des actions ordinaires. Son ancrage à 100 USD est crucial pour le bon fonctionnement de cette "roue financière". Les raisons de cette déviation incluent des liquidations en cascade de positions à effet de levier et, plus fondamentalement, des inquiétudes sur la liquidité de l'entreprise. Un rapport de JPMorgan a souligné que ses réserves de trésorerie ne couvriraient que ~6 mois de paiements de dividendes prioritaires. Bien que MicroStrategy affirme que son trésor Bitcoin pourrait couvrir 32 ans de dividendes, cela supposerait de vendre des actifs, brisant ainsi un récit d'investissement à long terme. La première vente minime de Bitcoin par l'entreprise en juin a accentué ces craintes. Une dépréciation prolongée de STRC affaiblirait la capacité de financement de MicroStrategy. Si ses réserves de trésorerie diminuaient, la peur qu'elle doive vendre du Bitcoin pour honorer ses obligations pourrait s'intensifier, transformant potentiellement cet acheteur majeur du marché en vendeur, avec des conséquences significatives pour le prix du Bitcoin.

Odaily星球日报Il y a 21 mins

STRC se détache de 11%, le moteur perpétuel de Strategy peut-il encore tourner ?

Odaily星球日报Il y a 21 mins

Un nouveau poste très convoité fait son apparition dans la Silicon Valley

Au cours des trois dernières années, le rôle le plus recherché dans l’IA, celui de scientifique des modèles, est en train d’être supplanté par une nouvelle fonction critique : le Forward Deployment Engineer (FDE), ou ingénieur de déploiement sur le terrain. Les géants comme OpenAI, Anthropic et Google recrutent désormais massivement ces profils, chargés de se rendre chez les clients pour intégrer l’IA dans leurs processus métier réels. Le constat est clair : le problème n’est plus la puissance des modèles, mais leur adoption par les entreprises. Beaucoup ont acheté des solutions d’IA, mais peu les utilisent efficacement en raison de difficultés organisationnelles – données cloisonnées, flux de travail rigides, enjeux de conformité et résistances culturelles. Comme l’a montré Palantir il y a des années, déployer un outil puissant ne suffit pas ; il faut comprendre l’organisation cliente et adapter la technologie à son contexte. En mai 2026, ce virage s’est accéléré : Anthropic, OpenAI et Google ont tous lancé des initiatives massives (investissements, créations d’entités dédiées, recrutements de centaines de FDE) pour aider les entreprises à déployer l’IA. Leur objectif n’est plus de simplement vendre un outil, mais de garantir un résultat opérationnel. Les FDE combinent des compétences techniques et une forte aptitude relationnelle. Leurs défis majeurs sont souvent organisationnels : contourner les résistances internes, redéfinir les responsabilités et faire évoluer les cultures d’entreprise, comme l’ont illustré les expériences chez Goldman Sachs ou Target. En résumé, l’essor des FDE marque un tournant pour l’industrie de l’IA : la phase de fascination technologique laisse place à la bataille, autrement plus complexe, de l’intégration et du changement organisationnel. La révolution de l’IA se joue désormais moins dans les laboratoires que sur le terrain, au cœur des entreprises.

marsbitIl y a 21 mins

Un nouveau poste très convoité fait son apparition dans la Silicon Valley

marsbitIl y a 21 mins

Quand la Coupe du Monde rencontre l'Agent : du Web2 au Web3, comment les portefeuilles évoluent-ils vers l'Agentic Wallet ?

La Coupe du Monde est un scénario idéal pour observer l'évolution des portefeuilles numériques. Alors que les marchés de prédiction comme Polymarket transforment les discussions des supporters en actions commerciales, un changement plus profond se dessine avec l'entrée des agents IA dans l'écosystème des portefeuilles Web3. L'expérience menée par imToken lors de la Coupe du Monde illustre cette transition. En intégrant un agent IA dans une page web et sur Discord, il permet aux utilisateurs de participer aux marchés de prédiction en exprimant simplement leur intention en langage naturel, sans avoir à naviguer manuellement dans une application de portefeuille ou une dApp. L'agent décompose l'intention de l'utilisateur en une série d'étapes, le guidant de manière transparente vers l'exécution sur la blockchain. Cela marque un passage d'un portefeuille comme simple "menu de fonctions" à un "interprète d'intentions". L'entrée du portefeuille se déplace ainsi vers des interfaces plus légères et contextuelles (web, messagerie, etc.). Ce mouvement vers le "portefeuille agentique" (Agentic Wallet) trouve un écho dans la finance traditionnelle, avec des initiatives comme "Agent Pay" de Mastercard, qui cadre l'autorisation et les limites des paiements effectués par des IA. Cependant, la spécificité du Web3 réside dans l'auto-garde des actifs et l'irréversibilité des transactions. Par conséquent, le défi principal pour les portefeuilles agentiques n'est pas l'automatisation, mais la définition de frontières claires. La clé est de permettre aux utilisateurs de comprendre et de contrôler les actions de l'agent : qui il est, quels pouvoirs il a, pour combien de temps, avec quelles limites de fonds, et avec la capacité de le suspendre à tout moment. L'exploration autour d'événements comme la Coupe du Monde sert de point d'entrée pour construire cette relation de confiance, où le portefeuille reste le gardien final de la sécurité de l'utilisateur dans un monde d'interactions simplifiées par l'IA.

marsbitIl y a 1 h

Quand la Coupe du Monde rencontre l'Agent : du Web2 au Web3, comment les portefeuilles évoluent-ils vers l'Agentic Wallet ?

marsbitIl y a 1 h

Les options ne fonctionnent pas dans la DeFi ? Vitalik pourrait ne pas être d'accord

Le DeFi a longtemps eu du mal à intégrer les options en tant que produit grand public, en raison de leur complexité et d'un manque de liquidité. Cependant, une récente proposition de Vitalik explore une nouvelle voie : utiliser les options non pas comme un produit à trader, mais comme infrastructure sous-jacente pour d'autres actifs, comme les stablecoins algorithmiques. Son concept décompose 1 ETH en deux droits : un côté "stable" (P), qui conserve sa valeur jusqu'à un prix d'exercice défini, et un côté "hausier" (N), qui capture les gains au-delà. Ensemble, ils équivalent toujours à 1 ETH, éliminant ainsi les risques de liquidation typiques des stablecoins à garantie. Ce côté stable fonctionne comme un call couvert synthétique, offrant une stabilité tant que le prix reste au-dessus du strike. Le défi majeur est que pour maintenir cette stabilité, l'option doit être constamment renouvelée ("rollée") avec un prix d'exercice profondément dans la monnaie, ce qui entraîne des risques de slippage et de front-running. De plus, le système dépend de la présence continue d'acheteurs pour le côté haussier N, qui représente un levier sur ETH sans financement ni liquidation. Trouver une demande naturelle et durable pour cette exposition est crucial pour l'expansion. L'expérience de Rysk montre que les options peinent à percer en tant que produit de trading direct. En revanche, intégrées dans la couche de base de produits plus complexes (stablecoins, produits à rendement structuré, indices), elles peuvent devenir un moteur essentiel pour la tarification et la répartition des risques. L'avenir des options en DeFi réside peut-être dans leur rôle d'infrastructure financière fondamentale, plutôt que de produit final.

marsbitIl y a 2 h

Les options ne fonctionnent pas dans la DeFi ? Vitalik pourrait ne pas être d'accord

marsbitIl y a 2 h

Trading

Spot
Futures

Articles tendance

Comment acheter BANANA

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Banana Gun (BANANA) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Banana Gun (BANANA).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Banana Gun (BANANA)Après avoir acheté vos Banana Gun (BANANA), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Banana Gun (BANANA)Tradez facilement Banana Gun (BANANA) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

166 vues totalesPublié le 2024.12.11Mis à jour le 2026.06.02

Comment acheter BANANA

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de BANANA (BANANA) sont présentées ci-dessous.

活动图片