Un modèle de génération d'images plus populaire que Nano Banana a fuité, les captures d'écran ne sont plus des preuves | Inclut les prompts

marsbit2026-04-19 tarihinde yayınlandı2026-04-19 tarihinde güncellendi

Özet

Un nouveau modèle de génération d'image, potentiellement GPT Image 2 d'OpenAI, a fuité et surpasse les modèles précédents comme Nano Banana de Google. Sa principale avancée réside dans le rendu parfait du texte, y compris les caractères chinois, permettant de créer des images réalistes de documents, d'interfaces utilisateur et d'écrans avec un texte précis. Cette capacité remet en cause la fiabilité des captures d'écran comme preuve. Le modèle excelle également dans le réalisme photographique, le suivi des instructions et la connaissance du monde, générant des interfaces qui semblent authentiques. Il ouvre de nouvelles possibilités pour les designers et les créateurs de contenu. Actuellement en test A/B, son lancement officiel est prévu autour de mai 2026. Des invites spécifiques sont partagées pour maximiser son potentiel.

Votre impression de la génération d'images à partir de texte est-elle encore à l'ère de Nano Banana ?

Mais mon enfant, les temps ont encore changé.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Début avril, trois modèles d'image anonymes, portant les noms de code maskingtape-alpha, packingtape-alpha et gaffertape-alpha, sont apparus sur la plateforme d'évaluation LM Arena. Ils ont disparu quelques heures plus tard.

OpenAI n'a pas officiellement annoncé ce modèle, mais selon les métadonnées renvoyées par l'API et les enregistrements de tests des utilisateurs, il a déjà un nom largement accepté : GPT Image 2.

Les captures d'écran ne peuvent plus servir de preuve

Ces dernières années, l'un des points faibles les plus évidents des modèles de génération d'images par IA était le texte dans les images. À l'époque de DALL-E 3, si vous lui demandiez d'écrire « Hello » dans une image, vous pouviez obtenir « Hellp » ou même « Hl10 », les lettres penchant comme si elles étaient ivres. GPT Image 1 s'est beaucoup amélioré, capable de traiter des étiquettes anglaises simples. Avec GPT Image 1.5, la précision du rendu des textes anglais approchait déjà les 95 %, mais des défauts importants subsistaient pour les systèmes d'écriture non latins comme le chinois, le japonais, le coréen, etc.

Les échantillons divulgués de GPT Image 2 ont changé cette impression.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Le texte dans l'image est ce qu'il doit être. Le chinois est clair, la forme des caractères est précise, les traits sont complets. Quelqu'un a testé la génération d'une image de type carte d'identité : le nom, l'adresse, le numéro de pièce d'identité étaient tous rendus correctement, la mise en page était régulière, ressemblant à première vue à une photo d'un document réel.

C'est une bonne nouvelle. Les progrès dans le rendu du texte signifient que la génération d'infographies, d'affiches, d'emballages de produits, de graphiques à la mise en page complexe devient plus fiable.

Mais il y a toujours un revers à la médaille. Un modèle capable de générer des images de type document d'identité trompeusement réalistes, de rendre précisément des captures d'écran d'interface utilisateur, rend naturellement de plus en plus suspecte l'idée que « les captures d'écran peuvent servir de preuve ».

En comparaison, c'est aussi la différence centrale entre la série GPT Image et les autres modèles. Midjourney n'a jusqu'à présent fait de progrès dans le rendu du texte, la série Stable Diffusion a aussi ce vieux problème. Selon les résultats de test divulgués d'Arena, GPT Image 2 dépasse Midjourney sur quatre dimensions : rendu du texte, suivi des instructions, réalisme photographique et connaissance du monde, l'avantage de ce dernier restant principalement dans le style artistique et le contrôle esthétique.

Savez-vous vraiment à quoi ressemble ce monde ?

Un testeur a demandé au modèle de générer une page de tarification hypothétique pour un produit GPT-8. L'image résultante avait une mise en page dans le style du site web d'OpenAI, la position des boutons et le choix des polices semblaient être tirés d'une interface réelle, la logique hiérarchique du tableau des prix était correcte.

GPT Image 2 peut générer des images extrêmement similaires à des interfaces logicielles réelles, y compris des fenêtres de navigateur, des interfaces d'applications mobiles, des graphiques de visualisation de données, avec une fidélité que la génération précédente ne pouvait égaler.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Cela apportera des utilisations pratiques très intéressantes. Les designers, lors de la création de maquettes de produits, n'auront pas besoin d'ouvrir d'abord Figma pour dessiner un tas de cadres ; ils pourront directement décrire l'interface souhaitée avec du texte, et le résultat sera une image de référence utilisable pour discuter avec l'équipe. Lors de la création d'un Deck pour investisseurs, il sera possible de montrer une « capture d'écran du produit » sans attendre que l'ingénieur écrive le code. Lors de la rédaction de documentation, les exemples d'interface pour illustrer le propos pourront être générés directement, sans avoir à réfléchir à l'endroit où trouver une capture d'écran face à une page blanche.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

La génération d'images n'est déjà plus seulement de la « génération d'images »

OpenAI a déjà annoncé que DALL-E 2 et DALL-E 3 cesseront officiellement leur service le 12 mai 2026. Le DALL-E 3 d'Azure OpenAI a déjà pris sa retraite anticipée en février.

DALL-E a été le premier contact de beaucoup avec la génération d'images par IA, il ne s'est écoulé que quelques années depuis ces premières œuvres floues jusqu'à aujourd'hui.

Parallèlement, Google, qui venait juste d'établir sa position dans l'industrie début 2026 avec Nano Banana Pro, pourrait ressentir la pression. Les premiers rapports de test indiquent que GPT Image 2 surpasse Nano Banana Pro sur trois dimensions simultanément : le réalisme, le rendu du texte et la connaissance du monde, un triple succès peu commun.

Pour les créateurs, les sentiments sont mitigés. Illustrateurs, designers graphiques, photographes, ce n'est pas la première fois qu'ils sont confrontés à ce sujet. Depuis la sortie de GPT Image 1, le nombre de postes de designers graphiques indépendants a diminué d'environ 18 %. L'IA a effectivement remplacé, dans certains scénarios, la décision « je veux embaucher quelqu'un pour faire cela », mais elle crée aussi de nouvelles façons de travailler, permettant à une personne de faire plus de choses.

La vitesse d'évolution des modèles de génération d'images ne laisse déjà plus beaucoup de temps d'adaptation. GPT Image 1 est passé de la mise en ligne à la version 1.5 en quelques mois seulement. De la version 1.5 à la 2, à peine six mois. Chaque génération résout les principaux défauts de la précédente tout en ouvrant de nouvelles possibilités.

GPT Image 2 est actuellement en phase de test A/B, certains utilisateurs de ChatGPT ont déjà obtenu un accès aléatoire. La fenêtre de publication officielle est généralement prévue autour de mai, autour de la retraite de DALL-E. Pour une expérience anticipée, vous pouvez actuellement tenter votre chance sur la plateforme d'évaluation LM Arena.

Adresse de test : https://arena.ai

Selon les retours de la communauté et les avantages connus de ce modèle, les modèles de prompts suivants peuvent maximiser vos chances de succès :

Prompt d'interface utilisateur/capture d'écran : Une capture d'écran photoréaliste d'une application bancaire mobile, affichant clairement un historique de transactions, avec la date, le montant et le nom du commerçant clairement discernables. Écran d'iPhone 16, téléphone tenu naturellement en main, arrière-plan de café.

Prompt d'étiquette de produit : Une photo de produit photoréaliste d'une bouteille de bière artisanale, les détails de l'étiquette sont clairs, affichant le nom de la brasserie « Oakridge Brewing Co. », le degré d'alcool 6.8 %, un logo montagne et la liste des ingrédients. Éclairage en studio, fond blanc.

Prompt de signalisation : Une photo de rue d'une ruelle de Tokyo de nuit, visiblement de multiples enseignes au néon bilingues japonais-anglais, incluant une enseigne de restaurant de ramen portant « Ichiban Ramen — Est. 1987 », une enseigne de bar karaoké et diverses publicités lumineuses. Le trottoir est lisse et humide après la pluie, reflétant les lumières.

Prompt de connaissance de l'interface/du monde : Une capture d'écran photoréaliste d'une vidéo YouTube, montrant une vidéo intitulée « Comment assembler un ordinateur en 2026 », cette vidéo a 2,3 millions de vues, avec des commentaires réalistes, des vidéos recommandées dans la barre latérale et des informations sur la chaîne. Vue navigateur de bureau.

Prompt déclencheur grand écran : C'est une photo cinématographique au format large, capturant l'apparence d'un magasin Ikea au crépuscule, montrant l'enseigne Ikea lumineuse, des voitures réalistes sur le parking et des clients entrant et sortant. Lumière de l'heure dorée, format 16:9.

Source des images non attribuées et référence : https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Cet article provient du compte WeChat officiel « APPSO », auteur : Découvrir les produits de demain

Trend Kriptolar

İlgili Sorular

QQu'est-ce que le GPT Image 2 et pourquoi est-il significatif ?

ALe GPT Image 2 est un modèle de génération d'images par IA, présumé être le successeur des modèles DALL-E d'OpenAI. Il est significatif car il surpasse considérablement ses prédécesseurs et les concurrents comme Midjourney et Nano Banana Pro dans des domaines clés comme le rendu du texte, le suivi des instructions, le réalisme photographique et la connaissance du monde. Sa fuite a suscité beaucoup d'attention en raison de ses capacités avancées.

QEn quoi le GPT Image 2 change-t-il la perception des captures d'écran comme preuve ?

ALe GPT Image 2 peut générer des images de faux documents (comme des cartes d'identité) et des interfaces utilisateur (comme des pages de tarification ou des captures d'écran d'applications) d'un réalisme si convaincant qu'il devient extrêmement difficile de distinguer le vrai du faux. Cette capacité remet en cause la fiabilité des captures d'écran en tant que preuve, car elles peuvent désormais être facilement falsifiées.

QQuels sont les avantages pratiques du GPT Image 2 pour les créateurs et les concepteurs ?

APour les créateurs et les concepteurs, le GPT Image 2 offre des avantages significatifs : il permet de générer rapidement des maquettes d'interface utilisateur réalistes pour des prototypes, de créer des visuels pour des présentations ou de la documentation sans avoir besoin de captures d'écran réelles, et de produire des images de produits avec un texte et des étiquettes parfaitement rendus, ce qui accélère considérablement le flux de travail.

QComment le GPT Image 2 se compare-t-il à d'autres modèles comme Midjourney et Nano Banana Pro ?

ASelon les tests et les fuites, le GPT Image 2 surpasse à la fois Midjourney et le Nano Banana Pro de Google dans plusieurs domaines critiques. Il est supérieur dans le rendu du texte (y compris les caractères non latins comme le chinois), le réalisme photographique, le suivi des instructions et la connaissance du monde (comme la recréation précise d'interfaces logicielles familières). Midjourney conserve un avantage dans le contrôle du style artistique et de l'esthétique.

QOù et comment les utilisateurs peuvent-ils essayer le GPT Image 2 ?

AActuellement, le GPT Image 2 n'est pas officiellement publié. Il est en phase de test A/B, et certains utilisateurs de ChatGPT y ont un accès aléatoire. Les utilisateurs peuvent également tenter leur chance sur la plateforme d'évaluation LM Arena (https://arena.ai) où le modèle est parfois disponible. Son lancement officiel est prévu autour du 12 mai 2026, date à laquelle les services DALL-E 2 et DALL-E 3 seront interrompus.

İlgili Okumalar

No Sales Team, $20 Million in Revenue: How Did AI Employee Viktor Win Over 30,000 Companies?

The AI employee Viktor, developed by a team with DeepMind background, has achieved $20 million in annual revenue without a traditional sales team, serving over 30,000 companies. Its core innovation lies in positioning itself as a "Tier 3 AI Coworker" capable of "end-to-end execution and delivery of results," moving beyond the "draft and wait for human completion" model of typical AI assistants. Users can simply mention Viktor in Slack or Microsoft Teams using natural language commands, and it autonomously performs tasks like pulling sales data from a CRM, generating reports, or even cross-tool operations like creating board meeting PPTs by aggregating data from six different sources. Key to its growth is a pure Product-Led Growth (PLG) model, eliminating complex implementation cycles and per-seat licensing. Instead, it charges based on task credits or consumption, lowering the trial barrier with a $100 free credit offer and no credit card required. This enabled viral, bottom-up adoption within organizations. Viktor's interaction paradigm removes the barrier of prompt engineering, allowing non-technical employees to delegate complex workflows seamlessly. It also features proactive, automated task execution (e.g., overnight bookkeeping, scheduled reports) based on triggers, effectively embedding AI as an automated "process layer" within business operations. However, its expansion into Microsoft Teams—a platform with 320 million users—highlights challenges. Large enterprises require stringent IT compliance, security reviews (e.g., SOC 2), and governance, potentially hindering the frictionless, user-driven adoption that succeeded in Slack. Additionally, the "black box" nature of its autonomous decision-making raises concerns about operational risks, data integrity, and the need for robust audit logs and permission controls. Balancing efficiency gains with security and trust remains a critical hurdle for Viktor and similar AI agents aiming to become core enterprise infrastructure.

marsbit2 saat önce

No Sales Team, $20 Million in Revenue: How Did AI Employee Viktor Win Over 30,000 Companies?

marsbit2 saat önce

İşlemler

Spot
Futures

Popüler Makaleler

BANANA Nasıl Satın Alınır

HTX.com’a hoş geldiniz! Banana Gun (BANANA) satın alma işlemlerini basit ve kullanışlı bir hâle getirdik. Adım adım açıkladığımız rehberimizi takip ederek kripto yolculuğunuza başlayın. 1. Adım: HTX Hesabınızı OluşturunHTX'te ücretsiz bir hesap açmak için e-posta adresinizi veya telefon numaranızı kullanın. Sorunsuzca kaydolun ve tüm özelliklerin kilidini açın. Hesabımı Aç2. Adım: Kripto Satın Al Bölümüne Gidin ve Ödeme Yönteminizi SeçinKredi/Banka Kartı: Visa veya Mastercard'ınızı kullanarak anında Banana Gun (BANANA) satın alın.Bakiye: Sorunsuz bir şekilde işlem yapmak için HTX hesap bakiyenizdeki fonları kullanın.Üçüncü Taraflar: Kullanımı kolaylaştırmak için Google Pay ve Apple Pay gibi popüler ödeme yöntemlerini ekledik.P2P: HTX'teki diğer kullanıcılarla doğrudan işlem yapın.Borsa Dışı (OTC): Yatırımcılar için kişiye özel hizmetler ve rekabetçi döviz kurları sunuyoruz.3. Adım: Banana Gun (BANANA) Varlıklarınızı SaklayınBanana Gun (BANANA) satın aldıktan sonra HTX hesabınızda saklayın. Alternatif olarak, blok zinciri transferi yoluyla başka bir yere gönderebilir veya diğer kripto para birimlerini takas etmek için kullanabilirsiniz.4. Adım: Banana Gun (BANANA) Varlıklarınızla İşlem YapınHTX'in spot piyasasında Banana Gun (BANANA) ile kolayca işlemler yapın.Hesabınıza erişin, işlem çiftinizi seçin, işlemlerinizi gerçekleştirin ve gerçek zamanlı olarak izleyin. Hem yeni başlayanlar hem de deneyimli yatırımcılar için kullanıcı dostu bir deneyim sunuyoruz.

171 Toplam GörüntülenmeYayınlanma 2024.12.11Güncellenme 2026.06.02

BANANA Nasıl Satın Alınır

Tartışmalar

HTX Topluluğuna hoş geldiniz. Burada, en son platform gelişmeleri hakkında bilgi sahibi olabilir ve profesyonel piyasa görüşlerine erişebilirsiniz. Kullanıcıların BANANA (BANANA) fiyatı hakkındaki görüşleri aşağıda sunulmaktadır.

活动图片