The Image Generation Model That's Hotter Than Nano Banana Has Leaked, Screenshots Are No Longer Evidence | Includes Prompts

marsbitPublié le 2026-04-19Dernière mise à jour le 2026-04-19

Résumé

A new AI image generation model, widely referred to as "GPT Image 2," has been leaked and is demonstrating significant advancements over predecessors like DALL-E 3 and even Google's Nano Banana Pro. It excels in four key areas: text rendering, prompt adherence, photorealism, and world knowledge. The model can generate highly accurate text in multiple languages, including complex Chinese characters, making it capable of producing convincing fake documents, UI screenshots, and product labels. This capability also raises concerns about the reliability of using screenshots as evidence. The model is currently in A/B testing, with a full release expected around May 2026 when DALL-E services are officially retired. It is accessible for testing on the LM Arena platform. The article includes several prompt templates optimized for the model, such as generating realistic app screenshots, product photos with detailed labels, and street scenes with accurate signage. This advancement is reshaping creative workflows but also accelerating the displacement of some traditional design roles.

Is your impression of text-to-image still stuck on Nano Banana?

But kid, times have changed again.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

In early April, three anonymous image models, codenamed maskingtape-alpha, packingtape-alpha, and gaffertape-alpha, appeared on the LM Arena evaluation platform. They disappeared a few hours later.

OpenAI has not officially announced this model yet, but based on the metadata returned by the API and user-side testing records, it has already gained a widely accepted name: GPT Image 2.

Screenshots Can No Longer Be Used as Evidence

Over the past few years, one of the most obvious weaknesses of AI image generation models has been text within images. In the DALL-E 3 era, if you asked it to write "Hello" in an image, it might output "Hellp" or even "Hl10", with letters tilting drunkenly. GPT Image 1 improved a lot, handling simple English labels. By GPT Image 1.5, its accuracy in rendering English text was close to 95%, but it still had significant flaws with non-Latin scripts like Chinese, Japanese, and Korean.

But the leaked sample images from GPT Image 2 have changed this impression.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

The text in the images is exactly what it should be. Chinese characters are clear, with accurate glyphs and complete strokes. Someone tested generating an ID card-style image, where the name, address, and ID number were all rendered correctly, with neat formatting, looking at first glance like a photo of a real document.

This is good news. The improvement in text rendering means generating infographics, posters, product packaging, and complex charts becomes more reliable.

But there's always another side to the coin. A model that can generate photo-realistic ID-style images and precisely render UI screenshots naturally makes "screenshots can be used as evidence" increasingly questionable.

By comparison, this is also a core difference between the GPT Image series and other models. Midjourney still has no progress in text rendering, and the Stable Diffusion series also has this old problem. According to the leaked Arena test results, GPT Image 2 surpassed Midjourney in four dimensions: text rendering, instruction following, photorealism, and world knowledge. Midjourney's advantages are mainly retained in artistic style and aesthetic control.

Does It Really Know What the World Looks Like?

A tester asked the model to generate a hypothetical GPT-8 product pricing page. The resulting image had a layout that was indeed in the style of the OpenAI website, with button placement and font choices resembling those from a real interface, and the hierarchical logic of the price table was correct.

GPT Image 2 can generate images extremely similar to real software interfaces, including browser windows, mobile app interfaces, and data visualization charts, with a level of fidelity unmatched by the previous generation.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

This will lead to some very interesting practical uses. When designers are creating product prototypes, they don't need to open Figma first and draw a bunch of wireframes; they can directly describe the desired interface in text, and the output is a reference image that can be used for team discussions. When creating investor decks, they can show a "product screenshot" without waiting for an engineer to write code. When writing documentation, example interface images for illustration can be generated directly, without having to think about where to find screenshots for a blank page.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Image Generation Is No Longer Just "Image Generation"

OpenAI has already announced that DALL-E 2 and DALL-E 3 will officially cease service on May 12, 2026. Azure OpenAI's DALL-E 3 was retired early in February.

DALL-E was the first place many people encountered AI image generation, from those blurry early works to today, in just a few short years.

Meanwhile, Google, which had just established its industry position with Nano Banana Pro in early 2026, might feel the pressure. Early test reports indicate that GPT Image 2 simultaneously surpasses Nano Banana Pro in three dimensions: realism, text rendering, and world knowledge. This kind of triple win is not common.

For creators, the feeling is complex. Illustrators, graphic designers, and photographers are not facing this topic for the first time. Since the release of GPT Image 1, the number of freelance graphic design positions has decreased by about 18%. AI has indeed replaced the decision to "hire someone to do this" in certain scenarios, but it is also creating new ways of working, allowing one person to do more.

The evolution speed of image generation models no longer leaves much time for adaptation. It was only a few months from GPT Image 1's launch to version 1.5. And from 1.5 to 2, it's only been about half a year. Each generation solves the core shortcomings of the previous one while opening up new possibilities.

GPT Image 2 is currently still in the A/B testing phase, with some ChatGPT users randomly gaining access. The official release window is widely predicted to be around May, coinciding with the retirement of DALL-E. If you want to experience it early, you can currently try your luck on the LM Arena evaluation platform.

Test Address: https://arena.ai

Based on community feedback and the known strengths of this model, the following prompt templates can maximize your chances of success:

UI/Screenshot Prompt: A photorealistic screenshot of a mobile banking app, clearly showing transaction history with dates, amounts, and merchant names legible. iPhone 16 screen, natural hand holding the phone, coffee shop background.

Product Label Prompt: A photographic product photo of a craft beer bottle, with clear label details showing the brewery name "Oakridge Brewing Co.", alcohol content 6.8%, a mountain logo, and an ingredient list. Studio lighting, white background.

Signage Prompt: A street scene photo of a Tokyo alley at night, showing multiple neon signs in both Japanese and English, including a ramen shop sign reading "Ichiban Ramen — Est. 1987", a karaoke bar sign, and various glowing advertisements. Wet, reflective pavement with light reflections.

Interface/World Knowledge Prompt: A photorealistic YouTube video screenshot showing a video titled "How to Assemble a Computer in 2026" with 2.3 million views, featuring realistic comments, sidebar video recommendations, and channel info. Desktop browser view.

Widescreen Trigger Prompt: A cinematic widescreen photo of an IKEA store exterior at dusk, showing the glowing IKEA sign, a parking lot with realistic cars, and shoppers entering and leaving. Golden hour lighting, 16:9 format.

Unattributed image sources and references: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

This article is from the WeChat public account "APPSO", author: Discovering Tomorrow's Products

Cryptos en tendance

Questions liées

QWhat is the name of the leaked image generation model mentioned in the article, and what is its significance?

AThe leaked model is referred to as GPT Image 2. Its significance lies in its dramatic improvement in text rendering accuracy, especially for non-Latin scripts like Chinese, and its ability to generate highly realistic images, including convincing UI screenshots and document-style images, which challenges the reliability of screenshots as evidence.

QHow does GPT Image 2's performance compare to other models like Midjourney and Google's Nano Banana Pro?

AAccording to the article, GPT Image 2 outperforms Midjourney in text rendering, prompt following, photorealism, and world knowledge, with Midjourney retaining an advantage mainly in artistic style and aesthetic control. It also reportedly surpasses Google's Nano Banana Pro in realism, text rendering, and world knowledge.

QWhat are some of the potential practical applications of GPT Image 2's capabilities?

APotential applications include generating product prototypes and UI mockups for designers, creating realistic 'screenshots' for investor decks without coding, producing example interface images for documentation, and generating accurate product labels, packaging, and information graphics.

QWhat major change is OpenAI making to its image generation services in relation to this new model?

AOpenAI has announced that DALL-E 2 and DALL-E 3 will officially stop service on May 12, 2026, with Azure's DALL-E 3 having already been retired in February. This suggests a transition to the new GPT Image model series.

QWhere can users currently try to access or test the GPT Image 2 model, and what is a recommended strategy for getting good results?

AThe model is currently in A/B testing, with some ChatGPT users randomly gaining access. Users can also try their luck on the LM Arena评测平台 (arena.ai). The article recommends using specific, detailed prompt templates focused on UI/screenshots, product labels, signage, interface/world knowledge, and widescreen formats to maximize success.

Lectures associées

La Corée du Sud se prépare à réguler les transferts cryptographiques transfrontaliers dans le cadre d'un nouveau système

La Corée du Sud prévoit d'inclure les entreprises de fintech dans son nouveau cadre d'autorisation pour les transferts d'actifs virtuels, qui doit entrer en vigueur en décembre. Cette décision suit l'introduction d'une période de grâce de six mois dans l'amendement de la loi sur les transactions de change. À partir de décembre, les entreprises effectuant des transferts transfrontaliers via des actifs virtuels devront s'enregistrer auprès du ministère de l'Économie et des Finances et déclarer leurs transactions via le système de déclaration des changes coréen. Ce cadre réglementaire vise à placer ces transferts sous surveillance officielle, les autorités ayant constaté que de nombreux transferts d'actifs numériques échappaient au contrôle des changes, présentant des risques de blanchiment d'argent et d'activités criminelles. Initialement, les règles s'appliquaient principalement aux plateformes d'échange de cryptomonnaies. Cependant, les régulateurs sud-coréens envisagent désormais d'élargir le champ des entités éligibles pour inclure des acteurs non traditionnels, comme les fintechs, si elles peuvent effectuer ces transferts de manière efficace. Le ministère et la Banque de Corée collaborent avec les acteurs du secteur pour finaliser les règles d'application avant le lancement en décembre. Cette initiative s'inscrit dans un contexte plus large de renforcement de la supervision des actifs numériques par la Corée du Sud, qui travaille également sur une réglementation pour les produits financiers tokenisés.

TheNewsCryptoIl y a 1 h

La Corée du Sud se prépare à réguler les transferts cryptographiques transfrontaliers dans le cadre d'un nouveau système

TheNewsCryptoIl y a 1 h

Microsoft identifie un nouveau logiciel malveillant ciblant les adresses de portefeuille et les clés privées

En février 2026, Microsoft Threat Intelligence a découvert une nouvelle campagne de malware ciblant les cryptomonnaies, identifiée sous le nom de Trojan/CryptoBandits.A. Ce logiciel malveillant, propagé via des fichiers .lnk malveillants sur des clés USB, opère sans installer ni serveur de commande classique. Il utilise l'hôte de script Windows et une technologie ActiveX pour déployer un proxy Tor, permettant une connexion discrète aux serveurs des attaquants via un service caché Tor. Une fois installé, le malware déploie deux modules : l'un pour sa propagation et l'autre agissant comme un "clipper" et voleur d'informations. Il surveille en permanence le presse-papier pour y déceler des phrases de récupération (de 12 ou 24 mots), des clés privées Bitcoin/Ethereum et des adresses de portefeuille. Lorsqu'un utilisateur copie une adresse pour effectuer une transaction, le malware la remplace silencieusement par une adresse contrôlée par les attaquants. De plus, le malware capture des captures d'écran qu'il envoie via Tor, permettant aux cybercriminels d'évaluer les soldes et activités des victimes. Il dispose également de capacités d'exécution de code à distance et assure sa persistance via des tâches planifiées. Microsoft recommande aux organisations de désactiver l'exécution automatique, de restreindre les interpréteurs de script et les raccourcis exécutables depuis les périphériques USB, et de surveiller toute activité suspecte liée à l'exécution de JavaScript, aux proxys locaux (port 9050), ou à la surveillance du presse-papier. Cette campagne illustre l'adaptation continue des menaces à l'essor des cryptomonnaies.

TheNewsCryptoIl y a 1 h

Microsoft identifie un nouveau logiciel malveillant ciblant les adresses de portefeuille et les clés privées

TheNewsCryptoIl y a 1 h

Sans équipe commerciale, un chiffre d'affaires de 20 millions de dollars : comment Viktor, l'employé IA, a-t-il séduit 30 000 entreprises ?

Sans équipe commerciale, le produit Viktor, un « employé IA », génère 20 millions de dollars de revenus annuels auprès de plus de 30 000 entreprises. Fondé par une équipe issue de DeepMind, Viktor se présente comme un « collègue IA de niveau 3 » capable d'exécuter des tâches de bout en bout, et non un simple assistant. Son utilisation est simplifiée : via une mention @ dans Slack ou Microsoft Teams, les employés peuvent lui demander en langage naturel d'effectuer des tâches complexes, comme générer un rapport ou réaliser un rapprochement comptable, sans avoir besoin de maîtriser l'ingénierie des prompts. Le succès repose sur un modèle de croissance tiré par le produit (PLG) et une tarification basée sur la consommation de crédits pour les tâches, réduisant les coûts d'essai. Viktor permet également une automatisation proactive, exécutant des processus comme la génération de présentations en croisant plusieurs outils. Son intégration à Teams, avec 320 millions d'utilisateurs, marque une étape vers une adoption à grande échelle, mais soulève aussi des défis majeurs : la conformité dans les grandes entreprises, les risques d'erreur dus à la boîte noire des décisions de l'IA, et la nécessité de gagner la confiance via une gouvernance robuste (journaux d'audit, permissions). L'équilibre entre efficacité automatisée et contrôle restera crucial pour son adoption dans les flux métiers essentiels.

marsbitIl y a 2 h

Sans équipe commerciale, un chiffre d'affaires de 20 millions de dollars : comment Viktor, l'employé IA, a-t-il séduit 30 000 entreprises ?

marsbitIl y a 2 h

Entretien avec les cofondateurs de CoreWeave, « action liée à Nvidia » : La demande d'IA semble s'intensifier chaque jour

Interview des dirigeants de CoreWeave : La demande d'IA semble « s'intensifier » quotidiennement CoreWeave, leader des services cloud de nouvelle génération (neocloud), a récemment partagé ses perspectives sur le marché de l'infrastructure IA. Ses dirigeants, Brannin McBee et Nick Robbins, soulignent que la demande ne faiblit pas ; au contraire, elle s'accentue chaque jour, portée par l'essor des agents IA, du raisonnement et des applications d'inférence en entreprise. Ils observent un changement structurel : le goulot d'étranglement ne se limite plus aux GPU. L'attention se porte désormais sur des défis d'infrastructure plus larges : la disponibilité des centres de données (powered shells), l'approvisionnement en CPU, en mémoire HBM, en stockage, ainsi que les capacités d'exécution de la chaîne logistique. CoreWeave, qui sert des clients majeurs comme OpenAI, Anthropic et Meta, constate une demande croissante pour les CPU (notamment les futurs Vera CPU de NVIDIA) et le stockage, nécessitant une refonte des conceptions de data centers. La différenciation de CoreWeave réside dans son excellence opérationnelle, sa rapidité de déploiement et ses performances validées par des tiers. Son modèle commercial, basé sur des contrats à long terme, lui permet de protéger ses marges en répercutant les coûts des composants comme la mémoire HBM. Le déploiement à grande échelle des nouvelles plates-formes comme Vera Rubin (VR) devrait suivre un calendrier similaire à celui des systèmes GB200, avec une accélération majeure attendue en 2027. En résumé, la course à l'infrastructure IA évolue d'une simple acquisition de puces vers une capacité globale à livrer des systèmes complexes de manière fiable et à grande échelle.

marsbitIl y a 2 h

Entretien avec les cofondateurs de CoreWeave, « action liée à Nvidia » : La demande d'IA semble s'intensifier chaque jour

marsbitIl y a 2 h

Trading

Spot
Futures

Articles tendance

Comment acheter BANANA

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Banana Gun (BANANA) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Banana Gun (BANANA).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Banana Gun (BANANA)Après avoir acheté vos Banana Gun (BANANA), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Banana Gun (BANANA)Tradez facilement Banana Gun (BANANA) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

166 vues totalesPublié le 2024.12.11Mis à jour le 2026.06.02

Comment acheter BANANA

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de BANANA (BANANA) sont présentées ci-dessous.

活动图片