Un modèle de génération d'images plus populaire que Nano Banana a fuité, les captures d'écran ne sont plus des preuves | Inclut les prompts

marsbitXuất bản vào 2026-04-19Cập nhật gần nhất vào 2026-04-19

Tóm tắt

Un nouveau modèle de génération d'image, potentiellement GPT Image 2 d'OpenAI, a fuité et surpasse les modèles précédents comme Nano Banana de Google. Sa principale avancée réside dans le rendu parfait du texte, y compris les caractères chinois, permettant de créer des images réalistes de documents, d'interfaces utilisateur et d'écrans avec un texte précis. Cette capacité remet en cause la fiabilité des captures d'écran comme preuve. Le modèle excelle également dans le réalisme photographique, le suivi des instructions et la connaissance du monde, générant des interfaces qui semblent authentiques. Il ouvre de nouvelles possibilités pour les designers et les créateurs de contenu. Actuellement en test A/B, son lancement officiel est prévu autour de mai 2026. Des invites spécifiques sont partagées pour maximiser son potentiel.

Votre impression de la génération d'images à partir de texte est-elle encore à l'ère de Nano Banana ?

Mais mon enfant, les temps ont encore changé.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Début avril, trois modèles d'image anonymes, portant les noms de code maskingtape-alpha, packingtape-alpha et gaffertape-alpha, sont apparus sur la plateforme d'évaluation LM Arena. Ils ont disparu quelques heures plus tard.

OpenAI n'a pas officiellement annoncé ce modèle, mais selon les métadonnées renvoyées par l'API et les enregistrements de tests des utilisateurs, il a déjà un nom largement accepté : GPT Image 2.

Les captures d'écran ne peuvent plus servir de preuve

Ces dernières années, l'un des points faibles les plus évidents des modèles de génération d'images par IA était le texte dans les images. À l'époque de DALL-E 3, si vous lui demandiez d'écrire « Hello » dans une image, vous pouviez obtenir « Hellp » ou même « Hl10 », les lettres penchant comme si elles étaient ivres. GPT Image 1 s'est beaucoup amélioré, capable de traiter des étiquettes anglaises simples. Avec GPT Image 1.5, la précision du rendu des textes anglais approchait déjà les 95 %, mais des défauts importants subsistaient pour les systèmes d'écriture non latins comme le chinois, le japonais, le coréen, etc.

Les échantillons divulgués de GPT Image 2 ont changé cette impression.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Le texte dans l'image est ce qu'il doit être. Le chinois est clair, la forme des caractères est précise, les traits sont complets. Quelqu'un a testé la génération d'une image de type carte d'identité : le nom, l'adresse, le numéro de pièce d'identité étaient tous rendus correctement, la mise en page était régulière, ressemblant à première vue à une photo d'un document réel.

C'est une bonne nouvelle. Les progrès dans le rendu du texte signifient que la génération d'infographies, d'affiches, d'emballages de produits, de graphiques à la mise en page complexe devient plus fiable.

Mais il y a toujours un revers à la médaille. Un modèle capable de générer des images de type document d'identité trompeusement réalistes, de rendre précisément des captures d'écran d'interface utilisateur, rend naturellement de plus en plus suspecte l'idée que « les captures d'écran peuvent servir de preuve ».

En comparaison, c'est aussi la différence centrale entre la série GPT Image et les autres modèles. Midjourney n'a jusqu'à présent fait de progrès dans le rendu du texte, la série Stable Diffusion a aussi ce vieux problème. Selon les résultats de test divulgués d'Arena, GPT Image 2 dépasse Midjourney sur quatre dimensions : rendu du texte, suivi des instructions, réalisme photographique et connaissance du monde, l'avantage de ce dernier restant principalement dans le style artistique et le contrôle esthétique.

Savez-vous vraiment à quoi ressemble ce monde ?

Un testeur a demandé au modèle de générer une page de tarification hypothétique pour un produit GPT-8. L'image résultante avait une mise en page dans le style du site web d'OpenAI, la position des boutons et le choix des polices semblaient être tirés d'une interface réelle, la logique hiérarchique du tableau des prix était correcte.

GPT Image 2 peut générer des images extrêmement similaires à des interfaces logicielles réelles, y compris des fenêtres de navigateur, des interfaces d'applications mobiles, des graphiques de visualisation de données, avec une fidélité que la génération précédente ne pouvait égaler.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Cela apportera des utilisations pratiques très intéressantes. Les designers, lors de la création de maquettes de produits, n'auront pas besoin d'ouvrir d'abord Figma pour dessiner un tas de cadres ; ils pourront directement décrire l'interface souhaitée avec du texte, et le résultat sera une image de référence utilisable pour discuter avec l'équipe. Lors de la création d'un Deck pour investisseurs, il sera possible de montrer une « capture d'écran du produit » sans attendre que l'ingénieur écrive le code. Lors de la rédaction de documentation, les exemples d'interface pour illustrer le propos pourront être générés directement, sans avoir à réfléchir à l'endroit où trouver une capture d'écran face à une page blanche.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

La génération d'images n'est déjà plus seulement de la « génération d'images »

OpenAI a déjà annoncé que DALL-E 2 et DALL-E 3 cesseront officiellement leur service le 12 mai 2026. Le DALL-E 3 d'Azure OpenAI a déjà pris sa retraite anticipée en février.

DALL-E a été le premier contact de beaucoup avec la génération d'images par IA, il ne s'est écoulé que quelques années depuis ces premières œuvres floues jusqu'à aujourd'hui.

Parallèlement, Google, qui venait juste d'établir sa position dans l'industrie début 2026 avec Nano Banana Pro, pourrait ressentir la pression. Les premiers rapports de test indiquent que GPT Image 2 surpasse Nano Banana Pro sur trois dimensions simultanément : le réalisme, le rendu du texte et la connaissance du monde, un triple succès peu commun.

Pour les créateurs, les sentiments sont mitigés. Illustrateurs, designers graphiques, photographes, ce n'est pas la première fois qu'ils sont confrontés à ce sujet. Depuis la sortie de GPT Image 1, le nombre de postes de designers graphiques indépendants a diminué d'environ 18 %. L'IA a effectivement remplacé, dans certains scénarios, la décision « je veux embaucher quelqu'un pour faire cela », mais elle crée aussi de nouvelles façons de travailler, permettant à une personne de faire plus de choses.

La vitesse d'évolution des modèles de génération d'images ne laisse déjà plus beaucoup de temps d'adaptation. GPT Image 1 est passé de la mise en ligne à la version 1.5 en quelques mois seulement. De la version 1.5 à la 2, à peine six mois. Chaque génération résout les principaux défauts de la précédente tout en ouvrant de nouvelles possibilités.

GPT Image 2 est actuellement en phase de test A/B, certains utilisateurs de ChatGPT ont déjà obtenu un accès aléatoire. La fenêtre de publication officielle est généralement prévue autour de mai, autour de la retraite de DALL-E. Pour une expérience anticipée, vous pouvez actuellement tenter votre chance sur la plateforme d'évaluation LM Arena.

Adresse de test : https://arena.ai

Selon les retours de la communauté et les avantages connus de ce modèle, les modèles de prompts suivants peuvent maximiser vos chances de succès :

Prompt d'interface utilisateur/capture d'écran : Une capture d'écran photoréaliste d'une application bancaire mobile, affichant clairement un historique de transactions, avec la date, le montant et le nom du commerçant clairement discernables. Écran d'iPhone 16, téléphone tenu naturellement en main, arrière-plan de café.

Prompt d'étiquette de produit : Une photo de produit photoréaliste d'une bouteille de bière artisanale, les détails de l'étiquette sont clairs, affichant le nom de la brasserie « Oakridge Brewing Co. », le degré d'alcool 6.8 %, un logo montagne et la liste des ingrédients. Éclairage en studio, fond blanc.

Prompt de signalisation : Une photo de rue d'une ruelle de Tokyo de nuit, visiblement de multiples enseignes au néon bilingues japonais-anglais, incluant une enseigne de restaurant de ramen portant « Ichiban Ramen — Est. 1987 », une enseigne de bar karaoké et diverses publicités lumineuses. Le trottoir est lisse et humide après la pluie, reflétant les lumières.

Prompt de connaissance de l'interface/du monde : Une capture d'écran photoréaliste d'une vidéo YouTube, montrant une vidéo intitulée « Comment assembler un ordinateur en 2026 », cette vidéo a 2,3 millions de vues, avec des commentaires réalistes, des vidéos recommandées dans la barre latérale et des informations sur la chaîne. Vue navigateur de bureau.

Prompt déclencheur grand écran : C'est une photo cinématographique au format large, capturant l'apparence d'un magasin Ikea au crépuscule, montrant l'enseigne Ikea lumineuse, des voitures réalistes sur le parking et des clients entrant et sortant. Lumière de l'heure dorée, format 16:9.

Source des images non attribuées et référence : https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Cet article provient du compte WeChat officiel « APPSO », auteur : Découvrir les produits de demain

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QQu'est-ce que le GPT Image 2 et pourquoi est-il significatif ?

ALe GPT Image 2 est un modèle de génération d'images par IA, présumé être le successeur des modèles DALL-E d'OpenAI. Il est significatif car il surpasse considérablement ses prédécesseurs et les concurrents comme Midjourney et Nano Banana Pro dans des domaines clés comme le rendu du texte, le suivi des instructions, le réalisme photographique et la connaissance du monde. Sa fuite a suscité beaucoup d'attention en raison de ses capacités avancées.

QEn quoi le GPT Image 2 change-t-il la perception des captures d'écran comme preuve ?

ALe GPT Image 2 peut générer des images de faux documents (comme des cartes d'identité) et des interfaces utilisateur (comme des pages de tarification ou des captures d'écran d'applications) d'un réalisme si convaincant qu'il devient extrêmement difficile de distinguer le vrai du faux. Cette capacité remet en cause la fiabilité des captures d'écran en tant que preuve, car elles peuvent désormais être facilement falsifiées.

QQuels sont les avantages pratiques du GPT Image 2 pour les créateurs et les concepteurs ?

APour les créateurs et les concepteurs, le GPT Image 2 offre des avantages significatifs : il permet de générer rapidement des maquettes d'interface utilisateur réalistes pour des prototypes, de créer des visuels pour des présentations ou de la documentation sans avoir besoin de captures d'écran réelles, et de produire des images de produits avec un texte et des étiquettes parfaitement rendus, ce qui accélère considérablement le flux de travail.

QComment le GPT Image 2 se compare-t-il à d'autres modèles comme Midjourney et Nano Banana Pro ?

ASelon les tests et les fuites, le GPT Image 2 surpasse à la fois Midjourney et le Nano Banana Pro de Google dans plusieurs domaines critiques. Il est supérieur dans le rendu du texte (y compris les caractères non latins comme le chinois), le réalisme photographique, le suivi des instructions et la connaissance du monde (comme la recréation précise d'interfaces logicielles familières). Midjourney conserve un avantage dans le contrôle du style artistique et de l'esthétique.

QOù et comment les utilisateurs peuvent-ils essayer le GPT Image 2 ?

AActuellement, le GPT Image 2 n'est pas officiellement publié. Il est en phase de test A/B, et certains utilisateurs de ChatGPT y ont un accès aléatoire. Les utilisateurs peuvent également tenter leur chance sur la plateforme d'évaluation LM Arena (https://arena.ai) où le modèle est parfois disponible. Son lancement officiel est prévu autour du 12 mai 2026, date à laquelle les services DALL-E 2 et DALL-E 3 seront interrompus.

Nội dung Liên quan

Hàn Quốc Hành Động Quy Định Chuyển Tiền Xuyên Biên Giới Bằng Tiền Mã Hóa Theo Khuôn Khổ Mới

Hàn Quốc dự kiến đưa các công ty fintech vào khuôn khổ cấp phép mới cho chuyển tiền bằng tài sản ảo, có hiệu lực từ tháng 12. Theo quy định sửa đổi, các công ty thực hiện chuyển tiền xuyên biên giới qua tài sản ảo phải đăng ký với Bộ Kinh tế & Tài chính và báo cáo giao dịch qua hệ thống hối đoái. Khung pháp lý này được lập ra để đưa các giao dịch dựa trên tiền mã hóa vào diện giám sát chính thức, nhằm ngăn chặn rửa tiền và tội phạm do nhiều giao dịch trước đây hoạt động ngoài hệ thống giám sát. Ban đầu, quy định chỉ giới hạn cho các sàn giao dịch tiền mã hóa như Upbit hay Bithumb. Tuy nhiên, ngân hàng trung ương Hàn Quốc cho biết có thể mở rộng đối tượng đủ điều kiện sang các thực thể phi truyền thống nếu họ đáp ứng yêu cầu. Bộ Kinh tế & Tài chính và Ngân hàng Trung ương đang phối hợp với các bên để hoàn thiện quy tắc thực thi trước tháng 12. Động thái này nằm trong bối cảnh Hàn Quốc đang tăng cường giám sát tài sản số, bao gồm cả việc sắp công bố quy tắc mới về chứng khoán token hóa vào tháng 7.

TheNewsCrypto1 giờ trước

Hàn Quốc Hành Động Quy Định Chuyển Tiền Xuyên Biên Giới Bằng Tiền Mã Hóa Theo Khuôn Khổ Mới

TheNewsCrypto1 giờ trước

Microsoft Xác Định Phần Mềm Độc Hại Mới Nhắm Vào Địa Chỉ Ví Và Khóa Riêng Tư

Vào tháng 2/2026, Microsoft đã phát hiện một chiến dịch mã độc nhắm mục tiêu vào người dùng tiền điện tử, được đặt tên là Trojan/CryptoBandits.A. Mã độc này lây lan chủ yếu qua các file shortcut .lnk độc hại trên ổ USB. Sau khi xâm nhập hệ thống, phần mềm độc hại hoạt động như một "crypto clipper". Nó liên tục theo dõi nội dung clipboard để tìm kiếm các cụm từ khôi phục ví (12 hoặc 24 từ), khóa cá nhân Bitcoin/Ethereum và địa chỉ ví. Khi phát hiện, nó sẽ thay thế địa chỉ ví người dùng sao chép bằng địa chỉ do kẻ tấn công kiểm soát, đánh cắp tiền. Ngoài ra, mã độc còn chụp màn hình, thực thi lệnh từ xa và duy trì quyền truy cập qua các tác vụ đã lên lịch. Điểm đáng chú ý là mã độc không cần máy chủ điều khiển trực tiếp mà sử dụng Windows Script Host, ActiveX và một proxy Tor ẩn để giao tiếp. Microsoft khuyến nghị các tổ chức vô hiệu hóa tính năng auto-run, hạn chế script từ USB và giám sát các hành vi đáng ngờ như hoạt động proxy localhost:9050, theo dõi clipboard hay chụp màn hình bằng PowerShell. Chiến dịch này cho thấy mối đe dọa ngày càng tinh vi đối với lĩnh vực tiền điện tử.

TheNewsCrypto1 giờ trước

Microsoft Xác Định Phần Mềm Độc Hại Mới Nhắm Vào Địa Chỉ Ví Và Khóa Riêng Tư

TheNewsCrypto1 giờ trước

Không có đội ngũ bán hàng vẫn thu về 20 triệu đô la, AI nhân viên Viktor dựa vào điều gì để chinh phục 30.000 doanh nghiệp?

AI nhân viên Viktor đạt doanh thu 20 triệu USD/năm với hơn 30.000 doanh nghiệp mà không cần đội ngũ bán hàng, bằng cách nào? Sản phẩm "Tier 3 AI Coworker" này, do đội ngũ từ DeepMind phát triển, hoạt động như một nhân viên kỹ thuật số. Người dùng chỉ cần đề cập @Viktor trong Slack hoặc Teams và yêu cầu bằng ngôn ngữ tự nhiên (ví dụ: tạo báo cáo bán hàng), nó sẽ tự động truy cập CRM, tạo biểu đồ và gửi kết quả. Ngoài phản hồi, Viktor còn tự động kích hoạt tác vụ như đối chiếu sổ sách ban đêm hay tổng hợp dữ liệu từ nhiều công cụ để làm PowerPoint. Thành công của Viktor đến từ mô hình PLG (Product-Led Growth) thuần túy. Thay vì bán theo số ghế, họ tính phí theo tín dụng hoặc nhiệm vụ, giúp giảm chi phí thử nghiệm. Người dùng có 100 USD miễn phí để trải nghiệm, từ đó lan truyền tự nhiên trong nội bộ. Viktor phá vỡ rào cản "kỹ thuật nhắc lệnh" (prompt engineering) bằng cách chuyển từ hỗ trợ soạn thảo sang thực thi đầu-cuối. Tuy nhiên, cơ chế ra quyết định tự động cũng tiềm ẩn rủi ro khi hiểu sai yêu cầu mơ hồ. Sản phẩm đang chuyển từ Slack sang Microsoft Teams (3.2 tỷ người dùng), đối mặt với thách thức tuân thủ và kiểm soát của bộ phận IT tại các tập đoàn lớn. Rào cản chính là cân bằng giữa tự động hóa hoàn toàn và kiểm soát rủi ro (như ghi sai dữ liệu), đòi hỏi khung quản trị chặt chẽ về quyền hạn, nhật ký kiểm toán để xây dựng lòng tin.

marsbit2 giờ trước

Không có đội ngũ bán hàng vẫn thu về 20 triệu đô la, AI nhân viên Viktor dựa vào điều gì để chinh phục 30.000 doanh nghiệp?

marsbit2 giờ trước

Phương án mua lại Manus hé lộ: Bên đầu tư Trung Quốc dự kiến bỏ ra 2 tỷ USD mua lại cổ phần, lộ trình IPO tại Hồng Kông dần sáng tỏ

Bài báo ngày 18/6 từ The Information tiết lộ, các nhà đầu tư Trung Quốc ban đầu của Manus, bao gồm Tencent, Sequoia China và ZhenFund, có kế hoạch mua lại công ty từ Meta với giá 20 tỷ USD, bằng đúng số tiền Meta đã chi trả vào tháng 12 năm ngoái. Động thái này là phản ứng trực tiếp sau khi cơ quan chức năng Trung Quốc vào tháng 4 ra lệnh dừng thương vụ mua lại do lo ngại an ninh. Theo kế hoạch, Manus sẽ được tái cấu trúc thành một doanh nghiệp liên doanh trong nước để đáp ứng các quy định và mở đường cho một đợt IPO tiềm năng tại Hong Kong. Các nhà đầu tư Trung Quốc dự kiến sẽ tăng vốn bằng USD. Benchmark, một nhà đầu tư khác, sẽ không tham gia mua lại, dẫn đến việc cổ phần của Manus tập trung nhiều hơn vào tay các quỹ Trung Quốc. Manus đã chứng kiến tốc độ tăng trưởng doanh thu ấn tượng, từ mức 1 tỷ USD khi bị mua lại lên 4-5 tỷ USD hiện tại, củng cố niềm tin của các nhà đầu tư vào việc mua lại theo giá cũ. Các điều khoản chi tiết như tỷ lệ góp vốn và cơ cấu công ty liên doanh vẫn đang được đàm phán. Kịch bản "mua lại + liên doanh + IPO tại Hong Kong" này có thể trở thành một khuôn mẫu tham khảo cho các startup AI Trung Quốc trong các thương vụ M&A xuyên biên giới.

marsbit2 giờ trước

Phương án mua lại Manus hé lộ: Bên đầu tư Trung Quốc dự kiến bỏ ra 2 tỷ USD mua lại cổ phần, lộ trình IPO tại Hồng Kông dần sáng tỏ

marsbit2 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua BANANA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Banana Gun (BANANA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Banana Gun (BANANA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Banana Gun (BANANA) của BạnSau khi mua Banana Gun (BANANA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Banana Gun (BANANA)Giao dịch Banana Gun (BANANA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 243Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Làm thế nào để Mua BANANA

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của BANANA (BANANA) được trình bày dưới đây.

活动图片