Filtrado un modelo de generación de imágenes más revolucionario que Nano Banana: las capturas de pantalla ya no son prueba | Incluye prompts

marsbitXuất bản vào 2026-04-19Cập nhật gần nhất vào 2026-04-19

Tóm tắt

Resumen: El modelo de generación de imágenes GPT Image 2 de OpenAI, filtrado recientemente, supera significativamente a sus predecesores y competidores como Nano Banana Pro en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo. Es capaz de generar imágenes con texto preciso en múltiples idiomas (incluidos caracteres chinos), interfaces de usuario realistas y documentos falsos tan convincentes que cuestionan la validez de las capturas de pantalla como prueba. Se espera que su lanzamiento oficial sea alrededor del 12 de mayo de 2026, coincidiendo con la retirada de DALL-E 3. Actualmente, algunos usuarios de ChatGPT tienen acceso limitado en fase de pruebas A/B, y se puede intentar acceder a través de la plataforma LM Arena (arena.ai). El artículo incluye prompts de ejemplo para obtener los mejores resultados.

¿Sigues pensando en Nano Banana cuando se trata de generación de imágenes a partir de texto?

Pero chico, los tiempos han cambiado otra vez.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

A principios de abril, aparecieron tres modelos de imagen anónimos en la plataforma de evaluación LM Arena, con los nombres en clave maskingtape-alpha, packingtape-alpha y gaffertape-alpha. Horas después, desaparecieron.

OpenAI aún no ha anunciado oficialmente este modelo, pero según los metadatos devueltos por la API y los registros de pruebas de los usuarios, ya tiene un nombre ampliamente aceptado: GPT Image 2.

Las capturas de pantalla ya no pueden servir como prueba

Durante los últimos años, uno de los puntos débiles más evidentes de los modelos de generación de imágenes con IA ha sido el texto dentro de las imágenes. En la era de DALL-E 3, si le pedías que escribiera "Hello" en una imagen, el resultado podía ser "Hellp" o incluso "Hl10", con las letras tambaleándose como borrachas. GPT Image 1 mejoró mucho, pudiendo manejar etiquetas simples en inglés. Para GPT Image 1.5, su precisión en la representación de texto en inglés ya se acercaba al 95%, pero aún tenía defectos evidentes en sistemas de escritura no latinos como el chino, japonés o coreano.

Y las imágenes de muestra filtradas de GPT Image 2 cambiaron esa impresión.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

El texto en las imágenes es exactamente lo que debería ser. El chino es claro, con formas de letra precisas y trazos completos. Alguien probó a generar una imagen al estilo de un carné de identidad: el nombre, la dirección y el número de documento se renderizaron todos correctamente, con un diseño ordenado, que a primera vista parecía la foto de un documento real.

Esta es una buena noticia. El avance en la renderización de texto significa que generar infografías, pósters, envases de productos o gráficos con diseños complejos se vuelve más fiable.

Pero cada moneda tiene otra cara. Un modelo capaz de generar imágenes de estilo documental indistinguibles de las reales y de renderizar con precisión capturas de pantalla de interfaces, naturalmente hace que el hecho de que "una captura de pantalla pueda servir como prueba" sea cada vez más cuestionable.

En comparación, esta es también la diferencia central entre la serie GPT Image y otros modelos. Midjourney hasta ahora no ha logrado ningún avance en la renderización de texto, y la serie Stable Diffusion también tiene sus viejos problemas. Según los resultados filtrados de las pruebas de Arena, GPT Image 2 supera a Midjourney en cuatro dimensiones: renderización de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, siendo la ventaja de este último principalmente el control estilístico artístico y estético.

¿Realmente sabe cómo es el mundo?

Algunos evaluadores le pidieron al modelo que generara una página de precios hipotética para un producto GPT-8, y la imagen resultante tenía un diseño que efectivamente era del estilo del sitio web oficial de OpenAI, la posición de los botones y la selección de fuentes parecían tomadas de una interfaz real, y la lógica jerárquica de la tabla de precios era correcta.

GPT Image 2 puede generar imágenes extremadamente similares a interfaces de software reales, incluyendo ventanas de navegador, interfaces de aplicaciones móviles, gráficos de visualización de datos, con una fidelidad que es incomparable con la generación anterior.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Esto traerá algunos usos prácticos muy interesantes. Los diseñadores, al crear prototipos de productos, no necesitarán abrir Figma primero para dibujar un montón de marcos; pueden describir directamente con texto la interfaz que quieren, y el resultado será una imagen de referencia que pueden usar para discutir con el equipo. Al crear un Deck para inversores, pueden mostrar una "captura de pantalla del producto" sin esperar a que un ingeniero escriba el código. Al escribir documentación, las interfaces de ejemplo para las imágenes complementarias se pueden generar directamente, sin tener que pensar en una página en blanco de dónde sacar la captura de pantalla.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Generar imágenes ya no es solo "generar imágenes"

OpenAI ya ha anunciado que DALL-E 2 y DALL-E 3 dejarán de prestar servicio oficialmente el 12 de mayo de 2026. DALL-E 3 de Azure OpenAI ya se retiró anticipadamente en febrero.

DALL-E fue el primer contacto de mucha gente con la generación de imágenes por IA, desde aquellos primeros trabajos borrosos hasta hoy, en solo unos pocos años.

Al mismo tiempo, Google, que acababa de establecerse como líder de la industria a principios de 2026 con Nano Banana Pro, quizás sienta presión. Los primeros reportes de pruebas muestran que GPT Image 2 supera a Nano Banana Pro en tres dimensiones simultáneamente: realismo, renderización de texto y conocimiento del mundo, una triple victoria que no es común.

Para los creadores, la sensación es compleja. Ilustradores, diseñadores gráficos, fotógrafos... no es la primera vez que se enfrentan a este tema. Desde el lanzamiento de GPT Image 1, el número de puestos de trabajo de diseño gráfico freelance ha disminuido aproximadamente un 18%. La IA确实 ha reemplazado en algunos escenarios la decisión de "necesito contratar a alguien para hacer esto", pero también está creando nuevas formas de trabajo, permitiendo que una sola persona pueda hacer más cosas.

La velocidad de evolución de los modelos de generación de imágenes ya no deja mucho tiempo de adaptación. De la puesta en línea de GPT Image 1 a la 1.5, pasaron solo unos meses. De la 1.5 a la 2, probablemente solo medio año. Cada generación resuelve los puntos débiles centrales de la anterior, al tiempo que abre nuevas posibilidades.

GPT Image 2 se encuentra ahora en fase de pruebas A/B, y algunos usuarios de ChatGPT ya han obtenido acceso aleatorio. La ventana de tiempo para el lanzamiento oficial se predice普遍mente que será alrededor de la retirada de DALL-E en mayo. Si quieres experimentarlo antes, actualmente puedes probar suerte en la plataforma de evaluación LM Arena.

Dirección de prueba: https://arena.ai

Según la retroalimentación de la comunidad y las ventajas conocidas de este modelo, las siguientes plantillas de prompts pueden maximizar tus probabilidades de éxito:

Prompt de UI/Captura de pantalla: Una captura de pantalla fotorealista de una aplicación bancaria móvil, que muestre claramente el historial de transacciones, donde la fecha, el amount y el nombre del comercio sean claramente legibles. Pantalla de iPhone 16, sujetando el teléfono de forma natural, con fondo de cafetería.

Prompt de etiqueta de producto: Una foto de producto de una botella de cerveza artesanal de calidad fotográfica, con detalles de la etiqueta claros, mostrando el nombre de la cervecería "Oakridge Brewing Co.", graduación alcohólica 6.8%, logotipo de montañas y lista de ingredientes. Iluminación de estudio, fondo blanco.

Prompt de letreros/Señalización: Una foto de escena callejera nocturna en un callejón de Tokio, visible múltiples letreros de neón bilingües japonés-inglés, incluyendo un letrero de restaurante de ramen que dice "Ichiban Ramen — Est. 1987", un letrero de bar de karaoke y varios carteles publicitarios luminosos. Acera resbaladiza y mojada después de la lluvia reflejando las luces.

Prompt de interfaz/Conocimiento del mundo: Una captura de pantalla de un video de YouTube fotorealista, que muestra un video titulado "Cómo ensamblar una computadora en 2026", que tiene 2.3 millones de visitas, con sección de comentarios realista, videos recomendados en la barra lateral e información del canal. Vista de navegador de escritorio.

Prompt disparador de pantalla ancha: Esta es una foto cinematográfica de pantalla ancha, que muestra el exterior de una tienda IKEA al anochecer, mostrando el letrero luminoso de IKEA, coches realistas en el aparcamiento y compradores entrando y saliendo. Iluminación de hora dorada, formato 16:9.

Fuente de imágenes no anotadas y referencia: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Este artículo proviene del WeChat público "APPSO", autor: Descubriendo los productos del mañana

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

Q¿Qué modelo de generación de imágenes ha sido filtrado recientemente y por qué es significativo?

AEl modelo filtrado se conoce como GPT Image 2, y es significativo porque supera a modelos anteriores como Nano Banana Pro en renderizado de texto, realismo fotográfico y conocimiento del mundo, además de generar imágenes con texto preciso en múltiples idiomas, incluidos caracteres chinos.

Q¿Por qué las capturas de pantalla ya no pueden considerarse pruebas confiables según el artículo?

APorque GPT Image 2 puede generar imágenes fotorrealistas de documentos, interfaces de usuario y capturas de pantalla con texto renderizado con precisión, lo que hace que sea difícil distinguir entre una imagen generada por IA y una real, socavando la confiabilidad de las capturas como evidencia.

Q¿En qué aspectos supera GPT Image 2 a Midjourney según las pruebas de LM Arena?

ASegún las pruebas de LM Arena, GPT Image 2 supera a Midjourney en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, mientras que Midjourney mantiene ventajas en estilo artístico y control estético.

Q¿Qué aplicaciones prácticas tiene GPT Image 2 para diseñadores y creadores de contenido?

ALos diseñadores pueden generar prototipos de interfaces descritas textualmente, crear capturas de producto para presentaciones sin necesidad de código, y generar imágenes de ejemplo para documentación, acelerando flujos de trabajo y reduciendo la dependencia de herramientas tradicionales de diseño.

Q¿Cuándo se espera que OpenAI lance oficialmente GPT Image 2 y cómo pueden los usuarios acceder anticipadamente?

ASe espera que el lanzamiento oficial ocurra alrededor de mayo de 2026, coincidiendo con la retirada de DALL-E. Los usuarios pueden intentar acceder anticipadamente mediante pruebas A/B en ChatGPT o a través de la plataforma de evaluación LM Arena (arena.ai).

Nội dung Liên quan

Blockchain.com Mở Rộng Truy Cập Cổ Phiếu Token Hóa Thông Qua Ondo Finance

Blockchain.com đã mở rộng khả năng tiếp cận cổ phiếu và ETF được mã hóa (tokenized) của Hoa Kỳ thông qua ví tiền điện tử của mình, nhờ vào quan hệ đối tác với Ondo Finance. Động thái này mang các tài sản trong thế giới thực được quản lý vào giao diện quen thuộc dành cho người dùng tiền điện tử đủ điều kiện, cho phép họ nắm giữ các sản phẩm truyền thống như cổ phiếu bên cạnh stablecoin và công cụ DeFi. Ondo Finance, một tên tuổi nổi bật trong thị trường tài sản thực được mã hóa (RWA), đóng vai trò trung tâm bằng cách cung cấp các sản phẩm tài chính quen thuộc dưới dạng token. Sự hợp tác này giải quyết thách thức về phân phối, đưa các tài sản được mã hóa trực tiếp đến người dùng ví tiền điện tử hiện có. Một khía cạnh quan trọng là mục tiêu phục vụ người dùng bên ngoài Hoa Kỳ, nơi việc tiếp cận thị trường vốn Mỹ có thể bị hạn chế. Giải pháp này cung cấp một lựa chọn thay thế mang tính bản địa hóa cho tiền điện tử, tích hợp vào cơ sở hạ tầng tài chính mà người dùng toàn cầu đã quen thuộc. Bối cảnh thị trường RWA đang trở nên cạnh tranh hơn, với nhiều nền tảng tranh giành để trở thành cổng kết nối chính cho tài sản truyền thống được mã hóa. Blockchain.com và Ondo đặt cược rằng việc tích hợp liền mạch vào ví tiền điện tử có thể cung cấp trải nghiệm đơn giản và đáng tin cậy, giúp thu hẹp khoảng cách so với các sản phẩm môi giới truyền thống.

bitcoinist1 giờ trước

Blockchain.com Mở Rộng Truy Cập Cổ Phiếu Token Hóa Thông Qua Ondo Finance

bitcoinist1 giờ trước

CPU trở lại bàn đàm phán, một vở kịch "thăng tiến" trị giá 1700 tỷ USD bắt đầu

CPU đang trở lại trung tâm sân khấu trong kỷ nguyên AI, dẫn dắt một cơ hội thị trường trị giá 1700 tỷ USD vào năm 2030. Việc chuyển dịch từ huấn luyện sang suy luận (inference) và AI Agent đã làm thay đổi hoàn toàn vai trò của CPU. Trong các tác vụ Agent phức tạp, CPU hiện đảm nhận hơn 70% khối lượng công việc, xử lý luồng điều khiển, gọi công cụ và quản lý bộ nhớ (KV Cache). Tỷ lệ phối hợp GPU:CPU đang thu hẹp từ 1:8 xuống khoảng 1:4, thậm chí 1:1 trong một số trường hợp. Nhu cầu này dẫn đến việc thiếu hụt nguồn cung và lần tăng giá đầu tiên sau hơn một thập kỷ cho server CPU của Intel và AMD, với mức tăng 10-15%. Thị trường CPU server dự kiến tăng từ khoảng 300 tỷ USD năm 2025 lên 1700 tỷ USD vào năm 2030, được thúc đẩy bởi ba phân khúc: điện toán đám mây truyền thống, CPU head-node cho cụm AI và CPU node độc lập cho Agent – một thị trường hoàn toàn mới. NVIDIA cũng đã tham gia cuộc chơi với CPU Vera dựa trên kiến trúc ARM, nhấn mạnh tầm quan trọng chiến lược của CPU. Tại Trung Quốc, các công ty như Hygon (Hải Quang) và Huawei đang nắm bắt cơ hội từ làn sóng nhu cầu này và chương trình thay thế nhập khẩu (xinchuang), với hệ sinh thái phần mềm đang trưởng thành nhanh chóng.

marsbit1 giờ trước

CPU trở lại bàn đàm phán, một vở kịch "thăng tiến" trị giá 1700 tỷ USD bắt đầu

marsbit1 giờ trước

TechFlow Tình Báo: Giám đốc AI của AMD công khai chỉ trích Claude Code 'ngày càng ngốc nghếch và lười biếng', Trump tuyên bố eo biển Hormuz sẽ ngừng bắn toàn diện nhưng vẫn còn 80 quả thủy lôi chờ dọn

TechFlow Intelligence: Tóm tắt tin tức công nghệ & tài chính ngày... * **AI & Mô hình lớn:** Giám đốc AI của AMD chỉ trích Claude Code trở nên "kém thông minh và lười biếng". Z.AI (Trung Quốc) ra mắt GLM-5.2, tuyên bố ngang bằng Claude Opus mà không dùng chip NVIDIA. SK Telecom (Hàn Quốc) bị điều tra về chuyển giao công nghệ với Anthropic. DeepSeek gây sốt trên Zhihu với tính năng đa phương tiện mới. Gemini bị chỉ trích trên Reddit vì đưa lời khuyên sai trong tình huống lừa đảo. * **Chip & Phần cứng:** MIT tự viết hệ điều hành để nghiên cứu chip. Mỹ cáo buộc máy quang khắc EUV tối tân của ASML có thể đã tới Trung Quốc, ASML phủ nhận. Amazon đàm phán bán chip AI tự thiết kế ra bên ngoài. iPhone phiên bản kỷ niệm 20 năm của Apple dự kiến dùng quy trình N2P độc quyền từ TSMC. * **An ninh & Công ty:** Phát hiện 10.000 kho GitHub phân phối phần mềm độc hại. Apple vá lỗ hổng nghe lén nghiêm trọng trên tai nghe Beats. Nhiều kỹ sư Amazon bị điều tra nội bộ vì chỉ trích việc mở rộng trung tâm dữ liệu AI. Microsoft và Amazon có thể đối mặt với điều tra chống độc quyền khắt khe từ EU. * **Web3 / Crypto:** 0G Labs đạt cột mốc 100 tỷ token suy luận AI phi tập trung. Sàn Hàn Quốc Bithumb niêm yết RE, trong khi Upbit hủy niêm yết KERNEL. * **Thị trường & Địa chính trị:** Cổ phiếu bán dẫn Mỹ tăng mạnh, Intel tăng 10.6%, trong khi SpaceX giảm. Eo biển Hormuz chính thức mở cửa theo thỏa thuận Mỹ-Iran, nhưng hiệp hội vận tải dầu cảnh báo vẫn còn khoảng 80 quả thủy lôi trong luồng chính. Gần 80 tàu chở dầu chờ tín hiệu an toàn để xuất phát. Iran hoãn chuyến công du tới Thụy Sĩ, làm dấy lên nghi ngờ về tiến trình hòa bình.

marsbit1 giờ trước

TechFlow Tình Báo: Giám đốc AI của AMD công khai chỉ trích Claude Code 'ngày càng ngốc nghếch và lười biếng', Trump tuyên bố eo biển Hormuz sẽ ngừng bắn toàn diện nhưng vẫn còn 80 quả thủy lôi chờ dọn

marsbit1 giờ trước

Hàn Quốc Hành Động Quy Định Chuyển Tiền Xuyên Biên Giới Bằng Tiền Mã Hóa Theo Khuôn Khổ Mới

Hàn Quốc dự kiến đưa các công ty fintech vào khuôn khổ cấp phép mới cho chuyển tiền bằng tài sản ảo, có hiệu lực từ tháng 12. Theo quy định sửa đổi, các công ty thực hiện chuyển tiền xuyên biên giới qua tài sản ảo phải đăng ký với Bộ Kinh tế & Tài chính và báo cáo giao dịch qua hệ thống hối đoái. Khung pháp lý này được lập ra để đưa các giao dịch dựa trên tiền mã hóa vào diện giám sát chính thức, nhằm ngăn chặn rửa tiền và tội phạm do nhiều giao dịch trước đây hoạt động ngoài hệ thống giám sát. Ban đầu, quy định chỉ giới hạn cho các sàn giao dịch tiền mã hóa như Upbit hay Bithumb. Tuy nhiên, ngân hàng trung ương Hàn Quốc cho biết có thể mở rộng đối tượng đủ điều kiện sang các thực thể phi truyền thống nếu họ đáp ứng yêu cầu. Bộ Kinh tế & Tài chính và Ngân hàng Trung ương đang phối hợp với các bên để hoàn thiện quy tắc thực thi trước tháng 12. Động thái này nằm trong bối cảnh Hàn Quốc đang tăng cường giám sát tài sản số, bao gồm cả việc sắp công bố quy tắc mới về chứng khoán token hóa vào tháng 7.

TheNewsCrypto3 giờ trước

Hàn Quốc Hành Động Quy Định Chuyển Tiền Xuyên Biên Giới Bằng Tiền Mã Hóa Theo Khuôn Khổ Mới

TheNewsCrypto3 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua BANANA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Banana Gun (BANANA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Banana Gun (BANANA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Banana Gun (BANANA) của BạnSau khi mua Banana Gun (BANANA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Banana Gun (BANANA)Giao dịch Banana Gun (BANANA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 243Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Làm thế nào để Mua BANANA

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của BANANA (BANANA) được trình bày dưới đây.

活动图片