Filtrado un modelo de generación de imágenes más revolucionario que Nano Banana: las capturas de pantalla ya no son prueba | Incluye prompts

marsbit發佈於 2026-04-19更新於 2026-04-19

文章摘要

Resumen: El modelo de generación de imágenes GPT Image 2 de OpenAI, filtrado recientemente, supera significativamente a sus predecesores y competidores como Nano Banana Pro en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo. Es capaz de generar imágenes con texto preciso en múltiples idiomas (incluidos caracteres chinos), interfaces de usuario realistas y documentos falsos tan convincentes que cuestionan la validez de las capturas de pantalla como prueba. Se espera que su lanzamiento oficial sea alrededor del 12 de mayo de 2026, coincidiendo con la retirada de DALL-E 3. Actualmente, algunos usuarios de ChatGPT tienen acceso limitado en fase de pruebas A/B, y se puede intentar acceder a través de la plataforma LM Arena (arena.ai). El artículo incluye prompts de ejemplo para obtener los mejores resultados.

¿Sigues pensando en Nano Banana cuando se trata de generación de imágenes a partir de texto?

Pero chico, los tiempos han cambiado otra vez.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

A principios de abril, aparecieron tres modelos de imagen anónimos en la plataforma de evaluación LM Arena, con los nombres en clave maskingtape-alpha, packingtape-alpha y gaffertape-alpha. Horas después, desaparecieron.

OpenAI aún no ha anunciado oficialmente este modelo, pero según los metadatos devueltos por la API y los registros de pruebas de los usuarios, ya tiene un nombre ampliamente aceptado: GPT Image 2.

Las capturas de pantalla ya no pueden servir como prueba

Durante los últimos años, uno de los puntos débiles más evidentes de los modelos de generación de imágenes con IA ha sido el texto dentro de las imágenes. En la era de DALL-E 3, si le pedías que escribiera "Hello" en una imagen, el resultado podía ser "Hellp" o incluso "Hl10", con las letras tambaleándose como borrachas. GPT Image 1 mejoró mucho, pudiendo manejar etiquetas simples en inglés. Para GPT Image 1.5, su precisión en la representación de texto en inglés ya se acercaba al 95%, pero aún tenía defectos evidentes en sistemas de escritura no latinos como el chino, japonés o coreano.

Y las imágenes de muestra filtradas de GPT Image 2 cambiaron esa impresión.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

El texto en las imágenes es exactamente lo que debería ser. El chino es claro, con formas de letra precisas y trazos completos. Alguien probó a generar una imagen al estilo de un carné de identidad: el nombre, la dirección y el número de documento se renderizaron todos correctamente, con un diseño ordenado, que a primera vista parecía la foto de un documento real.

Esta es una buena noticia. El avance en la renderización de texto significa que generar infografías, pósters, envases de productos o gráficos con diseños complejos se vuelve más fiable.

Pero cada moneda tiene otra cara. Un modelo capaz de generar imágenes de estilo documental indistinguibles de las reales y de renderizar con precisión capturas de pantalla de interfaces, naturalmente hace que el hecho de que "una captura de pantalla pueda servir como prueba" sea cada vez más cuestionable.

En comparación, esta es también la diferencia central entre la serie GPT Image y otros modelos. Midjourney hasta ahora no ha logrado ningún avance en la renderización de texto, y la serie Stable Diffusion también tiene sus viejos problemas. Según los resultados filtrados de las pruebas de Arena, GPT Image 2 supera a Midjourney en cuatro dimensiones: renderización de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, siendo la ventaja de este último principalmente el control estilístico artístico y estético.

¿Realmente sabe cómo es el mundo?

Algunos evaluadores le pidieron al modelo que generara una página de precios hipotética para un producto GPT-8, y la imagen resultante tenía un diseño que efectivamente era del estilo del sitio web oficial de OpenAI, la posición de los botones y la selección de fuentes parecían tomadas de una interfaz real, y la lógica jerárquica de la tabla de precios era correcta.

GPT Image 2 puede generar imágenes extremadamente similares a interfaces de software reales, incluyendo ventanas de navegador, interfaces de aplicaciones móviles, gráficos de visualización de datos, con una fidelidad que es incomparable con la generación anterior.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Esto traerá algunos usos prácticos muy interesantes. Los diseñadores, al crear prototipos de productos, no necesitarán abrir Figma primero para dibujar un montón de marcos; pueden describir directamente con texto la interfaz que quieren, y el resultado será una imagen de referencia que pueden usar para discutir con el equipo. Al crear un Deck para inversores, pueden mostrar una "captura de pantalla del producto" sin esperar a que un ingeniero escriba el código. Al escribir documentación, las interfaces de ejemplo para las imágenes complementarias se pueden generar directamente, sin tener que pensar en una página en blanco de dónde sacar la captura de pantalla.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Generar imágenes ya no es solo "generar imágenes"

OpenAI ya ha anunciado que DALL-E 2 y DALL-E 3 dejarán de prestar servicio oficialmente el 12 de mayo de 2026. DALL-E 3 de Azure OpenAI ya se retiró anticipadamente en febrero.

DALL-E fue el primer contacto de mucha gente con la generación de imágenes por IA, desde aquellos primeros trabajos borrosos hasta hoy, en solo unos pocos años.

Al mismo tiempo, Google, que acababa de establecerse como líder de la industria a principios de 2026 con Nano Banana Pro, quizás sienta presión. Los primeros reportes de pruebas muestran que GPT Image 2 supera a Nano Banana Pro en tres dimensiones simultáneamente: realismo, renderización de texto y conocimiento del mundo, una triple victoria que no es común.

Para los creadores, la sensación es compleja. Ilustradores, diseñadores gráficos, fotógrafos... no es la primera vez que se enfrentan a este tema. Desde el lanzamiento de GPT Image 1, el número de puestos de trabajo de diseño gráfico freelance ha disminuido aproximadamente un 18%. La IA确实 ha reemplazado en algunos escenarios la decisión de "necesito contratar a alguien para hacer esto", pero también está creando nuevas formas de trabajo, permitiendo que una sola persona pueda hacer más cosas.

La velocidad de evolución de los modelos de generación de imágenes ya no deja mucho tiempo de adaptación. De la puesta en línea de GPT Image 1 a la 1.5, pasaron solo unos meses. De la 1.5 a la 2, probablemente solo medio año. Cada generación resuelve los puntos débiles centrales de la anterior, al tiempo que abre nuevas posibilidades.

GPT Image 2 se encuentra ahora en fase de pruebas A/B, y algunos usuarios de ChatGPT ya han obtenido acceso aleatorio. La ventana de tiempo para el lanzamiento oficial se predice普遍mente que será alrededor de la retirada de DALL-E en mayo. Si quieres experimentarlo antes, actualmente puedes probar suerte en la plataforma de evaluación LM Arena.

Dirección de prueba: https://arena.ai

Según la retroalimentación de la comunidad y las ventajas conocidas de este modelo, las siguientes plantillas de prompts pueden maximizar tus probabilidades de éxito:

Prompt de UI/Captura de pantalla: Una captura de pantalla fotorealista de una aplicación bancaria móvil, que muestre claramente el historial de transacciones, donde la fecha, el amount y el nombre del comercio sean claramente legibles. Pantalla de iPhone 16, sujetando el teléfono de forma natural, con fondo de cafetería.

Prompt de etiqueta de producto: Una foto de producto de una botella de cerveza artesanal de calidad fotográfica, con detalles de la etiqueta claros, mostrando el nombre de la cervecería "Oakridge Brewing Co.", graduación alcohólica 6.8%, logotipo de montañas y lista de ingredientes. Iluminación de estudio, fondo blanco.

Prompt de letreros/Señalización: Una foto de escena callejera nocturna en un callejón de Tokio, visible múltiples letreros de neón bilingües japonés-inglés, incluyendo un letrero de restaurante de ramen que dice "Ichiban Ramen — Est. 1987", un letrero de bar de karaoke y varios carteles publicitarios luminosos. Acera resbaladiza y mojada después de la lluvia reflejando las luces.

Prompt de interfaz/Conocimiento del mundo: Una captura de pantalla de un video de YouTube fotorealista, que muestra un video titulado "Cómo ensamblar una computadora en 2026", que tiene 2.3 millones de visitas, con sección de comentarios realista, videos recomendados en la barra lateral e información del canal. Vista de navegador de escritorio.

Prompt disparador de pantalla ancha: Esta es una foto cinematográfica de pantalla ancha, que muestra el exterior de una tienda IKEA al anochecer, mostrando el letrero luminoso de IKEA, coches realistas en el aparcamiento y compradores entrando y saliendo. Iluminación de hora dorada, formato 16:9.

Fuente de imágenes no anotadas y referencia: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Este artículo proviene del WeChat público "APPSO", autor: Descubriendo los productos del mañana

你可能也喜歡

亿万富翁雷·达利欧解释他为何更青睐黄金而非比特币

亿万富翁投资者、全球最大对冲基金桥水创始人瑞·达利欧就全球金融体系、经济风险与资产配置发表重要观点。他指出，投资者应在潜在金融危机中转向比特币和黄金等“硬通货”资产，并分享了对加密货币的偏好与担忧。达利欧曾成功预测2008年全球金融危机，他警告市场正因人工智能形成严重泡沫。高债务水平、收入不平等和地缘政治紧张局势正在威胁经济秩序。达利欧强调资本不应因通胀贬值，投资组合需多元化以应对危机。他透露个人投资组合中比特币约占1%，建议投资者将5%-15%的资产配置于央行无法无限印发的“硬通货”。尽管将比特币归类为不可印刷的货币，达利欧认为黄金是比比特币更安全的避险资产。他对比特币持谨慎态度的主要原因包括：政府拥有对比特币征税、限制或控制的权力；央行因隐私与控制担忧不会大量持有比特币；量子计算机等新技术可能威胁加密货币基础设施；以及比特币缺乏隐私性。达利欧指出，黄金拥有千年历史，是最具形体的金融资产，且不依赖于单一方的责任。他主张不应依赖单一资产抵御金融波动，而需通过股票、债券、房地产、黄金和比特币等多资产类别实现平衡的多元化配置。 *本文不构成投资建议。

cryptonews.ru24 分鐘前

cryptonews.ru24 分鐘前

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

迈克尔·塞勒领导的上市公司Strategy今日以约1.05亿美元的价格出售了1638枚比特币，平均售价为63,957美元，使其总持有量降至842,138枚BTC，总价值约635亿美元。塞勒对此澄清，其个人长期持有的比特币“从未出售”，哪怕一聪。他强调，自己常说的“永不卖出比特币”是私人投资者间的建议。而Strategy作为上市公司，其比特币交易（包括本次出售）是基于公开披露的财务策略，旨在满足运营资金、股息支付、债务利息或股票回购等需求，此举与公司对比特币的根本信念无关。

cryptonews.ru1 小時前

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

cryptonews.ru1 小時前

分析公司揭示比特币（BTC）的关键门槛：“这可能终结熊市！”以下是详细内容

领先加密货币比特币虽维持在6万美元以上，但10x Research创始人Marcus Thielen指出，比特币可能尚未触底。他认为月度收盘价能否站上6.3万美元是关键阈值，若能突破则可能确认熊市结束；但7月收盘低于该水平，表明市场仍未给出最终确认信号。目前价格位于7日和30日移动均线之下，且上周下跌3.2%，短期趋势仍看跌。 Thielen还提及宏观风险：若美国10年期国债收益率持续上升，美联储或被迫在9月重启加息，持续高利率可能对BTC等风险资产构成压力。此外，比特币矿商及持有BTC的机构可能带来抛压，尤其是一些转向AI领域的矿商持有约10万枚BTC，其清算行为可能加剧卖方压力。总之，比特币要重回上涨趋势，既需守住关键技术位，也依赖有利的宏观经济环境。 *本文不构成投资建议。

cryptonews.ru1 小時前

cryptonews.ru1 小時前

XDC Tech整合Bridge稳定币平台，将链上稳定币结算引入自主AI商务

2026年8月3日，XDC Network的美国机构部门XDC Tech宣布与稳定币基础设施平台Bridge（Stripe旗下公司）完成关键集成。此次合作为XDC生态开发者提供了直接接入Bridge合规工具的能力，包括法币与稳定币的兑换通道、虚拟账户及多币种托管服务。核心应用场景是支付。企业可通过Bridge虚拟账户接收美元、欧元等法币，并近乎实时地在XDC网络上以稳定币结算，从而绕开代理行和多日清算流程。该方案已应用于贸易金融，使进出口商能以USDC等稳定币快速结算发票，并扩展到代币化资产领域。此次集成是XDC构建“智能体经济”结算层路线图的重要一环，旨在支持自主AI智能体以机器速度进行交易。其关键价值包括： 1. 为自主智能体提供机器速度的结算（XDC交易2秒最终确认）； 2. 提供受监管的法币通道，覆盖美、欧及拉美地区； 3. 虚拟账户可作为智能体的原生钱包，使其具备独立的经济身份； 4. 多币种托管支持跨境智能体商务； 5. 赋能智能体驱动的贸易金融与代币化资产交易； 6. 集成即合规，满足KYC、反洗钱等监管要求，确保智能体支付的可审计性。 XDC联合创始人Atul Khekade表示，此次合作是面向智能体经济的更广泛建设的一部分。Bridge产品负责人Mai Leduc Blount则认为，稳定币结算网络需要从第一天就为速度和最终性而构建，XDC正是这样的基础。该集成已通过XDC和Bridge的开发者门户开放。

cointelegraph1 小時前

cointelegraph1 小時前

贝莱德推出代币化货币市场基金，旨在为稳定币提供储备资产

全球最大资产管理公司贝莱德推出了两款代币化货币市场产品，旨在作为稳定币的储备资产。第一款产品是"BlackRock Select Treasury Based Liquidity Fund OnChain Shares"（BSTBL），为现有基金在以太坊上的代币化份额。第二款产品是全新设立的"BlackRock Daily Reinvestment Stablecoin Reserve Vehicle"（BRSRV），支持多链且每日自动复投。两款产品均按照2025年7月生效的《GENIUS法案》设计，可作为合规美元支付稳定币的合格储备资产。此举扩大了贝莱德在代币化国债市场的布局，其旗下BUIDL基金目前是该领域规模最大的产品，资产超26亿美元。

cointelegraph2 小時前

cointelegraph2 小時前

交易

現貨

Filtrado un modelo de generación de imágenes más revolucionario que Nano Banana: las capturas de pantalla ya no son prueba | Incluye prompts

文章摘要

Las capturas de pantalla ya no pueden servir como prueba

¿Realmente sabe cómo es el mundo?

Generar imágenes ya no es solo "generar imágenes"

熱門幣種推薦

相關問答

你可能也喜歡

亿万富翁雷·达利欧解释他为何更青睐黄金而非比特币

最新消息：迈克尔·塞勒就今日比特币抛售发表声明！ “我说过我永远不会卖掉我的个人比特币”

分析公司揭示比特币（BTC）的关键门槛：“这可能终结熊市！”以下是详细内容

XDC Tech整合Bridge稳定币平台，将链上稳定币结算引入自主AI商务

贝莱德推出代币化货币市场基金，旨在为稳定币提供储备资产

交易

熱門文章

如何購買BANANA

相關討論

熱門問答

熱門分類

熱門標籤