Filtrado un modelo de generación de imágenes más revolucionario que Nano Banana: las capturas de pantalla ya no son prueba | Incluye prompts

marsbit發佈於 2026-04-19更新於 2026-04-19

文章摘要

Resumen: El modelo de generación de imágenes GPT Image 2 de OpenAI, filtrado recientemente, supera significativamente a sus predecesores y competidores como Nano Banana Pro en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo. Es capaz de generar imágenes con texto preciso en múltiples idiomas (incluidos caracteres chinos), interfaces de usuario realistas y documentos falsos tan convincentes que cuestionan la validez de las capturas de pantalla como prueba. Se espera que su lanzamiento oficial sea alrededor del 12 de mayo de 2026, coincidiendo con la retirada de DALL-E 3. Actualmente, algunos usuarios de ChatGPT tienen acceso limitado en fase de pruebas A/B, y se puede intentar acceder a través de la plataforma LM Arena (arena.ai). El artículo incluye prompts de ejemplo para obtener los mejores resultados.

¿Sigues pensando en Nano Banana cuando se trata de generación de imágenes a partir de texto?

Pero chico, los tiempos han cambiado otra vez.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

A principios de abril, aparecieron tres modelos de imagen anónimos en la plataforma de evaluación LM Arena, con los nombres en clave maskingtape-alpha, packingtape-alpha y gaffertape-alpha. Horas después, desaparecieron.

OpenAI aún no ha anunciado oficialmente este modelo, pero según los metadatos devueltos por la API y los registros de pruebas de los usuarios, ya tiene un nombre ampliamente aceptado: GPT Image 2.

Las capturas de pantalla ya no pueden servir como prueba

Durante los últimos años, uno de los puntos débiles más evidentes de los modelos de generación de imágenes con IA ha sido el texto dentro de las imágenes. En la era de DALL-E 3, si le pedías que escribiera "Hello" en una imagen, el resultado podía ser "Hellp" o incluso "Hl10", con las letras tambaleándose como borrachas. GPT Image 1 mejoró mucho, pudiendo manejar etiquetas simples en inglés. Para GPT Image 1.5, su precisión en la representación de texto en inglés ya se acercaba al 95%, pero aún tenía defectos evidentes en sistemas de escritura no latinos como el chino, japonés o coreano.

Y las imágenes de muestra filtradas de GPT Image 2 cambiaron esa impresión.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

El texto en las imágenes es exactamente lo que debería ser. El chino es claro, con formas de letra precisas y trazos completos. Alguien probó a generar una imagen al estilo de un carné de identidad: el nombre, la dirección y el número de documento se renderizaron todos correctamente, con un diseño ordenado, que a primera vista parecía la foto de un documento real.

Esta es una buena noticia. El avance en la renderización de texto significa que generar infografías, pósters, envases de productos o gráficos con diseños complejos se vuelve más fiable.

Pero cada moneda tiene otra cara. Un modelo capaz de generar imágenes de estilo documental indistinguibles de las reales y de renderizar con precisión capturas de pantalla de interfaces, naturalmente hace que el hecho de que "una captura de pantalla pueda servir como prueba" sea cada vez más cuestionable.

En comparación, esta es también la diferencia central entre la serie GPT Image y otros modelos. Midjourney hasta ahora no ha logrado ningún avance en la renderización de texto, y la serie Stable Diffusion también tiene sus viejos problemas. Según los resultados filtrados de las pruebas de Arena, GPT Image 2 supera a Midjourney en cuatro dimensiones: renderización de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, siendo la ventaja de este último principalmente el control estilístico artístico y estético.

¿Realmente sabe cómo es el mundo?

Algunos evaluadores le pidieron al modelo que generara una página de precios hipotética para un producto GPT-8, y la imagen resultante tenía un diseño que efectivamente era del estilo del sitio web oficial de OpenAI, la posición de los botones y la selección de fuentes parecían tomadas de una interfaz real, y la lógica jerárquica de la tabla de precios era correcta.

GPT Image 2 puede generar imágenes extremadamente similares a interfaces de software reales, incluyendo ventanas de navegador, interfaces de aplicaciones móviles, gráficos de visualización de datos, con una fidelidad que es incomparable con la generación anterior.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Esto traerá algunos usos prácticos muy interesantes. Los diseñadores, al crear prototipos de productos, no necesitarán abrir Figma primero para dibujar un montón de marcos; pueden describir directamente con texto la interfaz que quieren, y el resultado será una imagen de referencia que pueden usar para discutir con el equipo. Al crear un Deck para inversores, pueden mostrar una "captura de pantalla del producto" sin esperar a que un ingeniero escriba el código. Al escribir documentación, las interfaces de ejemplo para las imágenes complementarias se pueden generar directamente, sin tener que pensar en una página en blanco de dónde sacar la captura de pantalla.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Generar imágenes ya no es solo "generar imágenes"

OpenAI ya ha anunciado que DALL-E 2 y DALL-E 3 dejarán de prestar servicio oficialmente el 12 de mayo de 2026. DALL-E 3 de Azure OpenAI ya se retiró anticipadamente en febrero.

DALL-E fue el primer contacto de mucha gente con la generación de imágenes por IA, desde aquellos primeros trabajos borrosos hasta hoy, en solo unos pocos años.

Al mismo tiempo, Google, que acababa de establecerse como líder de la industria a principios de 2026 con Nano Banana Pro, quizás sienta presión. Los primeros reportes de pruebas muestran que GPT Image 2 supera a Nano Banana Pro en tres dimensiones simultáneamente: realismo, renderización de texto y conocimiento del mundo, una triple victoria que no es común.

Para los creadores, la sensación es compleja. Ilustradores, diseñadores gráficos, fotógrafos... no es la primera vez que se enfrentan a este tema. Desde el lanzamiento de GPT Image 1, el número de puestos de trabajo de diseño gráfico freelance ha disminuido aproximadamente un 18%. La IA确实 ha reemplazado en algunos escenarios la decisión de "necesito contratar a alguien para hacer esto", pero también está creando nuevas formas de trabajo, permitiendo que una sola persona pueda hacer más cosas.

La velocidad de evolución de los modelos de generación de imágenes ya no deja mucho tiempo de adaptación. De la puesta en línea de GPT Image 1 a la 1.5, pasaron solo unos meses. De la 1.5 a la 2, probablemente solo medio año. Cada generación resuelve los puntos débiles centrales de la anterior, al tiempo que abre nuevas posibilidades.

GPT Image 2 se encuentra ahora en fase de pruebas A/B, y algunos usuarios de ChatGPT ya han obtenido acceso aleatorio. La ventana de tiempo para el lanzamiento oficial se predice普遍mente que será alrededor de la retirada de DALL-E en mayo. Si quieres experimentarlo antes, actualmente puedes probar suerte en la plataforma de evaluación LM Arena.

Dirección de prueba: https://arena.ai

Según la retroalimentación de la comunidad y las ventajas conocidas de este modelo, las siguientes plantillas de prompts pueden maximizar tus probabilidades de éxito:

Prompt de UI/Captura de pantalla: Una captura de pantalla fotorealista de una aplicación bancaria móvil, que muestre claramente el historial de transacciones, donde la fecha, el amount y el nombre del comercio sean claramente legibles. Pantalla de iPhone 16, sujetando el teléfono de forma natural, con fondo de cafetería.

Prompt de etiqueta de producto: Una foto de producto de una botella de cerveza artesanal de calidad fotográfica, con detalles de la etiqueta claros, mostrando el nombre de la cervecería "Oakridge Brewing Co.", graduación alcohólica 6.8%, logotipo de montañas y lista de ingredientes. Iluminación de estudio, fondo blanco.

Prompt de letreros/Señalización: Una foto de escena callejera nocturna en un callejón de Tokio, visible múltiples letreros de neón bilingües japonés-inglés, incluyendo un letrero de restaurante de ramen que dice "Ichiban Ramen — Est. 1987", un letrero de bar de karaoke y varios carteles publicitarios luminosos. Acera resbaladiza y mojada después de la lluvia reflejando las luces.

Prompt de interfaz/Conocimiento del mundo: Una captura de pantalla de un video de YouTube fotorealista, que muestra un video titulado "Cómo ensamblar una computadora en 2026", que tiene 2.3 millones de visitas, con sección de comentarios realista, videos recomendados en la barra lateral e información del canal. Vista de navegador de escritorio.

Prompt disparador de pantalla ancha: Esta es una foto cinematográfica de pantalla ancha, que muestra el exterior de una tienda IKEA al anochecer, mostrando el letrero luminoso de IKEA, coches realistas en el aparcamiento y compradores entrando y saliendo. Iluminación de hora dorada, formato 16:9.

Fuente de imágenes no anotadas y referencia: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Este artículo proviene del WeChat público "APPSO", autor: Descubriendo los productos del mañana

熱門幣種推薦

相關問答

Q¿Qué modelo de generación de imágenes ha sido filtrado recientemente y por qué es significativo?

AEl modelo filtrado se conoce como GPT Image 2, y es significativo porque supera a modelos anteriores como Nano Banana Pro en renderizado de texto, realismo fotográfico y conocimiento del mundo, además de generar imágenes con texto preciso en múltiples idiomas, incluidos caracteres chinos.

Q¿Por qué las capturas de pantalla ya no pueden considerarse pruebas confiables según el artículo?

APorque GPT Image 2 puede generar imágenes fotorrealistas de documentos, interfaces de usuario y capturas de pantalla con texto renderizado con precisión, lo que hace que sea difícil distinguir entre una imagen generada por IA y una real, socavando la confiabilidad de las capturas como evidencia.

Q¿En qué aspectos supera GPT Image 2 a Midjourney según las pruebas de LM Arena?

ASegún las pruebas de LM Arena, GPT Image 2 supera a Midjourney en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, mientras que Midjourney mantiene ventajas en estilo artístico y control estético.

Q¿Qué aplicaciones prácticas tiene GPT Image 2 para diseñadores y creadores de contenido?

ALos diseñadores pueden generar prototipos de interfaces descritas textualmente, crear capturas de producto para presentaciones sin necesidad de código, y generar imágenes de ejemplo para documentación, acelerando flujos de trabajo y reduciendo la dependencia de herramientas tradicionales de diseño.

Q¿Cuándo se espera que OpenAI lance oficialmente GPT Image 2 y cómo pueden los usuarios acceder anticipadamente?

ASe espera que el lanzamiento oficial ocurra alrededor de mayo de 2026, coincidiendo con la retirada de DALL-E. Los usuarios pueden intentar acceder anticipadamente mediante pruebas A/B en ChatGPT o a través de la plataforma de evaluación LM Arena (arena.ai).

你可能也喜歡

CPU杀回牌桌,一场1700亿美元的“上位”大戏开启

英伟达在2026年台北电脑展上首次发布独立CPU产品线Vera CPU,标志着其业务重心从GPU向更广阔的计算领域扩展。CEO黄仁勋指出,在AI智能体时代,CPU已成为数据中心性能的关键瓶颈。与此同时,AMD将服务器CPU市场规模预测大幅上调至1200亿美元以上,行业预测其潜在市场规模将在2030年达到约1700亿美元。 市场格局正在发生变化。2026年一季度,AMD在服务器CPU收入份额上逼近英特尔,显示出高核数产品的强大溢价能力。分析指出,AI发展正从训练转向推理和智能体阶段,后者需要频繁进行复杂控制流、工具调用和数据处理,这些任务严重依赖CPU而非GPU。在智能体任务中,GPU利用率可能低于50%,而CPU工作量占比可达七成以上。这导致CPU与GPU的配比从过去的1:8显著收敛至1:4甚至1:1。 需求变化直接推动了十多年来首次大规模涨价,英特尔和AMD服务器CPU价格普遍上涨10%-15%,且出现产能紧张。市场分化为配合GPU的高核数CPU和用于智能体任务编排的中核数批量CPU两类需求。 英伟达基于ARM架构的Vera CPU入局,进一步凸显了CPU的战略地位。这对中国CPU产业链既是机遇也是挑战。国产CPU厂商如海光信息、华为鲲鹏等,既受益于全球AI需求增长,也面临信创政策带来的国产替代窗口期。行业共识是,AI大规模落地的关键已从单芯片性能转向CPU与GPU的协同能力。

marsbit1 小時前

CPU杀回牌桌,一场1700亿美元的“上位”大戏开启

marsbit1 小時前

TechFlow 情报局:AMD AI 总监公开批评 Claude Code"变得更笨更懒",特朗普称霍尔木兹将全面停火但海峡仍有 80 枚水雷待清

**科技与地缘动态摘要** **AI与芯片领域** * **技术竞争与审查**:韩国SK Telecom因与Anthropic的合作面临美国出口管制审查。与此同时,中国Z.AI发布了不依赖英伟达芯片、性能对标Claude Opus的GLM-5.2大模型,引发关于技术围堵效果的讨论。 * **安全与伦理问题**:Google Gemini被曝在诈骗场景中提供误导建议,引发AI安全担忧。GitHub上发现上万个分发木马的仓库,开源供应链安全敲响警钟。 * **行业动态**:亚马逊正洽谈对外出售其自研AI芯片,意图进军市场。苹果据悉将为特殊版iPhone独享台积电最新制程工艺。0G Labs宣布其链上AI推理总量突破重要里程碑。 * **争议与监管**:AMD AI总监公开批评Claude Code性能下降。多名亚马逊工程师因批评公司AI数据中心扩张的环境影响遭内部调查。微软、亚马逊云服务或面临欧盟严厉反垄断审查。 **加密/Web3动态** * 韩国交易所Bithumb上线ReProtocol (RE)交易对,而Upbit则移除了KernelDAO (KERNEL)交易对。 **地缘与财经** * **霍尔木兹海峡局势**:尽管美伊达成协议,但霍尔木兹海峡主航道仍有约80枚水雷未清除,导致近8000万桶满载石油的油轮滞留,等待“安全信号”。伊朗取消了赴瑞士外交行程,和谈前景不明。特朗普称协议是伊朗“无条件投降”,并宣称总统拥有无限权力。 * **美股表现**:美股半导体板块大涨,英特尔因与苹果合作传闻暴涨10.6%,而SpaceX股价下跌3.5%。 **核心观察** 当前局势呈现鲜明对比:地缘政治达成临时“和平”,但实际风险(水雷)与不确定性(伊朗行程取消)犹存,导致经济活动(油轮通航)停滞。与此同时,科技领域的竞争与重构却在加速进行,从芯片自主研发、AI模型突破到供应链安全,科技公司正以另一种方式重塑全球格局。

marsbit1 小時前

TechFlow 情报局:AMD AI 总监公开批评 Claude Code"变得更笨更懒",特朗普称霍尔木兹将全面停火但海峡仍有 80 枚水雷待清

marsbit1 小時前

交易

現貨
合約

熱門文章

如何購買BANANA

歡迎來到HTX.com!在這裡,購買Banana Gun (BANANA)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Banana Gun (BANANA)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Banana Gun (BANANA)購買Banana Gun (BANANA)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Banana Gun (BANANA)在HTX的現貨市場輕鬆交易Banana Gun (BANANA)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

307 人學過發佈於 2024.12.11更新於 2026.06.02

如何購買BANANA

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 BANANA (BANANA)幣價的意見。

活动图片