Filtrado un modelo de generación de imágenes más revolucionario que Nano Banana: las capturas de pantalla ya no son prueba | Incluye prompts

marsbitPublicado a 2026-04-19Actualizado a 2026-04-19

Resumen

Resumen: El modelo de generación de imágenes GPT Image 2 de OpenAI, filtrado recientemente, supera significativamente a sus predecesores y competidores como Nano Banana Pro en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo. Es capaz de generar imágenes con texto preciso en múltiples idiomas (incluidos caracteres chinos), interfaces de usuario realistas y documentos falsos tan convincentes que cuestionan la validez de las capturas de pantalla como prueba. Se espera que su lanzamiento oficial sea alrededor del 12 de mayo de 2026, coincidiendo con la retirada de DALL-E 3. Actualmente, algunos usuarios de ChatGPT tienen acceso limitado en fase de pruebas A/B, y se puede intentar acceder a través de la plataforma LM Arena (arena.ai). El artículo incluye prompts de ejemplo para obtener los mejores resultados.

¿Sigues pensando en Nano Banana cuando se trata de generación de imágenes a partir de texto?

Pero chico, los tiempos han cambiado otra vez.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

A principios de abril, aparecieron tres modelos de imagen anónimos en la plataforma de evaluación LM Arena, con los nombres en clave maskingtape-alpha, packingtape-alpha y gaffertape-alpha. Horas después, desaparecieron.

OpenAI aún no ha anunciado oficialmente este modelo, pero según los metadatos devueltos por la API y los registros de pruebas de los usuarios, ya tiene un nombre ampliamente aceptado: GPT Image 2.

Las capturas de pantalla ya no pueden servir como prueba

Durante los últimos años, uno de los puntos débiles más evidentes de los modelos de generación de imágenes con IA ha sido el texto dentro de las imágenes. En la era de DALL-E 3, si le pedías que escribiera "Hello" en una imagen, el resultado podía ser "Hellp" o incluso "Hl10", con las letras tambaleándose como borrachas. GPT Image 1 mejoró mucho, pudiendo manejar etiquetas simples en inglés. Para GPT Image 1.5, su precisión en la representación de texto en inglés ya se acercaba al 95%, pero aún tenía defectos evidentes en sistemas de escritura no latinos como el chino, japonés o coreano.

Y las imágenes de muestra filtradas de GPT Image 2 cambiaron esa impresión.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

El texto en las imágenes es exactamente lo que debería ser. El chino es claro, con formas de letra precisas y trazos completos. Alguien probó a generar una imagen al estilo de un carné de identidad: el nombre, la dirección y el número de documento se renderizaron todos correctamente, con un diseño ordenado, que a primera vista parecía la foto de un documento real.

Esta es una buena noticia. El avance en la renderización de texto significa que generar infografías, pósters, envases de productos o gráficos con diseños complejos se vuelve más fiable.

Pero cada moneda tiene otra cara. Un modelo capaz de generar imágenes de estilo documental indistinguibles de las reales y de renderizar con precisión capturas de pantalla de interfaces, naturalmente hace que el hecho de que "una captura de pantalla pueda servir como prueba" sea cada vez más cuestionable.

En comparación, esta es también la diferencia central entre la serie GPT Image y otros modelos. Midjourney hasta ahora no ha logrado ningún avance en la renderización de texto, y la serie Stable Diffusion también tiene sus viejos problemas. Según los resultados filtrados de las pruebas de Arena, GPT Image 2 supera a Midjourney en cuatro dimensiones: renderización de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, siendo la ventaja de este último principalmente el control estilístico artístico y estético.

¿Realmente sabe cómo es el mundo?

Algunos evaluadores le pidieron al modelo que generara una página de precios hipotética para un producto GPT-8, y la imagen resultante tenía un diseño que efectivamente era del estilo del sitio web oficial de OpenAI, la posición de los botones y la selección de fuentes parecían tomadas de una interfaz real, y la lógica jerárquica de la tabla de precios era correcta.

GPT Image 2 puede generar imágenes extremadamente similares a interfaces de software reales, incluyendo ventanas de navegador, interfaces de aplicaciones móviles, gráficos de visualización de datos, con una fidelidad que es incomparable con la generación anterior.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Esto traerá algunos usos prácticos muy interesantes. Los diseñadores, al crear prototipos de productos, no necesitarán abrir Figma primero para dibujar un montón de marcos; pueden describir directamente con texto la interfaz que quieren, y el resultado será una imagen de referencia que pueden usar para discutir con el equipo. Al crear un Deck para inversores, pueden mostrar una "captura de pantalla del producto" sin esperar a que un ingeniero escriba el código. Al escribir documentación, las interfaces de ejemplo para las imágenes complementarias se pueden generar directamente, sin tener que pensar en una página en blanco de dónde sacar la captura de pantalla.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Generar imágenes ya no es solo "generar imágenes"

OpenAI ya ha anunciado que DALL-E 2 y DALL-E 3 dejarán de prestar servicio oficialmente el 12 de mayo de 2026. DALL-E 3 de Azure OpenAI ya se retiró anticipadamente en febrero.

DALL-E fue el primer contacto de mucha gente con la generación de imágenes por IA, desde aquellos primeros trabajos borrosos hasta hoy, en solo unos pocos años.

Al mismo tiempo, Google, que acababa de establecerse como líder de la industria a principios de 2026 con Nano Banana Pro, quizás sienta presión. Los primeros reportes de pruebas muestran que GPT Image 2 supera a Nano Banana Pro en tres dimensiones simultáneamente: realismo, renderización de texto y conocimiento del mundo, una triple victoria que no es común.

Para los creadores, la sensación es compleja. Ilustradores, diseñadores gráficos, fotógrafos... no es la primera vez que se enfrentan a este tema. Desde el lanzamiento de GPT Image 1, el número de puestos de trabajo de diseño gráfico freelance ha disminuido aproximadamente un 18%. La IA确实 ha reemplazado en algunos escenarios la decisión de "necesito contratar a alguien para hacer esto", pero también está creando nuevas formas de trabajo, permitiendo que una sola persona pueda hacer más cosas.

La velocidad de evolución de los modelos de generación de imágenes ya no deja mucho tiempo de adaptación. De la puesta en línea de GPT Image 1 a la 1.5, pasaron solo unos meses. De la 1.5 a la 2, probablemente solo medio año. Cada generación resuelve los puntos débiles centrales de la anterior, al tiempo que abre nuevas posibilidades.

GPT Image 2 se encuentra ahora en fase de pruebas A/B, y algunos usuarios de ChatGPT ya han obtenido acceso aleatorio. La ventana de tiempo para el lanzamiento oficial se predice普遍mente que será alrededor de la retirada de DALL-E en mayo. Si quieres experimentarlo antes, actualmente puedes probar suerte en la plataforma de evaluación LM Arena.

Dirección de prueba: https://arena.ai

Según la retroalimentación de la comunidad y las ventajas conocidas de este modelo, las siguientes plantillas de prompts pueden maximizar tus probabilidades de éxito:

Prompt de UI/Captura de pantalla: Una captura de pantalla fotorealista de una aplicación bancaria móvil, que muestre claramente el historial de transacciones, donde la fecha, el amount y el nombre del comercio sean claramente legibles. Pantalla de iPhone 16, sujetando el teléfono de forma natural, con fondo de cafetería.

Prompt de etiqueta de producto: Una foto de producto de una botella de cerveza artesanal de calidad fotográfica, con detalles de la etiqueta claros, mostrando el nombre de la cervecería "Oakridge Brewing Co.", graduación alcohólica 6.8%, logotipo de montañas y lista de ingredientes. Iluminación de estudio, fondo blanco.

Prompt de letreros/Señalización: Una foto de escena callejera nocturna en un callejón de Tokio, visible múltiples letreros de neón bilingües japonés-inglés, incluyendo un letrero de restaurante de ramen que dice "Ichiban Ramen — Est. 1987", un letrero de bar de karaoke y varios carteles publicitarios luminosos. Acera resbaladiza y mojada después de la lluvia reflejando las luces.

Prompt de interfaz/Conocimiento del mundo: Una captura de pantalla de un video de YouTube fotorealista, que muestra un video titulado "Cómo ensamblar una computadora en 2026", que tiene 2.3 millones de visitas, con sección de comentarios realista, videos recomendados en la barra lateral e información del canal. Vista de navegador de escritorio.

Prompt disparador de pantalla ancha: Esta es una foto cinematográfica de pantalla ancha, que muestra el exterior de una tienda IKEA al anochecer, mostrando el letrero luminoso de IKEA, coches realistas en el aparcamiento y compradores entrando y saliendo. Iluminación de hora dorada, formato 16:9.

Fuente de imágenes no anotadas y referencia: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Este artículo proviene del WeChat público "APPSO", autor: Descubriendo los productos del mañana

Preguntas relacionadas

Q¿Qué modelo de generación de imágenes ha sido filtrado recientemente y por qué es significativo?

AEl modelo filtrado se conoce como GPT Image 2, y es significativo porque supera a modelos anteriores como Nano Banana Pro en renderizado de texto, realismo fotográfico y conocimiento del mundo, además de generar imágenes con texto preciso en múltiples idiomas, incluidos caracteres chinos.

Q¿Por qué las capturas de pantalla ya no pueden considerarse pruebas confiables según el artículo?

APorque GPT Image 2 puede generar imágenes fotorrealistas de documentos, interfaces de usuario y capturas de pantalla con texto renderizado con precisión, lo que hace que sea difícil distinguir entre una imagen generada por IA y una real, socavando la confiabilidad de las capturas como evidencia.

Q¿En qué aspectos supera GPT Image 2 a Midjourney según las pruebas de LM Arena?

ASegún las pruebas de LM Arena, GPT Image 2 supera a Midjourney en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, mientras que Midjourney mantiene ventajas en estilo artístico y control estético.

Q¿Qué aplicaciones prácticas tiene GPT Image 2 para diseñadores y creadores de contenido?

ALos diseñadores pueden generar prototipos de interfaces descritas textualmente, crear capturas de producto para presentaciones sin necesidad de código, y generar imágenes de ejemplo para documentación, acelerando flujos de trabajo y reduciendo la dependencia de herramientas tradicionales de diseño.

Q¿Cuándo se espera que OpenAI lance oficialmente GPT Image 2 y cómo pueden los usuarios acceder anticipadamente?

ASe espera que el lanzamiento oficial ocurra alrededor de mayo de 2026, coincidiendo con la retirada de DALL-E. Los usuarios pueden intentar acceder anticipadamente mediante pruebas A/B en ChatGPT o a través de la plataforma de evaluación LM Arena (arena.ai).

Lecturas Relacionadas

Wang Chuan: Cómo mantener la calma cuando el vecino Lao Wang multiplicó por treinta su inversión en acciones de almacenamiento (6) - La trampa de los productos homogéneos

**Resumen: Las trampas de los productos básicos en la industria del almacenamiento** Este artículo analiza los riesgos cíclicos y las características de los productos básicos en la industria del almacenamiento de datos, utilizando casos históricos y la situación actual para advertir sobre los peligros de invertir en acciones del sector. El autor comienza con el ejemplo de Iomega en los años 90. Su unidad Zip fue un éxito inicial, haciendo que su acción subiera más de 160 veces en año y medio, antes de colapsar un 97% tras la llegada de tecnologías competidoras más baratas (CD-R). Este patrón se repite en toda la industria: productos como la memoria DRAM son altamente homogéneos, sin valor de marca, lo que genera volatilidad extrema en los precios. Empresas como Micron han visto su acción estancada durante 25 años, y son comunes las quiebras (Mostek, Qimonda, etc.). La esencia del problema es la **demanda elástica frente a una oferta rígida, de capital intensivo y largo plazo de ampliación**. Cuando los precios suben (como desde 2025 debido a la demanda de memoria para IA), los fabricantes obtienen márgenes brutos enormes (ej: SanDisk pasó de 22.5% a 78.3%), principalmente por el aumento de precios, no de volumen. Sin embargo, estos altos márgenes destruyen la demanda marginal y atraen nueva capacidad. Para 2027, se espera que una nueva ola de capacidad entre en el mercado. El autor desmonta argumentos alcistas: los acuerdos de suministro a largo plazo (LTA) son frágiles y se pueden romper cuando cambian las condiciones del mercado. Además, la situación es asimétrica: basta un nuevo competidor (como empresas chinas), una recesión, una reducción en la inversión en IA o una innovación que reduzca la necesidad de memoria para desequilibrar el mercado. Una **trampa fatal** es que, en el pico del ciclo, las acciones de almacenamiento a menudo muestran bajos ratios P/E (relación precio-beneficio), atrayendo a inversores incautos que creen que es una "inversión en valor". En realidad, es el momento de mayor riesgo, ya que una caída en los precios de las materias primas puede hacer desaparecer esas ganancias rápidamente. En conclusión, la industria del almacenamiento está sujeta a ciclos brutales donde la alta rentabilidad contiene las semillas de su propia destrucción, lo que la convierte en una arena peligrosa para los inversores desprevenidos.

链捕手Hace 14 min(s)

Wang Chuan: Cómo mantener la calma cuando el vecino Lao Wang multiplicó por treinta su inversión en acciones de almacenamiento (6) - La trampa de los productos homogéneos

链捕手Hace 14 min(s)

Llega el AI PC: ¡Modelos masivos de 120B locales ahora son posibles! NVIDIA redefine la base de la "computadora personal con IA" con RTX Spark

En la conferencia GTC 2026, NVIDIA presentó el chip RTX Spark, redefiniendo el estándar de hardware para los "PCs personales de IA". Integrando una GPU Blackwell, una CPU Grace de 20 núcleos y una arquitectura de memoria unificada de hasta 128GB, el SoC ofrece un rendimiento de 1 petaflop (1000 TOPS) para IA. Esto permite ejecutar localmente modelos de lenguaje de hasta 120B parámetros con ventanas de contexto de hasta un millón de tokens, superando ampliamente las capacidades de los NPU actuales en PCs con IA. Principales fabricantes de equipos originales (OEM) como ASUS, Dell, HP, Lenovo, Microsoft Surface y MSI lanzarán portátiles delgados y equipos de sobremesa compactos con este chip en otoño. NVIDIA y Microsoft colaboran en seguridad, integrando el entorno de ejecución en sandbox OpenShell en Windows para aislar y gestionar de forma segura los agentes de IA locales. Adobe anunció una reestructuración desde el núcleo de Photoshop y Premiere para adaptarse a la arquitectura de memoria unificada, prometiendo mejoras de rendimiento. La llegada de RTX Spark marca un cambio en la industria del PC, donde la GPU se convierte en el componente central del sistema, desafiando el dominio tradicional de las CPU x86. Quedan por ver detalles clave como el precio final, la gestión térmica en portátiles y el rendimiento real en tareas no relacionadas con la IA.

marsbitHace 28 min(s)

Llega el AI PC: ¡Modelos masivos de 120B locales ahora son posibles! NVIDIA redefine la base de la "computadora personal con IA" con RTX Spark

marsbitHace 28 min(s)

Entrevista al gurú macro Raoul Pal: El punto de inflexión económico se acerca, no te bajes fácilmente en los próximos cuatro años

En su última aparición en el podcast "When Shift Happens", el macroinvestidor Raoul Pal analizó la carrera global por la IA y su impacto en los mercados. Pal argumenta que la competencia entre EE.UU. y China por la Inteligencia General Artificial (AGI) es el mayor evento de capital de la historia, impulsando una expansión de liquidez y alzas en bolsa. Introduce el concepto del "Singularidad Económica", un punto donde el crecimiento tecnológico exponencial, especialmente de agentes de IA, superará la capacidad del sistema económico actual. A pesar del auge de la IA, Pal mantiene que las criptomonedas ofrecen uno de los mejores perfiles de riesgo/rendimiento a largo plazo. Destaca el potencial ilimitado del mercado cripto con la llegada de una "economía de agentes" de IA que operarán en cadena. Considera la reciente corrección de Bitcoin como un retroceso saludable dentro de un mercado alcista y aboga por la estrategia de "comprar y mantener" frente al trading activo. Entre sus convicciones clave: * **Layer 1s como inversión principal:** Ethereum, Solana y Sui capturarán la mayor parte del valor al ser la infraestructura base para la futura economía digital y de agentes de IA. * **DeFi para máquinas:** Los sistemas financieros descentralizados serán utilizados masivamente por agentes de IA para transacciones eficientes. * **NFTs como activos "trofeo":** El arte digital de alta gana valor como registro cultural y bien de estatus en una economía en expansión. * **Perspectiva alcista macro:** Factores como la mayor adopción institucional, claridad regulatoria potencial y la necesidad continua de expansión monetaria de los gobiernos crean un entorno favorable. Pal concluye que, con la Singularidad Económica aproximándose en unos 4 años, los inversores deberían acumular y mantener activos criptográficos, que considera el "plan de pensiones de la humanidad" para navegar la mayor transición tecnológica.

链捕手Hace 57 min(s)

Entrevista al gurú macro Raoul Pal: El punto de inflexión económico se acerca, no te bajes fácilmente en los próximos cuatro años

链捕手Hace 57 min(s)

¿Ejecutar MoE en un móvil? Meta propone MobileMoE, acelera hasta 3.8 veces en iPhone 16 Pro

El equipo de Meta presenta MobileMoE, el primer modelo de mezcla de expertos (MoE) optimizado para ejecutarse de manera eficiente en teléfonos inteligentes comerciales. Diseñado como un modelo de lenguaje Transformer decoder-only, MobileMoE reemplaza las capas densas de feed-forward por capas MoE, empleando un router que selecciona los pocos expertos más relevantes por token junto con un experto compartido. El modelo se entrena en cuatro fases: preentrenamiento, entrenamiento intermedio, ajuste fino supervisado y entrenamiento consciente de cuantización (hasta INT4/INT8). Los experimentos determinan una configuración óptima de 8 expertos con granularidad 8, enrutamiento top-4 y un experto compartido. En evaluaciones de referencia, MobileMoE-S/M logra una precisión media comparable o superior a modelos densos, utilizando entre 1/2 y 1/4 del cálculo de inferencia con memoria similar. Especialmente en iPhone 16 Pro, MobileMoE-S acelera la fase de entrada hasta 3.8 veces y la generación token por token hasta 3.4 veces respecto a líneas de base. MobileMoE establece un nuevo límite de Pareto para modelos de lenguaje grandes en dispositivos, mejorando el equilibrio entre precisión y coste computacional. Los desafíos futuros incluyen mejorar la capacidad de seguimiento de instrucciones y la gestión de memoria dinámica, así como explorar el despliegue en NPU móviles.

marsbitHace 1 hora(s)

¿Ejecutar MoE en un móvil? Meta propone MobileMoE, acelera hasta 3.8 veces en iPhone 16 Pro

marsbitHace 1 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar BANANA

¡Bienvenido a HTX.com! Hemos hecho que comprar Banana Gun (BANANA) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Banana Gun (BANANA) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Banana Gun (BANANA)Después de comprar tu Banana Gun (BANANA), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Banana Gun (BANANA)Tradear fácilmente con Banana Gun (BANANA) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

149 Vistas totalesPublicado en 2024.12.11Actualizado en 2025.03.21

Cómo comprar BANANA

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de BANANA (BANANA).

活动图片