Filtrado un modelo de generación de imágenes más revolucionario que Nano Banana: las capturas de pantalla ya no son prueba | Incluye prompts

marsbitОпубликовано 2026-04-19Обновлено 2026-04-19

Введение

Resumen: El modelo de generación de imágenes GPT Image 2 de OpenAI, filtrado recientemente, supera significativamente a sus predecesores y competidores como Nano Banana Pro en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo. Es capaz de generar imágenes con texto preciso en múltiples idiomas (incluidos caracteres chinos), interfaces de usuario realistas y documentos falsos tan convincentes que cuestionan la validez de las capturas de pantalla como prueba. Se espera que su lanzamiento oficial sea alrededor del 12 de mayo de 2026, coincidiendo con la retirada de DALL-E 3. Actualmente, algunos usuarios de ChatGPT tienen acceso limitado en fase de pruebas A/B, y se puede intentar acceder a través de la plataforma LM Arena (arena.ai). El artículo incluye prompts de ejemplo para obtener los mejores resultados.

¿Sigues pensando en Nano Banana cuando se trata de generación de imágenes a partir de texto?

Pero chico, los tiempos han cambiado otra vez.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

A principios de abril, aparecieron tres modelos de imagen anónimos en la plataforma de evaluación LM Arena, con los nombres en clave maskingtape-alpha, packingtape-alpha y gaffertape-alpha. Horas después, desaparecieron.

OpenAI aún no ha anunciado oficialmente este modelo, pero según los metadatos devueltos por la API y los registros de pruebas de los usuarios, ya tiene un nombre ampliamente aceptado: GPT Image 2.

Las capturas de pantalla ya no pueden servir como prueba

Durante los últimos años, uno de los puntos débiles más evidentes de los modelos de generación de imágenes con IA ha sido el texto dentro de las imágenes. En la era de DALL-E 3, si le pedías que escribiera "Hello" en una imagen, el resultado podía ser "Hellp" o incluso "Hl10", con las letras tambaleándose como borrachas. GPT Image 1 mejoró mucho, pudiendo manejar etiquetas simples en inglés. Para GPT Image 1.5, su precisión en la representación de texto en inglés ya se acercaba al 95%, pero aún tenía defectos evidentes en sistemas de escritura no latinos como el chino, japonés o coreano.

Y las imágenes de muestra filtradas de GPT Image 2 cambiaron esa impresión.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

El texto en las imágenes es exactamente lo que debería ser. El chino es claro, con formas de letra precisas y trazos completos. Alguien probó a generar una imagen al estilo de un carné de identidad: el nombre, la dirección y el número de documento se renderizaron todos correctamente, con un diseño ordenado, que a primera vista parecía la foto de un documento real.

Esta es una buena noticia. El avance en la renderización de texto significa que generar infografías, pósters, envases de productos o gráficos con diseños complejos se vuelve más fiable.

Pero cada moneda tiene otra cara. Un modelo capaz de generar imágenes de estilo documental indistinguibles de las reales y de renderizar con precisión capturas de pantalla de interfaces, naturalmente hace que el hecho de que "una captura de pantalla pueda servir como prueba" sea cada vez más cuestionable.

En comparación, esta es también la diferencia central entre la serie GPT Image y otros modelos. Midjourney hasta ahora no ha logrado ningún avance en la renderización de texto, y la serie Stable Diffusion también tiene sus viejos problemas. Según los resultados filtrados de las pruebas de Arena, GPT Image 2 supera a Midjourney en cuatro dimensiones: renderización de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, siendo la ventaja de este último principalmente el control estilístico artístico y estético.

¿Realmente sabe cómo es el mundo?

Algunos evaluadores le pidieron al modelo que generara una página de precios hipotética para un producto GPT-8, y la imagen resultante tenía un diseño que efectivamente era del estilo del sitio web oficial de OpenAI, la posición de los botones y la selección de fuentes parecían tomadas de una interfaz real, y la lógica jerárquica de la tabla de precios era correcta.

GPT Image 2 puede generar imágenes extremadamente similares a interfaces de software reales, incluyendo ventanas de navegador, interfaces de aplicaciones móviles, gráficos de visualización de datos, con una fidelidad que es incomparable con la generación anterior.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Esto traerá algunos usos prácticos muy interesantes. Los diseñadores, al crear prototipos de productos, no necesitarán abrir Figma primero para dibujar un montón de marcos; pueden describir directamente con texto la interfaz que quieren, y el resultado será una imagen de referencia que pueden usar para discutir con el equipo. Al crear un Deck para inversores, pueden mostrar una "captura de pantalla del producto" sin esperar a que un ingeniero escriba el código. Al escribir documentación, las interfaces de ejemplo para las imágenes complementarias se pueden generar directamente, sin tener que pensar en una página en blanco de dónde sacar la captura de pantalla.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Generar imágenes ya no es solo "generar imágenes"

OpenAI ya ha anunciado que DALL-E 2 y DALL-E 3 dejarán de prestar servicio oficialmente el 12 de mayo de 2026. DALL-E 3 de Azure OpenAI ya se retiró anticipadamente en febrero.

DALL-E fue el primer contacto de mucha gente con la generación de imágenes por IA, desde aquellos primeros trabajos borrosos hasta hoy, en solo unos pocos años.

Al mismo tiempo, Google, que acababa de establecerse como líder de la industria a principios de 2026 con Nano Banana Pro, quizás sienta presión. Los primeros reportes de pruebas muestran que GPT Image 2 supera a Nano Banana Pro en tres dimensiones simultáneamente: realismo, renderización de texto y conocimiento del mundo, una triple victoria que no es común.

Para los creadores, la sensación es compleja. Ilustradores, diseñadores gráficos, fotógrafos... no es la primera vez que se enfrentan a este tema. Desde el lanzamiento de GPT Image 1, el número de puestos de trabajo de diseño gráfico freelance ha disminuido aproximadamente un 18%. La IA确实 ha reemplazado en algunos escenarios la decisión de "necesito contratar a alguien para hacer esto", pero también está creando nuevas formas de trabajo, permitiendo que una sola persona pueda hacer más cosas.

La velocidad de evolución de los modelos de generación de imágenes ya no deja mucho tiempo de adaptación. De la puesta en línea de GPT Image 1 a la 1.5, pasaron solo unos meses. De la 1.5 a la 2, probablemente solo medio año. Cada generación resuelve los puntos débiles centrales de la anterior, al tiempo que abre nuevas posibilidades.

GPT Image 2 se encuentra ahora en fase de pruebas A/B, y algunos usuarios de ChatGPT ya han obtenido acceso aleatorio. La ventana de tiempo para el lanzamiento oficial se predice普遍mente que será alrededor de la retirada de DALL-E en mayo. Si quieres experimentarlo antes, actualmente puedes probar suerte en la plataforma de evaluación LM Arena.

Dirección de prueba: https://arena.ai

Según la retroalimentación de la comunidad y las ventajas conocidas de este modelo, las siguientes plantillas de prompts pueden maximizar tus probabilidades de éxito:

Prompt de UI/Captura de pantalla: Una captura de pantalla fotorealista de una aplicación bancaria móvil, que muestre claramente el historial de transacciones, donde la fecha, el amount y el nombre del comercio sean claramente legibles. Pantalla de iPhone 16, sujetando el teléfono de forma natural, con fondo de cafetería.

Prompt de etiqueta de producto: Una foto de producto de una botella de cerveza artesanal de calidad fotográfica, con detalles de la etiqueta claros, mostrando el nombre de la cervecería "Oakridge Brewing Co.", graduación alcohólica 6.8%, logotipo de montañas y lista de ingredientes. Iluminación de estudio, fondo blanco.

Prompt de letreros/Señalización: Una foto de escena callejera nocturna en un callejón de Tokio, visible múltiples letreros de neón bilingües japonés-inglés, incluyendo un letrero de restaurante de ramen que dice "Ichiban Ramen — Est. 1987", un letrero de bar de karaoke y varios carteles publicitarios luminosos. Acera resbaladiza y mojada después de la lluvia reflejando las luces.

Prompt de interfaz/Conocimiento del mundo: Una captura de pantalla de un video de YouTube fotorealista, que muestra un video titulado "Cómo ensamblar una computadora en 2026", que tiene 2.3 millones de visitas, con sección de comentarios realista, videos recomendados en la barra lateral e información del canal. Vista de navegador de escritorio.

Prompt disparador de pantalla ancha: Esta es una foto cinematográfica de pantalla ancha, que muestra el exterior de una tienda IKEA al anochecer, mostrando el letrero luminoso de IKEA, coches realistas en el aparcamiento y compradores entrando y saliendo. Iluminación de hora dorada, formato 16:9.

Fuente de imágenes no anotadas y referencia: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Este artículo proviene del WeChat público "APPSO", autor: Descubriendo los productos del mañana

Трендовые криптовалюты

Связанные с этим вопросы

Q¿Qué modelo de generación de imágenes ha sido filtrado recientemente y por qué es significativo?

AEl modelo filtrado se conoce como GPT Image 2, y es significativo porque supera a modelos anteriores como Nano Banana Pro en renderizado de texto, realismo fotográfico y conocimiento del mundo, además de generar imágenes con texto preciso en múltiples idiomas, incluidos caracteres chinos.

Q¿Por qué las capturas de pantalla ya no pueden considerarse pruebas confiables según el artículo?

APorque GPT Image 2 puede generar imágenes fotorrealistas de documentos, interfaces de usuario y capturas de pantalla con texto renderizado con precisión, lo que hace que sea difícil distinguir entre una imagen generada por IA y una real, socavando la confiabilidad de las capturas como evidencia.

Q¿En qué aspectos supera GPT Image 2 a Midjourney según las pruebas de LM Arena?

ASegún las pruebas de LM Arena, GPT Image 2 supera a Midjourney en renderizado de texto, seguimiento de instrucciones, realismo fotográfico y conocimiento del mundo, mientras que Midjourney mantiene ventajas en estilo artístico y control estético.

Q¿Qué aplicaciones prácticas tiene GPT Image 2 para diseñadores y creadores de contenido?

ALos diseñadores pueden generar prototipos de interfaces descritas textualmente, crear capturas de producto para presentaciones sin necesidad de código, y generar imágenes de ejemplo para documentación, acelerando flujos de trabajo y reduciendo la dependencia de herramientas tradicionales de diseño.

Q¿Cuándo se espera que OpenAI lance oficialmente GPT Image 2 y cómo pueden los usuarios acceder anticipadamente?

ASe espera que el lanzamiento oficial ocurra alrededor de mayo de 2026, coincidiendo con la retirada de DALL-E. Los usuarios pueden intentar acceder anticipadamente mediante pruebas A/B en ChatGPT o a través de la plataforma de evaluación LM Arena (arena.ai).

Похожее

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

Блокчейн-кошелек Blockchain.com расширяет доступ к токенизированным акциям и ETF США через интеграцию с Ondo Finance. Партнерство позволяет соответствующим критериям пользователям, особенно за пределами США, получать доступ к традиционным финансовым активам напрямую через привычный криптокошелек, минуя традиционные брокерские платформы. Ondo Finance, известный игрок на рынке токенизированных реальных активов (RWA), обеспечивает технологическую и регуляторную основу для этих активов. Эта интеграция является частью общей тенденции, когда криптоплатформы стремятся сделать токенизированные традиционные активы такими же простыми в использовании, как и обычные криптотокены. Однако широкому внедрению все еще могут препятствовать вопросы регулирования, хранения активов и их выкупа.

bitcoinist1 ч. назад

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

bitcoinist1 ч. назад

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

6 июня 2026 года на выставке Computex NVIDIA анонсировала свой первый процессор Vera CPU, что знаменует серьезный вход компании на рынок серверных процессоров. Это событие подчеркивает растущую ключевую роль CPU в эпоху ИИ-агентов, когда задачи, связанные с выводом (инференсом) и управлением, требуют все большей вычислительной мощности и эффективности процессоров. Рынок серверных процессоров переживает бум. Прогнозы, такие как отчет UBS, предполагают, что его объем может вырасти с примерно 300 млрд долларов в 2025 году до 1700 млрд долларов к 2030 году. Основной драйвер роста — ИИ-агенты, которые выполняют сложные многошаговые задачи, требующие интенсивной работы CPU для управления потоками данных, вызова инструментов и обработки контекста. В таких сценариях нагрузка на CPU может достигать 70-90%, а соотношение CPU к GPU в системах стремится к 1:1, в отличие от 1:8 в эпоху обучения моделей. Это привело к изменению спроса и даже к росту цен на серверные CPU впервые за более чем десятилетие. AMD и Intel столкнулись с дефицитом мощностей. Спрос разделился на высокопроизводительные CPU для работы внутри стоек с GPU и более умеренные, но массовые CPU для развертывания независимых узлов агентов. Новая конкурентная динамика привлекла новых игроков, таких как NVIDIA с ее ARM-архитектурой, и открыла возможности для китайских производителей CPU, таких как Hygon (HaiGuang). Их рост поддерживается как общим рыночным бумом, так и политикой импортозамещения (программа «синьчуан»), требующей замены иностранного оборудования в государственном секторе к 2027 году. Таким образом, в центре следующего этапа развития ИИ находится не только GPU, но и эффективное взаимодействие CPU и GPU, что переопределяет ландшафт полупроводниковой индустрии.

marsbit1 ч. назад

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

marsbit1 ч. назад

Технологический поток Разведуправления: Директор по ИИ AMD публично раскритиковал Claude Code, заявив, что он «стал глупее и ленивее», Трамп заявил о полном прекращении огня в Ормузском проливе, но в проливе осталось около 80 морских мин

Эксклюзив Wired: SK Telecom, стратегический партнер Anthropic, находится под проверкой экспортного контроля США из-за возможного трансфера технологий модели Mythos. GLM-5.2 от китайской Z.AI: модель, по заявлениям, близкая по производительности к Claude Opus, полностью обходится без чипов Nvidia. В сфере чипов: MIT создает собственную ОС для изучения работы процессоров; ASML опровергает заявления США о поставках передовых EUV-установок в Китай; Amazon планирует продавать свои AI-чипы Trainium/Inferentia сторонним компаниям. Безопасность: обнаружено 10 тыс. репозиториев на GitHub, распространяющих вредоносное ПО; Apple исправила критическую уязвимость прослушки в Beats Studio Buds. На рынке: акции полупроводниковых компаний резко выросли (Intel +10.6%, Micron +8.7%); SpaceX упала на 3.56%. Геополитика и экономика: Несмотря на заявление Трампа о перемирии, в главном фарватере Ормузского пролива остается около 80 необезвреженных мин, что удерживает 80 супертанкеров с 80 млн баррелей нефти. Иран отменил дипломатическую поездку в Швейцарию. Основной контекст: Временная "разрядка" в геополитике контрастирует с глубокой и долгосрочной реструктуризацией глобальных технологических и полупроводниковых цепочек, где независимость от доминирующих игроков становится ключевым трендом.

marsbit1 ч. назад

Технологический поток Разведуправления: Директор по ИИ AMD публично раскритиковал Claude Code, заявив, что он «стал глупее и ленивее», Трамп заявил о полном прекращении огня в Ормузском проливе, но в проливе осталось около 80 морских мин

marsbit1 ч. назад

Южная Корея предпринимает шаги по регулированию трансграничных криптовалютных переводов в рамках новой системы

Южная Корея планирует включить финтех-компании в новую систему лицензирования трансграничных переводов виртуальных активов, которая должна быть введена в декабре. Согласно поправкам в Закон о валютных операциях, компаниям, осуществляющим такие переводы, необходимо будет зарегистрироваться в Министерстве экономики и финансов и отчитываться через национальную систему валютной отчётности. Это сделано для того, чтобы вывести криптовалютные переводы из-под неформального надзора и снизить риски отмывания денег. Изначально ожидалось, что доступ к системе получат в основном криптобиржи, такие как Upbit и Bithumb. Однако регуляторы, включая Банк Кореи, рассматривают возможность расширения круга участников, включив в него нетрадиционные криптоплатформы и финтех-фирмы, если они смогут эффективно осуществлять переводы. Министерство экономики и финансов и Банк Кореи совместно с отраслевыми участниками разрабатывают финальные правила реализации рамок регулирования до их запуска в декабре. Это происходит на фоне усиления надзора за цифровыми активами в стране, включая разработку правил для токенизированных ценных бумаг.

TheNewsCrypto3 ч. назад

Южная Корея предпринимает шаги по регулированию трансграничных криптовалютных переводов в рамках новой системы

TheNewsCrypto3 ч. назад

Мэтт Дэймон выступит на Ripple Swell, поскольку продвижение RLUSD от Water.org привлекает внимание

Мэтт Дэймон выступит на конференции Ripple Swell 2026 в Нью-Йорке в качестве основного докладчика. Он является соучредителем некоммерческой организации Water.org, которая недавно запустила кампанию Get Blue для расширения доступа к безопасной воде и санитарии. Ripple указана в материалах кампании как эксклюзивный партнер по цифровым активам и платежам. Партнерство предполагает использование Ripple Payments и стейблкоина Ripple USD (RLUSD) для более эффективного и дешевого перемещения средств микрофинансовым партнерам в развивающихся странах. Это сотрудничество представляет RLUSD в новом свете — не как инструмент для торговли или расчетов, а как часть платежной инфраструктуры для гуманитарных целей. Участие знаменитости помогает Ripple выйти на более широкую аудиторию и представить стейблкоин как практическое решение для филантропии, где важны скорость и низкая стоимость транзакций. Однако важно отметить, что ключевая работа по решению водного кризиса остается за местными партнерами Water.org.

bitcoinist3 ч. назад

Мэтт Дэймон выступит на Ripple Swell, поскольку продвижение RLUSD от Water.org привлекает внимание

bitcoinist3 ч. назад

Торговля

Спот
Фьючерсы

Популярные статьи

Как купить BANANA

Добро пожаловать на HTX.com! Мы сделали приобретение Banana Gun (BANANA) простым и удобным. Следуйте нашему пошаговому руководству и отправляйтесь в свое крипто-путешествие.Шаг 1: Создайте аккаунт на HTXИспользуйте свой адрес электронной почты или номер телефона, чтобы зарегистрироваться и бесплатно создать аккаунт на HTX. Пройдите удобную регистрацию и откройте для себя весь функционал.Создать аккаунтШаг 2: Перейдите в Купить криптовалюту и выберите свой способ оплатыКредитная/Дебетовая Карта: Используйте свою карту Visa или Mastercard для мгновенной покупки Banana Gun (BANANA).Баланс: Используйте средства с баланса вашего аккаунта HTX для простой торговли.Третьи Лица: Мы добавили популярные способы оплаты, такие как Google Pay и Apple Pay, для повышения удобства.P2P: Торгуйте напрямую с другими пользователями на HTX.Внебиржевая Торговля (OTC): Мы предлагаем индивидуальные услуги и конкурентоспособные обменные курсы для трейдеров.Шаг 3: Хранение Banana Gun (BANANA)После приобретения вами Banana Gun (BANANA) храните их в своем аккаунте на HTX. В качестве альтернативы вы можете отправить их куда-либо с помощью перевода в блокчейне или использовать для торговли с другими криптовалютами.Шаг 4: Торговля Banana Gun (BANANA)С легкостью торгуйте Banana Gun (BANANA) на спотовом рынке HTX. Просто зайдите в свой аккаунт, выберите торговую пару, совершайте сделки и следите за ними в режиме реального времени. Мы предлагаем удобный интерфейс как для начинающих, так и для опытных трейдеров.

448 просмотров всегоОпубликовано 2024.03.29Обновлено 2026.06.02

Как купить BANANA

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на BANANA (BANANA) представлены ниже.

活动图片