La versión en vídeo de Nano Banana ya está aquí: con conocimiento del mundo Gemini incorporado, generar imágenes con el plátano original solo tarda 4 segundos

marsbitPublicado a 2026-07-01Actualizado a 2026-07-01

Resumen

Google ha lanzado dos nuevos modelos multimodales: **Gemini Omni Flash** y **Nano Banana 2 Lite**. **Gemini Omni Flash** es un modelo de generación y edición de video que combina la capacidad de razonamiento multimodal de Gemini con la creación de contenido visual. Permite generar videos de hasta 10 segundos mediante instrucciones de lenguaje natural, utilizando referencias de texto, imagen o video. Sus características clave incluyen edición conversacional, integración de conocimientos del mundo real y sincronización de texto con acción. Su costo es competitivo, a 0.10 USD por segundo de video. **Nano Banana 2 Lite** (gemini-3.1-flash-lite-image) es un modelo optimizado para generar imágenes a alta velocidad y bajo costo. Puede crear una imagen de resolución 1K en aproximadamente **4 segundos**, por un precio de unos **0.034 USD**, lo que lo hace ideal para aplicaciones en tiempo real como comercio electrónico o publicidad. Mantiene una buena calidad en la generación y representación de texto. La verdadera potencia, según Google, reside en combinar ambos modelos. Un flujo de trabajo típico sería generar rápidamente una imagen con Nano Banana 2 Lite y luego usarla como referencia para que Gemini Omni Flash la transforme en un video dinámico. Se presentaron tres demostraciones de esta sinergia: "Anywhere" (para crear videos de viaje a partir de una selfie), "Space Lift" (para visualizar propuestas de diseño de interiores) y "Omni Product Studio" (para generar material public...

Si bien "Coding" aún es un desastre, Google sí que tiene sus cartas bajo la manga en lo que a "multimodalidad" se refiere.

Gemini Omni Flash ya está abierto oficialmente a través de API, la versión en vídeo de Nano Banana.

Dejar de soñar con que los "muggles" rehagan "Harry Potter". Observemos estos cuatro trucos de magia digital que Google realiza con Gemini Omni:

Es una locura, esta coherencia y claridad de texto, ¿para qué necesitas croma y efectos? Se podría hacer una transmisión en directo del Doctor Strange directamente.

Mientras tanto, el tan esperado "plátano", también recibe su versión "a velocidad de la luz".

Nano Banana 2 Lite: el modelo de imagen Gemini más rápido y económico hasta la fecha.

Sin exagerar: genera una imagen en 4 segundos, una imagen en resolución 1K cuesta solo alrededor de 0.20 yuanes.

Comparado con Nano Banana 2, esta velocidad es simplemente despegue.

Por no hablar de GPT Image 2, que tarda 3 minutos en generar una imagen...

Con razón no ha salido Gemini 3.5 Pro en tanto tiempo, ¡¡parece que todo el tiempo se ha invertido en la multimodalidad tan ansiada, Hassabis!!

Gemini Omni Flash

Gemini Omni Flash, presentado por primera vez en Google I/O 2026, combina las capacidades de razonamiento multimodal de Gemini con la generación y edición de vídeo, lo que despertó gran interés en su momento.

Ahora, este modelo ya está disponible oficialmente para desarrolladores a través de Gemini API y Google AI Studio. Puede generar y editar vídeos de alta calidad fácilmente basándose en múltiples entradas como texto, imágenes y vídeo.

Cuatro capacidades clave:

Edición conversacional de vídeo: modificar y perfeccionar vídeos con lenguaje natural, como editar un documento en Lark.

Referencia multimodal: combinar entradas de imagen, texto y vídeo, manteniendo el control y la coherencia de la escena.

Conocimiento del mundo real: aprovechar los conocimientos de Gemini en historia, biología, lógica narrativa, etc., para construir vídeos, sin necesidad de escribir tres páginas de prompt describiendo estilos arquitectónicos.

Sincronización de texto y acción: conectar texto y gráficos directamente a la acción del vídeo mediante prompts simples.

El precio también es competitivo: el coste por segundo de salida de vídeo es de 0.10 dólares, igual que Veo 3.1 Fast.

En cuanto al posicionamiento, siendo también un modelo de generación de vídeo ligero, Omni Flash enfatiza más el conocimiento mundial de Gemini, y su ecosistema también está totalmente orientado hacia la capa Gemini.

Sin embargo, Google también es bastante franco, y enumera activamente una serie de limitaciones actuales:

1. Actualmente solo admite la generación de vídeos de 10 segundos, se admitirán duraciones más largas posteriormente;

2. Por ahora no admite la carga de referencias de audio ni la expansión de escenas;

3. La API admite vídeos de hasta 3 segundos como material de referencia, pero el modelo aún no puede procesar correctamente este tipo de entrada;

4. Aún hay limitaciones en la coherencia de los personajes al cambiar de escena o usar movimientos de cámara.

Nano Banana 2 Lite

Nano Banana 2 Lite (también conocido como gemini-3.1-flash-lite-image) está diseñado específicamente para un procesamiento ultrarrápido.

Optimizado de manera específica, apunta a aquellos escenarios de aplicaciones en tiempo real extremadamente sensibles a la latencia y que requieren procesar grandes volúmenes de imágenes en poco tiempo, como la generación masiva de material para e-commerce, la iteración rápida de creatividades publicitarias o las líneas de producción automatizadas de contenido.

Dos puntos clave de venta:

Velocidad de la luz: latencia de generación de imagen de unos 4 segundos, una quinta parte de Nano Banana 2 (que tarda unos 20 segundos).

Precio de ganga: una imagen en 1K cuesta solo unos 0.034 dólares, la mitad que Nano Banana 2 y una cuarta parte que Nano Banana Pro.

Se redujo la velocidad y el precio, pero las capacidades de generación y edición de imágenes no se redujeron significativamente. Nano Banana 2 Lite aún mantiene un efecto de renderizado de texto excelente, situándose al mismo nivel que modelos como Grok en los benchmarks.

Por lo tanto, la recomendación de Google es: si todavía estás usando la primera generación de Nano Banana por ser barata, cámbiala ya. La versión Lite supera a la original en todos los indicadores clave.

Combinación de dos espadas

Espera, no te vayas todavía.

Se pensaba que esto solo era el lanzamiento de dos modelos en paralelo, pero Google indica: hay un truco nuevo.

La verdadera magia reside en conectar estos modelos en cadena para su uso.

Como es sabido, la creación con AIGC requiere iteraciones repetidas y la gestión del material es bastante engorrosa.

Ahora, con estos dos modelos, finalmente no es necesario cargar archivos repetidamente, la generación de imágenes y la creación de vídeos se conectan sin problemas.

Concretamente, se puede usar primero Nano Banana 2 Lite para generar imágenes a alta velocidad, y luego alimentar las imágenes generadas como material de referencia a Gemini Omni Flash, transformándolas en vídeo con un clic.

Para mostrar esta magia de 1+1>2 en el flujo de trabajo, Google incluso desarrolló 3 aplicaciones demo:

1. Anywhere (Cualquier lugar)

Tómate un selfie o sube una foto, NB2 Lite te "photoshopea" instantáneamente en docenas de lugares emblemáticos.

Luego haz clic en la imagen y Omni Flash transforma el lugar estático en un clip dinámico.

El turismo cibernético también se convierte en un proceso integral ahora.

2. Space Lift (Elevador espacial)

Esto da un poco de miedo, parece que combinándolo con el modelo mundial Genie, en el futuro podría amenazar a muchas empresas de SaaS tradicionales de soluciones de decoración.

Sube una foto de una habitación, NB2 Lite genera primero varios estilos de decoración. Encuentra el que te guste, pulsa el botón de vídeo y Omni puede directamente darte un recorrido cinematográfico por el espacio.

3. Omni product studio (Estudio de producto Omni)

Una buena noticia para el comercio transfronterizo electrónico.

Toma una foto de tu producto sobre fondo blanco, NB2 Lite genera varias imágenes del producto en diferentes escenarios, y Omni Flash transforma la imagen estática en un vídeo corto para e-commerce.

De "producto" a "material publicitario", toda la cadena se ejecuta automáticamente.

Entonces, ¿para qué sirve realmente la multimodalidad?

Seguro que Google ha escuchado esta pregunta innumerables veces.

Sobre todo en 2026, donde "Coding" equivale prácticamente al coeficiente intelectual del modelo. Todas las empresas compiten a muerte en Coding.

¿Qué se persigue obsesionándose con la multimodalidad?

Dejemos de lado la narrativa de la AGI. A corto plazo, este conjunto de modelos multimodales de Google realmente puede potenciar muchos de sus productos.

No profundizaremos en la narrativa de la AGI. A corto plazo, este conjunto de modelos multimodales de Google realmente puede potenciar muchos de sus productos: Stitch es uno, el retoque de fotos incorporado en Pixel es otro, y el surgimiento de Notebook LM también fue bastante impresionante.

Los dos nuevos modelos lanzados esta vez permiten ver más potencial de aplicación de la multimodalidad en escenarios verticales. Comercio electrónico, decoración, vídeos cortos... la demanda en estos negocios es real, y el dinero también.

Sumado al respaldo del ecosistema Android, básicamente no hay que preocuparse demasiado por la comercialización.

Google puede que no alcance en Coding por ahora, pero en la mesa de juego de la multimodalidad, Google podría ser el único jugador capaz de formar una mano completa.

Sin embargo...

¡¡¡¿Cuándo va a llegar Gemni 3.5 Pro?!!!

Referencias:[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/

Este artículo procede del cuenta oficial de WeChat "Qubit", autor: Tecnología de vanguardia

Criptos en tendencia

Preguntas relacionadas

Q¿Cuál es el nombre del nuevo modelo de generación de imágenes ultra rápido de Google y cuánto tiempo tarda en generar una imagen?

AEl nuevo modelo se llama Nano Banana 2 Lite (también conocido como gemini-3.1-flash-lite-image) y tarda aproximadamente 4 segundos en generar una imagen.

Q¿Cuáles son las cuatro capacidades clave del modelo Gemini Omni Flash recién lanzado?

ALas cuatro capacidades clave son: 1) Edición de video conversacional, 2) Referencia multimodal, 3) Conocimiento del mundo real integrado de Gemini, y 4) Sincronización de texto y acción.

Q¿Qué dos modelos presentados en el artículo pueden combinarse para crear un flujo de trabajo de imagen a video?

ALos modelos Nano Banana 2 Lite (para generar imágenes rápidamente) y Gemini Omni Flash (para convertir esas imágenes en video) pueden combinarse para un flujo de trabajo sin problemas desde la imagen hasta el video.

Q¿Para qué tipo de aplicaciones está diseñado específicamente el modelo Nano Banana 2 Lite según el artículo?

ANano Banana 2 Lite está diseñado específicamente para aplicaciones en tiempo real sensibles a la latencia que requieren procesar grandes volúmenes de imágenes en poco tiempo, como la generación masiva de material para comercio electrónico, la iteración rápida de creatividades publicitarias y tuberías de contenido automatizadas.

QEl artículo menciona que Google también presentó tres aplicaciones de demostración (Demos) para mostrar el flujo de trabajo combinado. Nombra una de ellas y describe brevemente su función.

AUna de las demos se llama 'Anywhere'. Permite al usuario subir una selfie o foto, usar Nano Banana 2 Lite para colocarla digitalmente en varios puntos de referencia famosos, y luego, con un clic, usar Gemini Omni Flash para transformar esa imagen estática en un video corto y dinámico, ofreciendo una experiencia de 'viaje cibernético'.

Lecturas Relacionadas

Grayscale: Tras reducirse a la mitad, el BTC se acerca al fondo de este ciclo

El bitcoin ha caído por debajo de los 60.000 dólares esta semana, un descenso de más del 50% desde su máximo de 125.000 dólares en octubre. Según el análisis de Grayscale, esta corrección parece ser otro retroceso cíclico dentro de la tendencia alcista a largo plazo del activo, en lugar de un cambio de tendencia. Varios factores presionan el precio actualmente. El más importante es el cambio en las expectativas de la política de la Fed, con el mercado anticipando posibles subidas de tipos bajo el nuevo presidente Kevin Warsh, lo que afecta a la narrativa de "hedge contra la devaluación monetaria". Otros factores son la incertidumbre sobre la aprobación de la ley CLARITY en el Senado de EE. UU., la presión sobre los balances apalancados de algunas empresas del sector (como Strategy) y las preocupaciones sobre la seguridad de los activos digitales frente a la computación cuántica. El informe plantea dos escenarios clave para salir de este mercado bajista: - **Escenario base/optimista:** Aprobación de la ley CLARITY, fortalecimiento de los balances de las empresas clave y que la Fed no suba los tipos. En este caso, el bitcoin podría estar cerca de su mínimo del ciclo. - **Escenario pesimista:** Fracaso de la ley CLARITY, más desapalancamiento en el sector y subidas de tipos por parte de la Fed. Esto podría llevar a una caída adicional del precio, aunque se espera que sea menos severa que en ciclos anteriores (80%) debido a la demanda institucional más estable. A pesar de los desafíos a corto plazo, Grayscale mantiene una visión estructuralmente optimista a largo plazo para los activos digitales, respaldada por la mayor adopción institucional de la tecnología blockchain, los altos niveles de deuda pública y el auge de la IA. La conclusión es que si los próximos catalizadores (decisión de la Fed y ley CLARITY) son favorables, el fondo del ciclo podría estar cerca, ofreciendo un punto de entrada atractivo para inversores de largo plazo.

marsbitHace 20 min(s)

Grayscale: Tras reducirse a la mitad, el BTC se acerca al fondo de este ciclo

marsbitHace 20 min(s)

Guía de supervivencia en el mercado bajista de Web3: Diez libros que te ayudarán a atravesar el ciclo

**Guía de supervivencia en el mercado bajista de Web3: Diez libros clave para navegar los ciclos** El mercado de criptomonedas ha experimentado múltiples ciclos alcistas y bajistas. En los períodos bajistas, la industria se reconfigura y emerge fortalecida. Lejos de ser solo una espera pasiva, estas fases son un tiempo crucial para acumular conocimiento y profundizar la comprensión del sector. Esta lista de diez libros, que trascienden las finanzas para abordar historia, tecnología, filosofía y dinámicas de poder, ofrece una brújula intelectual para navegar la incertidumbre y construir resiliencia a largo plazo. Desde la visión a 10.000 días de Kevin Kelly sobre el futuro de la tecnología y las criptomonedas en *"2049: Posibilidades para los próximos 10.000 días"*, hasta la defensa filosófica de la acción humana de Ludwig von Mises en *"La Acción Humana"*, estos textos ayudan a consolidar la convicción y a entender las dinámicas subyacentes. *"La naturaleza de la tecnología"* de Brian Arthur explica cómo tecnologías como la blockchain evolucionan mediante la recombinación constante, mientras que *"El salvaje lejano"* plantea una reflexión sobre la cultura de dependencia frente a la iniciativa propia, crucial en Web3. *"El individuo soberano"*, visionario libro de 1997, anticipó la descentralización del poder y el auge de las criptomonedas. *"Mirando a Japón: Una guía de supervivencia para la era del declive"* muestra cómo incluso en economías en recesión existen oportunidades, una lección aplicable a los mercados globales de cripto. *"La desnacionalización del dinero"* de Friedrich Hayek sienta las bases teóricas para la competencia monetaria que Bitcoin encarna. La sabiduría práctica de *"Registro de inversiones de Duan Yongping"* recuerda la importancia de hacer "lo correcto" con disciplina. *"La profecía de Balaji"* de Balaji Srinivasan ofrece predicciones audaces y una visión de un futuro construido sobre blockchain. Finalmente, *"Obras Escogidas de Mao Zedong"* proporciona un marco estratégico para analizar luchas de poder a largo plazo, relevante para una industria disruptiva como Web3. Estos libros, en conjunto, no ofrecen atajos hacia ganancias, sino herramientas para cultivar la claridad mental, la fortaleza de convicción y una comprensión profunda necesarias para construir y perseverar más allá de los ciclos del mercado.

Foresight NewsHace 31 min(s)

Guía de supervivencia en el mercado bajista de Web3: Diez libros que te ayudarán a atravesar el ciclo

Foresight NewsHace 31 min(s)

De 'Agrupación de Direcciones' a 'Estándares de Evidencia': ¿Por qué Chainalysis busca redefinir el rastreo en blockchain?

Chainalysis ha publicado una propuesta titulada "Blockchain Tracing Ontology" para establecer un marco de datos unificado en el análisis de blockchain. El objetivo es superar la falta de estándares actual, donde diferentes plataformas ofrecen resultados contradictorios sobre la pertenencia de direcciones debido a algoritmos y reglas propietarias. En lugar de un nuevo algoritmo, la ontología propone un "lenguaje común" para describir los hallazgos de manera transparente, verificable y reproducible. El modelo introduce conceptos como "Wallet Segment" para reflejar mejor la gestión compleja de carteras institucionales. Su núcleo es un cambio de solo presentar resultados a documentar el proceso: cada conclusión debe incluir la evidencia en cadena utilizada, las reglas aplicadas, cualquier información fuera de cadena y un nivel de confianza. Esto es crucial para su uso en contextos judiciales, como se vio en el caso Bitcoin Fog, donde la metodología de Chainalysis fue sometida a escrutinio legal. Chainalysis enfatiza que el análisis on-chain no identifica identidades del mundo real por sí solo; se requieren datos off-chain para completar la evidencia. La iniciativa busca elevar los estándares de la industria, priorizando la calidad de los datos, la transparencia y la admisibilidad jurídica sobre la mera cobertura. Si es adoptada, podría facilitar la colaboración entre instituciones y autoridades, marcando una evolución hacia un análisis más riguroso y basado en evidencias.

marsbitHace 1 hora(s)

De 'Agrupación de Direcciones' a 'Estándares de Evidencia': ¿Por qué Chainalysis busca redefinir el rastreo en blockchain?

marsbitHace 1 hora(s)

Trading

Spot

Artículos destacados

Cómo comprar 4

¡Bienvenido a HTX.com! Hemos hecho que comprar 4 (4) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar 4 (4) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu 4 (4)Después de comprar tu 4 (4), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear 4 (4)Tradear fácilmente con 4 (4) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

599 Vistas totalesPublicado en 2025.10.20Actualizado en 2026.06.02

Cómo comprar 4

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de 4 (4).

活动图片