Si bien "Coding" aún es un desastre, Google sí que tiene sus cartas bajo la manga en lo que a "multimodalidad" se refiere.
Gemini Omni Flash ya está abierto oficialmente a través de API, la versión en vídeo de Nano Banana.
Dejar de soñar con que los "muggles" rehagan "Harry Potter". Observemos estos cuatro trucos de magia digital que Google realiza con Gemini Omni:
Es una locura, esta coherencia y claridad de texto, ¿para qué necesitas croma y efectos? Se podría hacer una transmisión en directo del Doctor Strange directamente.
Mientras tanto, el tan esperado "plátano", también recibe su versión "a velocidad de la luz".
Nano Banana 2 Lite: el modelo de imagen Gemini más rápido y económico hasta la fecha.
Sin exagerar: genera una imagen en 4 segundos, una imagen en resolución 1K cuesta solo alrededor de 0.20 yuanes.

Comparado con Nano Banana 2, esta velocidad es simplemente despegue.
Por no hablar de GPT Image 2, que tarda 3 minutos en generar una imagen...
Con razón no ha salido Gemini 3.5 Pro en tanto tiempo, ¡¡parece que todo el tiempo se ha invertido en la multimodalidad tan ansiada, Hassabis!!
Gemini Omni Flash
Gemini Omni Flash, presentado por primera vez en Google I/O 2026, combina las capacidades de razonamiento multimodal de Gemini con la generación y edición de vídeo, lo que despertó gran interés en su momento.
Ahora, este modelo ya está disponible oficialmente para desarrolladores a través de Gemini API y Google AI Studio. Puede generar y editar vídeos de alta calidad fácilmente basándose en múltiples entradas como texto, imágenes y vídeo.
Cuatro capacidades clave:
Edición conversacional de vídeo: modificar y perfeccionar vídeos con lenguaje natural, como editar un documento en Lark.
Referencia multimodal: combinar entradas de imagen, texto y vídeo, manteniendo el control y la coherencia de la escena.
Conocimiento del mundo real: aprovechar los conocimientos de Gemini en historia, biología, lógica narrativa, etc., para construir vídeos, sin necesidad de escribir tres páginas de prompt describiendo estilos arquitectónicos.
Sincronización de texto y acción: conectar texto y gráficos directamente a la acción del vídeo mediante prompts simples.

El precio también es competitivo: el coste por segundo de salida de vídeo es de 0.10 dólares, igual que Veo 3.1 Fast.
En cuanto al posicionamiento, siendo también un modelo de generación de vídeo ligero, Omni Flash enfatiza más el conocimiento mundial de Gemini, y su ecosistema también está totalmente orientado hacia la capa Gemini.
Sin embargo, Google también es bastante franco, y enumera activamente una serie de limitaciones actuales:
1. Actualmente solo admite la generación de vídeos de 10 segundos, se admitirán duraciones más largas posteriormente;
2. Por ahora no admite la carga de referencias de audio ni la expansión de escenas;
3. La API admite vídeos de hasta 3 segundos como material de referencia, pero el modelo aún no puede procesar correctamente este tipo de entrada;
4. Aún hay limitaciones en la coherencia de los personajes al cambiar de escena o usar movimientos de cámara.
Nano Banana 2 Lite
Nano Banana 2 Lite (también conocido como gemini-3.1-flash-lite-image) está diseñado específicamente para un procesamiento ultrarrápido.
Optimizado de manera específica, apunta a aquellos escenarios de aplicaciones en tiempo real extremadamente sensibles a la latencia y que requieren procesar grandes volúmenes de imágenes en poco tiempo, como la generación masiva de material para e-commerce, la iteración rápida de creatividades publicitarias o las líneas de producción automatizadas de contenido.
Dos puntos clave de venta:
Velocidad de la luz: latencia de generación de imagen de unos 4 segundos, una quinta parte de Nano Banana 2 (que tarda unos 20 segundos).
Precio de ganga: una imagen en 1K cuesta solo unos 0.034 dólares, la mitad que Nano Banana 2 y una cuarta parte que Nano Banana Pro.
Se redujo la velocidad y el precio, pero las capacidades de generación y edición de imágenes no se redujeron significativamente. Nano Banana 2 Lite aún mantiene un efecto de renderizado de texto excelente, situándose al mismo nivel que modelos como Grok en los benchmarks.

Por lo tanto, la recomendación de Google es: si todavía estás usando la primera generación de Nano Banana por ser barata, cámbiala ya. La versión Lite supera a la original en todos los indicadores clave.
Combinación de dos espadas
Espera, no te vayas todavía.
Se pensaba que esto solo era el lanzamiento de dos modelos en paralelo, pero Google indica: hay un truco nuevo.
La verdadera magia reside en conectar estos modelos en cadena para su uso.
Como es sabido, la creación con AIGC requiere iteraciones repetidas y la gestión del material es bastante engorrosa.
Ahora, con estos dos modelos, finalmente no es necesario cargar archivos repetidamente, la generación de imágenes y la creación de vídeos se conectan sin problemas.
Concretamente, se puede usar primero Nano Banana 2 Lite para generar imágenes a alta velocidad, y luego alimentar las imágenes generadas como material de referencia a Gemini Omni Flash, transformándolas en vídeo con un clic.
Para mostrar esta magia de 1+1>2 en el flujo de trabajo, Google incluso desarrolló 3 aplicaciones demo:
1. Anywhere (Cualquier lugar)
Tómate un selfie o sube una foto, NB2 Lite te "photoshopea" instantáneamente en docenas de lugares emblemáticos.
Luego haz clic en la imagen y Omni Flash transforma el lugar estático en un clip dinámico.
El turismo cibernético también se convierte en un proceso integral ahora.
2. Space Lift (Elevador espacial)
Esto da un poco de miedo, parece que combinándolo con el modelo mundial Genie, en el futuro podría amenazar a muchas empresas de SaaS tradicionales de soluciones de decoración.
Sube una foto de una habitación, NB2 Lite genera primero varios estilos de decoración. Encuentra el que te guste, pulsa el botón de vídeo y Omni puede directamente darte un recorrido cinematográfico por el espacio.
3. Omni product studio (Estudio de producto Omni)
Una buena noticia para el comercio transfronterizo electrónico.
Toma una foto de tu producto sobre fondo blanco, NB2 Lite genera varias imágenes del producto en diferentes escenarios, y Omni Flash transforma la imagen estática en un vídeo corto para e-commerce.
De "producto" a "material publicitario", toda la cadena se ejecuta automáticamente.
Entonces, ¿para qué sirve realmente la multimodalidad?
Seguro que Google ha escuchado esta pregunta innumerables veces.
Sobre todo en 2026, donde "Coding" equivale prácticamente al coeficiente intelectual del modelo. Todas las empresas compiten a muerte en Coding.
¿Qué se persigue obsesionándose con la multimodalidad?
Dejemos de lado la narrativa de la AGI. A corto plazo, este conjunto de modelos multimodales de Google realmente puede potenciar muchos de sus productos.
No profundizaremos en la narrativa de la AGI. A corto plazo, este conjunto de modelos multimodales de Google realmente puede potenciar muchos de sus productos: Stitch es uno, el retoque de fotos incorporado en Pixel es otro, y el surgimiento de Notebook LM también fue bastante impresionante.
Los dos nuevos modelos lanzados esta vez permiten ver más potencial de aplicación de la multimodalidad en escenarios verticales. Comercio electrónico, decoración, vídeos cortos... la demanda en estos negocios es real, y el dinero también.
Sumado al respaldo del ecosistema Android, básicamente no hay que preocuparse demasiado por la comercialización.
Google puede que no alcance en Coding por ahora, pero en la mesa de juego de la multimodalidad, Google podría ser el único jugador capaz de formar una mano completa.
Sin embargo...
¡¡¡¿Cuándo va a llegar Gemni 3.5 Pro?!!!

Referencias:[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
Este artículo procede del cuenta oficial de WeChat "Qubit", autor: Tecnología de vanguardia






