Bien que le codage reste un peu brouillon, Google a vraiment quelques tours dans son sac quand il s'agit de « multimodal ».
Gemini Omni Flash a officiellement ouvert son API, la version vidéo de Nano Banana.
Transformer « Harry Potter » par un Muggle n'est plus un rêve. Voyons ces quatre tours de magie numérique exécutés par Gemini Omni :
C'est trop incroyable. Cette cohérence et cette clarté du texte... plus besoin d'écran vert ou d'effets spéciaux, on peut diffuser en direct Docteur Strange.
Parallèlement, la « banane » tant attendue accueille également sa version « à la vitesse de la lumière ».
Nano Banana 2 Lite : à ce jour, le modèle d'image Gemini le plus rapide et le plus économique.
Sans exagération — 4 secondes pour générer une image, une image en résolution 1K ne coûte qu'environ 20 centimes.

Comparé à Nano Banana 2, cette vitesse est tout simplement fulgurante.
Sans parler de GPT Image 2, qui met 3 minutes pour générer une seule image...
Pas étonnant que Gemini 3.5 Pro n'ait pas vu le jour pendant si longtemps. Tout le temps a été consacré au multimodal tant chéri, n'est-ce pas, Hassabis !!
Gemini Omni Flash
Présenté pour la première fois lors de la Google I/O 2026, Gemini Omni Flash combine profondément les capacités de raisonnement multimodal de Gemini avec la génération et l'édition vidéo, suscitant déjà beaucoup d'attention à l'époque.
Aujourd'hui, ce modèle est officiellement ouvert aux développeurs via l'API Gemini et Google AI Studio. Il peut générer et éditer facilement des vidéos de haute qualité en s'appuyant sur diverses entrées telles que le texte, les images et les vidéos.
Quatre capacités clés :
Édition vidéo conversationnelle : modifier et affiner des vidéos en langage naturel, comme on modifierait un document Feishu.
Référence multimodale : combiner des images, du texte, des vidéos en entrée, pour maintenir le contrôle et la cohérence de la scène.
Connaissance du monde réel : utiliser les connaissances de Gemini en histoire, biologie, logique narrative, etc., pour construire des vidéos, sans avoir à décrire sur trois pages le style architectural.
Synchronisation texte et mouvement : via de simples prompts, lier directement le texte et les graphismes aux actions de la vidéo.

Le prix est aussi très compétitif : coût de sortie vidéo par seconde 0,10 dollar, au même niveau que Veo 3.1 Fast.
En termes de positionnement, bien que tous deux soient des modèles légers de génération vidéo, Omni Flash met davantage l'accent sur les connaissances mondiales de Gemini, et son écosystème se rapproche aussi entièrement de la couche Gemini.
Mais Google est aussi assez transparent, listant activement une série de limitations actuelles :
1. Pour le moment, ne supporte que la génération de vidéos de 10 secondes ; des durées plus longues suivront ;
2. Ne supporte pas encore l'upload de référence audio et l'extension de scène ;
3. L'API supporte des vidéos de référence jusqu'à 3 secondes, mais le modèle ne peut pas encore traiter correctement ce type d'entrée ;
4. La cohérence des personnages lors des changements de scène et des mouvements de caméra reste limitée.
Nano Banana 2 Lite
Nano Banana 2 Lite (alias gemini-3.1-flash-lite-image) est conçu pour un traitement ultra-rapide.
Optimisé de manière ciblée, il vise les scénarios d'application en temps réel extrêmement sensibles à la latence et nécessitant un traitement par lots massif d'images en très peu de temps — par exemple, la génération par lots de matériel e-commerce, l'itération rapide de créations publicitaires, les chaînes de production de contenu automatisées.
Deux atouts principaux —
Vitesse lumière : latence de génération d'environ 4 secondes, soit un cinquième de celle de Nano Banana 2 (environ 20 secondes).
Prix imbattable : une image 1K ne coûte qu'environ 0,034 dollar, soit la moitié du prix de Nano Banana 2 et le quart de celui de Nano Banana Pro.
La vitesse et le prix ont été réduits, mais les capacités de génération et d'édition d'images n'ont pas vraiment été affectées. Nano Banana 2 Lite conserve toujours d'excellents effets de rendu de texte, se situant au même niveau que Grok et d'autres modèles sur les benchmarks.

C'est pourquoi la recommandation de Google est la suivante : si vous utilisez encore la première génération de Nano Banana pour économiser, changez vite. La version Lite surpasse l'ancienne sur tous les indicateurs clés.
L'union fait la force
Attendez, ne partez pas encore.
On pensait qu'il s'agissait simplement de deux modèles lancés en parallèle, mais Google indique : il y a plus.
La véritable magie réside dans l'utilisation en cascade de ces modèles.
Comme on le sait, la création AIGC nécessite des itérations répétées, et la gestion des matériaux est assez pénible.
Désormais, grâce à ces deux modèles, plus besoin de ré-uploader sans cesse des fichiers, la génération d'images et la création vidéo sont parfaitement connectées.
Concrètement, on peut d'abord utiliser Nano Banana 2 Lite pour générer rapidement des images, puis donner les images générées comme matériel de référence à Gemini Omni Flash pour les transformer en vidéo d'un clic.
Pour démontrer la puissance de ce workflow magique 1+1>2, Google a même spécialement créé 3 applications de démonstration :
1. Anywhere (N'importe où)
Prenez un selfie ou uploadez une photo, NB2 Lite vous place instantanément dans des dizaines de sites emblématiques.
Puis cliquez sur l'image, Omni Flash transforme le site statique en un court métage dynamique.
Le tourisme cybernétique, le voilà de bout en bout.
2. Space Lift (Ascenseur spatial)
Celui-ci est un peu effrayant. On sent qu'en le combinant avec le modèle mondial Genie, cela pourrait à l'venir menacer pas mal d'entreprises SaaS traditionnelles de solutions de décoration.
Uploadez une photo de votre pièce, NB2 Lite propose d'abord divers styles de décoration. Trouvez celui que vous aimez, cliquez sur le bouton vidéo, Omni peut directement vous offrir une visite cinématographique de l'espace.
3. Omni product studio (Studio produit Omni)
Une aubaine pour le commerce transfrontalier.
Prenez une photo de votre produit sur fond blanc, NB2 Lite génère diverses images scénarisées du produit, Omni Flash transforme ensuite l'image statique en une courte vidéo pour l'e-commerce.
Du « produit » au « matériel publicitaire », la chaîne entière s'exécute automatiquement.
Alors, à quoi sert vraiment le multimodal ?
Cette question, Google l'a sûrement entendue des milliers de fois.
Surtout en 2026, où le Codage équivaut presque à un synonyme d'intelligence des modèles. Tout le monde se bat à mort sur le codage.
S'acharner sur le multimodal, pourquoi faire ?
On ne développera pas le discours sur la narration AGI. À court terme, il est vrai que cette gamme de modèles multimodaux de Google peut dynamiser pas mal de ses produits.
On ne va pas s'étendre sur la narration AGI. À court terme, il est vrai que cette gamme de modèles multimodaux de Google peut dynamiser pas mal de ses produits — Stitch en est un, la retouche photo intégrée aux Pixel en est un, l'émergence de Notebook LM est aussi assez impressionnante.
Les deux nouveaux modèles lancés cette fois-ci permettent de voir plus de potentiel d'application du multimodal dans des scénarios verticaux. E-commerce, décoration, courtes vidéos... la demande pour ces activités est réelle, et l'argent aussi.
Avec en plus le soutien de l'écosystème Android, on n'a pas vraiment à s'inquiéter de la commercialisation.
Google ne rattrape peut-être pas le retard en codage pour le moment, mais à la table du multimodal, Google est peut-être le seul joueur capable d'avoir une main complète.
Mais quand même...
Gemini 3.5 Pro, c'est pour quand au juste !!!

Liens de référence :[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
Cet article provient du compte public WeChat « Quantum Bit », auteur : Concerné par les technologies de pointe






