Хотя «кодинг» пока ещё так себе, но у Google явно есть пара козырей в рукаве, когда дело доходит до «мультимодальности».
Gemini Omni Flash официально открывает API — представляем видеоверсию Nano Banana.
Теперь мечта «магов-переделкистов» о «Гарри Поттере» может стать реальностью. Оцените эти четыре цифровых фокуса от Google с использованием Gemini Omni:
Просто невероятно! Эта согласованность и чёткость текста... Зачем тогда зелёный экран и спецэффекты? Можно сразу в прямом эфире показывать Доктора Стрэнджа.
И в то же время долгожданный «банан» обзаводится «светоскоростной» версией.
Nano Banana 2 Lite: самая быстрая и экономически эффективная модель генерации изображений Gemini на сегодняшний день.
Без преувеличений — 4 секунды на одно изображение, картинка с разрешением 1K обойдётся примерно в 2 с лишним цента.

Если сравнить с Nano Banana 2, эта скорость просто взрывная.
Не говоря уже о GPT Image 2, которому для одного изображения нужно 3 минуты...
Теперь понятно, почему так долго нет Gemini 3.5 Pro — оказывается, всё время ушло на страстно любимую «мультимодальность», да, Хассабис?!
Gemini Omni Flash
Gemini Omni Flash, впервые представленный на Google I/O 2026, глубоко интегрирует возможности мультимодального анализа Gemini с генерацией и редактированием видео, что сразу привлекло внимание.
Теперь эта модель официально доступна разработчикам через Gemini API и Google AI Studio. Она легко генерирует и редактирует высококачественное видео на основе текстовых, графических и видео-входных данных.
Четыре ключевые возможности:
Диалоговое редактирование видео: изменение и доработка видео естественным языком, прямо как редактирование документа в Feishu.
Мультимодальные ссылки: комбинирование изображений, текста, видео с сохранением контроля над сценой и согласованности.
Знания о реальном мире: использование знаний Gemini в истории, биологии, логике повествования для построения видео — не нужно писать трёхстраничные промпты, описывая архитектурный стиль.
Синхронизация текста и действий: подключение текста и графики непосредственно к действиям в видео с помощью простых промптов.

Цены тоже конкурентоспособные: стоимость вывода видео за секунду составляет 0.10 доллара, что на уровне Veo 3.1 Fast.
В плане позиционирования, будучи такой же облегчённой моделью генерации видео, Omni Flash больше делает упор на мировые знания Gemini, а в экосистемном плане также полностью ориентирован на уровень Gemini.
Впрочем, Google довольно откровенен и сам перечисляет ряд текущих ограничений:
1. Пока поддерживается генерация видео длиной только до 10 секунд, позже будут поддержаны более длинные ролики;
2. Временно не поддерживается загрузка аудио-референсов и расширение сцен;
3. API поддерживает видео длиной до 3 секунд в качестве справочного материала, но модель пока не может корректно обрабатывать такие входные данные;
4. Согласованность персонажей при смене сцен и движениях камеры всё ещё ограничена.
Nano Banana 2 Lite
Nano Banana 2 Lite (также известная как gemini-3.1-flash-lite-image) создана для скоростной обработки.
Благодаря целевой оптимизации она нацелена на сценарии реального времени, крайне чувствительные к задержкам и требующие обработки больших объёмов изображений за короткое время — например, пакетная генерация материалов для электронной коммерции, быстрая итерация рекламных креативов, автоматизированные конвейеры контента.
Два основных преимущества —
Скорость света: задержка генерации изображения около 4 секунд, что в пять раз быстрее Nano Banana 2 (около 20 секунд).
Цена копеечная: одно изображение 1K стоит около 0.034 доллара, что вдвое дешевле Nano Banana 2 и в четыре раза дешевле Nano Banana Pro.
Скорость увеличена, цена снижена, но возможности генерации и редактирования изображений заметно не пострадали. Nano Banana 2 Lite по-прежнему сохраняет отличный эффект рендеринга текста, находясь на одном уровне с такими моделями, как Grok, по тестам.

Поэтому рекомендация Google такая: если вы всё ещё пользуетесь первым Nano Banana ради дешевизны, срочно меняйте. Lite-версия уже по всем ключевым показателям полностью его превосходит.
Объединение двух клинков
Стоп, не уходите.
Казалось бы, это всего лишь выпуск двух параллельных моделей, но Google заявляет: есть ещё кое-что новенькое.
Настоящее волшебство заключается в использовании этих моделей последовательно.
Всем известно, что создание AIGC-контента требует многократных итераций, и управление материалами довольно хлопотно.
Теперь же, благодаря этим двум моделям, больше не нужно постоянно загружать файлы — генерация изображений и создание видео плавно соединяются.
Конкретно: можно сначала быстро сгенерировать изображение с помощью Nano Banana 2 Lite, а затем использовать созданное изображение в качестве референс-материала для Gemini Omni Flash, одним кликом превратив его в видео.
Чтобы продемонстрировать этот магический воркфлоу «1+1>2», Google даже специально разработал 3 демо-приложения:
1. Anywhere (Где угодно)
Сделайте селфи или загрузите фото, и NB2 Lite моментально перенесёт вас на десятки знаковых достопримечательностей.
Затем нажмите на картинку, и Omni Flash превратит статичную достопримечательность в динамичный короткий ролик.
Кибертуризм теперь тоже стал сквозным процессом.
2. Space Lift (Космический лифт / Преображение пространства)
Это даже немного пугает. Кажется, если это ещё объединить с мировой моделью Genie, в будущем могут пострадать многие традиционные SaaS-компании, предлагающие решения по ремонту.
Загрузите фото комнаты, NB2 Lite предложит различные варианты стилей ремонта. Найдёте понравившийся — нажмите кнопку «видео», и Omni даст вам киношный тур по пространству.
3. Omni product studio (Универсальная студия товаров)
Благая весть для трансграничной электронной коммерции.
Сделайте фото товара на белом фоне, NB2 Lite создаст различные контекстные изображения товара, а Omni Flash превратит статичные картинки в короткие рекламные видео для электронной коммерции.
Весь путь от «продукта» до «рекламного материала» автоматически пройден.
Итак, для чего же нужна мультимодальность?
Google, наверняка, этот вопрос задавали бесчисленное количество раз.
Особенно в 2026 году, когда «кодинг» почти стал синонимом интеллекта модели. Все изо всех сил стараются преуспеть в «кодинге».
Зачем так упорно бороться за мультимодальность?
Опустим громкие нарративы про ИИО. В краткосрочной перспективе эта мультимодальная модель Google действительно может дать импульс многим её продуктам.
О нарративах про ИИО говорить не будем. В краткосрочной перспективе эта мультимодальная модель Google действительно может дать импульс многим её продуктам — Stitch один из них, встроенное редактирование фото в Pixel — другой, появление NotebookLM тоже впечатляет.
Выпуск двух новых моделей позволяет увидеть больший потенциал применения мультимодальности в вертикальных сценариях. Электронная коммерция, ремонт, короткие видео... Спрос в этих сферах реален, и деньги там тоже реальные.
Плюс, имея поддержку экосистемы Android, в плане коммерциализации особо беспокоиться не приходится.
В «кодинге» Google временно не догнать, но за столом мультимодальности Google, возможно, единственный игрок, способный собрать полную колоду карт.
Однако...
Так когда же выйдет Gemni 3.5 Pro?!!!

Ссылки:[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
Статья из официального аккаунта WeChat «Квантовый бит», автор: В центре внимания — передовые технологии







