Mặc dù phần Coding vẫn còn nhiều hạn chế, nhưng Google thực sự có hai "cây cọ" trong lĩnh vực "đa phương thức".
Gemini Omni Flash chính thức mở API, là bản video của Nano Banana.
Ước mơ chỉnh sửa "Harry Potter" không còn là viễn tưởng. Hãy xem bốn màn ảo thuật số do Google biểu diễn bằng Gemini Omni:
Thật khó tin, độ nhất quán và độ rõ chữ thế này, còn cần gì màn xanh hay hiệu ứng đặc biệt, trực tiếp phát sóng Bác sĩ Kỳ Lạ thôi.
Đồng thời, chiếc "quả chuối" mà mọi người mong đợi cũng đã có phiên bản "tốc độ ánh sáng".
Nano Banana 2 Lite: Mô hình hình ảnh Gemini nhanh nhất và hiệu quả nhất về chi phí cho đến nay.
Không ngoa chút nào — mất 4 giây để tạo một hình ảnh, ảnh độ phân giải 1K chỉ tốn khoảng hơn 2 hào.

Đặt cạnh Nano Banana 2 để so sánh, tốc độ này thực sự là cất cánh.
Chưa kể so với GPT Image 2 mất 3 phút mới tạo xong một hình...
Thảo nào mãi không thấy Gemini 3.5 Pro ra lò, hóa ra thời gian đều dồn hết vào việc theo đuổi đa phương thức mà cậu đau đáu nhỉ, Hassabis!!
Gemini Omni Flash
Gemini Omni Flash lần đầu xuất hiện tại hội nghị Google I/O 2026, kết hợp sâu khả năng lập luận đa phương thức của Gemini với việc tạo và chỉnh sửa video, ngay lập tức thu hút sự chú ý đáng kể.
Hiện nay, mô hình này đã chính thức mở cho các nhà phát triển thông qua Gemini API và Google AI Studio. Có thể dễ dàng tạo video chất lượng cao và chỉnh sửa dựa trên nhiều đầu vào như văn bản, hình ảnh và video.
Bốn khả năng chính:
Chỉnh sửa video hội thoại: Sử dụng ngôn ngữ tự nhiên để sửa đổi và tinh chỉnh video, giống như chỉnh sửa tài liệu Feishu.
Tham chiếu đa phương thức: Kết hợp đầu vào hình ảnh, văn bản, video, duy trì kiểm soát và tính nhất quán của cảnh.
Kiến thức thế giới thực: Sử dụng kiến thức của Gemini về lịch sử, sinh học, logic kể chuyện để xây dựng video, không cần bạn phải viết ba trang Prompt để mô tả phong cách kiến trúc.
Đồng bộ văn bản và hành động: Thông qua lời nhắc đơn giản, kết nối trực tiếp văn bản và đồ họa với hành động video.

Giá cả cũng rất cạnh tranh: Chi phí đầu ra video mỗi giây là 0.10 USD, ngang bằng với Veo 3.1 Fast.
Về định vị, cùng là mô hình tạo video phiên bản nhẹ, Omni Flash nhấn mạnh hơn vào kiến thức thế giới của Gemini, và về mặt hệ sinh thái cũng hướng hoàn toàn về tầng Gemini.
Tuy nhiên, Google cũng khá thẳng thắn, tự liệt kê ra một loạt hạn chế ở giai đoạn hiện tại:
1. Hiện chỉ hỗ trợ tạo video 10 giây, sau này sẽ hỗ trợ dài hơn;
2. Tạm thời không hỗ trợ tải lên tài liệu tham khảo âm thanh và mở rộng cảnh;
3. API hỗ trợ video dài tối đa 3 giây làm tài liệu tham khảo, nhưng hiện tại mô hình chưa thể xử lý chính xác loại đầu vào này;
4. Vẫn còn hạn chế về tính nhất quán của nhân vật khi chuyển cảnh và điều chỉnh góc máy.
Nano Banana 2 Lite
Nano Banana 2 Lite (còn gọi là gemini-3.1-flash-lite-image), được thiết kế chuyên biệt cho xử lý tốc độ cao.
Được tối ưu hóa có mục tiêu, nó nhắm đến các ứng dụng thời gian thực cực kỳ nhạy cảm với độ trễ, cần xử lý số lượng lớn hình ảnh trong thời gian ngắn — chẳng hạn như tạo hàng loạt tài liệu thương mại điện tử, lặp lại nhanh ý tưởng quảng cáo, dây chuyền nội dung tự động.
Hai điểm bán hàng chính —
Tốc độ ánh sáng: Độ trễ tạo ảnh khoảng 4 giây, bằng một phần năm của Nano Banana 2 (khoảng 20 giây).
Giá bèo: Một ảnh 1K chỉ tốn khoảng 0,034 USD, bằng một nửa Nano Banana 2, một phần tư Nano Banana Pro.
Tốc độ cắt, giá cắt, nhưng khả năng tạo ảnh và chỉnh sửa ảnh không bị thu hẹp đáng kể. Nano Banana 2 Lite vẫn duy trì hiệu ứng kết xuất văn bản xuất sắc, trên benchmark ngang hàng với các mô hình như Grok.

Do đó, đề xuất của Google là: Nếu bạn vẫn còn ham rẻ dùng Nano Banana đời đầu, hãy đổi ngay. Phiên bản Lite đã áp đảo toàn diện trên tất cả các chỉ số quan trọng.
Song kiếm hợp bích
Khoan, đừng vội đi.
Tưởng chỉ là phát hành song song hai mô hình, ai ngờ Google cho biết: Còn có trò mới.
Điều kỳ diệu thực sự, là sử dụng kết hợp các mô hình này.
Như mọi người đều biết, sáng tạo AIGC cần lặp đi lặp lại, quản lý tài liệu khá phiền phức.
Giờ đây, với hai mô hình này, cuối cùng cũng không cần phải tải lên tệp đi tệp lại nữa, tạo ảnh và sáng tạo video kết nối liền mạch.
Cụ thể, có thể dùng Nano Banana 2 Lite tạo ảnh tốc độ cao trước, sau đó đưa hình ảnh tạo ra làm tài liệu tham khảo cho Gemini Omni Flash, một click biến thành video.
Để trình diễn luồng công việc kỳ diệu 1+1>2 này, Google thậm chí còn làm riêng 3 APP Demo:
1. Anywhere
Tự chụp một bức hoặc tải ảnh lên, NB2 Lite ngay lập tức ghép bạn vào hàng chục địa danh.
Tiếp theo, nhấn vào ảnh, Omni Flash biến địa danh tĩnh thành đoạn phim động.
Du lịch cyber, giờ cũng end-to-end rồi.
2. Space Lift
Cái này hơi đáng sợ, cảm giác nếu kết hợp thêm với mô hình thế giới Genie, tương lai có lẽ sẽ đe dọa đến nhiều công ty SaaS giải pháp trang trí truyền thống.
Tải lên một bức ảnh phòng, NB2 Lite trước hết đưa ra các phương án phong cách trang trí khác nhau. Tìm thấy phương án ưa thích, nhấn nút video, Omni có thể trực tiếp cho bạn một đoạn tham quan không gian đẳng cấp điện ảnh.
3. Omni product studio
Tin vui cho thương mại xuyên biên giới.
Chụp một bức ảnh sản phẩm trên nền trắng, NB2 Lite tạo ra các bức ảnh sản phẩm theo ngữ cảnh khác nhau, Omni Flash lại biến ảnh tĩnh thành video ngắn thương mại điện tử.
Từ "sản phẩm" đến "tài liệu quảng cáo", toàn bộ liên kết chạy tự động.
Vậy, đa phương thức rốt cuộc có tác dụng gì?
Câu hỏi này Google chắc chắn bị hỏi vô số lần.
Đặc biệt là vào năm 2026, Coding hầu như tương đương với đại diện cho chỉ số IQ của mô hình. Mỗi nhà đều cố gắng hết sức trên Coding.
Cố chấp với đa phương thức, vì cái gì?
Câu chuyện về AGI thì không nói nữa, xét về ngắn hạn, bộ mô hình đa phương thức của Google này thực sự có thể tăng sức mạnh cho nhiều sản phẩm của họ — Stitch là một, tính năng P ảnh tích hợp trong Pixel là một, sự xuất hiện đột ngột của NotebookLM cũng khá ấn tượng.
Hai mô hình mới phát hành lần này, lại cho người ta thấy thêm tiềm năng ứng dụng của đa phương thức trong các kịch bản dọc. Thương mại điện tử, trang trí, video ngắn... nhu cầu của những nghiệp vụ này là thật, tiền cũng thật.
Cộng thêm sự hỗ trợ của hệ sinh thái Android, cơ bản không cần quá lo lắng về vấn đề thương mại hóa.
Google tạm thời đuổi không kịp về Coding, nhưng với bàn chơi đa phương thức này, Google có lẽ là người chơi duy nhất có thể sắp xếp đủ một bộ bài.
Tuy nhiên...
Gemini 3.5 Pro rốt cuộc bao giờ mới ra mắt vậy!!!

Liên kết tham khảo:[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
Bài viết này đến từ tài khoản công chúng WeChat "Quantum Bit", tác giả: Quan tâm công nghệ tiên phong






