Bản Nano Banana phiên bản video đã ra mắt: Tích hợp kiến thức thế giới của Gemini, tạo ảnh bản gốc chỉ mất 4 giây

marsbitXuất bản vào 2026-07-01Cập nhật gần nhất vào 2026-07-01

Tóm tắt

Google đã chính thức ra mắt hai mô hình AI đa phương thức mới: Gemini Omni Flash và Nano Banana 2 Lite. Gemini Omni Flash là một mô hình tạo video có khả năng chỉnh sửa video thông qua hội thoại tự nhiên, kết hợp đầu vào đa phương thức (văn bản, hình ảnh, video) và sử dụng kiến thức thế giới của Gemini để xây dựng video chân thực. Mô hình này hiện hỗ trợ tạo video 10 giây với chi phí 0,10 USD mỗi giây đầu ra. Nano Banana 2 Lite (hay gemini-3.1-flash-lite-image) là phiên bản hình ảnh nhanh và tiết kiệm chi phí. Nó có thể tạo hình ảnh độ phân giải 1K chỉ trong khoảng 4 giây với giá khoảng 0,034 USD mỗi hình, giữ lại khả năng kết xuất văn bản xuất sắc. Điểm đáng chú ý là hai mô hình này có thể được kết hợp để tạo ra quy trình làm việc liền mạch: tạo hình ảnh nhanh chóng với Nano Banana 2 Lite, sau đó sử dụng hình ảnh đó làm tài liệu tham chiếu để Gemini Omni Flash tạo ra video động. Google đã minh họa tiềm năng này qua các ứng dụng demo như du lịch ảo (Anywhere), thiết kế nội thất (Space Lift) và tạo nội dung tiếp thị thương mại điện tử (Omni Product Studio). Những phát triển này cho thấy chiến lược của Google là tập trung vào việc áp dụng AI đa phương thức vào các ngành dọc cụ thể như thương mại điện tử, quảng cáo và sáng tạo nội dung, tận dụng lợi thế hệ sinh thái Android để thúc đẩy thương mại hóa.

Mặc dù phần Coding vẫn còn nhiều hạn chế, nhưng Google thực sự có hai "cây cọ" trong lĩnh vực "đa phương thức".

Gemini Omni Flash chính thức mở API, là bản video của Nano Banana.

Ước mơ chỉnh sửa "Harry Potter" không còn là viễn tưởng. Hãy xem bốn màn ảo thuật số do Google biểu diễn bằng Gemini Omni:

Thật khó tin, độ nhất quán và độ rõ chữ thế này, còn cần gì màn xanh hay hiệu ứng đặc biệt, trực tiếp phát sóng Bác sĩ Kỳ Lạ thôi.

Đồng thời, chiếc "quả chuối" mà mọi người mong đợi cũng đã có phiên bản "tốc độ ánh sáng".

Nano Banana 2 Lite: Mô hình hình ảnh Gemini nhanh nhất và hiệu quả nhất về chi phí cho đến nay.

Không ngoa chút nào — mất 4 giây để tạo một hình ảnh, ảnh độ phân giải 1K chỉ tốn khoảng hơn 2 hào.

Đặt cạnh Nano Banana 2 để so sánh, tốc độ này thực sự là cất cánh.

Chưa kể so với GPT Image 2 mất 3 phút mới tạo xong một hình...

Thảo nào mãi không thấy Gemini 3.5 Pro ra lò, hóa ra thời gian đều dồn hết vào việc theo đuổi đa phương thức mà cậu đau đáu nhỉ, Hassabis!!

Gemini Omni Flash

Gemini Omni Flash lần đầu xuất hiện tại hội nghị Google I/O 2026, kết hợp sâu khả năng lập luận đa phương thức của Gemini với việc tạo và chỉnh sửa video, ngay lập tức thu hút sự chú ý đáng kể.

Hiện nay, mô hình này đã chính thức mở cho các nhà phát triển thông qua Gemini API và Google AI Studio. Có thể dễ dàng tạo video chất lượng cao và chỉnh sửa dựa trên nhiều đầu vào như văn bản, hình ảnh và video.

Bốn khả năng chính:

Chỉnh sửa video hội thoại: Sử dụng ngôn ngữ tự nhiên để sửa đổi và tinh chỉnh video, giống như chỉnh sửa tài liệu Feishu.

Tham chiếu đa phương thức: Kết hợp đầu vào hình ảnh, văn bản, video, duy trì kiểm soát và tính nhất quán của cảnh.

Kiến thức thế giới thực: Sử dụng kiến thức của Gemini về lịch sử, sinh học, logic kể chuyện để xây dựng video, không cần bạn phải viết ba trang Prompt để mô tả phong cách kiến trúc.

Đồng bộ văn bản và hành động: Thông qua lời nhắc đơn giản, kết nối trực tiếp văn bản và đồ họa với hành động video.

Giá cả cũng rất cạnh tranh: Chi phí đầu ra video mỗi giây là 0.10 USD, ngang bằng với Veo 3.1 Fast.

Về định vị, cùng là mô hình tạo video phiên bản nhẹ, Omni Flash nhấn mạnh hơn vào kiến thức thế giới của Gemini, và về mặt hệ sinh thái cũng hướng hoàn toàn về tầng Gemini.

Tuy nhiên, Google cũng khá thẳng thắn, tự liệt kê ra một loạt hạn chế ở giai đoạn hiện tại:

1. Hiện chỉ hỗ trợ tạo video 10 giây, sau này sẽ hỗ trợ dài hơn;

2. Tạm thời không hỗ trợ tải lên tài liệu tham khảo âm thanh và mở rộng cảnh;

3. API hỗ trợ video dài tối đa 3 giây làm tài liệu tham khảo, nhưng hiện tại mô hình chưa thể xử lý chính xác loại đầu vào này;

4. Vẫn còn hạn chế về tính nhất quán của nhân vật khi chuyển cảnh và điều chỉnh góc máy.

Nano Banana 2 Lite

Nano Banana 2 Lite (còn gọi là gemini-3.1-flash-lite-image), được thiết kế chuyên biệt cho xử lý tốc độ cao.

Được tối ưu hóa có mục tiêu, nó nhắm đến các ứng dụng thời gian thực cực kỳ nhạy cảm với độ trễ, cần xử lý số lượng lớn hình ảnh trong thời gian ngắn — chẳng hạn như tạo hàng loạt tài liệu thương mại điện tử, lặp lại nhanh ý tưởng quảng cáo, dây chuyền nội dung tự động.

Hai điểm bán hàng chính —

Tốc độ ánh sáng: Độ trễ tạo ảnh khoảng 4 giây, bằng một phần năm của Nano Banana 2 (khoảng 20 giây).

Giá bèo: Một ảnh 1K chỉ tốn khoảng 0,034 USD, bằng một nửa Nano Banana 2, một phần tư Nano Banana Pro.

Tốc độ cắt, giá cắt, nhưng khả năng tạo ảnh và chỉnh sửa ảnh không bị thu hẹp đáng kể. Nano Banana 2 Lite vẫn duy trì hiệu ứng kết xuất văn bản xuất sắc, trên benchmark ngang hàng với các mô hình như Grok.

Do đó, đề xuất của Google là: Nếu bạn vẫn còn ham rẻ dùng Nano Banana đời đầu, hãy đổi ngay. Phiên bản Lite đã áp đảo toàn diện trên tất cả các chỉ số quan trọng.

Song kiếm hợp bích

Khoan, đừng vội đi.

Tưởng chỉ là phát hành song song hai mô hình, ai ngờ Google cho biết: Còn có trò mới.

Điều kỳ diệu thực sự, là sử dụng kết hợp các mô hình này.

Như mọi người đều biết, sáng tạo AIGC cần lặp đi lặp lại, quản lý tài liệu khá phiền phức.

Giờ đây, với hai mô hình này, cuối cùng cũng không cần phải tải lên tệp đi tệp lại nữa, tạo ảnh và sáng tạo video kết nối liền mạch.

Cụ thể, có thể dùng Nano Banana 2 Lite tạo ảnh tốc độ cao trước, sau đó đưa hình ảnh tạo ra làm tài liệu tham khảo cho Gemini Omni Flash, một click biến thành video.

Để trình diễn luồng công việc kỳ diệu 1+1>2 này, Google thậm chí còn làm riêng 3 APP Demo:

1. Anywhere

Tự chụp một bức hoặc tải ảnh lên, NB2 Lite ngay lập tức ghép bạn vào hàng chục địa danh.

Tiếp theo, nhấn vào ảnh, Omni Flash biến địa danh tĩnh thành đoạn phim động.

Du lịch cyber, giờ cũng end-to-end rồi.

2. Space Lift

Cái này hơi đáng sợ, cảm giác nếu kết hợp thêm với mô hình thế giới Genie, tương lai có lẽ sẽ đe dọa đến nhiều công ty SaaS giải pháp trang trí truyền thống.

Tải lên một bức ảnh phòng, NB2 Lite trước hết đưa ra các phương án phong cách trang trí khác nhau. Tìm thấy phương án ưa thích, nhấn nút video, Omni có thể trực tiếp cho bạn một đoạn tham quan không gian đẳng cấp điện ảnh.

3. Omni product studio

Tin vui cho thương mại xuyên biên giới.

Chụp một bức ảnh sản phẩm trên nền trắng, NB2 Lite tạo ra các bức ảnh sản phẩm theo ngữ cảnh khác nhau, Omni Flash lại biến ảnh tĩnh thành video ngắn thương mại điện tử.

Từ "sản phẩm" đến "tài liệu quảng cáo", toàn bộ liên kết chạy tự động.

Vậy, đa phương thức rốt cuộc có tác dụng gì?

Câu hỏi này Google chắc chắn bị hỏi vô số lần.

Đặc biệt là vào năm 2026, Coding hầu như tương đương với đại diện cho chỉ số IQ của mô hình. Mỗi nhà đều cố gắng hết sức trên Coding.

Cố chấp với đa phương thức, vì cái gì?

Câu chuyện về AGI thì không nói nữa, xét về ngắn hạn, bộ mô hình đa phương thức của Google này thực sự có thể tăng sức mạnh cho nhiều sản phẩm của họ — Stitch là một, tính năng P ảnh tích hợp trong Pixel là một, sự xuất hiện đột ngột của NotebookLM cũng khá ấn tượng.

Hai mô hình mới phát hành lần này, lại cho người ta thấy thêm tiềm năng ứng dụng của đa phương thức trong các kịch bản dọc. Thương mại điện tử, trang trí, video ngắn... nhu cầu của những nghiệp vụ này là thật, tiền cũng thật.

Cộng thêm sự hỗ trợ của hệ sinh thái Android, cơ bản không cần quá lo lắng về vấn đề thương mại hóa.

Google tạm thời đuổi không kịp về Coding, nhưng với bàn chơi đa phương thức này, Google có lẽ là người chơi duy nhất có thể sắp xếp đủ một bộ bài.

Tuy nhiên...

Gemini 3.5 Pro rốt cuộc bao giờ mới ra mắt vậy!!!

Liên kết tham khảo:[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/

Bài viết này đến từ tài khoản công chúng WeChat "Quantum Bit", tác giả: Quan tâm công nghệ tiên phong

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QMô hình Gemini Omni Flash có những khả năng chính nào?

AGemini Omni Flash có bốn khả năng chính: Chỉnh sửa video bằng hội thoại tự nhiên, tham chiếu đa phương thức (kết hợp hình ảnh, văn bản, video), sử dụng kiến thức thế giới của Gemini để xây dựng video, và đồng bộ hóa văn bản/chuyển động với hành động trong video.

QNano Banana 2 Lite có ưu điểm gì nổi bật về tốc độ và chi phí?

ANano Banana 2 Lite nổi bật với tốc độ tạo ảnh cực nhanh (khoảng 4 giây cho một hình ảnh) và chi phí rất thấp (khoảng 0.034 USD cho một hình ảnh độ phân giải 1K). Đây là mô hình hình ảnh Gemini nhanh nhất và tiết kiệm chi phí nhất hiện nay.

QLàm thế nào để kết hợp sử dụng Nano Banana 2 Lite và Gemini Omni Flash?

ACó thể kết hợp hai mô hình bằng cách: Đầu tiên, sử dụng Nano Banana 2 Lite để tạo hình ảnh nhanh chóng. Sau đó, sử dụng hình ảnh đã tạo làm tài liệu tham chiếu đưa vào Gemini Omni Flash để chuyển đổi thành video một cách liền mạch, tạo ra quy trình làm việc từ hình ảnh tĩnh sang video động.

QGoogle đã giới thiệu những ứng dụng demo nào để minh họa khả năng kết hợp của hai mô hình mới?

AGoogle đã giới thiệu ba ứng dụng demo: 'Anywhere' (chuyển ảnh tự chụp thành video du lịch ảo), 'Space Lift' (tạo phương án trang trí nội thất và video tham quan không gian từ ảnh phòng), và 'Omni product studio' (tạo ảnh sản phẩm theo ngữ cảnh và video quảng cáo thương mại điện tử từ ảnh sản phẩm nền trắng).

QBài viết đề cập đến những hạn chế hiện tại nào của Gemini Omni Flash?

ANhững hạn chế hiện tại của Gemini Omni Flash bao gồm: Chỉ hỗ trợ tạo video dài 10 giây, chưa hỗ trợ tải lên âm thanh tham chiếu và mở rộng cảnh, API hỗ trợ video tham chiếu tối đa 3 giây nhưng mô hình chưa xử lý đúng loại đầu vào này, và vẫn còn hạn chế về tính nhất quán của nhân vật khi chuyển cảnh hoặc di chuyển camera.

Nội dung Liên quan

Grayscale:Sau khi giảm một nửa, Bitcoin đã tiến gần đáy chu kỳ này

Bitcoin đã giảm hơn 50% từ mức đỉnh 125.000 USD vào tháng 10, xuống dưới 60.000 USD, đánh dấu mức thấp mới trong chu kỳ hiện tại. Zach Pandl, Giám đốc Nghiên cứu tại Grayscale, coi đây là một đợt điều chỉnh chu kỳ điển hình trong xu hướng tăng dài hạn của BTC chứ không phải sự đảo chiều. Các yếu tố chính gây áp lực bao gồm: kỳ vọng thắt chặt chính sách của Cục Dự trữ Liên bang Mỹ (Fed) dưới thời tân Chủ tịch Kevin Warsh, sự không chắc chắn xung quanh dự luật CLARITY tại Thượng viện Mỹ, áp lực lên bảng cân đối kế toán của các công ty như Strategy, và lo ngại về rủi ro bảo mật từ máy tính lượng tử. Bài viết đưa ra hai kịch bản chính để thoát khỏi thị trường gấu: * **Kịch bản lạc quan (cơ sở):** Dự luật CLARITY được thông qua, Fed không tăng lãi suất, và các biện pháp ổn định được thực hiện. Trong trường hợp này, Bitcoin có thể đã tiệm cận đáy. * **Kịch bản bi quan (xu hướng giảm):** Dự luật CLARITY thất bại, Fed buộc phải tăng lãi suất, và quá trình giảm đòn bẩy tiếp diễn. Điều này có thể khiến BTC giảm thêm, mặc dù mức giảm sâu 80% như lịch sử được cho là ít xảy ra do đợt tăng giá vừa qua ôn hòa hơn và nhu cầu thể chế vững chắc hơn. Dù các yếu tố chu kỳ gây ra biến động ngắn hạn, Grayscale vẫn lạc quan về triển vọng cấu trúc dài hạn, được hỗ trợ bởi việc áp dụng công nghệ blockchain bởi các tổ chức, sự phát triển của stablecoin, tài sản mã hóa, và các động lực cơ bản như nợ công cao, sự sụt giảm niềm tin vào các tổ chức trung gian và sự trỗi dậy của AI. Bài viết kết luận rằng mức định giá hiện tại tạo ra một điểm vào hấp dẫn cho các nhà đầu tư dài hạn, mặc dù đáy cuối cùng phụ thuộc vào các chất xúc tác chính sách sắp tới.

marsbit22 phút trước

Grayscale:Sau khi giảm một nửa, Bitcoin đã tiến gần đáy chu kỳ này

marsbit22 phút trước

Báo cáo tài chính 25 năm của Trump: Gia đình thu hơn 1 tỷ USD mỗi năm từ tiền điện tử, trong khi các nhà đầu tư nhỏ lẻ vẫn thua lỗ trên $TRUMP

Theo báo cáo tiết lộ tài chính năm 2025, các doanh nghiệp crypto liên quan đến gia đình cựu Tổng thống Trump đã thu về gần 12 tỷ USD, vượt xa nhiều danh mục bất động sản lâu năm. Nguồn thu chính đến từ hai nơi: World Liberty Financial kiếm được hơn 5 tỷ USD từ việc bán token quản trị và các sản phẩm mới, trong khi CIC Digital thu khoảng 6.35 tỷ USD tiền bản quyền từ meme coin $TRUMP. Tuy nhiên, trong khi Trump thu lợi lớn, nhiều nhà đầu tư nhỏ lẻ phải chịu thua lỗ. Giá token $TRUMP đã giảm từ mức đỉnh 74 USD xuống còn 1.68 USD, và token của World Liberty Financial cũng mất khoảng 80% giá trị kể từ khi giao dịch. Sự trỗi dậy của mảng kinh doanh crypto này diễn ra trong bối cảnh chính quyền Trump nới lỏng các quy định đối với ngành công nghiệp tiền số. Báo cáo cũng làm dấy lên các câu hỏi về xung đột lợi ích tiềm tàng, liên quan đến hàng loạt dự án bất động sản ở nước ngoài mang lại hàng triệu USD phí cho Trump khi ông tại nhiệm. Dù Nhà Trắng phủ nhận mọi xung đột, các giao dịch này vẫn tiếp tục được giám sát chặt chẽ.

marsbit1 giờ trước

Báo cáo tài chính 25 năm của Trump: Gia đình thu hơn 1 tỷ USD mỗi năm từ tiền điện tử, trong khi các nhà đầu tư nhỏ lẻ vẫn thua lỗ trên $TRUMP

marsbit1 giờ trước

Từ 'Phân cụm địa chỉ' đến 'Tiêu chuẩn bằng chứng': Tại sao Chainalysis muốn định nghĩa lại việc truy vết blockchain?

Vào cuối tháng 6 năm 2026, Chainalysis đã công bố một khung dữ liệu mang tên "Blockchain Tracing Ontology", nhằm thiết lập một hệ thống mô tả dữ liệu thống nhất hơn cho phân tích blockchain. Không giống như một thuật toán mới, đề xuất này tập trung vào việc tạo ra một "ngôn ngữ chung" để chuẩn hóa cách biểu đạt kết quả phân tích, giúp quá trình này minh bạch, có thể kiểm chứng và tái lập hơn. Vấn đề lâu nay là các công ty phân tích khác nhau thường đưa ra kết quả khác nhau cho cùng một địa chỉ do thiếu tiêu chuẩn chung, đặc biệt gây tranh cãi trong điều tra tư pháp hay chống rửa tiền. Chainalysis đề xuất chuyển từ mô hình "Cluster" (cụm địa chỉ) đơn giản sang cấu trúc phân lớp chi tiết hơn: Entity (thực thể) -> Wallet (ví) -> Wallet Segment (phân đoạn ví) -> Address (địa chỉ). Điều này phản ánh chính xác hơn cách quản lý ví phức tạp của các tổ chức lớn. Quan trọng hơn, Ontology nhấn mạnh vào tính minh bạch của quá trình suy luận, không chỉ kết quả cuối cùng. Mỗi kết luận cần đi kèm bằng chứng (Evidence) cụ thể (mẫu giao dịch, thông tin công khai...) và mức độ tin cậy (Confidence), giải thích rõ "tại sao" lại có nhận định đó. Cách tiếp cận này đáp ứng tốt hơn yêu cầu về tính có thể kiểm chứng của bằng chứng tư pháp, như đã thấy trong vụ án Bitcoin Fog. Chainalysis cũng nhấn mạnh rằng phân tích on-chain tự nó không thể nhận dạng danh tính thực; nó chỉ cung cấp suy luận về mối quan hệ giữa các địa chỉ và dòng tiền. Danh tính thực sự cần được xác định thông qua bằng chứng off-chain như thông tin KYC. Về lâu dài, đề xuất này đánh dấu bước chuyển của ngành từ "dựa trên kinh nghiệm" sang "dựa trên tiêu chuẩn". Nếu được chấp nhận rộng rãi, nó có thể tạo ra một nền tảng dữ liệu thống nhất, giảm chi phí giao tiếp và nâng cao độ tin cậy cho hoạt động giám sát, điều tra xuyên biên giới. Giá trị cạnh tranh trong tương lai sẽ không chỉ nằm ở độ chính xác thuật toán, mà còn ở khả năng giải thích, chất lượng dữ liệu và độ tin cậy của bằng chứng.

marsbit1 giờ trước

Từ 'Phân cụm địa chỉ' đến 'Tiêu chuẩn bằng chứng': Tại sao Chainalysis muốn định nghĩa lại việc truy vết blockchain?

marsbit1 giờ trước

Giao dịch

Giao ngay

Bài viết Nổi bật

Làm thế nào để Mua 4

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua 4 (4) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua 4 (4) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ 4 (4) của BạnSau khi mua 4 (4), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch 4 (4)Giao dịch 4 (4) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 570Xuất bản vào 2025.10.20Cập nhật vào 2026.06.02

Làm thế nào để Mua 4

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của 4 (4) được trình bày dưới đây.

活动图片