Video Edition Nano Banana Arrives: Built-in Gemini World Knowledge, Original Banana Generates Images in Just 4 Seconds

marsbitXuất bản vào 2026-07-01Cập nhật gần nhất vào 2026-07-01

Tóm tắt

Google has unveiled two new multimodal AI models: Gemini Omni Flash and Nano Banana 2 Lite. Gemini Omni Flash is a video generation and editing model that leverages Gemini's world knowledge. It allows for conversational video editing using natural language prompts, maintains scene consistency, and integrates text/graphics with video actions. Priced at $0.10 per second of output, its current limitations include a 10-second video cap. Nano Banana 2 Lite (gemini-3.1-flash-lite-image) is an optimized image generation model focused on speed and cost. It produces a 1K resolution image in about 4 seconds at a cost of roughly $0.034, making it significantly faster and cheaper than its predecessor. It retains strong text rendering capabilities. A key highlight is the combined workflow: users can rapidly generate images with Nano Banana 2 Lite and then seamlessly feed them into Gemini Omni Flash to create videos. Google demonstrated this with three application demos: "Anywhere" for creating travel videos from photos, "Space Lift" for generating interior design walkthroughs, and "Omni Product Studio" for automating e-commerce ad creation from product photos. The release underscores Google's strategic focus on advancing multimodal AI for practical, commercial applications in areas like marketing, design, and content creation, despite competitive pressures in other AI domains.

Although coding is still a mess, Google really has a knack for "multimodality".

The Gemini Omni Flash API is officially open, introducing the video edition Nano Banana.

Magical remakes of "Harry Potter" are no longer a dream. Just watch these four digital magic tricks performed by Gemini Omni:

It's insane. This level of consistency and text clarity makes green screens and special effects almost obsolete—just go live as Doctor Strange.

Meanwhile, the beloved "Banana" has welcomed a "lightspeed edition".

Nano Banana 2 Lite: The fastest, most cost-effective Gemini image model to date.

No exaggeration—it takes just 4 seconds to generate one image. A 1K resolution image costs about 20+ cents.

Compared side-by-side with Nano Banana 2, this speed is practically taking off.

Not to mention GPT Image 2, which takes 3 minutes for a single image generation...

No wonder Gemini 3.5 Pro hasn't been released yet—they probably spent all their time on their beloved multimodality, right, Hassabis!!

Gemini Omni Flash

First unveiled at Google I/O 2026, Gemini Omni Flash deeply integrates Gemini's multimodal reasoning capabilities with video generation and editing, garnering significant attention then.

Now, this model is officially available to developers via the Gemini API and Google AI Studio. It can easily generate and edit high-quality videos based on various inputs like text, images, and video.

Four key capabilities:

Conversational Video Editing: Modify and refine videos using natural language, just like editing a Lark document.

Multimodal Reference: Combine image, text, and video inputs to maintain scene control and consistency.

Real-World Knowledge: Leverage Gemini's knowledge in history, biology, narrative logic, etc., to construct videos, saving you from writing three pages of prompts to describe architectural styles.

Text and Action Synchronization: Connect text and graphics directly to video actions through simple prompts.

The pricing is also very competitive: $0.10 per second of video output, on par with Veo 3.1 Fast.

In terms of positioning, Omni Flash, also a lightweight video generation model, emphasizes Gemini's world knowledge and fully aligns with the Gemini ecosystem.

But Google is also quite candid, proactively listing a bunch of current limitations:

1. Currently only supports 10-second video generation; longer support will come later.

2. Does not yet support audio reference uploads or scene expansion.

3. The API supports video reference uploads up to 3 seconds, but the model currently cannot correctly process such inputs.

4. There are still limitations in character consistency during scene changes and camera movements.

Nano Banana 2 Lite

Nano Banana 2 Lite (also known as gemini-3.1-flash-lite-image) is designed specifically for high-speed processing.

Through targeted optimization, it aims at real-time application scenarios that are extremely sensitive to latency and require processing large volumes of images in a short time—such as bulk generation of e-commerce materials, rapid iteration of ad creatives, and automated content pipelines.

Two core selling points—

Lightspeed: Image generation latency is about 4 seconds, one-fifth of Nano Banana 2's (which is about 20 seconds).

Dirt Cheap: A 1K image costs about $0.034, half the price of Nano Banana 2 and one-quarter of Nano Banana Pro.

Speed and price are cut, but image generation and editing capabilities haven't noticeably shrunk. Nano Banana 2 Lite still maintains excellent text rendering effects, benchmarking on par with models like Grok.

Therefore, Google's suggestion is: If you're still cheaping out with the first-gen Nano Banana, swap it now. The Lite version already comprehensively outperforms it in all key metrics.

Twin Blades United

Wait, hold on.

You might think this is just the parallel release of two models, but Google indicates there's more.

The real magic lies in chaining these models together.

As we all know, AIGC creation requires repeated iteration, and asset management can be quite troublesome.

Now, with these two models, you no longer need to repeatedly upload files—image generation and video creation are seamlessly connected.

Specifically, you can first use Nano Banana 2 Lite to generate images at high speed, then feed the generated images as reference material to Gemini Omni Flash to transform them into videos with one click.

To showcase this magical 1+1>2 workflow, Google even created 3 Demo APPs:

1、Anywhere

Take a selfie or upload a photo, and NB2 Lite instantly Photoshopped you into dozens of landmark scenes.

Then click on the image, and Omni Flash turns the static scene into a dynamic short video.

Cyber tourism, now also end-to-end.

2、Space Lift

This is a bit scary. Combined with the Genie world model in the future, it might threaten many traditional interior design SaaS companies.

Upload a photo of a room. NB2 Lite first generates various interior design styles. Find one you like, click the video button, and Omni can directly create a cinematic space walkthrough for you.

3、Omni product studio

A boon for cross-border e-commerce.

Take a white-background photo of a product. NB2 Lite generates various contextual product images. Omni Flash then turns the static images into e-commerce short videos.

From "product" to "advertising material", the entire chain runs automatically.

So, what's the use of multimodality anyway?

Google has surely been asked this countless times.

Especially in 2026, where Coding ability has become almost synonymous with model intelligence. Everyone is fiercely competing in Coding.

Obsessing over multimodality, for what?

Forget the whole AGI narrative for a moment. In the short term, Google's suite of multimodal models can indeed empower many of its products—Stitch is one, the built-in photo editing in Pixel is another, and the emergence of NotebookLM was quite impressive.

The two new models released this time reveal even more potential for multimodality to land in vertical scenarios. E-commerce, interior design, short videos... the demand in these businesses is real, and so is the money.

Plus, with the Android ecosystem supporting it, there's little worry about commercialization.

Google might not catch up in Coding for now, but at the multimodality poker table, Google might be the only player with a full deck.

But...

When is Gemni 3.5 Pro coming out already!!!

Reference:[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/

This article comes from the WeChat public account "QbitAI", author: Following Cutting-Edge Tech

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QWhat are the two new Gemini models announced, and what are their primary functions?

ATwo new models are announced: Gemini Omni Flash and Nano Banana 2 Lite. Gemini Omni Flash is a multimodal video generation and editing model that can create videos from text, image, and video inputs. Nano Banana 2 Lite is an ultra-fast and cost-effective image generation model.

QWhat are the key features and performance claims for the Nano Banana 2 Lite image model?

ANano Banana 2 Lite is claimed to be the fastest and most cost-effective Gemini image model. It generates a 1K resolution image in about 4 seconds at a cost of approximately $0.034 per image. It maintains strong text rendering capabilities while being significantly faster and cheaper than its predecessor.

QHow does Gemini Omni Flash leverage its 'world knowledge' capability, and what is one of its stated limitations?

AGemini Omni Flash can call upon Gemini's knowledge in areas like history, biology, and narrative logic to inform video generation, reducing the need for detailed user prompts. One stated limitation is that it currently only supports generating videos up to 10 seconds in length, with longer support planned for the future.

QAccording to the article, how can the two models be used together in a workflow? Provide one example.

AThe models can be used in a seamless 'image-to-video' workflow. For example, you can first use Nano Banana 2 Lite to quickly generate an image (like a product scene). Then, you can feed that generated image as a reference directly into Gemini Omni Flash to create a video based on it, eliminating the need to manually upload files between steps.

QWhat is the article's perspective on Google's focus on multimodal AI compared to coding capabilities?

AThe article suggests that while Google may be lagging in the 'Coding' race (often used as a proxy for model intelligence), it is a strong contender in multimodal AI. It argues that multimodal models have clear, immediate commercial applications in fields like e-commerce and content creation, and Google, with its ecosystem, is well-positioned to capitalize on this.

Nội dung Liên quan

'Giao dịch cuối cùng của Chicago?' – Chủ tịch CFTC cảnh báo về thuế tiền điện tử mới 0.2%

Chủ tịch CFTC, Mike Selig, đã chỉ trích mạnh mẽ luật thuế 0,2% đối với mọi giao dịch tiền mã hóa mới được Illinois thông qua. Ông cảnh báo rằng chính sách trừng phạt này có thể khiến Chicago mất đi vị thế trung tâm tài chính, đặc biệt khi Sàn Giao dịch Hàng hóa Chicago (CME) - sàn phái sinh lớn nhất thế giới có hoạt động giao dịch tiền mã hóa - đặt trụ sở tại bang này. Selig gọi đây có thể là "giao dịch cuối cùng" của Chicago, vì nó sẽ đẩy các nhà đầu tư và doanh nghiệp rời khỏi tiểu bang. Luật thuế của Illinois dự kiến có hiệu lực từ tháng 1/2027 và vấp phải sự phản đối từ nhiều phía, bao gồm cả Giám đốc Pháp lý của Coinbase, Paul Grewal. Trong khi đó, đạo luật CLARITY của liên bang, hướng tới môi trường hỗ trợ đổi mới, lại không giải quyết các vấn đề về thuế. Các đề xuất cải cách thuế liên quan đến tiền mã hóa (như đánh thuế hai lần đối với phần thưởng đào và staking) vẫn đang được Quốc hội Hoa Kỳ xem xét nhưng có thể bị trì hoãn, đặc biệt là trước thềm bầu cử giữa kỳ tháng 11. Triển vọng thông qua các đề xuất này phần lớn sẽ phụ thuộc vào kết quả bầu cử và phe nào kiểm soát Quốc hội sau đó.

ambcryptoVừa rồi

'Giao dịch cuối cùng của Chicago?' – Chủ tịch CFTC cảnh báo về thuế tiền điện tử mới 0.2%

ambcryptoVừa rồi

Mốc $75 đầy thách thức: Hyperliquid đứng trước thời điểm quyết định quan trọng

Kể từ tháng 10/2025, thị trường tiền mã hóa chung đã trong xu hướng giảm. Tuy nhiên, Hyperliquid (HYPE) là một trong số ít tài sản vốn hóa lớn duy trì được xu hướng tăng dài hạn. Tính đến thời điểm bài viết, HYPE giao dịch quanh $70.11, tăng mạnh trong năm qua. Phân tích kỹ thuật trên khung tuần cho thấy cấu trúc swing vẫn tăng, nhưng RSI đang hình thành đỉnh thấp dần, cảnh báo khả năng phân kỳ giảm nếu giá vượt $72.1. Trên khung thời gian ngắn hơn, HYPE đang dao động trong một vùng giá (range) từ $53.35 đến $74.78. Giá hiện đã vượt qua một số kháng cự ngắn hạn và có dấu hiệu tiếp tục hướng lên vùng cung quan trọng ở mức $75, được hỗ trợ bởi áp lực mua ổn định (OBV tăng, RSI >50). Lời khuyên cho nhà giao dịch là kiên nhẫn chờ đợi. Vùng giá $75 được coi là điểm then chốt. Một đợt kiểm định vùng này và phản ứng giảm giá từ đây có thể tạo cơ hội cho các lệnh bán, hướng mục tiêu về các mức hỗ trợ giữa và đáy của vùng dao động. Ngược lại, một breakout thành công trên $75 sẽ mở đường cho đợt tăng mạnh hơn. Tóm lại, hành động giá quyết định tiếp theo của HYPE sẽ phụ thuộc nhiều vào phản ứng tại ngưỡng $75.

ambcrypto1 giờ trước

Mốc $75 đầy thách thức: Hyperliquid đứng trước thời điểm quyết định quan trọng

ambcrypto1 giờ trước

'Mối đe dọa không giảm': Tại sao Ngân hàng Dự trữ Ấn Độ (RBI) lại tăng cường cảnh báo về tiền mã hóa?

Ngân hàng Dự trữ Ấn Độ (RBI) một lần nữa cảnh báo về những rủi ro nghiêm trọng mà tài sản kỹ thuật số ảo (VDA) như Bitcoin gây ra cho sự ổn định tài chính của đất nước, với lý do khó quản lý và tiềm ẩn nguy cơ hỗ trợ các hoạt động bất hợp pháp. Trong khi đó, Viện Kế toán Công chứng Ấn Độ (ICAI) lại ủng hộ việc xây dựng một khuôn khổ pháp lý toàn diện để quản lý thay vì cấm đoán. Bối cảnh này diễn ra khi hoạt động giao dịch tiền mã hóa bán lẻ tại Ấn Độ đã chậm lại, với khối lượng giảm 11% trong quý I/2026 so với cùng kỳ năm trước. Đáng chú ý, nửa đầu năm 2026 ghi nhận kỷ lục 207 vụ vi phạm an ninh trong ngành, mặc dù tổng thiệt hại tài chính đã giảm mạnh. Các chuyên gia nhận định mối đe dọa vẫn không hề suy giảm mà còn trở nên tinh vi và nguy hiểm hơn, trong bối cảnh thị trường phải đối mặt với nhiều thách thức như căng thẳng địa chính trị, thanh khoản thắt chặt và sự tham gia giảm của nhà đầu tư nhỏ lẻ. Chính phủ Ấn Độ hiện vẫn áp thuật đối với giao dịch tiền mã hóa nhưng không công nhận chúng hợp pháp, và dự kiến sẽ siết chặt hơn nữa khung hình phạt cho các tổ chức không tuân thủ quy định báo cáo thuế.

ambcrypto3 giờ trước

'Mối đe dọa không giảm': Tại sao Ngân hàng Dự trữ Ấn Độ (RBI) lại tăng cường cảnh báo về tiền mã hóa?

ambcrypto3 giờ trước

XRP báo hiệu mua kỹ thuật hiếm sau nhiều tuần giảm điểm – Lần này có gì khác?

XRP vừa xuất hiện tín hiệu mua SuperTrend đầu tiên kể từ giữa tháng Sáu, khơi dậy lạc quan sau nhiều tuần chịu áp lực giảm. Tín hiệu kỹ thuật này cho thấy áp lực bán có thể đã giảm bớt và người mua đang lấy lại quyền kiểm soát trong ngắn hạn. Dữ liệu on-chain từ Santiment cho thấy tỷ lệ MVRV 30 ngày và 365 ngày của XRP đã giảm xuống lần lượt là -45% và -47%, mức thấp kỷ lục, phản ánh khoản lỗ lớn của cả nhà đầu tư ngắn hạn lẫn dài hạn. Mặc dù điều này thường xảy ra sau giai đoạn bán tháo, nhưng nó cũng có thể cải thiện hồ sơ rủi ro/lợi nhuận dài hạn và tạo cơ sở cho một đợt phục hồi. Tuy nhiên, Tỷ lệ Giá trị Mạng lưới/Giao dịch (NVT) của XRP lại tăng mạnh 470,9% trong 24 giờ, lên 194,71, cho thấy giá trị vốn hóa thị trường đang tăng nhanh hơn nhiều so với hoạt động giao dịch thực tế trên chuỗi. Sự phân kỳ này đặt ra câu hỏi về sức mạnh cơ bản của mạng lưới và cho thấy bất kỳ đà tăng giá bền vững nào cũng sẽ cần được hỗ trợ bởi hoạt động mạng lưới mạnh mẽ hơn. Về mặt kỹ thuật, XRP đã phòng thủ thành công vùng hỗ trợ quan trọng quanh 1,0385 USD và chỉ báo MACD trên biểu đồ hàng ngày đã cắt lên phía trên, báo hiệu đà giảm có thể đã suy yếu. Mức kháng cự chính tiếp theo cần chinh phục để xác nhận xu hướng tăng là 1,2352 USD. Tóm lại, các điều kiện kỹ thuật ngắn hạn đang được cải thiện, nhưng XRP vẫn cần một sự bứt phá quyết định và sự hỗ trợ từ hoạt động mạng lưới mạnh mẽ hơn để thiết lập một xu hướng tăng rộng hơn.

ambcrypto4 giờ trước

XRP báo hiệu mua kỹ thuật hiếm sau nhiều tuần giảm điểm – Lần này có gì khác?

ambcrypto4 giờ trước

Kraken Dự Kiến Ra Mắt Hợp Đồng Tương Lai Vĩnh Cửu Được CFTC Quy Định Cho Nhà Giao Dịch Hoa Kỳ

Kraken đang chuẩn bị ra mắt sản phẩm hợp đồng tương lai vĩnh viễn (perpetual futures) được quản lý bởi CFTC cho các nhà giao dịch Hoa Kỳ thông qua cấu trúc được quy định. Kế hoạch này, được hỗ trợ bởi việc mua lại Bitnomial và cơ sở hạ tầng phái sinh trong nước, hứa hẹn định hình lại cách người dùng trong nước tiếp cận một trong những sản phẩm phái sinh phổ biến nhất trong crypto. Hợp đồng tương lai vĩnh viễn cho phép giao dịch đòn bẩy mà không có ngày đáo hạn cố định. Tại Mỹ, việc tiếp cận sản phẩm này bị hạn chế do khung quy định nghiêm ngặt hơn. Nếu thành công, việc triển khai của Kraken có thể mang một phần hoạt động phái sinh crypto quay trở lại các sàn giao dịch được quản lý trong nước, thay vì phải ra nước ngoài. Động thái này phản ánh xu hướng lớn hơn trong cấu trúc thị trường crypto Mỹ, hướng tới việc cung cấp nhiều công cụ giao dịch phức tạp hơn trong khuôn khổ tuân thủ. Thách thức chính cho Kraken sẽ là cung cấp được tính thanh khoản có ý nghĩa, với mức chênh lệch (spread), phí và chất lượng khớp lệnh cạnh tranh, để thu hút các nhà giao dịch tích cực.

bitcoinist5 giờ trước

Kraken Dự Kiến Ra Mắt Hợp Đồng Tương Lai Vĩnh Cửu Được CFTC Quy Định Cho Nhà Giao Dịch Hoa Kỳ

bitcoinist5 giờ trước

Giao dịch

Giao ngay

Bài viết Nổi bật

Làm thế nào để Mua 4

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua 4 (4) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua 4 (4) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ 4 (4) của BạnSau khi mua 4 (4), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch 4 (4)Giao dịch 4 (4) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 575Xuất bản vào 2025.10.20Cập nhật vào 2026.06.02

Làm thế nào để Mua 4

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của 4 (4) được trình bày dưới đây.

活动图片