Gemini 3.5 đã đến! Đêm nay, chính Google tự đào thải Google

链捕手Xuất bản vào 2026-05-20Cập nhật gần nhất vào 2026-05-20

Tóm tắt

Bài viết tóm tắt các sản phẩm và công nghệ chính được giới thiệu tại Google I/O 2026: 1. **Gemini Omni**: Một mô hình AI đa năng, có thể nhận đầu vào dưới mọi hình thức (hình ảnh, âm thanh, video, văn bản) và tạo ra video chất lượng cao. Nó thực sự hiểu biết thế giới vật lý, cho phép người dùng chỉnh sửa video thông qua trò chuyện và duy trì tính nhất quán của đối tượng và logic xuyên suốt các cảnh. 2. **Gemini 3.5 Flash**: Được quảng cáo là mô hình mã hóa và tác nhân AI mạnh mẽ nhất của Google, vượt trội so với Gemini 3.1 Pro và các đối thủ khác trong nhiều bài kiểm tra tiêu chuẩn. Nó nhanh hơn đáng kể và đã được tích hợp vào Gemini App và chế độ AI của Google Tìm kiếm. 3. **Antigravity 2.0**: Nền tảng phát triển tác nhân AI độc lập mới, được nâng cấp thành ứng dụng máy tính để bàn. Một bản demo ấn tượng cho thấy 93 tác nhân con, sử dụng 3.5 Flash, đã xây dựng được một hệ điều hành hoạt động đầy đủ từ đầu trong vòng 12 giờ. 4. **Gemini Spark**: Một tác nhân AI cá nhân, chạy 24/7 trên đám mây. Nó có thể tự động xử lý các tác vụ phức tạp bằng cách tích hợp với bộ công cụ Google Workspace (như Gmail, Docs, Sheets, Slides) và hỗ trợ lệnh bằng giọng nói để tạo và quản lý nhiều tác vụ song song. 5. **Các thông báo khác**: Bao gồm thiết kế lại Gemini App với mã lực tính phí, kế hoạch đăng ký AI Ultra mới với giá cả được điều chỉnh, và bản nâng cấp lớn cho Google Tìm kiếm với việc tích hợp 3.5 Flash. Bài viết kết luận rằng sự kết hợp đồng thời của các khả năng AI tiên tiến này...

Tác giả: Tân Trí Nguyên

Hội nghị Google I/O 2026, toàn lực khai hỏa!

Vừa mới đây, Sundar Pichai và Demis Hassabis cùng xuất hiện trên sân khấu, trình làng toàn bộ những kỹ năng lớn đã dồn nén suốt nửa năm qua.

Không một chút nghi ngờ, nhân vật chính lớn nhất tối nay, Gemini Omni đã chính thức lộ diện!

Là một mô hình lớn thực sự "toàn năng", Omni có thể tiếp nhận bất kỳ hình thức đầu vào nào, tạo ra bất kỳ nội dung nào. Và lần đầu tiên hỗ trợ đầu ra video, xứng danh là "Nano Banana phiên bản video".

Một cao trào khác của đêm nay, thuộc về Gemini 3.5 Flash.

Trong hầu hết các bài kiểm tra benchmark, 3.5 Flash đều hoàn toàn áp đảo flagship đời trước của chính mình là Gemini 3.1 Pro. Tốc độ xuất đầu ra cũng trực tiếp tăng gấp đôi, so với GPT-5.5 và Opus 4.7 còn nhanh hơn hơn 4 lần. 3.5 Pro mạnh hơn nữa, sẽ được phát hành vào tháng tới.

Ngoài ra, còn có một loạt sản phẩm mới trọng lượng khác được trình làng:

Antigravity 2.0: Ứng dụng desktop độc lập hoàn toàn mới, tiến hóa từ IDE thành nền tảng phát triển Agent
Gemini Spark: Đặc vụ AI cá nhân, chạy 7×24h trên đám mây
App Gemini tái bản: Mã hiệu Neural Expressive, chuyển sang tính phí theo hiệu năng tính toán
Gói đăng ký AI Ultra: Thêm phiên bản 100 đô la, gói cao cấp nhất giảm từ 250 xuống 200 đô la
Tìm kiếm Google nâng cấp lớn nhất trong 25 năm: Kết nối với 3.5 Flash, thêm hộp tìm kiếm thông minh, tự động tạo ứng dụng mini, v.v.

......

Không nói quá một chút nào, mật độ nội dung thực tế của I/O năm nay, có thể nói là cao nhất trong nhiều năm qua.

Gemini Omni ra mắt: Một AI "toàn năng" đã ra đời

Như đoạn video quảng bá đã ám chỉ một cách điên cuồng, Gemini Omni được mong đợi từ lâu cuối cùng cũng đã đến. Hassabis đích thân lên sân khấu tuyên bố, "Chúng tôi đang thực hiện bước quan trọng tiếp theo — Gemini Omni, đây là một mô hình mới có thể tạo nội dung từ bất kỳ đầu vào nào".

Không gian dành cho nó đã nói lên tất cả. Lần này, Google muốn xây dựng một cỗ máy sáng tạo AI "toàn năng". Nó hợp nhất trí tuệ của Gemini với AI sinh sáng mạnh nhất, kéo đầy ba chiều: hiểu biết thế giới, đa phương thức và chỉnh sửa. Nói thẳng ra, với bất kỳ sự kết hợp nào của hình ảnh, âm thanh, video, văn bản, nó có thể tạo ra một đoạn video chất lượng cao. Hơn nữa, có thể chỉnh sửa video bằng cách trò chuyện.

Quan trọng hơn, Omni không chỉ "trông giống như", nó thực sự đang hiểu thế giới vật lý. Lời nói nguyên văn của Hassabis là, các hệ thống trước đây thường gặp trục trặc khi mô phỏng các khái niệm như trọng lực, động năng, nhưng Omni đã đạt được một "sự thay đổi nhảy vọt". Nó đã bơm "kiến thức thế giới" và "khả năng suy luận" của Gemini vào việc tạo video.

Cho nó một câu prompt "giải thích sự gấp nếp protein bằng hoạt hình đất sét", video được tạo ra với chuỗi amino axit gấp lại thành xoắn α và gấp nếp β, từng bước đều chính xác về mặt khoa học, về mặt hình ảnh là một bộ phim hoạt hình stop-motion tinh xảo.

Lại ví dụ như cấu hình 26 chữ cái tiếng Anh với các vật thể tương ứng. C là Capybara (chuột lang nước), D là quả cầu disco, L là đèn lava. Omni không phải đang cắt dán tài liệu, nó thực sự đang kết nối ngôn ngữ, hình ảnh và ngữ nghĩa với nhau.

Phải nói rằng, bước chuyển từ chân thực đến có ý nghĩa này quá lớn.

Trên sân khấu, Hassabis lấy ra một đoạn video selfie và bắt đầu chỉnh sửa trực tiếp. Vòng tròn vẽ tùy tiện trên lòng bàn tay biến thành hố đen, con phố đi dạo vào buổi chiều tối biến thành khung cảnh cyberpunk. Một câu nói viết lại khung hình, một câu nói thay đổi thế giới. Bất cứ thứ gì cũng có thể trở thành tấm vẽ để tạo ra thực tại hoàn toàn mới. Lại ví dụ, selfie chơi với lửa trong lòng bàn tay, một tờ giấy vẽ một vòng tròn lập tức biến thành hố đen, đủ thứ cách chơi mở rộng trí tưởng tượng đều có thể thực hiện.

Hơn nữa, đây không phải là tạo xong một lần là xong. Bạn có thể tiếp tục trò chuyện. Video đầu ra từ Gemini Omni, nhân vật duy trì nhất quán, logic vật lý hợp lý, ký ức cảnh liên tục.

Bắt đầu từ một cảnh chơi nhạc gốc. Vòng thứ hai, "dịch chuyển nghệ sĩ violin đến môi trường trong bức ảnh này", đính kèm một bức ảnh tham khảo về núi tuyết và đồng cỏ, cảnh ngay lập tức chuyển đổi, hành động, ánh sáng đều thích ứng với môi trường mới.
Vòng thứ ba, "cắt camera về phía sau vai nghệ sĩ violin", góc nhìn xoay chuyển, nhưng hành động chơi nhạc và âm nhạc hoàn toàn liên tục.

Bất kể cảnh thay đổi thế nào, chủ thể trong khung hình đều không bị hỏng.

Điều đáng suy ngẫm hơn nữa là tính linh hoạt đầu vào của Omni. Hình ảnh, văn bản, video, âm thanh, bất kỳ vật tham khảo nào cũng có thể được nhập hỗn hợp, tạo ra một đầu ra liền mạch. Bạn thậm chí có thể tạo Avatar của riêng mình, để phiên bản AI của bạn xuất hiện trong bất kỳ cảnh nào, nói giọng của bạn, làm những việc bạn chưa từng làm.

Hiện tại, Omni Flash đã chính thức ra mắt, phiên bản API sẽ được mở trong vài tuần tới. Còn Omni Pro mạnh hơn nữa cũng đang trên đường. Với khả năng tích hợp mạnh mẽ của Google, Omni ngay khi ra mắt đã được tích hợp vào Gemini App, Google Flow và YouTube Shorts, người dùng YouTube Shorts thậm chí có thể dùng miễn phí.

Flash đè bẹp Pro: 3.5 đã viết lại định nghĩa "flagship"

Sau Gemini Omni, phần quan trọng khác của I/O hôm nay, là việc phát hành flagship mới Gemini 3.5 Flash. Google định nghĩa nó là mô hình mã hóa, agent mạnh nhất từ trước đến nay.

Trực tiếp tại hiện trường, Sundar Pichai tuyên bố, "3.5 Flash trong hầu hết các bài kiểm tra benchmark, đều vượt trội toàn diện so với Gemini 3.1 Pro"! Điều đáng nói, 3.1 Pro là mô hình flagship mà Google mới ra mắt cách đây ba tháng, giờ đây, một mô hình cấp Flash đã nghiền nát nó.

Không ngờ rằng, Google lại trong thời gian ngắn như vậy, đã giao ra bảng thành tích ấn tượng:

Terminal-Bench 2.1 (mã hóa): 76.2%
GDPval-AA (nhiệm vụ Agent thế giới thực): 1656 Elo
MCP Atlas (sử dụng công cụ quy mô lớn): 83.6%
CharXiv Reasoning (hiểu đa phương thức): 84.2%

Trên bốn bài kiểm tra benchmark lớn này, so với Gemini 3.1 Pro, 3.5 Flash xứng danh là một bước nhảy vọt đứt gãy. Về tốc độ, 3.5 Flash chiếm một góc phần tư riêng biệt, 289 tokens/giây, nhanh hơn hơn 4 lần so với các mô hình tiên phong khác. Ngoài ra, 3.5 Flash trong một phần bài kiểm tra benchmark, hiệu năng ngang bằng, thậm chí đủ để nghiền nát GPT-5.5, Claude Opus 4.7. Phải nói rằng, 3.5 Flash vừa nhanh vừa mạnh, hầu như không có đối thủ.

Tham số quá trừu tượng, chi bằng xem demo giới hạn thực tế. Chỉ trong chớp mắt, 3.5 Flash có thể tiêu hóa một bài báo học thuật khó hiểu như sách trời, và viết ra một trang web trực quan hóa với tính tương tác hoàn hảo. Trong nhiệm vụ agent, thông qua Antigravity, nó có thể hoàn thành quy trình làm việc nhiều bước, tự động phân loại và đặt tên cho các tài sản tràn ngập màn hình. Hoặc là, sử dụng hai Agent, trong vòng sáu giờ đồng hồ đã tái hiện được bài báo AlphaZero, và lập trình ra một trò chơi có thể chạy hoàn chỉnh.

93 Agent xây dựng OS, chỉ 12 giờ

Có thể thấy, việc thực hiện tất cả các khả năng này của 3.5 Flash, đều là thông qua Antigravity 2.0 hoàn toàn mới. Hôm nay, nền tảng phát triển Agent Antigravity của Google đã nâng cấp lên 2.0, từ IDE trở thành ứng dụng desktop độc lập, hoàn toàn chấp nhận thiết kế Agent-first.

Varun lên sân khấu đưa ra một Demo khiến cả hội trường nín thở. Anh ấy để Antigravity được trang bị 3.5 Flash, xây dựng một hệ điều hành từ con số không. 93 agent con làm việc song song, gửi hơn 15000 yêu cầu mô hình, xử lý 2.6 tỷ token, sau 12 giờ, một dự án hoàn toàn trống rỗng đã trở thành nhân hệ điều hành hoàn chỉnh chức năng. Trình lập lịch, quản lý bộ nhớ, hệ thống tập tin, mỗi dòng mã đều do Agent viết, Agent kiểm tra, Agent kiểm toán. Chi phí API chưa đến 1000 đô la.

Tiếp theo, anh ấy thử chạy DOOM trên hệ điều hành do AI viết này. Lần thử đầu tiên thất bại, thiếu driver video và bàn phím. Vì vậy anh ấy ngay lập tức nhập lệnh sửa chữa vào Antigravity 2.0, Agent bắt đầu tự động viết bổ sung mã driver. Đợi một lúc, hình ảnh DOOM xuất hiện trên màn hình, cả hội trường sôi sùng sục.

Tóm lại, Antigravity 2.0 mang đến các nâng cấp cốt lõi bao gồm:

Agent con có thể được tạo động, agent chính chia nhiệm vụ thành nhiệm vụ con và phân phối, chạy song song mà không can thiệp lẫn nhau;
Quản lý tác vụ không đồng bộ khiến các thao tác tốn thời gian dài không còn chặn luồng chính;
Scheduled Tasks có thể đặt "tác vụ định thời" để Agent tự động thực hiện, ví dụ kiểm tra trạng thái PR mỗi ngày một lần, chạy script kiểm tra sức khỏe mỗi giờ một lần.
Lệnh gạch chéo mới: /goal để Agent chạy một mạch, /grill-me ngược lại để Agent làm rõ yêu cầu rồi mới hành động, /browser kiểm soát rõ ràng việc sử dụng trình duyệt.

Tuy nhiên, đây đều là những khả năng đã được thông suốt nội bộ. Tốc độ xử lý token của Google nội bộ bằng Antigravity, tháng 3 là 500 tỷ mỗi ngày. Giờ đây, mỗi ngày tăng tốc điên cuồng 3 nghìn tỷ. Hơn nữa, phiên bản Flash tăng tốc 12 lần này, hôm nay đã có thể dùng trong Antigravity.

3.5 Flash đồng thời trở thành mô hình mặc định cho Gemini App và chế độ AI Tìm kiếm Google, hướng đến tất cả người dùng toàn cầu. Nhà phát triển gọi qua Antigravity 2.0, Gemini API, Google AI Studio. Người dùng doanh nghiệp truy cập qua Gemini Enterprise Agent Platform. Gây sốc hơn nữa, 3.5 Pro đang được thử nghiệm nội bộ, sẽ phát hành vào tháng tới.

Quản gia cá nhân 7x24h: Google Spark cuối cùng cũng đã đến

Phát hành lớn thứ ba tối nay, chắc chắn thuộc về Gemini Spark! Sundar Pichai định vị nó rất rõ ràng: Agent AI cá nhân của bạn. Ngay cả khi gập laptop lại, nó cũng không ngừng nghỉ. Nó chạy trên máy ảo chuyên dụng trên đám mây, có thể thực hiện trực tuyến 7×24 giờ.

Gemini Spark được cung cấp bởi Gemini 3.5 + khung Antigravity, tích hợp sâu "bộ công cụ văn phòng" của Google. Phó chủ tịch sản phẩm Josh Woodward lên sân khấu trình diễn hai tình huống, trực tiếp khiến cả hội trường điên cuồng.

Đầu tiên là tình huống công việc: Nhập một lệnh, "giúp tôi soạn thảo một email gửi nhóm, tổng hợp tất cả thông tin trong tuần qua về việc phát hành Gemini Live". Spark tự động vượt qua Gmail, Docs, lịch sử trò chuyện để thu thập thông tin, còn gọi một kỹ năng "ghostwriter" do chính Woodward viết, để email tự động khớp với giọng điệu cá nhân của anh ấy. Toàn bộ quá trình hoàn thành trong nền, con người chỉ cần xem xét và gửi. Đúng vậy, Spark hỗ trợ kỹ năng tùy chỉnh (skills), để nó học được giọng điệu, sở thích, cách làm việc của bạn.

Thứ hai là tình huống cuộc sống: Lên kế hoạch cho một bữa tiệc khu phố. Spark nhận nhiệm vụ và thực hiện từng bước. Nó tạo một bảng theo dõi RSVP trong Google Sheets, kết nối trực tiếp với Gmail, ai trả lời tự động cập nhật. Với những người hàng xóm chưa đăng ký, Spark tự động soạn thảo email nhắc nhở, tạo bản nháp chờ xác nhận rồi mới gửi. Sau đó, nó còn tạo một slide deck tuyên truyền trong Google Slides, ngay cả thông tin về lâu đài bơm hơi sẽ đặt trong khu phố cũng được viết vào. Suốt quá trình không mở bất kỳ ứng dụng nào.

Không chỉ vậy, Spark còn có khả năng nhập giọng nói mạnh mẽ. Tại hiện trường, Woodward lấy điện thoại ra, trực tiếp dùng giọng nói đưa ra ba nhiệm vụ: "Tìm tất cả các cuộc họp với Sundar và đánh dấu màu hồng sáng", "Viết thư mời cho hàng xóm mới John tham gia danh sách block party", "Tạo một tài liệu liệt kê những việc cần làm cho con trước khi kết thúc năm học, sắp xếp theo thời hạn".

Giọng nói trực tiếp chuyển thành lệnh văn bản, Spark tự động chia một đoạn giọng nói liên tục thành ba luồng nhiệm vụ độc lập, thực hiện song song trong nền.

Về định giá, gói đăng ký AI Ultra 100 đô la mỗi tháng có thể dùng Spark Beta. Gói Ultra cao cấp nhất giảm từ 250 đô la xuống 200 đô la. Spark sẽ mở Beta cho người dùng AI Ultra tại Mỹ thử nghiệm vào tuần tới.

Đêm nay, Google mở ra lối vào ASI

Nhìn lại I/O lần này, điều thực sự khiến người ta rùng mình, không phải là một sản phẩm cụ thể nào. Mà là tất cả khả năng đồng thời đã sẵn sàng.

Hiểu biết đa phương thức hoàn toàn, sinh đa phương thức hoàn toàn, Agent trực tuyến suốt ngày đêm — ba mảnh ghép này, Google đã ghép tất cả chỉ trong một đêm. Omni biến một câu nói thành một thế giới, không cần con người cung cấp bất kỳ tài liệu nào; 93 Agent tạo ra hệ điều hành từ con số không, không cần con người viết một dòng mã; Spark 7×24 giờ làm việc thay bạn, không cần con người mở một ứng dụng.

Khi AI không còn cần con người "cho ăn", mà tự hiểu, tự quyết định, tự thực hiện, tự lặp lại — điểm cuối của con đường này, gọi là ASI (siêu trí tuệ).

Không ai có thể đưa ra một lịch trình chính xác. Nhưng Google I/O tối nay, khiến tất cả mọi người nhận ra một điều: Trên con đường đến siêu trí tuệ, không còn trở ngại "về mặt kỹ thuật không làm được" nữa. Còn lại, chỉ là tốc độ triển khai kỹ thuật. Nửa năm trước chúng ta còn tranh luận AGI có phải là bong bóng không. Nửa năm sau, Google đã dùng Agent để viết hệ điều hành rồi. Gia tốc của ngành này, đã vượt quá phạm vi mà trực giác con người có thể cảm nhận.

Tài liệu tham khảo:

https://youtu.be/wYSncx9zLIU
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
https://antigravity.google/blog/introducing-google-antigravity-2-0
https://antigravity.google/blog/google-io-2026-feature-deep-dive

Biên tập: Đào Tử Ma Tây

Câu hỏi Liên quan

QGoogle I/O 2026 đã giới thiệu sản phẩm AI chính nào?

AGoogle I/O 2026 đã giới thiệu ba sản phẩm AI chính: Gemini Omni, Gemini 3.5 Flash, và Gemini Spark. Gemini Omni là một mô hình 'toàn năng' có thể tạo video từ bất kỳ đầu vào nào. Gemini 3.5 Flash là một mô hình nhanh và mạnh mẽ, vượt trội so với người tiền nhiệm. Gemini Spark là một trợ lý AI cá nhân có thể chạy 24/7 để quản lý công việc và cuộc sống.

QGemini Omni có khả năng đặc biệt gì?

AGemini Omni là một mô hình tạo video đa phương thức tiên tiến. Nó có thể nhận đầu vào ở bất kỳ hình thức nào (văn bản, hình ảnh, âm thanh, video) và tạo ra video chất lượng cao. Điểm đột phá là nó có khả năng hiểu biết về thế giới vật lý, giúp video tạo ra có logic về chuyển động, trọng lực và ngữ nghĩa. Ngoài ra, người dùng có thể chỉnh sửa video thông qua trò chuyện, và các video được tạo ra có tính nhất quán cao.

QHiệu suất của Gemini 3.5 Flash được mô tả như thế nào trong bài viết?

AGemini 3.5 Flash được mô tả là có hiệu suất 'nhanh và mạnh'. Nó vượt trội so với mô hình tiền nhiệm là Gemini 3.1 Pro trong hầu hết các bài kiểm tra tiêu chuẩn. Tốc độ xử lý của nó đạt 289 token/giây, nhanh hơn 4 lần so với các mô hình đối thủ như GPT-5.5 và Claude Opus 4.7. Nó đặc biệt mạnh mẽ trong các nhiệm vụ như mã hóa, tác nhân AI và hiểu đa phương thức.

QAntigravity 2.0 là gì và có điểm gì mới?

AAntigravity 2.0 là một nền tảng phát triển tác nhân AI (Agent), đã được nâng cấp từ một IDE thành một ứng dụng desktop độc lập. Điểm mới chính bao gồm: khả năng tạo và quản lý các tác nhân con chạy song song để thực hiện các nhiệm vụ lớn một cách hiệu quả; hỗ trợ tác vụ không đồng bộ và tác vụ được lên lịch (scheduled tasks); và các lệnh chéo (slash commands) mới như `/goal` để chạy tự động, `/grill-me` để làm rõ yêu cầu trước, và `/browser` để điều khiển trình duyệt rõ ràng hơn.

QGemini Spark được định vị là sản phẩm gì và có khả năng nào nổi bật?

AGemini Spark được định vị là một 'tác nhân AI cá nhân' chạy 24/7 trên đám mây. Nó có khả năng nổi bật là tự động hóa các công việc bằng cách tích hợp sâu với các dịch vụ của Google như Gmail, Google Docs, Sheets, Slides. Người dùng có thể yêu cầu bằng giọng nói hoặc văn bản, và Spark sẽ tự động thu thập thông tin, xử lý và tạo ra các tài liệu, email, bảng tính cần thiết mà không cần người dùng phải mở ứng dụng. Nó cũng hỗ trợ tạo các kỹ năng (skills) tùy chỉnh để phù hợp với phong cách làm việc cá nhân.

marsbit5 giờ trước

Giao dịch

Giao ngay

Gemini 3.5 đã đến! Đêm nay, chính Google tự đào thải Google

Tóm tắt

Gemini Omni ra mắt: Một AI "toàn năng" đã ra đời

Flash đè bẹp Pro: 3.5 đã viết lại định nghĩa "flagship"

93 Agent xây dựng OS, chỉ 12 giờ

Quản gia cá nhân 7x24h: Google Spark cuối cùng cũng đã đến

Đêm nay, Google mở ra lối vào ASI

Câu hỏi Liên quan

Nội dung Liên quan

Michael Saylor: 'Chúng tôi chưa bao giờ nói rằng sẽ không bao giờ bán Bitcoin'

«Cưa mùa hè» tiếp tục: Phá vỡ $67,000 sẽ là khởi đầu cho đà tăng của Bitcoin

Tuần tới cần chú ý｜Đạo luật CLARITY dự kiến được biểu quyết tại Thượng viện; SpaceX, Circle công bố báo cáo tài chính (3.8-9.8)

Cổ phiếu giảm mạnh hơn cả tiền điện tử, tiền đã đi đâu?

Đối thoại với Ray Dalio: Chúng ta đang ở trong bong bóng AI, 1% danh mục đầu tư của tôi là Bitcoin

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật