Tác giả: Tân Trí Nguyên
Hội nghị Google I/O 2026, toàn lực khai hỏa!
Vừa mới đây, Sundar Pichai và Demis Hassabis cùng xuất hiện trên sân khấu, trình làng toàn bộ những kỹ năng lớn đã dồn nén suốt nửa năm qua.
Không một chút nghi ngờ, nhân vật chính lớn nhất tối nay, Gemini Omni đã chính thức lộ diện!
Là một mô hình lớn thực sự "toàn năng", Omni có thể tiếp nhận bất kỳ hình thức đầu vào nào, tạo ra bất kỳ nội dung nào. Và lần đầu tiên hỗ trợ đầu ra video, xứng danh là "Nano Banana phiên bản video".
Một cao trào khác của đêm nay, thuộc về Gemini 3.5 Flash.
Trong hầu hết các bài kiểm tra benchmark, 3.5 Flash đều hoàn toàn áp đảo flagship đời trước của chính mình là Gemini 3.1 Pro. Tốc độ xuất đầu ra cũng trực tiếp tăng gấp đôi, so với GPT-5.5 và Opus 4.7 còn nhanh hơn hơn 4 lần. 3.5 Pro mạnh hơn nữa, sẽ được phát hành vào tháng tới.
Ngoài ra, còn có một loạt sản phẩm mới trọng lượng khác được trình làng:
-
Antigravity 2.0: Ứng dụng desktop độc lập hoàn toàn mới, tiến hóa từ IDE thành nền tảng phát triển Agent
-
Gemini Spark: Đặc vụ AI cá nhân, chạy 7×24h trên đám mây
-
App Gemini tái bản: Mã hiệu Neural Expressive, chuyển sang tính phí theo hiệu năng tính toán
-
Gói đăng ký AI Ultra: Thêm phiên bản 100 đô la, gói cao cấp nhất giảm từ 250 xuống 200 đô la
-
Tìm kiếm Google nâng cấp lớn nhất trong 25 năm: Kết nối với 3.5 Flash, thêm hộp tìm kiếm thông minh, tự động tạo ứng dụng mini, v.v.
......
Không nói quá một chút nào, mật độ nội dung thực tế của I/O năm nay, có thể nói là cao nhất trong nhiều năm qua.
Gemini Omni ra mắt: Một AI "toàn năng" đã ra đời
Như đoạn video quảng bá đã ám chỉ một cách điên cuồng, Gemini Omni được mong đợi từ lâu cuối cùng cũng đã đến. Hassabis đích thân lên sân khấu tuyên bố, "Chúng tôi đang thực hiện bước quan trọng tiếp theo — Gemini Omni, đây là một mô hình mới có thể tạo nội dung từ bất kỳ đầu vào nào".
Không gian dành cho nó đã nói lên tất cả. Lần này, Google muốn xây dựng một cỗ máy sáng tạo AI "toàn năng". Nó hợp nhất trí tuệ của Gemini với AI sinh sáng mạnh nhất, kéo đầy ba chiều: hiểu biết thế giới, đa phương thức và chỉnh sửa. Nói thẳng ra, với bất kỳ sự kết hợp nào của hình ảnh, âm thanh, video, văn bản, nó có thể tạo ra một đoạn video chất lượng cao. Hơn nữa, có thể chỉnh sửa video bằng cách trò chuyện.
Quan trọng hơn, Omni không chỉ "trông giống như", nó thực sự đang hiểu thế giới vật lý. Lời nói nguyên văn của Hassabis là, các hệ thống trước đây thường gặp trục trặc khi mô phỏng các khái niệm như trọng lực, động năng, nhưng Omni đã đạt được một "sự thay đổi nhảy vọt". Nó đã bơm "kiến thức thế giới" và "khả năng suy luận" của Gemini vào việc tạo video.
-
Cho nó một câu prompt "giải thích sự gấp nếp protein bằng hoạt hình đất sét", video được tạo ra với chuỗi amino axit gấp lại thành xoắn α và gấp nếp β, từng bước đều chính xác về mặt khoa học, về mặt hình ảnh là một bộ phim hoạt hình stop-motion tinh xảo.
-
Lại ví dụ như cấu hình 26 chữ cái tiếng Anh với các vật thể tương ứng. C là Capybara (chuột lang nước), D là quả cầu disco, L là đèn lava. Omni không phải đang cắt dán tài liệu, nó thực sự đang kết nối ngôn ngữ, hình ảnh và ngữ nghĩa với nhau.
Phải nói rằng, bước chuyển từ chân thực đến có ý nghĩa này quá lớn.
Trên sân khấu, Hassabis lấy ra một đoạn video selfie và bắt đầu chỉnh sửa trực tiếp. Vòng tròn vẽ tùy tiện trên lòng bàn tay biến thành hố đen, con phố đi dạo vào buổi chiều tối biến thành khung cảnh cyberpunk. Một câu nói viết lại khung hình, một câu nói thay đổi thế giới. Bất cứ thứ gì cũng có thể trở thành tấm vẽ để tạo ra thực tại hoàn toàn mới. Lại ví dụ, selfie chơi với lửa trong lòng bàn tay, một tờ giấy vẽ một vòng tròn lập tức biến thành hố đen, đủ thứ cách chơi mở rộng trí tưởng tượng đều có thể thực hiện.
Hơn nữa, đây không phải là tạo xong một lần là xong. Bạn có thể tiếp tục trò chuyện. Video đầu ra từ Gemini Omni, nhân vật duy trì nhất quán, logic vật lý hợp lý, ký ức cảnh liên tục.
-
Bắt đầu từ một cảnh chơi nhạc gốc. Vòng thứ hai, "dịch chuyển nghệ sĩ violin đến môi trường trong bức ảnh này", đính kèm một bức ảnh tham khảo về núi tuyết và đồng cỏ, cảnh ngay lập tức chuyển đổi, hành động, ánh sáng đều thích ứng với môi trường mới.
-
Vòng thứ ba, "cắt camera về phía sau vai nghệ sĩ violin", góc nhìn xoay chuyển, nhưng hành động chơi nhạc và âm nhạc hoàn toàn liên tục.
Bất kể cảnh thay đổi thế nào, chủ thể trong khung hình đều không bị hỏng.
Điều đáng suy ngẫm hơn nữa là tính linh hoạt đầu vào của Omni. Hình ảnh, văn bản, video, âm thanh, bất kỳ vật tham khảo nào cũng có thể được nhập hỗn hợp, tạo ra một đầu ra liền mạch. Bạn thậm chí có thể tạo Avatar của riêng mình, để phiên bản AI của bạn xuất hiện trong bất kỳ cảnh nào, nói giọng của bạn, làm những việc bạn chưa từng làm.
Hiện tại, Omni Flash đã chính thức ra mắt, phiên bản API sẽ được mở trong vài tuần tới. Còn Omni Pro mạnh hơn nữa cũng đang trên đường. Với khả năng tích hợp mạnh mẽ của Google, Omni ngay khi ra mắt đã được tích hợp vào Gemini App, Google Flow và YouTube Shorts, người dùng YouTube Shorts thậm chí có thể dùng miễn phí.
Flash đè bẹp Pro: 3.5 đã viết lại định nghĩa "flagship"
Sau Gemini Omni, phần quan trọng khác của I/O hôm nay, là việc phát hành flagship mới Gemini 3.5 Flash. Google định nghĩa nó là mô hình mã hóa, agent mạnh nhất từ trước đến nay.
Trực tiếp tại hiện trường, Sundar Pichai tuyên bố, "3.5 Flash trong hầu hết các bài kiểm tra benchmark, đều vượt trội toàn diện so với Gemini 3.1 Pro"! Điều đáng nói, 3.1 Pro là mô hình flagship mà Google mới ra mắt cách đây ba tháng, giờ đây, một mô hình cấp Flash đã nghiền nát nó.
Không ngờ rằng, Google lại trong thời gian ngắn như vậy, đã giao ra bảng thành tích ấn tượng:
-
Terminal-Bench 2.1 (mã hóa): 76.2%
-
GDPval-AA (nhiệm vụ Agent thế giới thực): 1656 Elo
-
MCP Atlas (sử dụng công cụ quy mô lớn): 83.6%
-
CharXiv Reasoning (hiểu đa phương thức): 84.2%
Trên bốn bài kiểm tra benchmark lớn này, so với Gemini 3.1 Pro, 3.5 Flash xứng danh là một bước nhảy vọt đứt gãy. Về tốc độ, 3.5 Flash chiếm một góc phần tư riêng biệt, 289 tokens/giây, nhanh hơn hơn 4 lần so với các mô hình tiên phong khác. Ngoài ra, 3.5 Flash trong một phần bài kiểm tra benchmark, hiệu năng ngang bằng, thậm chí đủ để nghiền nát GPT-5.5, Claude Opus 4.7. Phải nói rằng, 3.5 Flash vừa nhanh vừa mạnh, hầu như không có đối thủ.
Tham số quá trừu tượng, chi bằng xem demo giới hạn thực tế. Chỉ trong chớp mắt, 3.5 Flash có thể tiêu hóa một bài báo học thuật khó hiểu như sách trời, và viết ra một trang web trực quan hóa với tính tương tác hoàn hảo. Trong nhiệm vụ agent, thông qua Antigravity, nó có thể hoàn thành quy trình làm việc nhiều bước, tự động phân loại và đặt tên cho các tài sản tràn ngập màn hình. Hoặc là, sử dụng hai Agent, trong vòng sáu giờ đồng hồ đã tái hiện được bài báo AlphaZero, và lập trình ra một trò chơi có thể chạy hoàn chỉnh.
93 Agent xây dựng OS, chỉ 12 giờ
Có thể thấy, việc thực hiện tất cả các khả năng này của 3.5 Flash, đều là thông qua Antigravity 2.0 hoàn toàn mới. Hôm nay, nền tảng phát triển Agent Antigravity của Google đã nâng cấp lên 2.0, từ IDE trở thành ứng dụng desktop độc lập, hoàn toàn chấp nhận thiết kế Agent-first.
Varun lên sân khấu đưa ra một Demo khiến cả hội trường nín thở. Anh ấy để Antigravity được trang bị 3.5 Flash, xây dựng một hệ điều hành từ con số không. 93 agent con làm việc song song, gửi hơn 15000 yêu cầu mô hình, xử lý 2.6 tỷ token, sau 12 giờ, một dự án hoàn toàn trống rỗng đã trở thành nhân hệ điều hành hoàn chỉnh chức năng. Trình lập lịch, quản lý bộ nhớ, hệ thống tập tin, mỗi dòng mã đều do Agent viết, Agent kiểm tra, Agent kiểm toán. Chi phí API chưa đến 1000 đô la.
Tiếp theo, anh ấy thử chạy DOOM trên hệ điều hành do AI viết này. Lần thử đầu tiên thất bại, thiếu driver video và bàn phím. Vì vậy anh ấy ngay lập tức nhập lệnh sửa chữa vào Antigravity 2.0, Agent bắt đầu tự động viết bổ sung mã driver. Đợi một lúc, hình ảnh DOOM xuất hiện trên màn hình, cả hội trường sôi sùng sục.
Tóm lại, Antigravity 2.0 mang đến các nâng cấp cốt lõi bao gồm:
-
Agent con có thể được tạo động, agent chính chia nhiệm vụ thành nhiệm vụ con và phân phối, chạy song song mà không can thiệp lẫn nhau;
-
Quản lý tác vụ không đồng bộ khiến các thao tác tốn thời gian dài không còn chặn luồng chính;
-
Scheduled Tasks có thể đặt "tác vụ định thời" để Agent tự động thực hiện, ví dụ kiểm tra trạng thái PR mỗi ngày một lần, chạy script kiểm tra sức khỏe mỗi giờ một lần.
-
Lệnh gạch chéo mới:
/goalđể Agent chạy một mạch,/grill-mengược lại để Agent làm rõ yêu cầu rồi mới hành động,/browserkiểm soát rõ ràng việc sử dụng trình duyệt.
Tuy nhiên, đây đều là những khả năng đã được thông suốt nội bộ. Tốc độ xử lý token của Google nội bộ bằng Antigravity, tháng 3 là 500 tỷ mỗi ngày. Giờ đây, mỗi ngày tăng tốc điên cuồng 3 nghìn tỷ. Hơn nữa, phiên bản Flash tăng tốc 12 lần này, hôm nay đã có thể dùng trong Antigravity.
3.5 Flash đồng thời trở thành mô hình mặc định cho Gemini App và chế độ AI Tìm kiếm Google, hướng đến tất cả người dùng toàn cầu. Nhà phát triển gọi qua Antigravity 2.0, Gemini API, Google AI Studio. Người dùng doanh nghiệp truy cập qua Gemini Enterprise Agent Platform. Gây sốc hơn nữa, 3.5 Pro đang được thử nghiệm nội bộ, sẽ phát hành vào tháng tới.
Quản gia cá nhân 7x24h: Google Spark cuối cùng cũng đã đến
Phát hành lớn thứ ba tối nay, chắc chắn thuộc về Gemini Spark! Sundar Pichai định vị nó rất rõ ràng: Agent AI cá nhân của bạn. Ngay cả khi gập laptop lại, nó cũng không ngừng nghỉ. Nó chạy trên máy ảo chuyên dụng trên đám mây, có thể thực hiện trực tuyến 7×24 giờ.
Gemini Spark được cung cấp bởi Gemini 3.5 + khung Antigravity, tích hợp sâu "bộ công cụ văn phòng" của Google. Phó chủ tịch sản phẩm Josh Woodward lên sân khấu trình diễn hai tình huống, trực tiếp khiến cả hội trường điên cuồng.
-
Đầu tiên là tình huống công việc: Nhập một lệnh, "giúp tôi soạn thảo một email gửi nhóm, tổng hợp tất cả thông tin trong tuần qua về việc phát hành Gemini Live". Spark tự động vượt qua Gmail, Docs, lịch sử trò chuyện để thu thập thông tin, còn gọi một kỹ năng "ghostwriter" do chính Woodward viết, để email tự động khớp với giọng điệu cá nhân của anh ấy. Toàn bộ quá trình hoàn thành trong nền, con người chỉ cần xem xét và gửi. Đúng vậy, Spark hỗ trợ kỹ năng tùy chỉnh (skills), để nó học được giọng điệu, sở thích, cách làm việc của bạn.
-
Thứ hai là tình huống cuộc sống: Lên kế hoạch cho một bữa tiệc khu phố. Spark nhận nhiệm vụ và thực hiện từng bước. Nó tạo một bảng theo dõi RSVP trong Google Sheets, kết nối trực tiếp với Gmail, ai trả lời tự động cập nhật. Với những người hàng xóm chưa đăng ký, Spark tự động soạn thảo email nhắc nhở, tạo bản nháp chờ xác nhận rồi mới gửi. Sau đó, nó còn tạo một slide deck tuyên truyền trong Google Slides, ngay cả thông tin về lâu đài bơm hơi sẽ đặt trong khu phố cũng được viết vào. Suốt quá trình không mở bất kỳ ứng dụng nào.
Không chỉ vậy, Spark còn có khả năng nhập giọng nói mạnh mẽ. Tại hiện trường, Woodward lấy điện thoại ra, trực tiếp dùng giọng nói đưa ra ba nhiệm vụ: "Tìm tất cả các cuộc họp với Sundar và đánh dấu màu hồng sáng", "Viết thư mời cho hàng xóm mới John tham gia danh sách block party", "Tạo một tài liệu liệt kê những việc cần làm cho con trước khi kết thúc năm học, sắp xếp theo thời hạn".
Giọng nói trực tiếp chuyển thành lệnh văn bản, Spark tự động chia một đoạn giọng nói liên tục thành ba luồng nhiệm vụ độc lập, thực hiện song song trong nền.
Về định giá, gói đăng ký AI Ultra 100 đô la mỗi tháng có thể dùng Spark Beta. Gói Ultra cao cấp nhất giảm từ 250 đô la xuống 200 đô la. Spark sẽ mở Beta cho người dùng AI Ultra tại Mỹ thử nghiệm vào tuần tới.
Đêm nay, Google mở ra lối vào ASI
Nhìn lại I/O lần này, điều thực sự khiến người ta rùng mình, không phải là một sản phẩm cụ thể nào. Mà là tất cả khả năng đồng thời đã sẵn sàng.
Hiểu biết đa phương thức hoàn toàn, sinh đa phương thức hoàn toàn, Agent trực tuyến suốt ngày đêm — ba mảnh ghép này, Google đã ghép tất cả chỉ trong một đêm. Omni biến một câu nói thành một thế giới, không cần con người cung cấp bất kỳ tài liệu nào; 93 Agent tạo ra hệ điều hành từ con số không, không cần con người viết một dòng mã; Spark 7×24 giờ làm việc thay bạn, không cần con người mở một ứng dụng.
Khi AI không còn cần con người "cho ăn", mà tự hiểu, tự quyết định, tự thực hiện, tự lặp lại — điểm cuối của con đường này, gọi là ASI (siêu trí tuệ).
Không ai có thể đưa ra một lịch trình chính xác. Nhưng Google I/O tối nay, khiến tất cả mọi người nhận ra một điều: Trên con đường đến siêu trí tuệ, không còn trở ngại "về mặt kỹ thuật không làm được" nữa. Còn lại, chỉ là tốc độ triển khai kỹ thuật. Nửa năm trước chúng ta còn tranh luận AGI có phải là bong bóng không. Nửa năm sau, Google đã dùng Agent để viết hệ điều hành rồi. Gia tốc của ngành này, đã vượt quá phạm vi mà trực giác con người có thể cảm nhận.
Tài liệu tham khảo:
-
https://youtu.be/wYSncx9zLIU
-
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
-
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
-
https://antigravity.google/blog/introducing-google-antigravity-2-0
-
https://antigravity.google/blog/google-io-2026-feature-deep-dive
Biên tập: Đào Tử Ma Tây







































