Hội nghị nhà phát triển Google I/O năm 2026, chỉ mang lại cảm giác về hai từ: Ngạo mạn.
Không chỉ nhồi nhét các tác nhân thông minh AI một cách liền mạch vào tất cả các cổng lưu lượng cốt lõi như tìm kiếm, trình duyệt, điện thoại, kính thông minh..., mà còn liên tục tung ra ba "vương bài":Gemini 3.5 Flash, mô hình videoOmni, và trợ lý AI hoàn toàn mớiSpark.
Sau khi phô diễn cơ bắp, "Pichai" thậm chí còn tuyên bố một cách khoe khoang rằng,Gemini đã vượt mốc 900 triệu người dùng hoạt động hàng tháng; và đồng thời công bố giảm giá mạnh.
Ý nghĩa còn rõ ràng hơn:Tôi mạnh hơn bạn, và còn rẻ hơn bạn.
Đây không phải là tuyên chiến thì là gì?
01
Điều gây ấn tượng nhất tại hội nghị, không còn nghi ngờ gì, là sự xuất hiện củaGemini 3.5 Flash.
Thông thường, "Pro" đại diện cho lực lượng nòng cốt, "Flash" đại diện cho nhẹ và nhanh.
Xét về số lượng tham số mô hình,3.5 Flash thực sự nhỏ hơn3.1 Pro, nhưng trên hầu hết các bài kiểm tra chuẩn suy luận và mã hóa, hiệu suất của mô hình trước lại vượt trội hơn:
Bài kiểm tra suy luận toán học phức tạp GSM8K,3.5 Flash đạt điểm số 95.8%, vượt qua 93.2% của3.1 Pro; Trong bài kiểm tra khả năng tạo mã SWE-bench phiên bản đầy đủ, tỷ lệ giải quyết của3.5 Flash đạt 38.4%, vượt xa 32.1% của3.1 Pro...
Tại sao?
Theo Báo cáo kỹ thuậtGemini 3.5 do DeepMind công bố, có hai công nghệ cốt lõi quan trọng nhất.
Chưng cất tri thức cực hạn: Lần này Google không chỉ đơn thuần dựa vào việc đẩy mạnh năng lực tính toán để huấn luyện Flash, mà đã sử dụng mô hình giáo viên chưa từng công bố trước đây là "Gemini 3.5 Ultra" để chưng cất giảm chiều Flash.
Theo phân tích từ tweet của nhà khoa học trưởng DeepMind, Jeff Dean, tỷ lệ tinh chỉnh của3.5 Flash trên bộ dữ liệu chuỗi logic chất lượng cao đã được nâng cao 400% so với thế hệ trước.
Điều này có nghĩa là nó kế thừa "bộ não logic" của mô hình siêu lớn, thay vì "kho kiến thức" học vẹt.
Kiến trúc MoE mới hoàn toàn (Mô hình hỗn hợp chuyên gia): Bên trong3.5 Flash, Google đã áp dụng mạng chuyên gia với độ mịn hạt tốt hơn.
Mô hình MoE truyền thống có thể chỉ có 8 hoặc 16 chuyên gia, mỗi lần chỉ kích hoạt 1-2 chuyên gia, đủ để hỗ trợ mô hình với quy mô tham số nghìn tỷ.
Còn theo phân tích từ bản ghi nhớ đầu tư cơ sở hạ tầng AI năm 2026 của a16z,3.5 Flash đã sử dụng 256 chuyên gia siêu nhỏ, mỗi lần suy luận có thể kích hoạt 4 chuyên gia hiệu quả nhất trong số đó.
Vì vậy, nó mới có thể bao phủ không gian đặc trưng đa phương thức cực kỳ rộng lớn trong khi vẫn duy trì lượng tham số kích hoạt cực thấp.
Trên chỉ số TTFT (Thời gian xuất token đầu tiên),3.5 Flash đã đạt dưới 65 mili giây.
Trong khi đó, một lần chớp mắt của con người cần 100-150 mili giây.
Nói một cách đơn giản, khi nó hoạt động như một tác nhân thông minh, từ góc độ sinh lý của con người, không thể phát hiện ra bất kỳ sự tạm dừng nào.
Đối với các nhà phát triển cần gọi công cụ thường xuyên, suy ngẫm nhiều vòng, độ trễ cực thấp, đây thực sự là nền tảng siêu đại lý hoàn hảo.
Chỉ dựa vào tối ưu hóa kỹ thuật cực kỳ tinh tế như vậy, mới có thể thiết lập sức mạnh thống trị về "triển khai phía thiết bị" trong môi trường cạnh tranh khốc liệt.
Thứ nhất, đa phương thức bản địaGemini Omni Flash.
Omni có nghĩa là toàn năng, đối đầu vớiGPT-4o ra mắt trước đó, chỉ cần nhìn tên thôi cũng có thể cảm nhận được mùi thuốc súng đậm đặc thế nào.
Ít nhất từ hiệu suất mà xem,Gemini Omni Flash xứng đáng sử dụng ký tự "o" này hơnGPT-4o nhiều.
Các mô hình video ban đầu nhưSora hayGemini 1.5, về cơ bản đều là "quái vật khâu vá", tức chuyển giọng nói thành văn bản, rồi văn bản chuyển thành hình ảnh.
Nhưng Omni được phát hành lần này, là sự căn chỉnh đa phương thức đầu-cuối bản địa thực sự. Nó không chỉ có thể hiểu bản địa tính nhất quán về thời gian và quy luật vật lý trong video, mà độ trễ cũng giảm từ mức trung bình ngành 400-600 mili giây xuống còn 120 mili giây.
Lấy một ví dụ từ hội nghị: Người dùng đeo camera đổ nước, cốc nước sắp đầy, Omni có thể nói "Dừng lại!" trước khi nước tràn ra 0.5 giây.
Loại suy luận thời gian thực về trạng thái vật lý của thế giới thực này, trông có vẻ đơn giản, nhưng ý nghĩa rất lớn:AI chính thức tiến hóa từ chatbot trong màn hình thành công cụ hỗ trợ thế giới thực.
Mặc dù chỉ là giai đoạn sơ khai.
Thứ hai, trợ lý thông minhSpark.
Theo tiết lộ từ cuộc phỏng vấn của The Verge với Phó chủ tịch kỹ thuật Android,Spark được trao quyền kiểm soát API cấp hệ thống bản địa ở lớp dưới của hệ thống Android 17.
Nói một cách đơn giản, những quy trình phức tạp trước đây bạn cần mở nhiều App mới có thể hoàn thành, bây giờ không cần động tay, chỉ cần ra lệnh cho Spark một tiếng, nó có thể giúp bạn xử lý tất cả, thậm chí có thể gửi thông tin, sắp xếp email, tổng hợp lịch trình, theo dõi động thái trang web, nhận diện phí trừ ẩn trên hóa đơn, xử lý hàng loạt tài liệu v.v... theo giọng điệu và sở thích của bạn...
Nói cách khác, sau này có trợ lý AI, chúng ta hầu như không cần dùng đến App nữa, bất kỳ thao tác phức tạp nào đều được đơn giản hóa thành duy nhất.
Thứ ba, kính thông minh.
Tại sao lại là kính?
Ít nhất theo quan điểm của Google, việc tích hợp liền mạch thị giác và thính giác, chính là vật chủ cuối cùng của mô hình lớn đa phương thức.
Chiếc kính này trông không có vẻ ngoài hào nhoáng nào, tập trung hoàn toàn vào khả năng thực tế:
Tròng kính dẫn sóng quang học Micro-OLED toàn màu chỉ nặng 4 gram, tỷ lệ truyền ánh sáng lên tới 85%;
Được trang bị chip cạnh Gemini nhẹ tự phát triển, độ trễ suy luận cục bộ ≤12ms, không cần kết nối mạng có thể hoàn thành dịch thời gian thực, nhận diện hình ảnh, phân tích cảnh quan;
Liên kết bản địa với tác nhân thông minh Spark, đồng bộ dữ liệu điện thoại, đám mây, thực hiện các dịch vụ cá nhân hóa như nhắc lịch, dịch thời gian thực, cảnh báo môi trường.
Tóm lại, chính là vượt qua màn hình điện thoại, nhồi nhét tác nhân thông minh vào góc nhìn thứ nhất của con người thông qua kính.
Nội dung quá nhiều, Google dường như đã xả hết tất cả các đòn mạnh một lúc, tuyên bố với thị trường một chân lý:
Thuật toán không có cổng vào, chẳng là gì cả.
Thời đại cuộn tham số mô hình lớn, cuộn điểm benchmark đã qua, các nhà cung cấp mô hình đơn thuần không còn hào rào bảo vệ, tương lai là cuộc chiến không gian bốn chiều "thiết bị + đám mây + hệ sinh thái + phần cứng".
Nhồi nhét AI vào bộ ứng dụng gia đình, thực chất là đang định hình lại logic phân phối lưu lượng toàn bộ Internet: từ "người dùng chủ động tìm kiếm / nhấp chuột", trở thành "tác nhân thông minh AI chủ động phân phối dịch vụ".
Đối với đông đảo nhà phát triển và doanh nghiệp vừa và nhỏ, điều này tốt hơn cả, vì năng lực tính toán cơ sở và mô hình trở nên cực kỳ rẻ, mọi người có thể tập trung làm sáng tạo ở lớp ứng dụng.
Nhưng các đối thủ cạnh tranh khác, lúc này có lẽ chỉ muốn chửi thề.
02
Khi Pichai trên sân khấu nhẹ nhàng tuyên bố "Người dùng hoạt động hàng tháng của Gemini chính thức vượt 900 triệu", đã tạo nên một cơn chấn động không nhỏ dưới khán đài.
900 triệu, nhiều hơn tổng MAU của tất cả đối thủ Mỹ cộng lại.
Làm thế nào để đạt được?
Câu trả lời đơn giản và thô bạo:Nhồi nhét cứng.
Google không cần phải chi phí quảng cáo để mua lượng người dùng như các công ty AI độc lập, chỉ cần thêm một biểu tượng bên cạnh thanh địa chỉ của trình duyệt Chrome, tích hợp một phím tắt gọi ở thanh điều hướng dưới cùng của 3 tỷ điện thoại Android, đẩy cập nhật toàn bộ trong Google Workspace...
Chi phí thu hút người dùng về cơ bản bằng 0.
Quan trọng hơn, trong khoảng thời gian tới, dữ liệu phản hồi thế giới thực đa phương thức, chất lượng cao với khối lượng khổng lồ được tạo ra từ 900 triệu người dùng hoạt động mỗi ngày khi họ nhìn sản phẩm bằng kính thông minh, sửa logic khi xử lý công việc bằng Spark và tương tác với mô hình hình ảnh Omni, tất cả sẽ trở thành dưỡng chất nuôi dưỡngGemini 4.
Đây là một hào rào cực kỳ kiên cố:Mô hình càng dễ dùng -> càng nhiều người dùng -> càng tạo ra nhiều dữ liệu -> mô hình càng trở nên dễ dùng hơn.
Để nhanh chóng củng cố vòng lặp này, Google trực tiếp tuyên bố với tất cả đối thủ phát động chiến tranh giá:Gói AI Ultra từ 249.99 USD / tháng giảm xuống còn 99.9 USD / tháng.
3.5 Flash có giá nhập đầu vào triệu token là 0.02 USD, giá xuất đầu ra triệu token là 0.08 USD.
Đây là mức giá thần thánh gì vậy?
So sánh một chút, giá trung bình của các mô hình cùng cấp trong ngành lần lượt là 0.15-0.2 USD và 0.6-1 USD.
Pichai tính toán: Khách hàng đầu ngành xử lý khoảng 1 nghìn tỷ token mỗi ngày. Chuyển 80% khối lượng công việc sangGemini 3.5 Flash trong một năm, có thể tiết kiệm hơn 10 tỷ USD.
Tại sao dám bán AI với giá rẻ như rau?
Chỗ dựa lớn nhất chính là:Cơ sở hạ tầng năng lực tính toán được tích hợp theo chiều dọc.
Các gã khổng lồ như OpenAI, Anthropic, trông có vẻ hào nhoáng, nhưng về bản chất vẫn là "khách thuê năng lực tính toán", cần phải mua năng lực tính toán từ Microsoft, Amazon, và những công ty sau lại phải trả tiền cho Nvidia.
Còn Google có TPU của riêng mình, cộng thêm hiệu suất kích hoạt thưa thớt cực kỳ biến thái của3.5 Flash, đã nén chi phí năng lực tính toán đến mức tối đa.
Hoàn toàn có thể sử dụng lợi thế tài sản nặng để giáng đòn giảm chiều xuống các công ty thuật toán đơn thuần.
Logic rất rõ ràng.
Mô hình lớn cơ sở đang nhanh chóng hàng hóa hóa. Giống như nước và điện vậy, bạn đã thấy công ty nước sạch nào có lợi nhuận khổng lồ chưa?
Google không sợ bản thân mô hình lớn không kiếm được tiền, vì có thể kiếm tiền lại thông qua quảng cáo tìm kiếm, dịch vụ đám mây và hoa hồng từ hệ sinh thái Android.
Nhưng đối với OpenAI, Anthropic, Cohere, Mistral, những công ty sống dựa vào việc bán API mô hình lớn thuần túy, điều này là không thể.
Các nhà đầu tư bây giờ có lẽ rất muốn ấn đầu Sam Altman để hỏi:"Giá API của Google chỉ bằng một phần mười của anh, hiệu suất còn tốt hơn anh, anh nói cho tôi biết, mô hình kinh doanh của anh sẽ chạy thông như thế nào?"
Cấu trúc cạnh tranh của nhiều ngành công nghiệp sẽ vì thế bước vào giai đoạn rửa bài gia tốc.
Các nhà cung cấp AI không cần nói nhiều, phải nhanh chóng tìm ra nguồn năng lực tính toán rẻ hơn, hoặc tự mình xuống sân làm chip.
Tiếp theo là Apple vẫn đang đóng cửa làm xe.
Sự kết hợp giữa kính thông minh + mô hình video lớn Omni + Spark tiếp quản cấp hệ thống bản địa, không còn nghi ngờ gì, đã đe dọa đến iPhone.
Theo Báo cáo Dự báo Xu hướng Điện tử Tiêu dùng của Macquarie:Trong ba năm tới, tỷ lệ thời gian tương tác không màn hình dựa trên thị giác / giọng nói, dự kiến sẽ tăng từ mức 8% hiện tại lên 35%.
Nếu người dùng quen với việc sử dụng kính và giọng nói để hoàn thành công việc hàng ngày và giải trí, thời gian sử dụng màn hình chắc chắn sẽ bị nén đáng kể.
Nếu Apple không đưa ra được thiết bị đeo đủ ấn tượng để phản kích (Vision Pro quá nặng và đắt, nhất định chỉ là đồ chơi của số ít), quyền độc quyền cổng vào của họ trong thời đại Internet di động sẽ bị thách thức chưa từng có.
Đây không phải là lặp lại, là cách mạng.
Google dùng ba con dao công nghệ, lưu lượng và giá, gửi chiến thư cho tất cả đối thủ.
Lúc này, còn ai cười nó mắc bệnh doanh nghiệp lớn không?












