Gemini 3.5 đã đến! Đêm nay, chính Google tự đào thải Google

链捕手Xuất bản vào 2026-05-20Cập nhật gần nhất vào 2026-05-20

Tóm tắt

Bài viết tóm tắt các sản phẩm và công nghệ chính được giới thiệu tại Google I/O 2026: 1. **Gemini Omni**: Một mô hình AI đa năng, có thể nhận đầu vào dưới mọi hình thức (hình ảnh, âm thanh, video, văn bản) và tạo ra video chất lượng cao. Nó thực sự hiểu biết thế giới vật lý, cho phép người dùng chỉnh sửa video thông qua trò chuyện và duy trì tính nhất quán của đối tượng và logic xuyên suốt các cảnh. 2. **Gemini 3.5 Flash**: Được quảng cáo là mô hình mã hóa và tác nhân AI mạnh mẽ nhất của Google, vượt trội so với Gemini 3.1 Pro và các đối thủ khác trong nhiều bài kiểm tra tiêu chuẩn. Nó nhanh hơn đáng kể và đã được tích hợp vào Gemini App và chế độ AI của Google Tìm kiếm. 3. **Antigravity 2.0**: Nền tảng phát triển tác nhân AI độc lập mới, được nâng cấp thành ứng dụng máy tính để bàn. Một bản demo ấn tượng cho thấy 93 tác nhân con, sử dụng 3.5 Flash, đã xây dựng được một hệ điều hành hoạt động đầy đủ từ đầu trong vòng 12 giờ. 4. **Gemini Spark**: Một tác nhân AI cá nhân, chạy 24/7 trên đám mây. Nó có thể tự động xử lý các tác vụ phức tạp bằng cách tích hợp với bộ công cụ Google Workspace (như Gmail, Docs, Sheets, Slides) và hỗ trợ lệnh bằng giọng nói để tạo và quản lý nhiều tác vụ song song. 5. **Các thông báo khác**: Bao gồm thiết kế lại Gemini App với mã lực tính phí, kế hoạch đăng ký AI Ultra mới với giá cả được điều chỉnh, và bản nâng cấp lớn cho Google Tìm kiếm với việc tích hợp 3.5 Flash. Bài viết kết luận rằng sự kết hợp đồng thời của các khả năng AI tiên tiến này...

Tác giả: Tân Trí Nguyên

 

Hội nghị Google I/O 2026, toàn lực khai hỏa!

Vừa mới đây, Sundar Pichai và Demis Hassabis cùng xuất hiện trên sân khấu, trình làng toàn bộ những kỹ năng lớn đã dồn nén suốt nửa năm qua.

Không một chút nghi ngờ, nhân vật chính lớn nhất tối nay, Gemini Omni đã chính thức lộ diện!

Là một mô hình lớn thực sự "toàn năng", Omni có thể tiếp nhận bất kỳ hình thức đầu vào nào, tạo ra bất kỳ nội dung nào. Và lần đầu tiên hỗ trợ đầu ra video, xứng danh là "Nano Banana phiên bản video".

Một cao trào khác của đêm nay, thuộc về Gemini 3.5 Flash.

Trong hầu hết các bài kiểm tra benchmark, 3.5 Flash đều hoàn toàn áp đảo flagship đời trước của chính mình là Gemini 3.1 Pro. Tốc độ xuất đầu ra cũng trực tiếp tăng gấp đôi, so với GPT-5.5 và Opus 4.7 còn nhanh hơn hơn 4 lần. 3.5 Pro mạnh hơn nữa, sẽ được phát hành vào tháng tới.

Ngoài ra, còn có một loạt sản phẩm mới trọng lượng khác được trình làng:

  • Antigravity 2.0: Ứng dụng desktop độc lập hoàn toàn mới, tiến hóa từ IDE thành nền tảng phát triển Agent

  • Gemini Spark: Đặc vụ AI cá nhân, chạy 7×24h trên đám mây

  • App Gemini tái bản: Mã hiệu Neural Expressive, chuyển sang tính phí theo hiệu năng tính toán

  • Gói đăng ký AI Ultra: Thêm phiên bản 100 đô la, gói cao cấp nhất giảm từ 250 xuống 200 đô la

  • Tìm kiếm Google nâng cấp lớn nhất trong 25 năm: Kết nối với 3.5 Flash, thêm hộp tìm kiếm thông minh, tự động tạo ứng dụng mini, v.v.

    ......

Không nói quá một chút nào, mật độ nội dung thực tế của I/O năm nay, có thể nói là cao nhất trong nhiều năm qua.

Gemini Omni ra mắt: Một AI "toàn năng" đã ra đời

Như đoạn video quảng bá đã ám chỉ một cách điên cuồng, Gemini Omni được mong đợi từ lâu cuối cùng cũng đã đến. Hassabis đích thân lên sân khấu tuyên bố, "Chúng tôi đang thực hiện bước quan trọng tiếp theo — Gemini Omni, đây là một mô hình mới có thể tạo nội dung từ bất kỳ đầu vào nào".

Không gian dành cho nó đã nói lên tất cả. Lần này, Google muốn xây dựng một cỗ máy sáng tạo AI "toàn năng". Nó hợp nhất trí tuệ của Gemini với AI sinh sáng mạnh nhất, kéo đầy ba chiều: hiểu biết thế giới, đa phương thức và chỉnh sửa. Nói thẳng ra, với bất kỳ sự kết hợp nào của hình ảnh, âm thanh, video, văn bản, nó có thể tạo ra một đoạn video chất lượng cao. Hơn nữa, có thể chỉnh sửa video bằng cách trò chuyện.

Quan trọng hơn, Omni không chỉ "trông giống như", nó thực sự đang hiểu thế giới vật lý. Lời nói nguyên văn của Hassabis là, các hệ thống trước đây thường gặp trục trặc khi mô phỏng các khái niệm như trọng lực, động năng, nhưng Omni đã đạt được một "sự thay đổi nhảy vọt". Nó đã bơm "kiến thức thế giới" và "khả năng suy luận" của Gemini vào việc tạo video.

  • Cho nó một câu prompt "giải thích sự gấp nếp protein bằng hoạt hình đất sét", video được tạo ra với chuỗi amino axit gấp lại thành xoắn α và gấp nếp β, từng bước đều chính xác về mặt khoa học, về mặt hình ảnh là một bộ phim hoạt hình stop-motion tinh xảo.

  • Lại ví dụ như cấu hình 26 chữ cái tiếng Anh với các vật thể tương ứng. C là Capybara (chuột lang nước), D là quả cầu disco, L là đèn lava. Omni không phải đang cắt dán tài liệu, nó thực sự đang kết nối ngôn ngữ, hình ảnh và ngữ nghĩa với nhau.

Phải nói rằng, bước chuyển từ chân thực đến có ý nghĩa này quá lớn.

Trên sân khấu, Hassabis lấy ra một đoạn video selfie và bắt đầu chỉnh sửa trực tiếp. Vòng tròn vẽ tùy tiện trên lòng bàn tay biến thành hố đen, con phố đi dạo vào buổi chiều tối biến thành khung cảnh cyberpunk. Một câu nói viết lại khung hình, một câu nói thay đổi thế giới. Bất cứ thứ gì cũng có thể trở thành tấm vẽ để tạo ra thực tại hoàn toàn mới. Lại ví dụ, selfie chơi với lửa trong lòng bàn tay, một tờ giấy vẽ một vòng tròn lập tức biến thành hố đen, đủ thứ cách chơi mở rộng trí tưởng tượng đều có thể thực hiện.

Hơn nữa, đây không phải là tạo xong một lần là xong. Bạn có thể tiếp tục trò chuyện. Video đầu ra từ Gemini Omni, nhân vật duy trì nhất quán, logic vật lý hợp lý, ký ức cảnh liên tục.

  • Bắt đầu từ một cảnh chơi nhạc gốc. Vòng thứ hai, "dịch chuyển nghệ sĩ violin đến môi trường trong bức ảnh này", đính kèm một bức ảnh tham khảo về núi tuyết và đồng cỏ, cảnh ngay lập tức chuyển đổi, hành động, ánh sáng đều thích ứng với môi trường mới.

  • Vòng thứ ba, "cắt camera về phía sau vai nghệ sĩ violin", góc nhìn xoay chuyển, nhưng hành động chơi nhạc và âm nhạc hoàn toàn liên tục.

Bất kể cảnh thay đổi thế nào, chủ thể trong khung hình đều không bị hỏng.

Điều đáng suy ngẫm hơn nữa là tính linh hoạt đầu vào của Omni. Hình ảnh, văn bản, video, âm thanh, bất kỳ vật tham khảo nào cũng có thể được nhập hỗn hợp, tạo ra một đầu ra liền mạch. Bạn thậm chí có thể tạo Avatar của riêng mình, để phiên bản AI của bạn xuất hiện trong bất kỳ cảnh nào, nói giọng của bạn, làm những việc bạn chưa từng làm.

Hiện tại, Omni Flash đã chính thức ra mắt, phiên bản API sẽ được mở trong vài tuần tới. Còn Omni Pro mạnh hơn nữa cũng đang trên đường. Với khả năng tích hợp mạnh mẽ của Google, Omni ngay khi ra mắt đã được tích hợp vào Gemini App, Google Flow và YouTube Shorts, người dùng YouTube Shorts thậm chí có thể dùng miễn phí.

Flash đè bẹp Pro: 3.5 đã viết lại định nghĩa "flagship"

Sau Gemini Omni, phần quan trọng khác của I/O hôm nay, là việc phát hành flagship mới Gemini 3.5 Flash. Google định nghĩa nó là mô hình mã hóa, agent mạnh nhất từ trước đến nay.

Trực tiếp tại hiện trường, Sundar Pichai tuyên bố, "3.5 Flash trong hầu hết các bài kiểm tra benchmark, đều vượt trội toàn diện so với Gemini 3.1 Pro"! Điều đáng nói, 3.1 Pro là mô hình flagship mà Google mới ra mắt cách đây ba tháng, giờ đây, một mô hình cấp Flash đã nghiền nát nó.

Không ngờ rằng, Google lại trong thời gian ngắn như vậy, đã giao ra bảng thành tích ấn tượng:

  • Terminal-Bench 2.1 (mã hóa): 76.2%

  • GDPval-AA (nhiệm vụ Agent thế giới thực): 1656 Elo

  • MCP Atlas (sử dụng công cụ quy mô lớn): 83.6%

  • CharXiv Reasoning (hiểu đa phương thức): 84.2%

Trên bốn bài kiểm tra benchmark lớn này, so với Gemini 3.1 Pro, 3.5 Flash xứng danh là một bước nhảy vọt đứt gãy. Về tốc độ, 3.5 Flash chiếm một góc phần tư riêng biệt, 289 tokens/giây, nhanh hơn hơn 4 lần so với các mô hình tiên phong khác. Ngoài ra, 3.5 Flash trong một phần bài kiểm tra benchmark, hiệu năng ngang bằng, thậm chí đủ để nghiền nát GPT-5.5, Claude Opus 4.7. Phải nói rằng, 3.5 Flash vừa nhanh vừa mạnh, hầu như không có đối thủ.

Tham số quá trừu tượng, chi bằng xem demo giới hạn thực tế. Chỉ trong chớp mắt, 3.5 Flash có thể tiêu hóa một bài báo học thuật khó hiểu như sách trời, và viết ra một trang web trực quan hóa với tính tương tác hoàn hảo. Trong nhiệm vụ agent, thông qua Antigravity, nó có thể hoàn thành quy trình làm việc nhiều bước, tự động phân loại và đặt tên cho các tài sản tràn ngập màn hình. Hoặc là, sử dụng hai Agent, trong vòng sáu giờ đồng hồ đã tái hiện được bài báo AlphaZero, và lập trình ra một trò chơi có thể chạy hoàn chỉnh.

93 Agent xây dựng OS, chỉ 12 giờ

Có thể thấy, việc thực hiện tất cả các khả năng này của 3.5 Flash, đều là thông qua Antigravity 2.0 hoàn toàn mới. Hôm nay, nền tảng phát triển Agent Antigravity của Google đã nâng cấp lên 2.0, từ IDE trở thành ứng dụng desktop độc lập, hoàn toàn chấp nhận thiết kế Agent-first.

Varun lên sân khấu đưa ra một Demo khiến cả hội trường nín thở. Anh ấy để Antigravity được trang bị 3.5 Flash, xây dựng một hệ điều hành từ con số không. 93 agent con làm việc song song, gửi hơn 15000 yêu cầu mô hình, xử lý 2.6 tỷ token, sau 12 giờ, một dự án hoàn toàn trống rỗng đã trở thành nhân hệ điều hành hoàn chỉnh chức năng. Trình lập lịch, quản lý bộ nhớ, hệ thống tập tin, mỗi dòng mã đều do Agent viết, Agent kiểm tra, Agent kiểm toán. Chi phí API chưa đến 1000 đô la.

Tiếp theo, anh ấy thử chạy DOOM trên hệ điều hành do AI viết này. Lần thử đầu tiên thất bại, thiếu driver video và bàn phím. Vì vậy anh ấy ngay lập tức nhập lệnh sửa chữa vào Antigravity 2.0, Agent bắt đầu tự động viết bổ sung mã driver. Đợi một lúc, hình ảnh DOOM xuất hiện trên màn hình, cả hội trường sôi sùng sục.

Tóm lại, Antigravity 2.0 mang đến các nâng cấp cốt lõi bao gồm:

  • Agent con có thể được tạo động, agent chính chia nhiệm vụ thành nhiệm vụ con và phân phối, chạy song song mà không can thiệp lẫn nhau;

  • Quản lý tác vụ không đồng bộ khiến các thao tác tốn thời gian dài không còn chặn luồng chính;

  • Scheduled Tasks có thể đặt "tác vụ định thời" để Agent tự động thực hiện, ví dụ kiểm tra trạng thái PR mỗi ngày một lần, chạy script kiểm tra sức khỏe mỗi giờ một lần.

  • Lệnh gạch chéo mới: /goal để Agent chạy một mạch, /grill-me ngược lại để Agent làm rõ yêu cầu rồi mới hành động, /browser kiểm soát rõ ràng việc sử dụng trình duyệt.

Tuy nhiên, đây đều là những khả năng đã được thông suốt nội bộ. Tốc độ xử lý token của Google nội bộ bằng Antigravity, tháng 3 là 500 tỷ mỗi ngày. Giờ đây, mỗi ngày tăng tốc điên cuồng 3 nghìn tỷ. Hơn nữa, phiên bản Flash tăng tốc 12 lần này, hôm nay đã có thể dùng trong Antigravity.

3.5 Flash đồng thời trở thành mô hình mặc định cho Gemini App và chế độ AI Tìm kiếm Google, hướng đến tất cả người dùng toàn cầu. Nhà phát triển gọi qua Antigravity 2.0, Gemini API, Google AI Studio. Người dùng doanh nghiệp truy cập qua Gemini Enterprise Agent Platform. Gây sốc hơn nữa, 3.5 Pro đang được thử nghiệm nội bộ, sẽ phát hành vào tháng tới.

Quản gia cá nhân 7x24h: Google Spark cuối cùng cũng đã đến

Phát hành lớn thứ ba tối nay, chắc chắn thuộc về Gemini Spark! Sundar Pichai định vị nó rất rõ ràng: Agent AI cá nhân của bạn. Ngay cả khi gập laptop lại, nó cũng không ngừng nghỉ. Nó chạy trên máy ảo chuyên dụng trên đám mây, có thể thực hiện trực tuyến 7×24 giờ.

Gemini Spark được cung cấp bởi Gemini 3.5 + khung Antigravity, tích hợp sâu "bộ công cụ văn phòng" của Google. Phó chủ tịch sản phẩm Josh Woodward lên sân khấu trình diễn hai tình huống, trực tiếp khiến cả hội trường điên cuồng.

  • Đầu tiên là tình huống công việc: Nhập một lệnh, "giúp tôi soạn thảo một email gửi nhóm, tổng hợp tất cả thông tin trong tuần qua về việc phát hành Gemini Live". Spark tự động vượt qua Gmail, Docs, lịch sử trò chuyện để thu thập thông tin, còn gọi một kỹ năng "ghostwriter" do chính Woodward viết, để email tự động khớp với giọng điệu cá nhân của anh ấy. Toàn bộ quá trình hoàn thành trong nền, con người chỉ cần xem xét và gửi. Đúng vậy, Spark hỗ trợ kỹ năng tùy chỉnh (skills), để nó học được giọng điệu, sở thích, cách làm việc của bạn.

  • Thứ hai là tình huống cuộc sống: Lên kế hoạch cho một bữa tiệc khu phố. Spark nhận nhiệm vụ và thực hiện từng bước. Nó tạo một bảng theo dõi RSVP trong Google Sheets, kết nối trực tiếp với Gmail, ai trả lời tự động cập nhật. Với những người hàng xóm chưa đăng ký, Spark tự động soạn thảo email nhắc nhở, tạo bản nháp chờ xác nhận rồi mới gửi. Sau đó, nó còn tạo một slide deck tuyên truyền trong Google Slides, ngay cả thông tin về lâu đài bơm hơi sẽ đặt trong khu phố cũng được viết vào. Suốt quá trình không mở bất kỳ ứng dụng nào.

Không chỉ vậy, Spark còn có khả năng nhập giọng nói mạnh mẽ. Tại hiện trường, Woodward lấy điện thoại ra, trực tiếp dùng giọng nói đưa ra ba nhiệm vụ: "Tìm tất cả các cuộc họp với Sundar và đánh dấu màu hồng sáng", "Viết thư mời cho hàng xóm mới John tham gia danh sách block party", "Tạo một tài liệu liệt kê những việc cần làm cho con trước khi kết thúc năm học, sắp xếp theo thời hạn".

Giọng nói trực tiếp chuyển thành lệnh văn bản, Spark tự động chia một đoạn giọng nói liên tục thành ba luồng nhiệm vụ độc lập, thực hiện song song trong nền.

Về định giá, gói đăng ký AI Ultra 100 đô la mỗi tháng có thể dùng Spark Beta. Gói Ultra cao cấp nhất giảm từ 250 đô la xuống 200 đô la. Spark sẽ mở Beta cho người dùng AI Ultra tại Mỹ thử nghiệm vào tuần tới.

Đêm nay, Google mở ra lối vào ASI

Nhìn lại I/O lần này, điều thực sự khiến người ta rùng mình, không phải là một sản phẩm cụ thể nào. Mà là tất cả khả năng đồng thời đã sẵn sàng.

Hiểu biết đa phương thức hoàn toàn, sinh đa phương thức hoàn toàn, Agent trực tuyến suốt ngày đêm — ba mảnh ghép này, Google đã ghép tất cả chỉ trong một đêm. Omni biến một câu nói thành một thế giới, không cần con người cung cấp bất kỳ tài liệu nào; 93 Agent tạo ra hệ điều hành từ con số không, không cần con người viết một dòng mã; Spark 7×24 giờ làm việc thay bạn, không cần con người mở một ứng dụng.

Khi AI không còn cần con người "cho ăn", mà tự hiểu, tự quyết định, tự thực hiện, tự lặp lại — điểm cuối của con đường này, gọi là ASI (siêu trí tuệ).

Không ai có thể đưa ra một lịch trình chính xác. Nhưng Google I/O tối nay, khiến tất cả mọi người nhận ra một điều: Trên con đường đến siêu trí tuệ, không còn trở ngại "về mặt kỹ thuật không làm được" nữa. Còn lại, chỉ là tốc độ triển khai kỹ thuật. Nửa năm trước chúng ta còn tranh luận AGI có phải là bong bóng không. Nửa năm sau, Google đã dùng Agent để viết hệ điều hành rồi. Gia tốc của ngành này, đã vượt quá phạm vi mà trực giác con người có thể cảm nhận.

Tài liệu tham khảo:

  • https://youtu.be/wYSncx9zLIU

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

  • https://antigravity.google/blog/introducing-google-antigravity-2-0

  • https://antigravity.google/blog/google-io-2026-feature-deep-dive

Biên tập: Đào Tử Ma Tây

 

 

 

 

 

 

 

 

 

 

 

 

 

Câu hỏi Liên quan

QGoogle I/O 2026 đã giới thiệu sản phẩm AI chính nào?

AGoogle I/O 2026 đã giới thiệu ba sản phẩm AI chính: Gemini Omni, Gemini 3.5 Flash, và Gemini Spark. Gemini Omni là một mô hình 'toàn năng' có thể tạo video từ bất kỳ đầu vào nào. Gemini 3.5 Flash là một mô hình nhanh và mạnh mẽ, vượt trội so với người tiền nhiệm. Gemini Spark là một trợ lý AI cá nhân có thể chạy 24/7 để quản lý công việc và cuộc sống.

QGemini Omni có khả năng đặc biệt gì?

AGemini Omni là một mô hình tạo video đa phương thức tiên tiến. Nó có thể nhận đầu vào ở bất kỳ hình thức nào (văn bản, hình ảnh, âm thanh, video) và tạo ra video chất lượng cao. Điểm đột phá là nó có khả năng hiểu biết về thế giới vật lý, giúp video tạo ra có logic về chuyển động, trọng lực và ngữ nghĩa. Ngoài ra, người dùng có thể chỉnh sửa video thông qua trò chuyện, và các video được tạo ra có tính nhất quán cao.

QHiệu suất của Gemini 3.5 Flash được mô tả như thế nào trong bài viết?

AGemini 3.5 Flash được mô tả là có hiệu suất 'nhanh và mạnh'. Nó vượt trội so với mô hình tiền nhiệm là Gemini 3.1 Pro trong hầu hết các bài kiểm tra tiêu chuẩn. Tốc độ xử lý của nó đạt 289 token/giây, nhanh hơn 4 lần so với các mô hình đối thủ như GPT-5.5 và Claude Opus 4.7. Nó đặc biệt mạnh mẽ trong các nhiệm vụ như mã hóa, tác nhân AI và hiểu đa phương thức.

QAntigravity 2.0 là gì và có điểm gì mới?

AAntigravity 2.0 là một nền tảng phát triển tác nhân AI (Agent), đã được nâng cấp từ một IDE thành một ứng dụng desktop độc lập. Điểm mới chính bao gồm: khả năng tạo và quản lý các tác nhân con chạy song song để thực hiện các nhiệm vụ lớn một cách hiệu quả; hỗ trợ tác vụ không đồng bộ và tác vụ được lên lịch (scheduled tasks); và các lệnh chéo (slash commands) mới như `/goal` để chạy tự động, `/grill-me` để làm rõ yêu cầu trước, và `/browser` để điều khiển trình duyệt rõ ràng hơn.

QGemini Spark được định vị là sản phẩm gì và có khả năng nào nổi bật?

AGemini Spark được định vị là một 'tác nhân AI cá nhân' chạy 24/7 trên đám mây. Nó có khả năng nổi bật là tự động hóa các công việc bằng cách tích hợp sâu với các dịch vụ của Google như Gmail, Google Docs, Sheets, Slides. Người dùng có thể yêu cầu bằng giọng nói hoặc văn bản, và Spark sẽ tự động thu thập thông tin, xử lý và tạo ra các tài liệu, email, bảng tính cần thiết mà không cần người dùng phải mở ứng dụng. Nó cũng hỗ trợ tạo các kỹ năng (skills) tùy chỉnh để phù hợp với phong cách làm việc cá nhân.

Nội dung Liên quan

PA Hình ảnh | Một hình ảnh hiểu rõ các sự kiện Web3 đáng chú ý trong tháng 6

Bản tóm tắt sự kiện Web3 đáng chú ý tháng 6: Thị trường tiền mã hóa tháng 6 tập trung vào các yếu tố chính: dữ liệu kinh tế vĩ mô của Mỹ (như CPI, phi nông nghiệp), quyết định lãi suất từ Cục Dự trữ Liên bang Mỹ (FOMC), Ngân hàng Trung ương Châu Âu và Ngân hàng Nhật Bản, tiếp tục ảnh hưởng đến kỳ vọng thanh khoản và tâm lý thị trường. Một số dự án như SUI, ENA sẽ có đợt mở khóa token, cần lưu ý rủi ro tiềm ẩn. Về tin tức sản phẩm, Coinbase dự kiến ra mắt hợp đồng tương lai chỉ số chứng khoán, trong khi CME Group lên kế hoạch cho hợp đồng tương lai chỉ số tiền mã hóa Nasdaq. Tình trạng thanh lý dự án vẫn tiếp diễn, với các dịch vụ như trình duyệt Bitcoin Ordinals (Ord.io) ngừng hoạt động, người dùng cần chú ý đến việc rút và di chuyển tài sản. Các sự kiện công nghệ và truyền thống đáng chú ý khác bao gồm World Cup, Hội nghị Nhà phát triển Toàn cầu của Apple (WWDC26), SpaceX lên sàn chứng khoán, và thượng hội IPO của công ty robot Unitree. Tóm lại, tháng 6 hứa hẹn tiếp tục là giai đoạn thị trường tìm kiếm phương hướng mới dưới tác động của kỳ vọng thanh khoản, biến động chính sách và sự luân chuyển trong hệ sinh thái.

marsbit47 phút trước

PA Hình ảnh | Một hình ảnh hiểu rõ các sự kiện Web3 đáng chú ý trong tháng 6

marsbit47 phút trước

Alibaba 'Bán Hàng', ByteDance 'Luyện Công'

Tuần cuối tháng 5, hai sự kiện AI liền kề đã phơi bày hai cách tiếp cận khác biệt của các gã khổng lồ công nghệ Trung Quốc. Alibaba tập trung vào tích hợp và thương mại hóa AI. Họ kết nối ứng dụng Qwen với Taobao, cho phép mua sắm và sử dụng các tính năng AI như thử đồ, so giá. Tổ chức được tái cấu trúc để tập trung vào AI, với động lực rõ ràng từ thị trường vốn. Doanh thu bên ngoài của Alibaba Cloud tăng 40%, cho thấy chiến lược "lắp AI vào quầy thu ngân" đang tạo ra dòng tiền. Tuy nhiên, cách tiếp cận thực dụng này có thể đi kèm rủi ro nếu có sự chênh lệch lớn về năng lực mô hình nền trong tương lai. Ngược lại, ByteDance theo đuổi giới hạn công nghệ thông qua bộ phận Seed. Họ đạt được thành tích đỉnh cao với mô hình tạo video Seedance 2.0 và đầu tư mạnh vào nghiên cứu cơ bản, thu hút nhân tài với các mục tiêu thuần túy học thuật. Ngân sách vốn (capex) của ByteDance được báo cáo là tăng vọt, lên tới 4700 tỷ NDT vào năm 2026, được tài trợ chủ yếu từ lợi nhuận. Lợi thế lớn của họ là không bị áp lực thị trường công khai, cho phép tập trung vào nghiên cứu dài hạn. Bài viết chỉ ra rằng sự khác biệt chiến lược này không chỉ là triết lý, mà chủ yếu bị chi phối bởi việc công ty có niêm yết hay không. Các công ty đại chúng như Alibaba chịu áp lực phải thể hiện kết quả tài chính ngắn hạn, dẫn đến chiến lược "bán AI". Các công ty chưa niêm yết như ByteDance có "sự xa xỉ" để "làm AI" và tập trung vào đột phá công nghệ. Tương lai của con đường nghiên cứu dài hạn tại ByteDance có thể được kiểm chứng nếu công ty này tiến hành IPO.

marsbit55 phút trước

Alibaba 'Bán Hàng', ByteDance 'Luyện Công'

marsbit55 phút trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

Biên tập viên: Khi AI Agent ngày càng rẻ và dễ gọi, phát triển phần mềm đang bước vào giai đoạn mới. Vấn đề không còn là có thể chạy nhiều Agent hơn hay không, mà là liệu con người có đủ sự chú ý để quản lý, đánh giá và hợp nhất đầu ra của chúng hay không. Bài viết giới thiệu khái niệm "thuế điều phối". Chi phí khởi chạy Agent rất thấp, chỉ cần một Prompt hoặc một cú nhấp chuột. Nhưng các bước tiếp theo mới thực sự đắt đỏ: kiểm tra kết quả, hiểu tác động đến kiến trúc hệ thống, xử lý xung đột giữa các Agent, và quyết định mã nào được đưa vào nhánh chính. Những công việc này không thể song song hóa đơn giản, mà vẫn phải quay về một tài nguyên tuần tự duy nhất: khả năng phán đoán của con người. Tác giả ví nhà phát triển như "GIL" trong hệ thống AI Agent - khóa luồng đơn hạn chế thông lượng cuối cùng của hệ thống đồng thời. Nhiều Agent có thể chạy cùng lúc, nhưng một khi bước vào giai đoạn đánh giá kiến trúc, xem xét mã và hợp nhất xung đột, chúng phải đi qua bộ não của nhà phát triển. Do đó, càng nhiều Agent không nhất thiết có nghĩa là sản lượng cao hơn, mà có thể chỉ làm cho hàng đợi công việc chờ xem xét dài hơn, khiến nhà phát triển mệt mỏi vì chuyển đổi ngữ cảnh liên tục. Điều dễ bị bỏ qua trong cơn sốt công cụ lập trình AI hiện nay là cảm giác hiệu quả không phải lúc nào cũng đồng nghĩa với năng suất thực. Một bảng điều khiển đầy Agent đang chạy tạo ra ảo giác "năng suất cao", nhưng nếu nhà phát triển không thực sự hiểu, xem xét và tích hợp các thay đổi, hệ thống cuối cùng tích lũy có thể là nợ kỹ thuật và nợ nhận thức. Vì vậy, bài viết thảo luận về "cách thiết kế lại quy trình làm việc xoay quanh sự chú ý của con người". Trong thời đại Agent, năng lực then chốt không chỉ là biết đặt câu hỏi và phân công nhiệm vụ, mà là biết nhiệm vụ nào có thể giao cho máy móc xử lý song song, nhiệm vụ nào phải dành cho con người đánh giá; khi nào nên xem xét hàng loạt, khi nào nên dừng điều phối để tập trung lại vào một vấn đề cốt lõi. AI đang mở rộng khả năng xử lý đồng thời trong sản xuất phần mềm, nhưng sự chú ý của con người vẫn là tài nguyên khan hiếm và không thể nhân bản nhất trong hệ thống. Một quy trình làm việc với Agent thực sự trưởng thành không phải là ném mọi nhiệm vụ cho máy móc, mà là thiết kế kiến trúc sự chú ý của chính mình một cách cẩn thận, giống như thiết kế một hệ thống sản xuất.

marsbit2 giờ trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

marsbit2 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

**Tóm tắt tiếng Việt:** Năm 2026, tác giả Vương Kiến Thạc nhìn lại 20 dự đoán của mình về ChatGPT từ năm 2023, sử dụng AI (41 agent Opus 4.8) để đối chiếu với dữ liệu thực tế. **Kết quả chính:** Phần lớn các dự đoán về **cơ chế và xu hướng** là đúng: * **Đúng:** Kiến trúc RAG + tìm kiếm trở thành chuẩn để giảm ảo giác. LUI (Giao diện ngôn ngữ tự nhiên) tạo ra một "lục địa mới" cho tương tác máy tính. Mạng lưới agent với giao thức kết nối mới đang hình thành. Trung Quốc thu hẹp khoảng cách về mô hình lớn có thể sử dụng. ChatGPT không có ý thức, vượt qua bài kiểm tra Turing nhờ biểu diễn. Nó là bước tiến lớn nhưng chưa phải AGI, chưa gây ra làn sóng thất nghiệp hàng loạt. * **Sai/Sai một phần:** Dự đoán cụ thể **GPT-4 có 100 nghìn tỷ tham số** là sai hoàn toàn (thực tế ~1.8 nghìn tỷ). Nhận định **LLM không thể tự học toán** bị bác bỏ khi các mô hình giành huy chương IMO. **Giá trị sẽ thuộc về lớp ứng dụng** bị chứng minh ngược lại khi lợi nhuận khổng lồ thuộc về lớp nền tảng tính toán (như NVIDIA). **AI có thể né tránh vấn đề bản quyền** là sai, với các vụ kiện và khoản bồi thường lớn. Dự đoán **chi phí đào tạo mô hình lớn chỉ 5-10 tỷ USD** là quá thấp so với thực tế. **Bài học rút ra:** 1. **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể hay mức độ tuyệt đối.** 2. **Có xu hướng đánh giá quá cao tốc độ thay đổi trong ngắn hạn, nhưng lại đánh giá thấp mức độ thay đổi trong dài hạn.** 3. **Sai lầm tinh vi thường nằm ở "sự phân bố":** tổng thể đúng nhưng tác động không đồng đều (ví dụ: việc làm). 4. **Những phát biểu có giới hạn, thận trọng thường đứng vững theo thời gian.** 5. **Ba năm là chưa đủ để kết luận cho một số vấn đề sâu xa** (như ý thức máy móc, sự xuất hiện năng lực). Bài viết kết luận rằng việc nhìn đúng hướng đi lớn không quá khó, nhưng thừa nhận những sai lầm trong ước tính chi tiết, tốc độ và phân bố mới là điều đáng ghi nhớ cho những dự đoán trong tương lai.

marsbit8 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

marsbit8 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片