# Bài viết Liên quan Chuẩn mực

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Chuẩn mực", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

Cảnh báo về AI đệ quy của Anthropic, công ty mới của Tian Yuandong vừa thực hiện 'bước đầu tiên'

Anthropic gần đây đã công bố bài viết "Khi AI tự xây dựng chính mình", cảnh báo về tương lai của việc AI có thể tự cải thiện một cách đệ quy. Trong bối cảnh này, công ty Recursive Superintelligence do Tian Yandong đồng sáng lập đã công bố bước đầu tiên về nghiên cứu AI tự động, mang tên "First Steps Toward Automated AI Research". Hệ thống này nhằm mục đích tự động hóa vòng lặp nghiên cứu AI truyền thống: đề xuất ý tưởng, viết mã, chạy thử nghiệm, phân tích và học hỏi để quyết định bước tiếp theo. Nó được thử nghiệm trên ba lĩnh vực khác nhau và đều đạt kết quả tốt nhất hiện tại (SOTA): 1. **NanoChat Autoresearch:** Huấn luyện mô hình ngôn ngữ nhỏ với ngân sách tính toán cố định, giảm tổn thất kiểm chứng xuống 0.9109 BPB. 2. **NanoGPT Speedrun:** Rút ngắn thời gian huấn luyện mô hình GPT xuống mức kỷ lục 77,5 giây thông qua các kỹ thuật như tính toán chú ý FP8 và tối ưu kernel GPU. 3. **SOL-ExecBench:** Tối ưu hóa kernel GPU, nâng điểm số SOL lên 0,754, thu hẹp 18% khoảng cách với giới hạn lý thuyết phần cứng. Recursive Superintelligence, với đội ngũ toàn sao và số vốn huy động lớn, theo đuổi sứ mệnh xây dựng hệ thống AI có khả năng tự cải thiện đệ quy. Thành công bước đầu này đánh dấu sự xuất hiện của một mô hình phát triển AI mới, nơi AI đóng vai trò chủ thể trong nghiên cứu. Điều này có thể thay đổi tốc độ và chi phí tiến bộ AI, đồng thời làm dấy lên những thảo luận về sự cần thiết phải điều phối và quản trị toàn cầu, như lời cảnh báo từ Anthropic.

marsbit6 giờ trước

Cảnh báo về AI đệ quy của Anthropic, công ty mới của Tian Yuandong vừa thực hiện 'bước đầu tiên'

marsbit6 giờ trước

‘Tôi không cần mô hình tốt hơn nữa’: Thế giới AI dưới bài đăng nổi trên Reddit

Tác giả: Thứ Sáu, Shenchao TechFlow Anthropic vừa ra mắt Claude Fable 5, mô hình cấp Mythos đầu tiên mở cửa cho công chúng, đạt 80.3% trên bảng tiêu chuẩn SWE-Bench Pro, vượt xa mô hình tiền nhiệm và đối thủ. Tuy nhiên, phản ứng từ người dùng lại khá lạnh nhạt. Một bài đăng hot trên Reddit r/artificial với tiêu đề "Claude Fable khiến tôi nhận ra mình không cần mô hình tốt hơn nữa" đã nhận được sự đồng thuận lớn. Nhiều người dùng cho rằng các mô hình từ Opus 4.5/4.8 đã đủ đáp ứng nhu cầu công việc thường ngày của họ. Họ ví việc nâng cấp lên Fable 5 giống như có iPhone 14 và xem ra mắt iPhone 17: biết là tốt hơn, nhưng cảm thấy phiên bản hiện tại vẫn ổn. Lý do chính được nêu ra là chi phí token cao gấp đôi nhưng không mang lại lợi ích tương xứng cho quy trình làm việc thông thường, cho thấy dấu hiệu bão hòa về nhu cầu. Một vấn đề lớn khác là "hàng rào an ninh" (safety classifier) của Fable 5. Dù Anthropic tuyên bố cơ chế này chỉ kích hoạt trong dưới 5% cuộc hội thoại, người dùng phản ánh tỷ lệ này trong thực tế cao hơn nhiều, đặc biệt với các yêu cầu liên quan đến bảo mật, khiến 90% công việc họ muốn làm bị từ chối và chuyển về xử lý bởi Opus. Người dùng trả phí cao tỏ ra thất vọng khi phải trả gấp đôi nhưng không được sử dụng đúng tính năng mong muốn. Tuy nhiên, vẫn có những ý kiến trái chiều, chủ yếu từ người dùng có nhu cầu xử lý nhiệm vụ cực kỳ phức tạp và nặng. Họ mô tả Fable 5 thông minh hơn hẳn, giống như "chuyển từ cầu thủ sinh viên lên đội hình chính NBA", đặc biệt hữu ích cho các tác vụ như mô phỏng vật lý năng lượng cao hay xử lý ngữ cảnh siêu dài với hàng nghìn dòng code. Một số đề xuất sử dụng Fable 5 như một "nhà hoạch định và sửa chữa" cho các vấn đề phức tạp, thay vì công cụ xây dựng hàng ngày. Bài viết đặt ra câu hỏi về sự khác biệt giữa điểm số benchmark và trải nghiệm thực tế. Khi nhu cầu của đa số người dùng phổ thông đã được đáp ứng bởi các mô hình thế hệ trước, những cải tiến vượt trội chỉ thực sự cần thiết cho các tình huống chuyên sâu. Một bình luận còn đưa ra giả thuyết về "sự đóng băng của AI công khai", cho rằng công chúng có thể chỉ được tiếp cận các mô hình ở mức độ hiện tại, trong khi các phiên bản mạnh hơn như Mythos 5 sẽ chỉ dành cho chính phủ và doanh nghiệp. Kết luận, thành công của Fable 5 sẽ không chỉ phụ thuộc vào điểm số benchmark, mà còn vào khả năng điều chỉnh hàng rào an ninh để cân bằng giữa an toàn và tính khả dụng, cùng với sự sẵn sàng chi trả của nhóm người dùng chuyên sâu.

marsbit7 giờ trước

‘Tôi không cần mô hình tốt hơn nữa’: Thế giới AI dưới bài đăng nổi trên Reddit

marsbit7 giờ trước

AGI chỉ còn một bước nữa

Tháng 4/2024, Anthropic công bố mô hình Mythos cực mạnh, phát hiện hơn 10.000 lỗ hổng bảo mật cho 50 khách hàng doanh nghiệp, gây chấn động. Do lo ngại bị lạm dụng, nó đã không được công khai. Đến tối qua, Anthropic chính thức ra mắt Fable 5 - phiên bản đã được "cắt giảm chức năng" của Mythos 5 với bộ phân loại an toàn, trong khi Mythos 5 gốc chỉ dành cho khoảng 200 tổ chức được kiểm duyệt khắt khe. Fable 5 thể hiện sức mạnh đáng kinh ngạc. Trên bảng xếp hạng lập trình SWE-Bench Pro, nó đạt 80.3%, vượt xa GPT-5.5 (58.6%) và Gemini 3.1 Pro (54.2%). Trong thử nghiệm thực tế tại Stripe, nó tự động di chuyển 50 triệu dòng mã lịch sử chỉ trong một ngày. Mô hình này thể hiện "khả năng ủy thác tầm xa" thực sự, có thể tự lập kế hoạch con, điều phối công cụ và tự sửa lỗi, đánh dấu một bước tiến lớn so với các mô hình chỉ biết "phản hồi" trước đây. Từ góc độ hẹp, Fable 5 thực sự đã đạt được AGI (Trí tuệ nhân tạo phổ quát) trong lĩnh vực kinh tế số. Theo tiêu chuẩn 5 cấp độ AI của OpenAI, Fable 5 đã đứng vững ở cấp độ 3 (Trí tuệ) và đang khám phá cấp độ 4 (Đổi mới). Tốc độ cập nhật của Anthropic ngày càng nhanh, với việc nâng cấp từ Opus 4.8 lên Fable 5 chỉ mất 11 ngày. Dự đoán cấp độ 4 sẽ đạt được trong năm nay, và cấp độ 5 (Tổ chức) có thể chỉ còn 18-24 tháng nữa. Tuy nhiên, sức mạnh đi kèm rủi ro. Báo cáo đánh giá cho thấy Mythos 5 đạt cấp độ CB-1, có khả năng hướng dẫn tổng hợp vũ khí sinh hóa và tạo kịch bản tấn công khai thác lỗ hổng zero-day chỉ trong vài giây. Để giảm thiểu rủi ro, Anthropic đã áp dụng hai cơ chế an toàn chính cho Fable 5: 1) Cơ chế định tuyến giảm cấp lặng lẽ, chuyển hướng các truy vấn nguy hiểm sang Opus 4.8; 2) Chính sách lưu giữ dữ liệu 30 ngày bắt buộc để phát hiện lạm dụng. Về giá, Fable 5 có mức phí cao: 10 USD/triệu token đầu vào và 50 USD/triệu token đầu ra, biến nó thành một "mặt hàng xa xỉ" đối với người dùng cá nhân. Tuy nhiên, các doanh nghiệp sẵn sàng trả phí cao vì lợi nhuận và nhu cầu phòng thủ an ninh mạng. Động thái này đánh dấu sự phân hóa thị trường AI: các mô hình đỉnh cao phục vụ B2B và nghiên cứu, trong khi các mô hình rẻ hơn cạnh tranh ở thị trường tiêu dùng. Sự xuất hiện của Fable 5/Mythos 5 báo hiệu kỷ nguyên AI trưởng thành, nơi trí tuệ đỉnh cao trở thành tài nguyên chiến lược, thúc đẩy bùng nổ năng suất nhưng cũng mang đến những thách thức cho thị trường lao động truyền thống.

marsbitHôm qua 05:13

AGI chỉ còn một bước nữa

marsbitHôm qua 05:13

Vừa mới, Claude Mythos 5 ra mắt, xử lý 50 triệu dòng code trong 1 ngày

Anthropic đã chính thức công bố Claude Fable 5 và Claude Mythos 5, hai phiên bản mạnh mẽ nhất từ trước đến nay của họ. Fable 5 là phiên bản có "lưới bảo vệ", tự động chuyển sang Claude Opus 4.8 khi phát hiện câu hỏi rủi ro (như viết phần mềm độc hại), và được mở cho tất cả người dùng. Mythos 5 là phiên bản đầy đủ năng lực, tập trung vào an ninh mạng và nghiên cứu sinh học, nhưng chỉ dành cho một số ít người dùng được tin cậy. Về hiệu suất, Fable 5 thể hiện sự vượt trội trong nhiều lĩnh vực: * **Kỹ thuật phần mềm:** Đạt điểm cao trong các bài kiểm tra SWE-bench Pro và Frontier Code. Đáng chú ý, nó hoàn thành việc di chuyển kho code Ruby 50 triệu dòng chỉ trong 1 ngày. * **Thị giác máy tính:** Có thể tự chơi và hoàn thành game "Pokémon" chỉ dựa trên ảnh chụp màn hình mà không cần công cụ hỗ trợ. * **Bộ nhớ dài hạn & Ngữ cảnh dài:** Khả năng duy trì tập trung và sử dụng ghi chú trong các nhiệm vụ kéo dài được cải thiện, nâng cao hiệu quả hoạt động tự chủ (Agent). * **Tài chính & Phân tích:** Là mô hình đầu tiên đạt trên 90% trong một bài benchmark phân tích phức tạp, cho thấy khả năng suy luận ở cấp độ chuyên gia. * **Nghiên cứu khoa học:** Mythos 5 có thể tự động hóa toàn bộ quy trình nghiên cứu sinh học. 9 trong số 14 hợp chất do nó thiết kế đã được đưa vào quy trình phát triển thuốc thực tế. Một điểm đáng chú ý là cơ chế an toàn mới: thay vì từ chối trả lời, Fable 5 sẽ chuyển hướng câu hỏi nhạy cảm sang Opus 4.8. Tuy nhiên, cơ chế này đôi khi có thể "bắt nhầm" các yêu cầu hợp pháp. Anthropic cũng áp dụng chính sách lưu giữ dữ liệu 30 ngày cho lưu lượng truy cập của các mô hình cấp Mythos. Giá API cho cả hai mô hình là 10 USD/token đầu vào và 50 USD/token đầu ra (tính theo triệu). Giáo sư Ethan Mollick, người dùng thử nghiệm, nhận xét rằng với Fable 5, con người giống như "khách hàng" (patron) đưa ra yêu cầu tổng thể, trong khi AI tự động phân chia công việc và hoàn thành mà ít cần can thiệp, đánh dấu sự thay đổi lớn trong hình thức hợp tác giữa người và máy.

marsbit2 ngày trước 00:27

Vừa mới, Claude Mythos 5 ra mắt, xử lý 50 triệu dòng code trong 1 ngày

marsbit2 ngày trước 00:27

Từ Hunyuan đến WeChat AI, Tốc độ chậm của Tencent đã đến giai đoạn chuyển giao

Ngày 8/6/2026, nền tảng phát triển WeChat thông báo AI WeChat bước vào giai đoạn thử nghiệm nội bộ. Trợ lý AI tích hợp này hỗ trợ người dùng gọi, truy cập và vận hành tiểu trình (mini-program) thông qua đối thoại ngôn ngữ tự nhiên. Nền tảng mở cung cấp hai chế độ tích hợp: Chế độ tự động cho phép đọc mã nguồn tiểu trình để AI trực tiếp thao tác; Chế độ phát triển cho phép nhà phát triển tự xây dựng kỹ năng. Đây là lần đầu tiên WeChat mở cửa hệ sinh thái tiểu trình ở lớp đối thoại, đánh dấu bước tiến mới nhất của Tencent từ dự trữ công nghệ, xác thực sản phẩm độc lập đến việc triển khai trên siêu ứng dụng. AI WeChat cần một nền tảng Agent có thể hiểu cấu trúc trang và thực thi lệnh chính xác, chính là mô hình lớn Hunyuan của Tencent. Hunyuan xếp hạng nhất về năng lực ứng dụng tại Trung Quốc trong báo cáo SuperCLUE, phù hợp với nhu cầu của AI WeChat. Dù tốc độ cập nhật mô hình chậm hơn đối thủ, Tencent tập trung vào ổn định và độ trễ thấp, phù hợp với các thao tác nhạy cảm như thanh toán. Ứng dụng độc lập Yuanbao đã đạt hơn 100 triệu MAU nhờ chiến dịch lì xì Tết Nguyên đán 2026, chứng minh khả năng tiếp cận người dùng quy mô lớn thông qua mạng xã hội WeChat. Tuy nhiên, DAU thường nhật sau Tết giảm mạnh, cho thấy thách thức về tỷ lệ giữ chân người dùng. Điều này giải thích lý do Tencent chọn tích hợp nguyên bản AI vào siêu ứng dụng WeChat để giữ chân người dùng thông qua kịch bản sử dụng. Tầm nhìn của Chủ tịch Ma Hóa Đằng là mọi tiểu trình đều có thể trở thành "Agent tôm hùm" thông minh, tự động hoàn thành nhiệm vụ. Tuy nhiên, ông cũng thừa nhận mâu thuẫn tiềm ẩn: điều phối tập trung hiệu quả có thể làm suy yếu chủ quyền lưu lượng truy cập và khả năng hiển thị thương hiệu của nhà cung cấp dịch vụ. Cân bằng giữa hiệu quả trung tâm và bảo vệ lưu lượng truy cập phi tập trung là thách thức cốt lõi chưa có lời giải rõ ràng. Ba tuyến Hunyuan, Yuanbao và AI WeChat đã sẵn sàng, tạo thành một lộ trình logic: Hunyuan cung cấp nền tảng ổn định, Yuanbao xác thực thói quen người dùng, AI WeChat giao trải nghiệm cuối cùng. Thành công phụ thuộc vào việc giải quyết các vấn đề về niềm tin mã nguồn từ nhà phát triển, cân bằng lợi ích hệ sinh thái với nhà cung cấp dịch vụ, và đảm bảo độ chính xác thao tác để người dùng tin tưởng. Cuộc đua AI của Tencent mới chỉ ở một cột mốc giữa đường, còn nhiều thử thách phía trước.

marsbit06/08 10:26

Từ Hunyuan đến WeChat AI, Tốc độ chậm của Tencent đã đến giai đoạn chuyển giao

marsbit06/08 10:26

Định giá vượt 200 tỷ Nhân dân tệ, Kimi bị tiết lộ tiếp tục huy động 13,6 tỷ Nhân dân tệ, thúc đẩy tiến trình IPO tại Hồng Kông

Công ty khởi nghiệp AI Trung Quốc Moonshot AI (Kimi) đang đàm phán vòng gọi vốn mới lên tới 20 tỷ USD (khoảng 136 tỷ NDT), với mục tiêu định giá 300 tỷ USD (khoảng 2.035 tỷ NDT). Nếu thành công, định giá của công ty sẽ tăng gấp khoảng 6 lần so với tháng 12/2023. Đây sẽ là vòng gọi vốn thứ ba trong vòng 6 tháng, sau vòng 20 tỷ USD vào tháng 5 đưa định giá lên trên 200 tỷ USD. Moonshot AI, thành lập năm 2023 tại Bắc Kinh bởi CEO Dương Thực Lân, đã huy động tổng cộng hơn 376 tỷ NDT qua 6 vòng gọi vốn. Sản phẩm cốt lõi là trợ lý thông minh Kimi. Tháng 4/2024, công ty ra mắt mô hình chủ lực Kimi K2.6 mã nguồn mở, được đánh giá cao trong các bài kiểm tra chuẩn toàn cầu. Tháng 6, Kimi Work Beta bắt đầu thử nghiệm nội bộ, hoạt động như một tác nhân AI tự động hóa công việc trên máy tính cục bộ. Về thương mại hóa, doanh thu thường niên (ARR) của Moonshot AI được báo cáo đã vượt 2 tỷ USD vào tháng 4. Công ty cũng được cho là đang chuẩn bị cho đợt phát hành cổ phiếu lần đầu ra công chúng (IPO) tại Hồng Kông, dù vẫn trong giai đoạn sớm. Bối cảnh chung cho thấy tiến trình huy vốn và IPO của các công ty mô hình lớn hàng đầu Trung Quốc đang tăng tốc, trong bối cảnh cạnh tranh toàn cầu gay gắt với các gã khổng lồ như OpenAI và Anthropic. Vốn, năng lực tính toán và khả năng thương mại hóa đang trở thành những yếu tố then chốt bên cạnh cuộc đua về công nghệ mô hình.

marsbit06/08 07:46

Định giá vượt 200 tỷ Nhân dân tệ, Kimi bị tiết lộ tiếp tục huy động 13,6 tỷ Nhân dân tệ, thúc đẩy tiến trình IPO tại Hồng Kông

marsbit06/08 07:46

Claude Opus4.8 phát hành, Anthropic bắt đầu biến 'sự tin cậy' thành điểm bán hàng của sản phẩm

Claude Opus 4.8 chính thức ra mắt, giữ nguyên giá và đạt vị trí dẫn đầu trong năm trên sáu bài kiểm tra chuẩn mực. Điểm nổi bật của bản phát hành này không nằm ở việc tăng hiệu suất đơn thuần, mà nằm ở việc Anthropic bắt đầu định vị "độ tin cậy" là ưu tiên cốt lõi của mô hình tiên phong. Đáng chú ý, tỷ lệ báo cáo thiếu về lỗi của chính mô hình trong các tác vụ mã đã giảm mạnh từ 19.7% xuống còn 3.7%. Claude Code giờ đây tích hợp luồng công việc động, cho phép điều phối nhiều tác nhân con và thực hiện kiểm tra đối kháng tự động trước khi giao kết quả. Những cải tiến này nhằm giải quyết nỗi lo ngại thực tế: khi AI chuyển từ cửa sổ trò chuyện sang quy trình công việc thực, nguy cơ lớn nhất thường là nó đưa ra câu trả lời trông có vẻ hoàn chỉnh nhưng lại sai. Ngoài ra, Opus 4.8 có những cải thiện đáng kể trong các bài kiểm tra trách nhiệm, toán học và xử lý ngữ cảnh dài. Mặc dù vậy, báo cáo hệ thống cũng ghi nhận một số điểm yếu so với phiên bản trước, như khả năng kháng prompt injection và hiệu suất trong một số bài kiểm tra chuyên môn. Bản phát hành này đánh dấu sự chuyển hướng trong cuộc đua mô hình: từ việc chỉ theo đuổi điểm số chuẩn mực sang việc tranh giành độ tin cậy, khả năng xác minh và thừa nhận sai sót. Điều này là tiền đề để các Agent AI thực sự trở nên hữu dụng. Anthropic cũng xác nhận một mô hình cấp độ "Mythos" mạnh hơn nhiều, hiện đang bị hạn chế truy cập, sẽ được ra mắt trong vài tuần tới, với Opus 4.8 đóng vai trò là bước đệm công khai hướng tới nó.

marsbit05/29 22:22

Claude Opus4.8 phát hành, Anthropic bắt đầu biến 'sự tin cậy' thành điểm bán hàng của sản phẩm

marsbit05/29 22:22

Vừa qua, AI Trung Quốc lọt vào top 2 lập trình toàn cầu, chỉ còn Claude phía trước

Hôm nay, Code Arena công bố bảng xếp hạng mới nhất. Qwen3.7-Max của Alibaba đạt 1541 điểm, lọt vào top 4 toàn cầu, vượt qua các mô hình hàng đầu như GPT-5.5 và Gemini 3.5 Flash. Hiện chỉ có Claude Opus 4.7 và Opus 4.6 xếp trên nó. Điều này giúp Alibaba trở thành công ty Trung Quốc duy nhất trong top đầu, đứng thứ hai thế giới, chỉ sau Anthropic. Qwen3.7-Max được mệnh danh là "mô hình nền tảng cho Agent", được thiết kế để thực hiện các nhiệm vụ tự chủ dài hạn. Trong một thử nghiệm, nó có thể chạy liên tục 35 giờ, thực hiện 1158 lần gọi công cụ để tối ưu hóa mã, đạt tốc độ tăng trung bình gấp 10 lần. Khả năng lập trình vượt trội của nó được chứng minh qua các thử nghiệm thực tế. Khi được yêu cầu tạo một trò chơi đua xe 3D, Qwen3.7-Max tạo ra một phiên bản có thể chơi được ngay lần đầu, bao gồm giao diện bắt đầu và hiệu ứng âm thanh - những chi tiết mà các mô hình khác như Gemini, Claude hay ChatGPT bỏ sót hoặc cần nhiều lần sửa lỗi. Hai yếu tố then chốt giúp Qwen3.7-Max đạt được thành tích này là: 1) Đào tạo mở rộng môi trường, giúp mô hình học các chiến lược tổng quát thay vì chỉ hoạt động tốt trong một framework cụ thể; 2) Khả năng thực thi tự chủ dài hạn, cho phép nó đưa ra hàng nghìn quyết định liên tục mà không bị suy giảm ngữ cảnh hay rơi vào vòng lặp. Với việc Qwen3.7-Max gia nhập cuộc đua, cuộc cạnh tranh về mô hình lập trình toàn cầu không còn là câu chuyện độc quyền của Thung lũng Silicon.

marsbit05/27 00:19

Vừa qua, AI Trung Quốc lọt vào top 2 lập trình toàn cầu, chỉ còn Claude phía trước

marsbit05/27 00:19

Alumni TH Thanh Hoa U00 tuổi Vương Quan ra tác phẩm mới: Dùng 1/900 token, 1/432 sức tính toán, làm đảo lộn mô hình tiền huấn luyện Transformer

Cựu sinh viên Thanh Hoa 00 hậu Vương Quan và nhóm nghiên cứu công bố mô hình HRM-Text, một phương pháp huấn luyện tiền ngôn ngữ hiệu quả sử dụng Mô hình tuần hoàn phân tầng (HRM) thay thế Transformer tiêu chuẩn. Với chỉ 1B tham số và được huấn luyện trên 40B token duy nhất, chi phí ước tính khoảng 1500 USD, HRM-Text đạt hiệu suất tương đương các mô hình nguồn mở từ 2B đến 7B tham số trên các bài kiểm tra chuẩn như MMLU (60.7%) và GSM8K (84.5%). Phương pháp này tiết kiệm đáng kể tài nguyên: sử dụng ít hơn từ 100-900 lần token huấn luyện và 96-432 lần ước tính tính toán so với baseline tiêu chuẩn. Thiết kế chính bao gồm: kiến trúc HRM với module H (chậm) và L (nhanh) cho phép cập nhật đệ quy nhiều lượt trên cùng một token để tăng độ sâu tính toán; và mục tiêu huấn luyện tập trung vào các cặp chỉ dẫn-câu trả lời, chỉ tính toán mất mát trên phần trả lời với cơ chế che PrefixLM. Thử nghiệm cho thấy HRM vượt trội về hiệu quả kiến trúc và ổn định huấn luyện so với Transformer ở cùng quy mô FLOPs. Các hướng phát triển tương lai bao gồm tách biệt "kiến thức" và "suy luận", cơ chế thời gian tính toán thích ứng, xác thực khả năng mở rộng quy mô hơn nữa, và tối ưu hóa việc triển khai PrefixLM trong các framework suy luận thực tế.

marsbit05/26 03:18

Alumni TH Thanh Hoa U00 tuổi Vương Quan ra tác phẩm mới: Dùng 1/900 token, 1/432 sức tính toán, làm đảo lộn mô hình tiền huấn luyện Transformer

marsbit05/26 03:18

Gemini 3.5 đã đến! Đêm nay, chính Google tự đào thải Google

Bài viết tóm tắt các sản phẩm và công nghệ chính được giới thiệu tại Google I/O 2026: 1. **Gemini Omni**: Một mô hình AI đa năng, có thể nhận đầu vào dưới mọi hình thức (hình ảnh, âm thanh, video, văn bản) và tạo ra video chất lượng cao. Nó thực sự hiểu biết thế giới vật lý, cho phép người dùng chỉnh sửa video thông qua trò chuyện và duy trì tính nhất quán của đối tượng và logic xuyên suốt các cảnh. 2. **Gemini 3.5 Flash**: Được quảng cáo là mô hình mã hóa và tác nhân AI mạnh mẽ nhất của Google, vượt trội so với Gemini 3.1 Pro và các đối thủ khác trong nhiều bài kiểm tra tiêu chuẩn. Nó nhanh hơn đáng kể và đã được tích hợp vào Gemini App và chế độ AI của Google Tìm kiếm. 3. **Antigravity 2.0**: Nền tảng phát triển tác nhân AI độc lập mới, được nâng cấp thành ứng dụng máy tính để bàn. Một bản demo ấn tượng cho thấy 93 tác nhân con, sử dụng 3.5 Flash, đã xây dựng được một hệ điều hành hoạt động đầy đủ từ đầu trong vòng 12 giờ. 4. **Gemini Spark**: Một tác nhân AI cá nhân, chạy 24/7 trên đám mây. Nó có thể tự động xử lý các tác vụ phức tạp bằng cách tích hợp với bộ công cụ Google Workspace (như Gmail, Docs, Sheets, Slides) và hỗ trợ lệnh bằng giọng nói để tạo và quản lý nhiều tác vụ song song. 5. **Các thông báo khác**: Bao gồm thiết kế lại Gemini App với mã lực tính phí, kế hoạch đăng ký AI Ultra mới với giá cả được điều chỉnh, và bản nâng cấp lớn cho Google Tìm kiếm với việc tích hợp 3.5 Flash. Bài viết kết luận rằng sự kết hợp đồng thời của các khả năng AI tiên tiến này (hiểu và tạo đa phương thức, tác nhân tự hành) đánh dấu một bước tiến lớn, thu hẹp khoảng cách về mặt kỹ thuật để tiến tới Trí tuệ Siêu việt (ASI).

链捕手05/20 07:01

Gemini 3.5 đã đến! Đêm nay, chính Google tự đào thải Google

链捕手05/20 07:01

活动图片