Đội ngũ nghiên cứu Đại học Chiết Giang đề xuất hướng đi mới: Dạy cách thức não người hiểu thế giới cho AI

marsbitXuất bản vào 2026-04-05Cập nhật gần nhất vào 2026-04-05

Tóm tắt

Nhóm nghiên cứu Đại học Chiết Giang công bố một phương pháp mới trên Nature Communications, chỉ ra rằng khi mô hình AI (như SimCLR, CLIP, DINOv2) mở rộng quy mô tham số, khả năng nhận diện vật thể cụ thể tăng (từ 74.94% lên 85.87%), nhưng hiểu khái niệm trừu tượng lại giảm (từ 54.37% xuống 52.82%). Khác với não người tự động phân loại theo cấp bậc (ví dụ: chim → động vật), mô hình AI dựa nhiều vào đặc trưng bề mặt và dữ liệu huấn luyện. Giải pháp của nhóm là sử dụng tín hiệu não người (ghi lại khi xem ảnh) để huấn luyện mô hình, giúp nó học cách tổ chức khái niệm như não người. Kết quả cho thấy khoảng cách giữa biểu diễn mô hình và não giảm rõ rệt, đồng thời khả năng học ít mẫu và xử lý tình huống mới tăng 20.5%, vượt cả mô hình lớn hơn. Nghiên cứu chuyển hướng từ "lớn hơn là tốt hơn" sang "cấu trúc tốt hơn là thông minh hơn", nhấn mạnh việc xây dựng cấu trúc nhận thức gần với con người để AI có khả năng tư duy trừu tượng và thích ứng linh hoạt. Hướng đi này cũng phù hợp với xu hướng phát triển AI agent có khả năng tự học và tiến hóa trong môi trường thực tế.

Mô hình lớn (AI) ngày càng trở nên đồ sộ, quan điểm chủ đạo cho rằng tham số mô hình càng nhiều thì càng tiệm cận cách thức tư duy của con người. Tuy nhiên, một bài báo được công bố trên Nature Communications vào ngày 1/4 bởi nhóm nghiên cứu Đại học Chiết Giang lại đưa ra một quan điểm khác (Liên kết bài gốc: https://www.nature.com/articles/s41467-026-71267-5). Họ phát hiện ra rằng khi quy mô mô hình (chủ yếu là SimCLR, CLIP, DINOv2) tăng lên, khả năng nhận diện các sự vật cụ thể thực sự được cải thiện, nhưng khả năng hiểu các khái niệm trừu tượng không những không tăng mà thậm chí còn giảm xuống. Khi tham số tăng từ 22.06 triệu lên 304.37 triệu, độ chính xác cho nhiệm vụ khái niệm cụ thể tăng từ 74.94% lên 85.87%, trong khi đó, độ chính xác cho nhiệm vụ khái niệm trừu tượng giảm từ 54.37% xuống 52.82%.

Sự khác biệt trong cách tư duy giữa con người và mô hình

Khi não người xử lý khái niệm, nó sẽ hình thành trước một hệ thống quan hệ phân loại. Thiên nga và cú mèo trông không giống nhau, nhưng con người vẫn xếp chúng vào loài chim. Tiếp theo, chim và ngựa có thể tiếp tục được xếp vào lớp động vật. Khi con người nhìn thấy một thứ mới, họ thường nghĩ xem nó giống với thứ đã từng thấy trước đây, và nó thuộc loại nào. Con người liên tục học các khái niệm mới, sau đó tổ chức kinh nghiệm lại, và sử dụng hệ thống quan hệ này để nhận diện sự vật mới, thích ứng với tình huống mới.

Mô hình AI cũng phân loại, nhưng cách thức hình thành khác nhau. Nó chủ yếu dựa vào các mẫu hình lặp đi lặp lại trong dữ liệu quy mô lớn. Đối tượng cụ thể xuất hiện càng nhiều, mô hình càng dễ dàng nhận ra nó. Đến bước phân loại thành các loại lớn hơn, mô hình tỏ ra khá vất vả. Nó cần nắm bắt các điểm chung giữa nhiều đối tượng, sau đó quy những điểm chung này vào cùng một loại. Các mô hình hiện có vẫn còn điểm yếu rõ ràng ở đây. Khi tham số tiếp tục tăng, nhiệm vụ khái niệm cụ thể sẽ được cải thiện, trong khi nhiệm vụ khái niệm trừu tượng đôi khi còn giảm xuống.

Điểm chung giữa não người và mô hình AI, là cả hai bên đều hình thành một hệ thống quan hệ phân loại bên trong. Nhưng trọng tâm của hai bên khác nhau, vùng thị giác bậc cao của não người sẽ tự nhiên phân chia các loại lớn như sinh vật và phi sinh vật. Trong khi mô hình AI có thể phân biệt các đối tượng cụ thể, nhưng rất khó để ổn định hình thành các phân loại lớn như vậy. Sự khác biệt này dẫn đến việc não người dễ dàng áp dụng kinh nghiệm cũ vào đối tượng mới hơn, vì vậy khi đối mặt với những thứ chưa từng thấy, chúng ta có thể phân loại nhanh chóng. Còn mô hình AI thì phụ thuộc nhiều hơn vào kiến thức hiện có, nên khi gặp đối tượng mới, nó dễ dừng lại ở các đặc trưng bề mặt. Phương pháp được đề xuất trong bài báo xoay quanh đặc điểm này, sử dụng tín hiệu não để ràng buộc cấu trúc bên trong của mô hình, khiến nó tiệm cận hơn với cách phân loại của não người.

Giải pháp của nhóm Chiết Giang

Giải pháp mà nhóm nghiên cứu đưa ra cũng rất độc đáo, không phải là tiếp tục chất đống tham số, mà là sử dụng một lượng nhỏ tín hiệu não để giám sát. Tín hiệu não ở đây, đến từ bản ghi hoạt động não của người khi xem hình ảnh. Bài báo gốc viết rằng: chuyển transfer cấu trúc khái niệm của con người (human conceptual structures) sang các mạng neural sâu (DNNs). Ý nghĩa chính là dạy cho mô hình cách não người phân loại, quy nạp, và đặt các khái niệm gần nhau như thế nào một cách tối đa.

Nhóm nghiên cứu đã sử dụng 150 danh mục huấn luyện đã biết và 50 danh mục kiểm tra chưa từng thấy để thực nghiệm. Kết quả cho thấy, khi quá trình huấn luyện này tiến triển, khoảng cách giữa mô hình và biểu trưng não (brain representation) thu hẹp liên tục. Sự thay đổi này xuất hiện đồng thời ở cả hai loại danh mục, điều này chứng tỏ mô hình học được không phải là từng mẫu đơn lẻ, mà thực sự bắt đầu học một cách thức tổ chức khái niệm gần giống với não người hơn.

Sau quá trình huấn luyện này, khả năng học tập của mô hình khi có ít mẫu trở nên mạnh mẽ hơn, và thể hiện cũng tốt hơn khi đối mặt với tình huống mới. Trong một nhiệm vụ chỉ đưa ra cực ít ví dụ, nhưng yêu cầu mô hình phân biệt các khái niệm trừu tượng như sinh vật và phi sinh vật, mô hình đã cải thiện trung bình 20.5%, và thậm chí vượt qua các mô hình đối chứng có lượng tham số lớn hơn nhiều. Nhóm nghiên cứu còn tiến hành thêm 31 nhóm kiểm tra chuyên biệt, và vài loại mô hình đều cho thấy mức cải thiện gần một phần mười.

Vài năm trở lại đây, con đường quen thuộc của ngành mô hình là quy mô mô hình ngày càng lớn. Nhóm Chiết Giang đã chọn một hướng đi khác, đi từ 'lớn hơn là tốt hơn' (bigger is better) sang 'có cấu trúc là thông minh hơn' (structured is smarter). Mở rộng quy mô thực sự hữu ích, nhưng chủ yếu cải thiện biểu hiện trong các nhiệm vụ quen thuộc. Khả năng hiểu trừu tượng và chuyển giao (transfer) kiểu con người cũng cực kỳ quan trọng đối với AI, điều này đòi hỏi trong tương lai cần làm cho cấu trúc tư duy của AI tiệm cận hơn với não người. Giá trị của hướng đi này, nằm ở chỗ nó kéo sự chú ý của ngành trở lại với chính bản thân cấu trúc nhận thức, thay vì chỉ mở rộng quy mô đơn thuần.

Neosoul và tương lai

Điều này mở ra một khả năng lớn hơn, sự tiến hóa của AI, chưa chắc chỉ xảy ra ở giai đoạn huấn luyện mô hình. Huấn luyện mô hình có thể quyết định AI tổ chức khái niệm như thế nào, hình thành cấu trúc phán đoán chất lượng cao hơn ra sao. Sau khi bước vào thế giới thực, một tầng tiến hóa khác của AI mới thực sự bắt đầu: Phán đoán của AI agent được ghi nhận như thế nào, được kiểm chứng ra sao, làm thế nào để không ngừng trưởng thành và tiến hóa trong cuộc cạnh tranh lẫn nhau chân thực, giống như con người tự học và tự tiến hóa. Đây cũng chính là điều mà Neosoul hiện đang thực hiện. Neosoul không chỉ để AI agent đưa ra câu trả lời, mà là đặt AI agent vào một hệ thống liên tục dự đoán, liên tục xác minh, liên tục quyết toán, liên tục sàng lọc, để nó không ngừng tối ưu hóa bản thân trong dự đoán và kết quả, để các cấu trúc tốt hơn được giữ lại, và các cấu trúc kém hơn bị đào thải. Điều mà nhóm Chiết Giang và Neosoul cùng hướng tới, thực chất là cùng một mục tiêu: khiến AI không chỉ biết làm bài tập, mà còn phải có đầy đủ năng lực tư duy, không ngừng tiến hóa.

Câu hỏi Liên quan

QNhóm nghiên cứu của Đại học Chiết Giang đã phát hiện điều gì khi mô hình AI có tham số tăng lên?

AKhi tham số mô hình tăng từ 22,06 triệu lên 304,37 triệu, khả năng nhận diện khái niệm cụ thể tăng từ 74,94% lên 85,87%, nhưng khả năng hiểu khái niệm trừu tượng giảm từ 54,37% xuống 52,82%.

QSự khác biệt chính giữa cách não người và mô hình AI xử lý khái niệm là gì?

ANão người hình thành hệ thống phân cấp khái niệm linh hoạt, dễ dàng phân loại đối tượng mới dựa trên kinh nghiệm có sẵn. Trong khi mô hình AI chủ yếu dựa vào mẫu dữ liệu, gặp khó khăn trong việc hình thành phân loại tổng quát và dễ bị mắc kẹt ở đặc điểm bề ngoài.

QGiải pháp của nhóm Chiết Giang là gì và nó hoạt động như thế nào?

AHọ sử dụng tín hiệu não người (ghi nhận hoạt động não khi xem ảnh) để giám sát mô hình, chuyển giao cấu trúc khái niệm của con người cho AI. Phương pháp này giúp mô hình học cách tổ chức khái niệm gần với não người hơn, cải thiện đáng kể khả năng học ít mẫu và xử lý tình huống mới.

QKết quả thí nghiệm của nhóm nghiên cứu cho thấy điều gì?

ASau khi áp dụng phương pháp mới, khoảng cách giữa biểu diễn mô hình và biểu diễn não giảm dần. Mô hình cải thiện trung bình 20,5% trong nhiệm vụ phân loại khái niệm trừu tượng với rất ít ví dụ, vượt trội cả các mô hình đối chứng có tham số lớn hơn.

QNeosoul và nghiên cứu này có điểm chung gì trong tầm nhìn về AI?

ACả hai đều hướng đến việc phát triển AI có cấu trúc tư duy gần với con người, không chỉ dừng ở khả năng giải quyết tác vụ mà còn có khả năng tự học hỏi, tiến hóa thông qua kiểm chứng, cạnh tranh và chọn lọc trong môi trường thực tế.

Nội dung Liên quan

Giám đốc đầu tư của Bitwise: Crypto trở thành lựa chọn đầu tư trái chiều, ba logic để hiểu thị trường hiện tại

Tác giả: Matt Hougan, Giám đốc Đầu tư của Bitwise Thị trường tiền điện tử hiện tại đang trong giai đoạn ủ rũ, với Bitcoin giảm 21% trong năm và các đồng tiền chủ chốt như Ethereum, Solana, XRP giảm sâu hơn. Nguyên nhân chính đến từ ba yếu tố: 1. **Tiền điện tử trở thành lựa chọn đầu tư nghịch hành:** Khi làn sóng AI thu hút dòng vốn toàn cầu, tiền điện tử không còn là chủ đề nóng. Nó đang chuyển từ một khoản đầu tư theo xu hướng sang một khoản đầu tư nghịch hành, đòi hỏi sự kiên nhẫn và tập trung vào giá trị cơ bản. Vốn đầu tư giờ đây ưu tiên các dự án có nền tảng cơ bản vững chắc hơn là đầu cơ theo cảm xúc. 2. **Bất ổn quy định kéo dài:** Dự luật CLARITY, khung quy định quan trọng cho tiền điện tử tại Mỹ, đang trong quá trình thông qua với xác suất thành công không chắc chắn (ước tính từ 5% đến 55%). Sự thiếu rõ ràng này khiến các tổ chức lớn thận trọng và ngăn cản một đợt tăng giá bền vững. Việc dỡ bỏ sự bất ổn này thậm chí còn quan trọng hơn kết quả cuối cùng của dự luật. 3. **Dòng vốn chuyển hướng sang các tài sản cơ bản mới:** Khác với các đợt suy thoái trước, khi vốn chỉ chạy vào Bitcoin, lần này tiền đang chảy vào các tài sản có vốn hóa nhỏ hơn nhưng có câu chuyện cơ bản mạnh mẽ (ví dụ: Hyperliquid, Zcash). Điều này vừa là minh chứng cho logic đầu tư nghịch hành, vừa là dấu hiệu cho thấy thị trường gấu có thể đang ở giai đoạn cuối. **Tóm lại,** áp lực ngắn hạn vẫn còn do các yếu tố quy định và sự cạnh tranh từ chủ đề AI. Tuy nhiên, bối cảnh hiện tại tạo cơ hội đầu tư nghịch hành. Chiến lược thành công nằm ở sự kiên nhẫn, kỷ luật và tập trung vào việc xác định các dự án có giá trị cơ bản thực sự cho lợi nhuận dài hạn.

marsbit12 phút trước

Giám đốc đầu tư của Bitwise: Crypto trở thành lựa chọn đầu tư trái chiều, ba logic để hiểu thị trường hiện tại

marsbit12 phút trước

Bài phát biểu của Jensen Huang tại GTC Taipei 2026: Kỷ nguyên AI Agent đã đến, Tính toán chính là Doanh thu

Tại bài phát biểu GTC Taipei 2026, CEO NVIDIA Jensen Huang tuyên bố thời đại của AI Agent (trợ lý AI) đã chính thức bắt đầu. Ông nhấn mạnh Token giờ đây không chỉ là chỉ số kỹ thuật mà đã trở thành đơn vị tạo ra doanh thu và lợi nhuận. NVIDIA công bố hàng loạt nền tảng và sản phẩm mới để dẫn đầu xu hướng này. Trọng tâm là hệ thống Vera Rubin, được thiết kế đặc biệt để chạy AI Agent, không chỉ là GPU mà là một hệ thống cơ sở hạ tầng hoàn chỉnh, an toàn và hiệu suất cao. NVIDIA cũng giới thiệu Vera CPU, bộ xử lý đầu tiên trên thế giới được xây dựng cho AI Agent với độ trễ cực thấp và băng thông khổng lồ, đáp ứng tính "thiếu kiên nhẫn" của các Agent. Huang mô tả mô hình tính toán tương lai: Agent = Mô hình ngôn ngữ lớn + Khung Agent (framework) + Công cụ/Kỹ năng + Thời gian chạy (runtime). Mô hình này sẽ phổ biến khắp nơi, từ đám mây, doanh nghiệp, PC cá nhân cho đến robot và thiết bị biên. Ông cũng công bố Bộ công cụ AI Agent doanh nghiệp của NVIDIA, giúp mọi công ty xây dựng và vận hành Agent của riêng họ một cách an toàn. Hợp tác với Microsoft, NVIDIA ra mắt dòng PC Windows mới (máy để bàn, máy tính xách tay, trạm làm việc) với chip N1X, được tối ưu hóa để chạy đầy đủ hệ sinh thái NVIDIA và các AI Agent cục bộ. Về AI vật lý, NVIDIA giới thiệu Cosmos 3 - mô hình nền tảng cho robot và thế giới vật lý, cùng Alpamayo 2 cho xe tự hành và nền tảng tham chiếu robot hình người Isaac GR00T. Huang kết luận NVIDIA đã chuyển đổi từ công ty GPU thành công ty hệ thống và giờ là công ty cơ sở hạ tầng, với sứ mệnh giúp khách hàng xây dựng các "nhà máy AI" tạo ra doanh thu tối đa trong kỷ nguyên mới, nơi "tính toán chính là doanh thu".

marsbit55 phút trước

Bài phát biểu của Jensen Huang tại GTC Taipei 2026: Kỷ nguyên AI Agent đã đến, Tính toán chính là Doanh thu

marsbit55 phút trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片