Trí tuệ nhân tạo tổng quát (AGI) sắp xuất hiện.
Vừa qua, Giám đốc Nghiên cứu của OpenAI, Mark Chen đã tuyên bố mạnh mẽ:
Trong một ý nghĩa nào đó, tôi hy vọng bạn có thể cảm nhận được, AGI (Trí tuệ nhân tạo tổng quát) sắp xuất hiện......
Chúng ta đang tiến gần hơn đến một thế giới nơi các mô hình có thể tự đề xuất nhiều đổi mới hơn - chúng có khả năng thực hiện nghiên cứu tự duy trì.
Đây không chỉ là sự nâng cao hiệu quả, mà bản thân quá trình "tiến hóa" cũng đang được chuyển giao cho sự sống dựa trên silicon.
Khi Mark Chen trước ống kính thuần thục cắt nấm và hành tây, ông không chỉ nói về một bát súp, mà còn là về lãnh địa cuối cùng của nền văn minh nhân loại.
Nếu AI có thể tự nghiên cứu chính mình, thì vào đêm trước khi AGI xuất hiện, con người cuối cùng nên đóng vai trò gì?

Mỗi lĩnh vực đều đang trải qua 'Nước cờ Thần Thánh' của riêng mình
Để hiểu sức nặng của câu nói này, phải quay lại thời điểm Mark bước chân vào nghề.
Năm 2016, AlphaGo đối đầu với Lee Sedol.

Trong ván đấu thứ hai có một nước đi "thứ 37", tại khoảnh khắc quân cờ đặt xuống, toàn thể các kỳ thủ nhân loại không hiểu.

Sau này mới hiểu, đó là một nước đi mà máy móc đi ra, con người căn bản không nghĩ tới. Khoảnh khắc đó đã thắp sáng vô số người, cũng kéo Mark Chen vào lĩnh vực này.
Và bây giờ thì sao?
"Điên rồ nhất là," Mark nói, "hiện tại bạn trong hầu như mọi lĩnh vực, đều có thể thấy 'Nước cờ Thần Thánh'."
Toán học có, khoa học máy tính có, lập trình có.

Ông mô tả một thời điểm rất tinh tế: nhiều người là vào đầu năm nay "tỉnh dậy", đột nhiên nhận ra: AI agent trong ngành của tôi, thực sự có thể làm việc rồi.
Không phải đồ chơi. Không phải demo. Là có thể thay bạn hoàn thành công việc thực sự có ý nghĩa, chu kỳ dài (công việc chân trời dài).
Điều này có nghĩa việc "mô hình tự làm nghiên cứu" không còn là cầu nối trong phim khoa học viễn tưởng nữa.
Nó là bước tiếp theo tự nhiên suy ra từ một loạt "Nước cờ Thần Thánh" đã xảy ra.
Bạn đi theo đường dây này nhìn về phía trước, ở điểm cuối đứng đó, chính là mô hình biết tự nghiên cứu.
Đường cong Scaling chưa dừng, Tiền huấn luyện chưa chết
Nhưng sự lạc quan này, rốt cuộc dựa vào cái gì để chống đỡ?
Dựa vào một niềm tin: Đường cong Scaling chưa đến đỉnh.
Hai năm nay, luận điệu "Tiền huấn luyện đã chết" "Mô hình ngôn ngữ không đến được AGI" cứ vài ba ngày lại trồi lên.
Mark Chen "phản đối khá kịch liệt" những lời suy giảm này.
Ông chỉ ra kịch bản.
"Tiền huấn luyện đã chết" nghe rất mới mẻ, thực ra là một kịch bản cũ kỹ, những năm qua cứ lặp đi lặp lại.

Mỗi lần, đều có người chỉ vào một nút thắt nào đó nói "đến đỉnh rồi, không vượt qua được"; mỗi lần, OpenAI lại luôn có thể lấy ra một kỹ thuật kỹ thuật mới, hoặc một góc nhìn nghiên cứu mới, đục thủng bức tường đó.
Mark Chen tin chắc, "Chúng ta đang ở trên đường cong số mũ. Nó đã chịu đựng qua gần 10 bậc độ lớn, không có lý do gì nó sẽ không tiếp tục chịu đựng."

Mà bằng chứng thuyết phục nhất, là chính OpenAI đã từng tự tay đánh cược thắng một lần.
Cược vào chính là lý luận (reasoning).
o1 mới lập dự án, ngay cả nội bộ OpenAI cũng có người không tin.
Khi đó mô hình "Tiền huấn luyện + Hậu huấn luyện" quá mạnh, có người sẽ rất tự nhiên hỏi: máy móc đã chạy tốt rồi, cần gì phải vặn vẹo cái khác?
Là Jakub Pachocki, Ilya Sutskever và mấy người có niềm tin, có phán đoán mạnh mẽ thúc đẩy, mới từ từ biến nó thành cược cơ bản của toàn công ty.

Một năm sau, o1 ra đời, mô hình lý luận kích nổ toàn ngành.
Đường cong chưa đến đỉnh, cộng thêm những đột phá lớn nhất thường đến từ những ván cược ban đầu không ai tin, hai điều này cộng lại, chính là chỗ dựa để Mark Chen dám nói "mô hình tự duy trì nghiên cứu không xa nữa".
Khi mô hình bắt đầu suy nghĩ trên nhiệm vụ dài hàng tuần, thậm chí hàng tháng, những đổi mới nó tạo ra, có thể đã vượt ra khỏi vùng mù nhận thức của chuyên gia nhân loại.
Đây chính là nền tảng của "nghiên cứu khoa học tự duy trì": nếu nó có thể suy ra công thức toán học mà con người chưa từng thấy, tất nhiên nó cũng có thể viết ra kiến trúc thuật toán ưu việt hơn con người.
Vibe Researcher: Khi khả năng thực thi trở nên rẻ mạt
Chúng ta đã có vibe coder – động miệng, để AI viết code.

Nghiên cứu, cũng đang trượt theo hướng này.
Trong cuộc phỏng vấn, một khái niệm cực kỳ gây tranh cãi được nhắc đi nhắc lại nhiều lần: Vibe Researcher (Nhà nghiên cứu Cảm giác).
Đây là một dự đoán nghề nghiệp mang chút tự giễu nhưng được suy nghĩ kỹ lưỡng.
Mark cho rằng, nhà nghiên cứu hàng đầu tương lai sẽ không còn là người viết từng dòng code PyTorch, mà là người "nắm bắt cảm giác".

Cho dù là OpenAI hay phòng thí nghiệm khác, bạn đều bắt đầu thấy, lượng lớn công việc đang biến thành lấy "điều phối" (orchestration) làm chủ.
Dịch sang tiếng người: người chịu trách nhiệm đưa ra ý tưởng, mô hình chịu trách nhiệm hoàn thành toàn bộ việc.
Nhà nghiên cứu động não nghĩ ý tưởng, phần còn lại thực hiện, thi hành, điều phối, mô hình tự mình lo liệu.
Lộ trình ba năm của OpenAI, điểm cuối viết rõ ràng: để mô hình làm nghiên cứu end-to-end (đầu cuối), từ ra ý tưởng đến ra thành quả, toàn trình tự mình đến.

Nhưng trên con đường này, toàn là hố chưa lấp bằng
Khi AI có khả năng tự chủ thực thi và điều phối (Orchestration) nhiệm vụ, công việc của con người sẽ bị nén cực hạn đến hai đầu:
1, Đặt ra vấn đề thực sự.
2, Phán đoán câu trả lời AI đưa ra có "linh hồn" không.
Đây chính là cái gọi là "khiếu thẩm mỹ" (Taste).
Vì máy móc không có "cuộc sống", nên nó không có "kiến thức thông thường", từ đó cũng không thể sinh ra "khiếu thẩm mỹ".
Nhưng bình tĩnh lại suy nghĩ, chính Mark Chen còn rõ hơn ai hết, con đường này xa vời chưa được lát bằng.
Hố thứ nhất: Đánh giá, sụp đổ.
Ông dùng một từ nội bộ, gọi là "Benchmaxxing" (luyện lên bảng xếp hạng) – tìm một đống đề gần như giống hệt tập kiểm tra, luyện đến chết, điểm số đẹp không tưởng, khả năng khái quát hóa không tăng chút nào.
Tệ hơn, số lượng benchmark tiêu chuẩn vàng được công nhận quá ít.
"Chúng ta thực sự đang ở trong một cuộc khủng hoảng đánh giá." Ông nói, kiểu kiểm tra kinh điển như SAT, đối với mô hình ngày nay tất cả đều bão hòa.
Thậm chí, một đánh giá một khi được công bố ra thế giới, nó đã không còn là đánh giá tốt nữa, giống như một tờ giấy thi in ra lập tức hỏng.

Hai chiến lược đối phó vấn đề này:
1, Tách đội ngũ tạo lập đánh giá và đội ngũ tối ưu hóa mô hình, hình thành một động lực đối kháng.
2, Triển khai mô hình quy mô lớn và quan sát mô hình thất bại trong ứng dụng thực tế.

Ông còn chỉ ra, mỗi khả năng mới xuất hiện đều sẽ đi kèm nhu cầu đánh giá tương ứng, mà dẫn dắt hướng đánh giá là một phần khá quan trọng trong công việc của ông.
Hố thứ hai: Biên giới lởm chởm (jagged frontier).
Mô hình có thể chiếm được bài toán khó cấp Olympic Toán, Olympic Tin, nhưng có thể không giải quyết được việc lặt vặt con người tùy tay có thể làm, giống như một thiên tài có thể tính nhẩm vi tích phân, nhưng không biết tự buộc dây giày.

Kém ở đâu? Kém ở "ngữ cảnh", kém ở học liên tục (continual learning) – đưa bài học học được trong một nhiệm vụ, dùng cho nhiệm vụ tiếp theo.
Điều này với người quá tự nhiên, với mô hình, lại là đầu xương cứng toàn ngành đang đập chết.
Bị hỏi đi đến AGI có cần thêm hai ba đột phá căn bản không, Mark không tiếp nhận.
Ông nói, học liên tục loại này là "năng lực cơ sở phải mở khóa", còn tính không tính "đột phá" ông nói không rõ, nhưng "nhiều phát đã nhắm vào khung thành, tôi khá chắc chúng sẽ vào."
Đây chính là thái độ của ông: hố là thật, mỗi cái hố đã có người đang lấp, và ông cá là lấp được.
Ẩn dụ về súp: Sau AGI đi mở một tiệm mì
Cảnh ấm áp nhất trong cuộc phỏng vấn, là câu chuyện về "súp".
Nghe nói Mark Zuckerberg từng cố gắng dùng súp tự làm để chiêu mộ nhà nghiên cứu của OpenAI, còn phản ứng của Mark Chen là: trực tiếp mang súp đến văn phòng chia cho mọi người.

Khi được hỏi về nguyện vọng tối cao sau khi AGI được thực hiện, người đứng đầu bộ não AI mạnh nhất toàn cầu này, trả lời:
"Tôi muốn đi mở một tiệm mì. Đây có thể là sở thích sau AGI của tôi."
Câu trả lời này giấu ý nghĩa sâu xa.
Khi AI có thể hoàn thành tất cả "nghiên cứu khoa học tự duy trì", khi tất cả tri thức và đổi mới đều có thể sinh ra với tốc độ ánh sáng, tài nguyên khan hiếm nhất của nhân loại sẽ không còn là trí tuệ, mà là "trải nghiệm".
Máy móc có thể tính toán độ mặn tối ưu của một bát súp, nhưng nó vĩnh viễn không thể ban cho bát súp này "nhiệt độ" và "câu chuyện".
Tài liệu tham khảo:
https://www.youtube.com/watch?v=fpAthTtha8c
https://finance.biggo.com/podcast/1241bc21164ccc75
Bài viết này đến từ tài khoản công chúng WeChat "Tân Trí Nguyên", tác giả: ASI Khải Thị Lục








