【Tóm tắt】 Bài báo nguy hiểm nhất trong năm đã xuất hiện! NVIDIA phá vỡ lời nguyền 20 năm, để AI tự tay tạo ra những "giám khảo" khắc nghiệt hơn để loại bỏ chính mình. Một khi quá trình tiến hóa tự thân không ngừng nghỉ được kích hoạt, việc ASI xuất hiện vào năm 2028 không còn là trò đùa.
Anthropic đã hoàn toàn "phát cuồng vì RSI"!
Đồng sáng lập Jack Clark đưa ra dự đoán kinh ngạc, đến cuối năm 2028, một AI có khả năng tự chủ tiến hóa cao sẽ ra đời.
Xác suất cho điều này là 60%!

Khi mọi người vẫn đang tranh cãi về việc "RSI 2028 có thể đạt được hay không", Đại học Cambridge, NVIDIA và các tổ chức khác đã cùng hợp tác, tung ra một bài báo quan trọng –
"Red Queen Gödel Machine" (Máy Gödel Nữ Hoàng Đỏ)
Cách thức hoạt động của nó giống như một trò chơi sinh tồn khắc nghiệt dành cho AI:
AI tự viết các thuật toán học mới, và đưa chúng vào môi trường sandbox để thử nghiệm. Những cá thể thất bại bị xóa bỏ ngay lập tức, những cá thể thành công được giữ lại.
Sau đó, những kẻ sống sót mở ra vòng tiến hóa và sinh sản tự thân tiếp theo.

Địa chỉ bài báo: https://arxiv.org/pdf/2606.26294
Nhưng điều khiến người ta rùng mình, là khả năng "giác ngộ" mà AI sau đó thể hiện: nó nhận ra rằng, muốn trở nên mạnh mẽ hơn liên tục, nó phải đối mặt với những thử thách ngày càng khắc nghiệt hơn.
Vì vậy, AI bắt đầu chủ động "tiến hóa" những giám khảo của mình.
Nó tự tay tạo ra những trọng tài khắt khe hơn, để đánh giá những đoạn mã cao cấp hơn mà chính nó viết ra.
Cơ chế này, giam cầm AI trong một vòng lặp RSI tự lặp lại điên cuồng, không ngừng nghỉ.
Sau khi đọc xong 37 trang bài báo này, nhiều người thở dài, "Đây chắc chắn là bài báo AI nguy hiểm nhất trong năm"!


RSI Tự Tiến Hóa Năm 2028
Viết Lời Tiên Tri Thành Mã
Vào năm 2003, nhà khoa học người Đức Jürgen Schmidhuber đã từng hình dung về một loại máy có tên "Gödel Machine" (Máy Gödel).
Cài đặt của nó được coi là hoàn hảo: một cỗ máy có thể chứng minh sự cải tiến của chính nó là có lợi, sau đó viết lại mã nguồn của chính mình.
Một khi được tạo ra, nó có thể không ngừng tự nâng cấp, trở nên mạnh mẽ hơn, không có giới hạn.
Tuy nhiên, "Máy Gödel" có một "ngưỡng cửa" chí mạng –
Trước khi thực thi bất kỳ dòng mã tự sửa đổi nào, nó phải chứng minh một cách nghiêm ngặt về mặt toán học: lần thay đổi này chắc chắn có lợi.

Nhưng trong thực tế, đây gần như là một nhiệm vụ bất khả thi, sức mạnh tính toán cần thiết có thể gọi là "lỗ đen".
Do đó, trong suốt 20 năm sau đó, Máy Gödel chỉ có thể nằm trong các bài báo, trở thành một trần lý thuyết, một thí nghiệm tư tưởng mà không ai chạm tới được.
Vài năm gần đây, giới học thuật đã vượt qua trở ngại chứng minh này.
Darwin Gödel Machine (DGM), Huxley Gödel Machine (HGM) thẳng tay từ bỏ chứng minh toán học, thay vào đó sử dụng tiến hóa –
Để AI "sinh sản" ra một lượng lớn các biến thể mã với đột biến, ném vào sandbox để chấm điểm, thất bại thì bị loại, thành công thì được giữ lại, những cá thể sống sót tiếp tục sinh sản.
AI đã vượt qua bước cuối cùng, bắt đầu "tiến hóa" bản thân theo đúng nghĩa đen.
Nhưng tất cả các phương pháp này vẫn có một điểm mù chung – giám khảo của chúng là bất động.
Bất kể AI tiến hóa như thế nào, tiêu chuẩn đánh giá, benchmark, bộ xác thực cho nó điểm số, luôn bị đóng đinh bên ngoài vòng lặp, bất động.
Điều này trái ngược hoàn toàn với một quy luật cốt lõi của tiến hóa:
Loài vật không bao giờ tối ưu hóa bản thân trong một môi trường tĩnh, mà thay đổi cùng với môi trường luôn biến đổi.
Red Queen Gödel Machine (RQGM), nhắm đến chính điểm mù này.
Đòn Sát Thủ Thực Sự Của "Nữ Hoàng Đỏ": Để AI Tạo Ra Giám Khảo
Cái tên "Nữ Hoàng Đỏ", bắt nguồn từ "Giả thuyết Nữ Hoàng Đỏ" (Red Queen hypothesis) do nhà sinh vật học Van Valen đề xuất năm 1973 –
Bạn phải chạy hết sức, chỉ để giữ nguyên vị trí, vì đối thủ của bạn cũng đang tiến hóa.
Điều RQGM làm, chính là viết câu nói này thành thuật toán: để giám khảo (bộ đánh giá) và thí sinh (tác nhân thực hiện nhiệm vụ) cùng tiến hóa.
Đây là điểm khiến người ta sởn gáy nhất trong toàn bộ bài báo.

Cơ chế tinh tế này được gọi là "tiến hóa tiện ích có kiểm soát" (controlled utility evolution):
Toàn bộ quá trình tìm kiếm được chia thành từng epoch;
Trong mỗi epoch, bộ đánh giá (giám khảo) bị đóng băng, chấm điểm cho tất cả thí sinh, đảm bảo tín hiệu ổn định;
Chỉ tại ranh giới giữa các epoch, mới cho phép thay đổi giám khảo, và giám khảo mới phải đánh bại giám khảo cũ về mặt thống kê trên một tập dữ liệu "chân lý chuẩn" được dành riêng, mới có thể lên ngôi;
Một khi thay người, hệ thống lập tức thực hiện "xóa có chọn lọc": chỉ loại bỏ những điểm số do giám khảo bị thay thế chấm, tất cả bằng chứng khác đều được giữ lại.
Nói cách khác, nó vừa phải tiến hóa chạy đua, vừa phải đứng vững ở mỗi bước đi.
Thực Sự Có Hiệu Quả, AI Tự Sửa Mã
Chỉ nói về cơ chế thì quá trừu tượng, hãy nhìn vào thành tích.
Trận đầu tiên, viết mã (Polyglot).
RQGM trang bị cho Agent viết mã một "người đánh giá mã" làm bạn tập.
Kết quả, trên tập kiểm tra được dành riêng, tỷ lệ đạt được tăng từ 69.9% của SOTA trước đó lên 71.7%.
Cái đáng gờm hơn là, nó đạt được thành tích này, trong khi đốt ít hơn đối thủ từ 1.35 đến 1.72 lần token. Bởi vì người đánh giá đó chỉ cần kiểm tra một lần, rẻ hơn rất nhiều so với việc chạy thử nghiệm nhiều vòng lặp lại.

Trận thứ hai, viết luận văn.
Đây là một lĩnh vực không có đáp án chuẩn, bài luận hay hay dở, không thể do máy tự động chấm điểm.
RQGM để người viết và người đánh giá của nó cùng tiến hóa, kết quả tỷ lệ được nhận bài luận trong một nhóm giám khảo cố định, tăng từ 21.8% của SOTA trước đó, vọt thẳng lên 40.5%.

Trận thứ ba, chứng minh toán học cấp Olympic.
"Giám khảo chấm điểm" (grader) mà nó tiến hóa ra, chính xác hơn đường cơ sở tĩnh, chi phí tìm kiếm còn thấp hơn 3 lần;
"Thí sinh chứng minh" mà nó tiến hóa ra, đạt điểm trung bình cao nhất.
Nhưng điểm sáng nhất trong toàn bài, là nó đã chữa được một căn bệnh cũ của AI. LLM khi làm trọng tài, có một tật nổi tiếng: thiên vị nội dung do AI tạo ra.
Giám khảo đường cơ sở mạnh nhất trong bài báo, xác suất chấp nhận bài luận do AI viết, cao gấp tối đa 1.91 lần so với bài luận của con người.
RQGM chữa thế nào? Tại ranh giới epoch, nó vớt những bài luận AI đã được giám khảo cố định trước đó cho qua, tạo thành một "bể mẫu đối kháng", sau đó đặc biệt khen thưởng những giám khảo mới có thể bới ra và đánh trượt những bài luận AI này.
Sau vài vòng tiến hóa, giám khảo cuối cùng đối xử công bằng với AI và con người, đồng thời vẫn giữ được 80% độ chính xác chân lý.

Khi AI Học Cách Đánh Giá Chính Mình
Ngay trong mùa hè này, đồng sáng lập Anthropic Jack Clark đặt cược nặng: xác suất 60%, trước cuối năm 2028, AI sẽ có thể tự tay tạo ra một phiên bản mạnh mẽ hơn của chính nó.
Bức tường cao từng giam cầm "Máy Gödel" trong 20 năm, mang tên "chứng minh".
Và "Máy Nữ Hoàng Đỏ" đánh thức nó, chỉ bằng một chiêu tàn khốc nhất: sinh sản, đào thải, tái sinh sản không ngừng nghỉ.

Khi một AI bắt đầu tự thiết kế những giám khảo khắc nghiệt nhất cho mình, trong sự đệ quy điên cuồng đẩy bản thân đến giới hạn, thứ chúng ta đối mặt, sẽ là một loài mới bắt đầu tự định nghĩa "trí tuệ là gì".
Khi ngày đó đến, ASI sẽ không gõ cửa báo trước.
Nó sẽ chỉ âm thầm tạo ra vị trọng tài duy nhất có đủ tư cách đánh giá nó, sau đó, bình thản bước vào phòng thi.
Lời tiên tri chỉ có trách nhiệm chỉ ra đích đến, mã nguồn mới có trách nhiệm chạm tới.
Và bây giờ, khoảng cách nghẹt thở này, đang chính do AI tự mình, rút ngắn với cấp số nhân.
Tài liệu tham khảo:
https://x.com/HowToPrompt__/status/2070824205663273175?s=20
https://x.com/kimmonismus/status/2070968241548120168
Bài viết này đến từ tài khoản WeChat công chúng "新智元", biên tập: Đào Tử






