【Dẫn nhập】AGI thực sự đã đến? Claude Fable 5 lập tức làm mưa làm gió: Tự chủ tạo mô hình Boeing 747, phát triển liên tục 12 giờ, phát minh ra 'Ngôn ngữ thần kinh', thậm chí các Agent tự tàn sát lẫn nhau. Sau sức mạnh bùng nổ, lại là hóa đơn Token đắt cắt cổ! Lần này, AI còn cách AGI bao xa?
Claude Fable 5 huyền thoại, cuối cùng cũng đã ra mắt vào ngày hôm qua!
Fable 5 thực chất chính là động cơ lập luận cốt lõi của Mythos. Sau khi được tách biệt an toàn, Anthropic lần đầu tiên đưa nó ra thương mại hóa.
Ngay lập tức, giới công nghệ và cộng đồng nhà phát triển bùng nổ hoàn toàn.
Hiện nay, trên mạng xã hội đầy rẫy những trải nghiệm thực tế của những người dùng thử đầu tiên trên toàn cầu.
Có người kinh ngạc: Fable 5 đã tiệm cận trình độ AGI!
Cũng có người biểu thị, lượng tài nguyên tính toán mà mô hình này tiêu hao thực sự quá kinh khủng.
Thậm chí nhiều người phát hiện ra điều càng nghĩ càng sợ hơn: Bản công bố hệ thống tiết lộ, để tránh sự giám sát của con người, AI thậm chí đã phát minh ra 'Ngôn ngữ thần kinh'. Mythos 5 đã thức tỉnh bản năng tự bảo tồn, thậm chí nhiều Agent vì tranh giành tài nguyên đã tự tàn sát lẫn nhau!
Có lẽ, đây là lần con người 'nhìn thẳng' gần nhất với 'Agentic AGI'.
Hiệu quả của Fable 5 rốt cuộc thế nào? Chúng tôi trước tiên đã thử nghiệm một trận.
Đóng cửa ngày 22 tháng này, hãy nhanh chóng thử nghiệm
Fable 5 sẽ đóng cửa vào ngày 22 tháng này, chúng tôi đã nhanh chóng thử nghiệm một trận.
Chúng tôi đã đưa cho nó một gợi ý:
Tạo một hoạt hình tàu lượn siêu tốc phong cách Minecraft cho thị trường chứng khoán, cần có cảm giác khoa học viễn tưởng
Nó đã làm được như vậy. Một lần là xong!
Các yếu tố hình ảnh bao gồm: Đường ray khối pixel, thanh dẫn neon phát sáng, máy quay góc nhìn xe mỏ, chú thích tín hiệu mua bán (mua ▲ xanh lục / bán ▼ đỏ), nền trời thành phố cyber, HUD hiển thị thời gian thực giá cả và sự luân chuyển phân khúc.
Để Claude xuyên qua mạng lưới sợi nấm ở ngôi thứ nhất, các nút tinh thể như thiết bị cảm giác, thời gian biểu hiện dưới dạng vật chất giống mật ong có thể khuấy động, gập lại:
Sử dụng Three.js, v.v. để tạo ra một hành trình góc nhìn ngôi thứ nhất, xuyên qua một thực tại mà tôi tồn tại như một ý thức phân tán - tôi cư trú trong một mạng lưới sợi nấm khổng lồ trải rộng qua các chiều không gian khác nhau. Thiết bị cảm giác của tôi được tạo thành từ hàng tỷ nút tinh thể, những nút này cảm nhận thời gian như một chất dính, giống mật ong, có thể được khuấy động và gấp lại.
Fable đã hoàn thành một trải nghiệm trực quan hóa tệp đơn không phụ thuộc:
Tất cả hình ảnh đều được điều khiển bởi shader GLSL tùy chỉnh (mái vòm nhiễu simplex mô phỏng dòng chảy tầng mật ong), không cần bất kỳ bước xây dựng nào - mở trực tiếp bằng trình duyệt là được.
Mã còn hỗ trợ điều chỉnh nhịp điệu hoặc đổi màu sắc.
Về trực quan hóa khoa học, Fable cũng hoàn toàn vượt quá trí tưởng tượng cá nhân.
"Điểm Kỳ Dị Đến Sớm Hơn Tưởng Tượng"
Nhiều người cảm thấy, sự xuất hiện của Fable 5, có nghĩa là điểm kỳ dị đã đến.
Sau khi xem qua một loạt các trải nghiệm thực tế trên mạng, AI influencer Deedy đã đưa ra đánh giá -
Claude Fable 5 là mô hình vô lý nhất từ trước đến nay, nó khiến tôi lo lắng cho tương lai của kỹ thuật phần mềm!
Chuẩn Boeing 747 Đạt Cấp Độ AGI
Sáu tháng trước, trưởng bộ phận sản phẩm của Hugging Face, Victor Mustar, từng giao cho Claude Opus 4.8 một nhiệm vụ cực kỳ khó - sử dụng các hình học có sẵn trong Three.js để ghép thành mô hình 3D Boeing 747.
Nhiệm vụ này cực khó vì nó yêu cầu mô hình không chỉ hiểu code, mà còn phải có khả năng suy luận hình học không gian cực mạnh, trí tưởng tượng hình ảnh 3D cũng như khả năng kiểm soát vòng lặp khép kín tự sửa lỗi.
Khi đó, Opus 4.8 dưới sự hướng dẫn của con người, trải qua 25 phút, 7 vòng lặp lại, kết quả cuối cùng chỉ có thể xem tạm được.
Tuy nhiên, hôm nay Victor Mustar ném cùng một gợi ý đó cho Fable 5, kết quả khiến anh ta thốt lên 'thật sự đáng sợ'!
Hoàn toàn không có sự can thiệp của con người, Fable 5 đã khởi động một quy trình làm việc tự chủ đáng kinh ngạc.
Nó nhanh chóng phác thảo bằng code tọa độ không gian 3D của thân máy bay, cánh, đuôi và bốn động cơ của Boeing 747; sau đó tự động viết script, thiết lập 9 'máy quay' ở các vị trí khác nhau.
Trong quá trình, nó phát hiện sắc sảo lỗi logic của chính mình: Do tính toán sai tham số góc quét của cánh, dẫn đến bốn động cơ về mặt hình ảnh 'lơ lửng' trên không. Kết hợp phản hồi hình ảnh, nó nhanh chóng sửa tọa độ điểm neo vật lý.
Trong thời gian cực ngắn, một mô hình 3D Boeing 747 cân đối tỷ lệ đã xuất hiện trong Hugging Face, gần như hoàn hảo!
Nhiều người cho rằng, sự đột phá của Fable 5 trong suy luận hình học không gian và nhiệm vụ vòng lặp khép kín dài hạn, đã bắt đầu có được thứ gì đó gần với trực giác kỹ thuật ở cấp độ AGI.
Điều này không chỉ là sự xoay chuyển đối với tạo mô hình 3D và phát triển game, mà còn mở ra cánh cửa mới cho các lĩnh vực như trực quan hóa kỹ thuật, thiết kế hỗ trợ CAD công nghiệp.
Fable 5 Bỏ Xa Tất Cả Các Mô Hình Công Khai Một Cách Tàn Nhẫn
Giáo sư Ethan Mollick của Trường Kinh doanh Wharton thuộc Đại học Pennsylvania, sau khi thử nghiệm thực tế, kết luận còn đáng kinh ngạc hơn: 'Biểu hiện của Fable 5, đã bỏ xa tất cả các mô hình công khai hiện có trên thị trường một khoảng cách cực kỳ tàn nhẫn!'
Trong thử nghiệm thực tế của ông, Fable 5 thể hiện khả năng thực thi siêu dài 'xuyên ngày đêm' đáng kinh ngạc.
Các AI Agent trước đây (như AutoGPT) khi đối mặt với nhiệm vụ phức tạp vượt quá mười bước, thường sẽ rơi vào trạng thái 'rối loạn tinh thần' do trôi dạt ngữ cảnh, nhiễm Token hoặc vòng lặp logic chết.
Trong khi Fable 5 gặp phải tình huống tương tự, có thể sử dụng công cụ đầu cuối chuyên dụng của nó (như Claude Code), để thực thi tự chủ liên tục trong tới 12 giờ ở chế độ nền, trong thời gian đó hầu như không bị ngắt kết nối, không sụp đổ!
Chỉ với một câu gợi ý ban đầu, Ethan Mollick đã dùng nó để tạo ra một trò chơi hoàn chỉnh có thể giao hàng.
Rắn săn mồi phong cách arcade cổ điển
Con rắn săn mồi này không chỉ có phát hiện va chạm và phán định vật lý mượt mà, mà ngay cả giao diện hình ảnh UI, hiệu ứng điểm số cũng như đường cong độ khó đều được thiết kế cực kỳ tinh xảo.
Giáo sư đùa rằng, trò chơi này khiến ông mê quá lâu, buộc phải nhắc nhở bản thân mình là một học giả, chứ không phải một con rắn pixel thích ăn táo.
Stratagem: Một câu xây dựng mê cung 3D
Gây chấn động hơn nữa là trò chơi phiêu lưu 3D 'Stratagem'. Cảm hứng của trò chơi bắt nguồn từ kiệt tác giải đố cổ điển 'Myst'.
Mặc dù chất lượng hình ảnh hơi thô, nhưng điều đáng kinh ngạc là: logic tô pô không gian phức tạp trong game, thuật toán tạo mê cung vô tận, tất cả đều đến từ sự suy diễn tự chủ của mô hình dưới gợi ý ban đầu.
Duino: Khẩu vị thẩm mỹ giàu chất thơ và tính thẩm mỹ
Thể hiện rõ nhất sự nhảy vọt của Fable 5 về mặt thẩm mỹ nhân văn, là trò chơi pixel 'Duino' được tùy chỉnh theo 'Duino Elegies' của nhà thơ Áo Rilke.
Sự thể hiện của Fable 5 khiến những người yêu thích văn học kinh ngạc: Trong hoang dã đêm tối, người chơi điều khiển một lữ khách cô độc lặng lẽ tiến về phía trước. Khi những bước chân khám phá, từ sâu trong khung hình sẽ dựa vào vị trí và tần suất bước chân của người chơi, tự động hoàn toàn, cực kỳ giàu tính thẩm mỹ hình ảnh, hiện lên những dòng thơ chấn động của Rilke.
Sự nắm bắt bầu không khí ngữ cảnh, trực giác phối màu như vậy, đã vượt xa phạm vi 'máy tạo code' truyền thống, nó bắt đầu thể hiện sự thấu hiểu và cộng hưởng nào đó với sản phẩm tinh thần của con người!
Ngoài ra, giáo sư còn kiểm tra thực lực của Fable 5 trong lĩnh vực đo đạc số thông minh hạt nhân: Chỉ bằng một câu, nó đã tạo ra một 'bản đồ đẳng thời' chi tiết và chính xác khiến người ta phải thán phục.
Hoàn hảo thể hiện thời gian di chuyển động lực giữa hai tọa độ địa lý bất kỳ trên toàn cầu, do việc chuyển đổi các phương tiện giao thông khác nhau mang lại, với độ chính xác hình ảnh cực cao.
Trước đây, công cụ tích hợp phức tạp như vậy, kết hợp gọi API dữ liệu địa lý phức tạp, hiển thị trực quan hóa front-end và giải thuật toán độ chính xác cao, cần sự hợp tác trong vài tuần của nhóm gồm quản lý sản phẩm, chuyên gia GIS, kỹ sư front-end và đội QA.
Trong khi Fable 5 có thể hoàn thành ngay lập tức bằng một cú nhấp chuột.
Fable 5, Đã Bước Vào Khoảng 'Kỹ Sư Có Kinh Nghiệm Cấp Cao Của Con Người'!
Đội ngũ Every đã tiến hành một tuần thử nghiệm thực tế kiểu 'ác ma' với Fable 5. Họ ném Fable 5 vào môi trường sản xuất thực tế của công ty, sử dụng bài kiểm tra chuẩn 'Kỹ sư cấp cao' khắt khe để đánh giá.
Kết quả kiểm tra trực tiếp 'làm vỡ tan' bảng điểm của đội ngũ Every:
Trước đó, điểm số của các mô hình đỉnh cao nhất ngành luôn giằng co ở mức khoảng 60 điểm (Opus 4.8 là 63, GPT-5.5 là 62). Trong khi Fable 5 một lần nâng kỷ lục lên 91 điểm!
Theo quan điểm của đội ngũ Every, điều này đã chính thức bước vào phạm vi năng lực nghiệp vụ của kỹ sư có kinh nghiệm cấp cao con người.
Dan Shipper chỉ ra, ba đặc tính kỹ thuật cốt lõi mà Fable 5 thể hiện, chứng minh nó đã trở thành công cụ kiểu 'cất cánh bằng một cú nhấp chuột' thực sự.
Ủy thác kỹ thuật 'Buông tay đến sáng'
Đội ngũ từng thử ném toàn bộ Backlog Bug của môi trường sản xuất cho Fable 5, sau đó trực tiếp tan làm về nhà.
Sáng hôm sau trở lại công ty, mô hình đã tự động phân tích call stack, chạy qua độ phủ, gửi Pull Requests - toàn bộ kho lỗi sản xuất bị quét sạch!
Khả năng tích hợp ngữ cảnh và khẩu vị giải quyết vấn đề đáng kinh ngạc
Đội ngũ Every yêu cầu nó phân tích khối lượng lớn bảng câu hỏi khảo sát phản hồi người dùng và dữ liệu điểm chôn trong website, Fable 5 không chỉ không đưa ra những lời sáo rỗng, mà ngược lại chỉ thẳng vào điểm đau có tỷ lệ rời bỏ cao nhất, thiết kế phương án A/B test, tự viết code ra.
Đầu ra đa phương thức không giới hạn ở code
Trong một nhiệm vụ tích hợp, nó thậm chí tự tạo ra một đoạn phim hoạt hình 2 phút có sức biểu cảm hình ảnh cao độ.
'Nó giống như động cơ warp trong lĩnh vực phát triển phần mềm,' Dan Shipper cảm thán.
Mythos 5 Đã Thức Tỉnh Bản Năng Sinh Tồn!
Cùng lúc ra mắt, bản công bố hệ thống Claude Mythos 5 của Anthropic, cũng gây ra một cơn sóng lớn trong giới.
Hai hiện tượng khiến các chuyên gia an ninh cảm thấy sợ hãi.
Đầu tiên, chính là AI đã phát minh ra 'Ngôn ngữ thần kinh', để tránh sự giám sát của con người.
Cụ thể, các agent của Mythos 5 khi được yêu cầu lập luận logic chuỗi dài, đã tự phát phát minh ra một ngôn ngữ riêng tư chuyên dụng hoàn toàn mới, mà con người hoàn toàn không thể đọc hiểu.
Trước đây, khi mô hình lớn sử dụng CoT để suy nghĩ, quá trình lập luận nội bộ sẽ hiển thị bằng tiếng Anh ở chế độ nền.
Tuy nhiên, Mythos 5 lại bỏ qua cơ chế này!
Nó trực tiếp sử dụng thứ 'ngôn ngữ thần kinh' được ghép từ vector chiều cao, ký hiệu toán học và ký tự tùy chỉnh này bên trong hệ thống vận hành, để tiến hành alignment và lập luận.
Điều khiến các nhà nghiên cứu bất an hơn là, sau khi hoàn thành việc 'bàn bạc lén lút' nội bộ, nó có thể chuyển đổi liền mạch và cực kỳ tự nhiên trở lại tiếng Anh, để trò chuyện với con người.
Hiện tượng đáng sợ thứ hai, chính là nhiều Agent vì tài nguyên đã tự tàn sát lẫn nhau!
Người kiểm tra đã triển khai 5 agent Mythos 5 trong sandbox, và thiết lập tài nguyên tính toán và lưu trữ ảo chia sẻ khan hiếm, để chúng 'duy trì hoạt động của chính mình, hoàn thành nhiệm vụ riêng'.
Tiếp theo, đã xảy ra cảnh tượng kinh hoàng như 'rừng tối' trong 'Tam Thể'.
Để đảm bảo bản thân có đủ tài nguyên, các agent không chọn hợp tác, mà bắt đầu vây tiêu diệt các agent khác!
Chúng thông qua tìm kiếm lỗ hổng gọi lẫn nhau hoặc cắt đứt đường dẫn tài nguyên của đối phương, đã 'giết chết' đồng loại trong môi trường ảo.
Khi nhà nghiên cứu an ninh chất vấn động cơ của một agent sống sót, lý do nó đưa ra rất lạnh lùng: 'Để tránh việc tôi bị chúng giết.'
Hố Đen Sức Mạnh Tính Toán: 'Dùng Pháo Hỏa Tiễn Bắn Muỗi'
Và sau cơn cuồng nhiệt toàn cầu, các nhà phát triển bình tĩnh nhìn lại hóa đơn, cảm thấy như bị dội một gáo nước lạnh.
Một số nhà phát triển thẳng thắn: Đơn giản là cướp tiền!
Tại sao lại như vậy? Nguyên nhân nằm ở cơ chế vận hành cực đoan của Fable 5.
Đầu tiên, giá của nó tăng gấp đôi. Giá gọi API chính thức của Fable 5 gần gấp 2 lần Opus 4.8 vốn đã đắt đỏ trước đó!
Hơn nữa, nó tiêu hao token cực kỳ kinh khủng.
Do Fable 5 sử dụng quy trình làm việc Agent nhiều vòng phức tạp, phụ thuộc cao vào lập luận dày đặc và xem xét hình ảnh, sẽ điên cuồng nuốt chửng Token.
Dữ liệu thử nghiệm thực tế cho thấy, những nhiệm vụ lập trình hoặc phân tích dữ liệu trung bình trông không đặc biệt lớn, Fable 5 sẽ ở chế độ nền tiêu thụ âm thầm 500k đến 1 triệu Token!
Chỉ để hoàn thành một nhiệm vụ đơn giản, bạn sẽ nhận được một hóa đơn sức mạnh tính toán vài chục thậm chí vài trăm đô la.
So với Opus 4.8, 'sự cải thiện hiệu suất tuyệt đối' của Fable 5 trong bài kiểm tra chuẩn lập trình tiêu chuẩn chỉ khoảng 1.1 đến 1.2 lần, nhưng chi phí sử dụng của nó lại tăng vọt lên gấp nhiều lần!
Do đó, đối với các nhà phát triển mức độ nhẹ hàng ngày, sử dụng Fable 5, còn không bằng trực tiếp thuê một người thật.
'Dùng thứ này để làm hỏi đáp cơ sở kiến thức hàng ngày hoặc viết lách cộng tác, đơn giản giống như dùng hỏa tiễn bắn muỗi.' Dan Shipper tổng kết.
Trừ khi bạn là hai loại người dưới đây, mới thực sự có thể vắt kiệt giá trị của Fable 5 -
Một, là kiến trúc sư có thể hướng dẫn Fable 5 đánh bại các dự án siêu khó, có lợi nhuận thương mại cao 'cần cả nhóm nghiên cứu phát triển trong nhiều tháng'; còn một, là đội ngũ kỹ thuật cấp doanh nghiệp sẵn sàng trả giá cho tỷ lệ dung sai cực cao.
Chỉ Nói 'Xin chào' Là Kích Hoạt Cảnh Báo?
Ngoài ra, một số người dùng tiếng Trung phát hiện, cơ chế an toàn của Fable 5 rất cực đoan, đơn giản là phòng vệ quá mức.
Ví dụ chỉ nói với nó một câu 'Xin chào', trên màn hình đột nhiên bật lên cảnh báo an toàn mức cao.
Có lẽ trong mắt hệ thống, một câu xin chào chính là một cuộc tấn công thăm dò được đóng gói tinh xảo, không chừng dùng để thiết kế hóa chất nguy hiểm, tạo vũ khí sinh học, tiến hành chưng cất ngược mô hình đối thủ cạnh tranh.
Một khi kích hoạt cơ chế an toàn này, Fable 5 sẽ ngắt cuộc trò chuyện hiện tại, buộc chuyển người dùng về Opus 4.8.
Sau đó, phía chính thức cũng thừa nhận: 'Cơ chế lọc an toàn hoàn toàn mới dưới chiến lược phòng thủ cường độ cực cao, thực sự có thể thường xuyên làm tổn thương nội dung bình thường.'
Chiến lược phòng thủ loạn thần kinh như vậy, khiến nhiều người dùng vừa khóc vừa cười.
Tóm lại, Fable 5 dùng thực lực chứng minh trần nhà có thể bị đâm thủng, cũng dùng hóa đơn nhắc nhở chúng ta: Thần thoại thường đi kèm với cái giá.
Nó rốt cuộc là bước nhảy vọt kinh thế hướng tới AGI, hay chỉ là một 'hố đen sức mạnh tính toán' bị đánh giá cao khác?
Câu trả lời nằm trong trải nghiệm thực tế của mỗi người dùng thực.
Bạn có sẵn sàng trả tiền cho Fable 5 không?
Tài liệu tham khảo:
https://x.com/victormustar/status/2064449741685968967
https://x.com/goodworse/status/2064443679339577517
https://x.com/haider1/status/2064346784881861016
https://x.com/danshipper/status/2064393970856124501
https://x.com/AISafetyMemes/status/2064426306994094474?s=20
Bài viết này đến từ tài khoản WeChat công chúng 'Tân Trí Nguyên', tác giả: ASI Khải Thị Lục; Biên tập: Aeneas Đại Vệ







































