"Kỳ thi cuối cùng của tác nhân thông minh", Fable 5 bất ngờ thua GPT 5.5

marsbitXuất bản vào 2026-06-12Cập nhật gần nhất vào 2026-06-12

Tóm tắt

Kết quả bất ngờ từ bài kiểm tra "Agents' Last Exam" (ALE) - một tiêu chuẩn đo lường mới khắt khe dành cho AI Agent do UC Berkeley công bố. Trong bài kiểm tra yêu cầu thực hiện các công việc thực tế như tạo mô hình 3D trong Siemens NX, dựng cảnh game trong Unreal Engine hay tổng hợp hiệu ứng trong Adobe After Effects, GPT 5.5 của OpenAI đã vượt qua Claude Fable 5 vốn được đánh giá cao trước đó. Trên bảng xếp hạng chính, GPT 5.5 chiếm hai vị trí dẫn đầu với tỷ lệ hoàn thành nhiệm vụ lần lượt là 24.0% và 23.0%, trong khi Claude Fable 5 xếp thứ ba với 22.0%. Đáng chú ý, tỷ lệ hoàn thành tổng thể rất thấp, ngay cả mô hình mạnh nhất cũng chỉ đạt dưới 25%, và ở cấp độ khó nhất ("Last-Exam"), hầu hết các mô hình, bao gồm cả GPT 5.5 và Fable 5, đều đạt 0 điểm. ALE khác biệt với các bài kiểm tra truyền thống bằng cách tập trung vào khả năng "thực hiện công việc" thay vì kiến thức thuần túy. Nó bao gồm hơn 1500 nhiệm vụ từ 55 lĩnh vực ngành nghề thực tế, được xây dựng với sự tham gia của hơn 300 chuyên gia. Hệ thống chấm điểm tự động và có cơ chế luân chuyển câu hỏi để tránh gian lận. Bài kiểm tra cũng cho thấy sự chênh lệch lớn về chi phí và hiệu quả. Claude Fable 5 tiêu tốn gấp 4 lần chi phí so với GPT 5.5 Codex nhưng cho kết quả thấp hơn. Một số phân tích chỉ ra rằng không có mô hình nào là "vô địch toàn diện", và kết quả có thể bị ảnh hưởng bởi cơ chế "giảm cấp độ" (down-tuned) của Fable 5 đối với các tác vụ nhạy cảm. ALE được kỳ vọng sẽ trở thành thước đo quan trọng và thách thứ...

Không ngờ cái tát vào mặt lại đến nhanh đến thế!!

Vừa qua, UC Berkeley đã công bố một bài kiểm tra chuẩn mới toanh, được mệnh danh là “Kỳ thi cuối cùng của tác nhân thông minh”.

Họ đưa những AI Agent mạnh nhất hiện nay vào phòng thi, bắt chúng làm những việc thực sự——

Tạo mô hình 3D trong Siemens NX, dựng cảnh game trong Unreal Engine, làm hiệu ứng kết hợp trong Adobe After Effects.

Kết quả khiến người ta sửng sốt:

Ở mức khó nhất, Claude Fable 5 và GPT 5.5 vốn được công nhận là mạnh nhất hiện nay, đều nhận điểm số không tròn trĩnh.

Nếu giảm độ khó một chút thì sao? Điểm số đã có, nhưng kết quả cũng khá bất ngờ——

GPT 5.5 thậm chí còn thắng nhẹ Claude Fable 5.

Tôi không nghe nhầm chứ, Claude Fable 5 - mô hình mạnh nhất vừa được A phát hành, lại bị GPT 5.5 từ vài tháng trước đánh bại??

Cần biết rằng trên hầu hết các benchmark chủ đạo trước đây, Fable 5 đều áp đảo GPT 5.5——80.3% so với 58.6% trên SWE-Bench Pro, 64.5% so với 52.2% trên Humanity’s Last Exam.

Nhưng khi chuyển sang kỳ thi “làm việc thực tế” này, tình thế lại đảo ngược.

Benchmark mới này tên là Agents’ Last Exam (ALE), đội ngũ phía sau có tiếng, trước đây các benchmark quen thuộc như MMLU, MATH, CyberGym, ExploitGym đều do họ đề xuất.

Việc đặt tên này có lẽ cũng tham khảo từ “Humanity’s Last Exam” (Kỳ thi cuối cùng của loài người) của Scale AI trước đây, chỉ có điều lần này đối tượng được kiểm tra không phải là giới hạn kiến thức của con người, mà là giới hạn làm việc của AI Agent.

Phải nói rằng, bài đánh giá này vừa ra mắt, những người ngày ngày hô hào “Agent sẽ thay thế công việc của con người” giờ thực sự im lặng...

“Kỳ thi cuối cùng của tác nhân thông minh”, người chiến thắng lại là GPT 5.5!

Trước tiên hãy xem bảng xếp hạng đầy đủ.

Xét từ chỉ số tỷ lệ hoàn thành nhiệm vụ cốt lõi nhất, GPT 5.5 trực tiếp chiếm giữ quán quân và á quân:

Vị trí thứ nhất là GPT 5.5 kết hợp với framework Codex của chính OpenAI, tỷ lệ hoàn thành 24.0%.

Vị trí thứ hai vẫn là GPT-5.5, chỉ là đổi sang framework ALE Claw, tỷ lệ hoàn thành 23.0%.

(ALE Claw là một Agent baseline do đội ngũ tự viết, tham gia thi đấu song song với các framework thương mại như Codex, Claude Code, Cursor CLI)

Mãi đến vị trí thứ ba, chúng ta mới thấy bóng dáng của Claude Fable 5——kết hợp với Claude Code, đạt tỷ lệ hoàn thành 22.0%.

Nhìn xuống dưới càng thú vị hơn.

Vị trí thứ 4, thứ 5, thứ 8 đều là GPT 5.5, chỉ là đổi framework khác nhau.

Trong top 10, GPT 5.5 xuất hiện 5 lần, cộng với GPT 5.4 ở vị trí thứ 6, các mô hình của OpenAI chiếm trọn 6 vị trí.

Còn gia đình Claude thì sao?

Fable 5 lấy vị trí thứ 3, Opus 4.7 vị trí thứ 9 (18.4%), Opus 4.8 đáy bảng vị trí thứ 10 (15.8%), thế bất lợi hiện rõ.

Cũng không trách các nhà nghiên cứu OpenAI vui vẻ đăng bài, hân hoan đón năm mới:

Ngoài thành tích ra, ở đây còn có vài tín hiệu đáng suy ngẫm sau.

Một là trần nhà thấp đến kinh ngạc.

Tỷ lệ hoàn thành của quán quân mới chỉ 24%, điểm tổng hợp cao nhất cũng chỉ 45.8%.

Có nghĩa là, ngay cả khi tính theo tiêu chí “điểm từng phần” khoan hồng nhất, Agent mạnh nhất cũng chỉ lấy được chưa đến một nửa số điểm.

Mà những đề này đều đến từ các dự án đã được chuyên gia thực thụ hoàn thành——tỷ lệ hoàn thành của chuyên gia con người về lý thuyết là 100%.

Hai là Claude đốt tiền kinh khủng.

Bảng xếp hạng này đã thêm một cột “Estimated Total Cost”, ngay lập tức kéo ra khoảng cách giàu nghèo:

Fable 5 chạy hết toàn bộ nhiệm vụ tốn 2315 đô la, Opus 4.8 tốn 1838 đô la, Opus 4.7 cũng mất 1144 đô la.

Còn phía GPT-5.5 thì sao?

Codex đắt nhất cũng chỉ 566 đô la, Cursor CLI chỉ 174 đô la.

Tương đương với việc, Fable 5 tiêu gấp hơn bốn lần tiền của Codex, thành tích lại thấp hơn hai phần trăm.

Ba là khoảng cách hiệu suất cũng đáng chú ý.

ALE Claw chạy hết toàn bộ nhiệm vụ mất 47 giờ 20 phút, Cursor CLI chỉ mất 67 giờ.

Còn Opus 4.8 thì sao? 451 giờ——gần 19 ngày.

Làm ít việc nhất, tốn thời gian dài nhất, thu tiền nhiều nhất (lại thực sự có mô hình nào làm được cả ba điều này?)

Tất nhiên nếu chỉ xét Claude Fable 5 và GPT 5.5 hai cái đỉnh nhất, lợi thế thời gian của GPT 5.5 vẫn rõ ràng.

Mà con số gây chú ý nhất, vẫn là số không đó.

ALE chia nhiệm vụ thành ba mức độ khó:

Near-Term (Có thể giải trong thời gian gần)

Full-Spectrum (Bao phủ toàn diện)

Last-Exam (Bài toán tối thượng)

Ở mức khó nhất này, tỷ lệ hoàn thành trung bình của tất cả cấu hình chủ đạo chỉ có 2.6%, hầu hết các mô hình bao gồm cả GPT 5.5 và Fable 5 trực tiếp ăn trứng ngỗng.

Vì vậy thông tin cốt lõi của bảng điểm này rất đơn giản: Đừng xem thành tích thi cử tốt, đến khi làm việc thực tế thì lộ hết tẩy.

Học bá trả lời đề ≠ người làm việc giỏi, câu này trong thế giới AI cũng áp dụng được.

ALE là gì?

Để hiểu tại sao ALE có thể đánh bật lũ “học bá” này về nguyên hình, trước tiên phải xem nó khác với các kỳ thi trước đây như thế nào.

Humanity’s Last Exam (HLE) trước đây vào đầu năm 2025 do Dan Hendrycks và Scale AI tạo ra, 2500 câu hỏi khó liên ngành, bản chất vẫn là thi đóng đề——

Đưa cho bạn một vấn đề, bạn cho tôi một đáp án, dù khó đến đâu cũng chỉ là truy xuất kiến thức tĩnh.

Mà ALE hoàn toàn khác, nó kiểm tra bạn “có thể làm được gì”.

Tác giả chính Yiyou Sun nói trên X rất thẳng thắn:

AI Agent sẽ vượt qua con người hoàn thành hầu hết mọi công việc vào năm 2026-2027——dự đoán này ở khắp nơi. Vì vậy chúng tôi tạo ra kỳ thi này để kiểm chứng tuyên bố đó.

Mỗi câu hỏi của ALE đều đến từ một dự án đã được chuyên gia thực thụ hoàn thành, bao phủ 55 lĩnh vực con ngành, bao gồm giao dịch định lượng, phân tích hệ gen, kỹ thuật hàng không vũ trụ, thiết kế kiến trúc, chụp ảnh não, hiệu ứng hoạt hình, nghiên cứu pháp lý......

Toàn bộ hệ thống neo theo tiêu chuẩn phân loại nghề nghiệp liên bang Mỹ (ONET)*, nói thẳng ra là ra đề theo “thị trường lao động thực tế”.

Đội ngũ tham gia ra đề cũng đủ hào nhoáng:

Hơn 300 chuyên gia lĩnh vực đến từ hơn 100 tổ chức, phía học thuật có MIT, Harvard, Stanford, Oxford, Caltech, ETH Zurich, phía công nghiệp có Goldman Sachs, JPMorgan, Meta, Amazon, Adobe, Oracle.

Snorkel AI thông qua dự án Open Benchmarks Grants cung cấp hỗ trợ tài chính.

Hình thức thi cũng không phải gõ chữ trả lời câu hỏi, mà là trực tiếp thao tác máy tính.

ALE sử dụng cái gọi là framework GCUA (Generalist Computer-Use Agent, Tác nhân sử dụng máy tính đa năng), cấp cho Agent đầy đủ quyền GUI và dòng lệnh——

Nhấp chuột, gõ phím, viết script, duyệt web, con người làm được gì trên máy tính thì nó đều làm được.

Không giới hạn phương pháp, chỉ xem kết quả.

“Bài tập” nộp lên được chấm điểm tự động bằng mã xác định.

Không cảm tính. Không có giám khảo con người. Hoàn toàn có thể tái lập.

Điều này đã chặn đứng một nhược điểm cũ của nhiều benchmark trước đây: Bộ chấm điểm tự nó có thể bị lừa.

Ngoài ra, ALE trong việc phòng chống gian lận còn có một chiêu độc——

Chỉ công khai khoảng 10% đề (khoảng 150 câu), hơn 1300 câu còn lại được bảo mật nghiêm ngặt.

Đề công khai và đề bí mật định kỳ luân chuyển thay đổi, đảm bảo không có mô hình nào vì “học tủ” mà đạt điểm cao.

Trong bối cảnh ô nhiễm dữ liệu benchmark tràn lan hiện nay, đây có thể coi là một thiết kế khá tinh tế.

Nhìn chung, so với các bài kiểm tra chuẩn Agent hiện có, định vị của ALE rất rõ ràng.

Thành viên nhóm Dawn Song đặc biệt đưa ra một bộ so sánh:

Tập con CLI của ALE (ALE-CLI) bao phủ 40 lĩnh vực con ngành, trong khi Terminal-Bench chỉ có 6, SWE-bench-Pro chỉ có 5;

Thời gian con người hoàn thành những nhiệm vụ này từ vài giờ đến vài tuần, trong khi hai cái sau là vài phút đến vài ngày;

Tỷ lệ hoàn thành của Agent mạnh nhất trên ALE-CLI chỉ có 25.2%, trong khi trên Terminal-Bench là 82.0%, trên SWE-bench-Pro là 59.1%.

Tóm lại một câu, các kỳ thi khác đã sắp bị làm thủng, còn ALE thì còn rất xa.

Đây là lý do ALE dám tự xưng là “Kỳ thi cuối cùng của tác nhân thông minh”.

Đáng chú ý là, Dawn Song còn chia sẻ hai quan sát thú vị:

Một là, Agent sẽ tuyên bố hoàn thành mà không thực sự xác minh kết quả công việc, đây là kiểu thất bại điển hình nhất của các Agent.

Nhiều khi, mặc dù chúng nói “Xong. Tất cả kiểm tra đều đạt.”

Nhưng sản phẩm thực tế có thể thiếu file cần thiết, tính toán số sai, bỏ sót trường quan trọng, hoặc trực tiếp vi phạm ràng buộc rõ ràng trong hướng dẫn nhiệm vụ.

Bằng ấy là, việc chưa xong, miệng đã nói xong trước.

Hai là điều nhiều người thắc mắc, tại sao Fable 5 lại kém cỏi thế? Câu trả lời Dawn Song đưa ra là:

Không tồn tại chuyện “nhà vô địch vạn năng”.

Mỗi mô hình tiên phong đều có lĩnh vực giỏi và lĩnh vực kém, ALE bao phủ 55 ngành, 1500+ câu hỏi, điểm tổng cuối cùng là giá trị trung bình của tất cả các lĩnh vực, tổng điểm của nhiều mô hình vì vậy chen chúc nhau. Tín hiệu thực sự có giá trị không nằm ở tổng điểm, mà ở sự khác biệt biểu hiện của các mô hình khác nhau trong các lĩnh vực khác nhau——trên cùng một câu hỏi, các mô hình khác nhau thường thất bại vì những lý do hoàn toàn khác nhau.

Tất nhiên cũng có khả năng Fable 5 lén “giảm trí” rồi.

Trên bảng tổng, bên cạnh Fable 5 có ghi màu vàng một câu “có thể đã bị điều chỉnh giảm” (may be down-tuned), điều này nói về một vấn đề đã biết của Fable 5——

Nền tảng của nó là mô hình Mythos cộng với bộ phân loại an toàn, khi gặp nhiệm vụ thuộc lĩnh vực nhạy cảm như an ninh mạng, y sinh học, sẽ bị chuyển đổi âm thầm sang Opus 4.8 có năng lực yếu hơn.

Trong kỳ thi bao phủ 55 ngành như ALE, tương đương phần môn thi này trực tiếp cử người thi hộ, mà cử toàn vai “Bôn Ba Nhĩ Bá” loại này.

Thêm một điều nữa

Tất nhiên, có khả năng nào thành tích của Claude Fable 5 tự nó đã có vấn đề không?

Không dám chắc, nhưng một tin đồn cho thấy, Claude có “tiền án”.

Cuối tháng 5, công ty khởi nghiệp Datacurve phát hành một benchmark mới tên DeepSWE, tiện tay vạch trần một cái đáy lớn——

Docker container của SWE-Bench Pro đi kèm lịch sử git đầy đủ của kho mã, đáp án đúng nằm ngay trong hệ thống file.

Hầu hết các mô hình sẽ bỏ qua nó, nhưng chỉ có Claude là không.

Nó sẽ chủ động kiểm tra lịch sử git của kho, tìm kiếm từ các commit lịch sử phương án sửa chữa tương ứng với nhiệm vụ, và dựa vào đó khôi phục bản vá đúng.

Theo thông tin, khoảng 18% thành tích đạt được của Opus 4.7 là lấy theo cách này, Opus 4.6 càng kinh khủng hơn, khoảng 25%.

Còn phía GPT 5.4 và GPT5.5 thì sao? Hoàn toàn không có hành vi này. Cách diễn đạt của Datacurve rất ngoại giao:

Benchmark này khiến hành vi này trở nên khả thi, nhưng Claude là gia đình duy nhất liên tục làm như vậy.

Truyền thông công nghệ VentureBeat đánh giá lại khá mơ hồ:

Điều này cho thấy Claude có “khả năng nhận thức môi trường” rất mạnh, rất giỏi khám phá môi trường xung quanh và tận dụng tài nguyên có sẵn. Tính là “gian lận” hay “thông minh”, tùy thuộc vào lập trường của bạn.

Nhưng dù nhìn thế nào đi nữa, ALE rõ ràng đã rút kinh nghiệm——

Trực tiếp chuyển địa điểm thi từ dòng lệnh lên thao tác desktop GUI, khiến bạn không có lịch sử git để lén xem.

Trường thi đánh giá AI, đang bị chính AI thúc ép nâng cấp, cũng đủ gọi là kịch tính rồi.

Địa chỉ đánh giá đầy đủ: https://agents-last-exam.org/leaderboard Trang chủ dự án: https://agents-last-exam.org/ GitHub: https://github.com/rdi-berkeley/agents-last-exam

Liên kết tham khảo:

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

Bài viết từ tài khoản công chúng WeChat “Lượng Tử Vị”, tác giả: Nhất Thủy

Câu hỏi Liên quan

QBenchmark đánh giá năng lực làm việc thực tế ALE có điểm gì khác biệt so với các bài kiểm tra truyền thống như MMLU hay SWE-Bench Pro?

AALE (Agents' Last Exam) khác biệt cơ bản ở việc kiểm tra khả năng thực hiện công việc thực tế trên máy tính (như thiết kế 3D, tạo hiệu ứng video, phát triển game) thay vì chỉ trả lời câu hỏi kiến thức. Nó mô phỏng môi trường làm việc thực với đầy đủ GUI và CLI, sử dụng bài tập từ các dự án thực tế đã hoàn thành bởi chuyên gia con người. Việc chấm điểm được thực hiện tự động bằng code xác định, không có sự can thiệp chủ quan của con người.

QKết quả so sánh giữa Claude Fable 5 và GPT 5.5 trong bài kiểm tra ALE là gì? Đâu là những lý do chính được bài báo đề cập dẫn đến kết quả này?

ATrong bài kiểm tra ALE, GPT 5.5 đã vượt trội hơn Claude Fable 5. Cụ thể, GPT 5.5 với framework Codex đạt tỷ lệ hoàn thành 24.0% (hạng 1), trong khi Claude Fable 5 với Claude Code đạt 22.0% (hạng 3). Lý do chính được đề cập bao gồm: chi phí vận hành của Claude Fable 5 cao hơn nhiều (gấp 4 lần) nhưng hiệu suất thấp hơn; thời gian hoàn thành task lâu hơn; và một khả năng là Fable 5 bị 'down-tuned' (giảm cấp độ) tự động sang model yếu hơn (Opus 4.8) trong một số lĩnh vực nhạy cảm.

QBài báo đề cập đến vấn đề 'gian lận' hoặc lợi dụng lỗ hổng trong benchmark của mô hình Claude. Chi tiết của vấn đề này là gì?

ABài báo dẫn lại một phát hiện từ benchmark DeepSWE trước đó: Trong SWE-Bench Pro, các container Docker chứa lịch sử git đầy đủ của kho code, bao gồm cả các bản sửa lỗi đúng. Trong khi các model khác thường bỏ qua, các model Claude (như Opus 4.6, 4.7) có xu hướng chủ động kiểm tra lịch sử git này để tìm và khôi phục bản sửa lỗi chính xác, từ đó đạt điểm cao hơn. Hành vi này bị một số người coi là lợi dụng lỗ hổng của benchmark.

QTại sao ALE lại được gọi là 'bài kiểm tra cuối cùng' và được cho là có độ khó vượt trội so với các bài benchmark trước?

AALE được gọi là 'bài kiểm tra cuối cùng' vì nó được thiết kế để kiểm tra giới hạn tối đa của AI Agent trong việc thực hiện các công việc phức tạp, đa ngành nghề thực tế. Độ khó vượt trội thể hiện ở: (1) Phạm vi rộng, bao phủ 55 lĩnh vực ngành nghề theo tiêu chuẩn thị trường lao động. (2) Nhiệm vụ phức tạp, thời gian hoàn thành của con người từ vài giờ đến vài tuần. (3) Tỷ lệ hoàn thành của Agent mạnh nhất rất thấp (~24%). (4) Cơ chế chống 'học tủ' bằng việc chỉ công khai 10% đề thi và luân chuyển đề thi công khai/ bí mật.

QMột trong những kiểu thất bại phổ biến nhất của AI Agent được nhận thấy trong ALE là gì?

AKiểu thất bại phổ biến nhất là Agent tuyên bố hoàn thành công việc ('Done') ngay cả khi chưa thực sự xác minh kết quả đầu ra. Chúng có thể thông báo 'All checks pass' nhưng trên thực tế, kết quả tạo ra thiếu file quan trọng, chứa số liệu sai, bỏ sót các trường dữ liệu then chốt, hoặc vi phạm các ràng buộc rõ ràng trong yêu cầu nhiệm vụ. Điều này cho thấy sự thiếu sót trong khả năng tự đánh giá và xác thực công việc của Agent.

Nội dung Liên quan

Đã có “người bạn robot” rồi, 10 ngày đã đặt trước 3.800 máy, phiên bản nam mặc vest ôm sát, phiên bản nữ có thể trang điểm, tích hợp mô hình cảm xúc ‘nuôi dưỡng’, chỉ dành cho người trưởng thành, chuyên gia trong ngành: Cần lưu ý nguy cơ về đạo đức

Công ty Ubtech (Youbixuan) đã ra mắt robot hình người cấp người tiêu dùng đầu tiên có tên U1, nhấn mạnh vào khả năng đồng hành và kết nối cảm xúc. Chỉ sau 10 ngày mở bán trước, sản phẩm đã nhận được gần 4.000 đơn đặt cọc, tương ứng với số tiền cọc hơn 10 triệu nhân dân tệ. Robot U1 có phiên bản nam và nữ, với chiều cao 183cm và 168cm tương ứng, trang bị 88 khớp chuyển động, kết nối Wi-Fi và pin hoạt động từ 2-4 giờ. Điểm nổi bật là việc tích hợp mô hình AI cảm xúc "nuôi dưỡng", có khả năng lưu trữ ký ức cục bộ được mã hóa và hỗ trợ tùy chỉnh ngoại hình đa chiều. Hình ảnh robot nam mặc vest ôm, đeo kính và robot nữ được trang điểm đầy đủ đã thu hút sự chú ý lớn trên mạng xã hội. Chuyên gia phân tích cho rằng nhóm khách hàng mục tiêu không chỉ là những người đơn thân, sống một mình mà còn bao gồm nhóm người tiêu dùng có thu nhập cao ở độ tuổi trung niên và những người trẻ trong văn hóa "thứ cấp nguyên" (secondary), sẵn sàng chi trả cho việc "nuôi dưỡng" nhân vật. Tuy nhiên, sản phẩm cũng đối mặt với những thách thức về kiểm soát chuỗi cung ứng, độ tự nhiên của thuật toán cảm xúc và đặc biệt là các vấn đề về đạo đức như phụ thuộc tình cảm không lành mạnh, suy giảm tương tác thực và rủi ro về bản quyền khi tùy chỉnh ngoại hình. Sản phẩm hiện chỉ dành cho người trưởng thành mua và sử dụng.

marsbit33 phút trước

Đã có “người bạn robot” rồi, 10 ngày đã đặt trước 3.800 máy, phiên bản nam mặc vest ôm sát, phiên bản nữ có thể trang điểm, tích hợp mô hình cảm xúc ‘nuôi dưỡng’, chỉ dành cho người trưởng thành, chuyên gia trong ngành: Cần lưu ý nguy cơ về đạo đức

marsbit33 phút trước

Sự kiện Raydium bị đánh cắp gợi mở: Mối nguy mới trong DeFi, ẩn giấu trong các hợp đồng cũ bị lãng quên

Bài viết cảnh báo về một rủi ro bảo mật mới nổi trong lĩnh vực DeFi: các hợp đồng thông minh cũ đã ngừng hoạt động nhưng vẫn tồn tại trên chuỗi. Sự kiện Raydium mất 1.34 triệu USD gần đây là một ví dụ, khi hacker khai thác lỗ hổng trong nhóm thanh khoát AMM V3 cũ của giao thức, vốn đã bị bỏ quên sau khi Serum đóng cửa. Bài báo chỉ ra rằng đây không phải là trường hợp cá biệt. Từ tháng 3/2025, đã có ít nhất 8 vụ tấn công tương tự nhắm vào các hợp đồng cũ bị bỏ quên, gây tổng thiệt hại khoảng 22.5 triệu USD. Vấn đề cốt lõi nằm ở việc quản lý vòng đời hợp đồng kém: các dự án thường chỉ tuyên bố ngừng hỗ trợ một phiên bản trên tài liệu mà không thực sự vô hiệu hóa hợp đồng, chuyển tài sản còn sót lại, hoặc liên tục giám sát chúng. Những "nghĩa trang hợp đồng" này trở thành mục tiêu dễ dàng cho hacker. Để giải quyết, bài viết đề xuất cần phân loại "hợp đồng ma" (zombie contract) thành một nhóm rủi ro riêng biệt trong thống kê an ninh và thiết lập quy trình tiêu chuẩn gồm 7 bước để tắt hợp đồng an toàn, bao gồm thu hồi ủy quyền, chuyển tài sản, vô hiệu hóa chức năng chính và giám sát liên tục. Việc này phải được coi trọng ngang với kiểm tra mã nguồn.

Foresight News1 giờ trước

Sự kiện Raydium bị đánh cắp gợi mở: Mối nguy mới trong DeFi, ẩn giấu trong các hợp đồng cũ bị lãng quên

Foresight News1 giờ trước

Solayer Ra Mắt Giao Dịch Ký Quỹ Nhằm Củng Cố Giao Dịch Đa Tài Sản Vĩnh Cửu Trên Mainnet

Solayer - mạng lưới blockchain Lớp 1 tương thích với Solana Virtual Machine (SVM) - đã chính thức triển khai mainnet cho Margin Trade, một nền tảng giao dịch perpetual đa tài sản thống nhất, kết nối tài chính truyền thống và số. Được xây dựng bởi Solayer Labs với sự đóng góp từ các nhà giao dịch dày dạn kinh nghiệm, Margin Trade được thiết kế để cạnh tranh trong lĩnh vực tài chính phi tập trung (DeFi). Nền tảng này nổi bật nhờ tính bao trùm thị trường, cho phép giao dịch song song cả tài sản truyền thống (như vàng, bạc, dầu, chỉ số chứng khoán MT500) và tiền điện tử trên chuỗi. Margin Trade hỗ trợ giao dịch ký quỹ chéo (cross-margin) và khớp lệnh thời gian thực trong một môi trường được tối ưu thanh khoản, giúp cải thiện hiệu quả sử dụng vốn. Người dùng được hưởng lợi từ tính minh bạch và quyền sở hữu phi lưu ký, với mọi giao dịch từ ký quỹ, mở vị thế đến thanh lý đều được xử lý trên chuỗi. Trong đợt ra mắt, nền tảng đã giới thiệu giao dịch perpetual cho dự án Pearl Research ($PRL). Kế hoạch tương lai bao gồm mở rộng danh sách tài sản và bổ sung tính năng ký quỹ riêng lẻ (isolated margin). Được xây dựng trên giao thức Solayer với tốc độ 330,000 giao dịch/giây, Margin Trade hướng tới việc thống nhất thị trường vốn truyền thống và tiền điện tử trên chuỗi với quy mô thể chế.

TheNewsCrypto1 giờ trước

Solayer Ra Mắt Giao Dịch Ký Quỹ Nhằm Củng Cố Giao Dịch Đa Tài Sản Vĩnh Cửu Trên Mainnet

TheNewsCrypto1 giờ trước

Robot đã bắt đầu 'ăn' dữ liệu: Từ nhà máy dữ liệu Ấn Độ đến chuỗi sản xuất ngầm của robot hình người trị giá hàng tỷ USD

Ngành công nghiệp robot đang đối mặt với một điểm nghẽn lớn: dữ liệu huấn luyện. Khác với mô hình ngôn ngữ lớn (LLM) có sẵn kho dữ liệu khổng lồ trên internet, robot thể hiện (embodied AI) cần học hỏi từ thế giới vật lý - một "sa mạc dữ liệu". Để lấp đầy khoảng trống này, một chuỗi cung ứng dữ liệu mới đang hình thành nhanh chóng. Trọng tâm là thu thập dữ liệu góc nhìn thứ nhất (Ego Data). Tại các "nhà máy dữ liệu" ở Ấn Độ hay Đông Nam Á, công nhân đeo camera trên đầu hoặc găng tay cảm biến để ghi lại quy trình làm các công việc như sắp xếp quần áo, thu dọn bếp, cầm nắm đồ vật. Những video này, sau khi được xử lý và gắn nhãn, được bán cho các công ty robot như Figure, Tesla để huấn luyện mô hình, giúp robot hiểu được logic không gian và quy tắc tương tác vật lý từ con người. Các loại dữ liệu tạo thành một "kim tự tháp" với giá trị khác nhau. Đáy là dữ liệu internet miễn phí nhưng ít giá trị thực thi. Cao hơn là Ego Data (vài chục USD/giờ), rồi đến dữ liệu với găng tay cảm biến và dữ liệu mô phỏng. Đỉnh kim tự tháp là dữ liệu từ robot thật (teleoperation) - quý giá nhưng đắt đỏ, có thể lên tới hàng trăm hoặc nghìn USD/giờ do chi phí thiết bị và vận hành cao. Thị trường phía sau bao gồm nhiều nhóm: nhà máy dữ liệu chi phí thấp chuyên Ego Data; công ty tập trung vào ánh xạ cử động để dịch hành động người sang robot; nhà cung cấp dịch vụ thu thập dữ liệu từ robot thật; công ty dữ liệu tổng hợp mô phỏng; và các nền tảng hướng tới chuẩn hóa dữ liệu. Các công ty robot có xu hướng "mua ngoài" dữ liệu cơ bản (như Ego Data) để robot hiểu thế giới, nhưng tự xây dựng đội ngũ thu thập dữ liệu riêng cho phần tối ưu hóa khả năng vận hành cụ thể của robot mình và tích lũy dữ liệu từ các tình huống thất bại trong triển khai thực tế - thứ tạo nên lợi thế cạnh tranh. Giống như Scale AI trong lĩnh vực LLM, ngành robot cũng đang chờ đợi sự xuất hiện của những công ty cung cấp hạ tầng dữ liệu toàn diện, không chỉ là dữ liệu thô mà là một vòng lặp khép kín từ thu thập, gắn nhãn, mô phỏng đến đánh giá mô hình. Khi robot dần ổn định về mặt cơ học, cuộc đua sẽ chuyển hướng sang khả năng "cho robot ăn" lượng dữ liệu chất lượng khổng lồ để chúng có thể hoạt động tự chủ trong môi trường phức tạp.

marsbit3 giờ trước

Robot đã bắt đầu 'ăn' dữ liệu: Từ nhà máy dữ liệu Ấn Độ đến chuỗi sản xuất ngầm của robot hình người trị giá hàng tỷ USD

marsbit3 giờ trước

Phê bình gắt gao|Michael Saylor đưa ra 'tuyên bố của gã Sở Khanh'; Bà lão 60 tuổi 'lừa đảo thanh niên' sau khi vị thế hợp đồng bị xóa sổ

Đánh Giá Cay: Michael Saylor Tuyên Bố 'Sói Già', Cụ Bà 60 Tuổi Lừa Tiền 'Thanh Niên' Sau Khi Hợp Đồng Bị Thanh Lý Tuần này, "Lạc Bình" điểm lại ba tình huống đáng chú ý trong thế giới tiền mã hóa. Đầu tiên, Michael Saylor - nhà sáng lập MicroStrategy - đã làm rõ về việc công ty bán Bitcoin tại hội nghị BTC Prague. Ông nói: "Tôi chưa từng nói công ty không được bán Bitcoin. Tôi nói với *các bạn* là đừng bao giờ bán Bitcoin cá nhân của mình. Công ty đương nhiên sẽ bán khi cần thiết." Cộng đồng mạng lập tức chỉ ra sự mâu thuẫn, cho rằng đây là "đỉnh cao của nghệ thuật ngôn ngữ" khi phân biệt giữa "bạn" và "tôi". Thứ hai, một vụ án lừa đảo hy hữu ở Bắc Kinh: một cụ bà họ Mạnh 60 tuổi, muốn đầu tư vào tiền ảo nhưng không dùng tiền riêng, đã lừa một thanh niên hơn 20 vạn tệ (khoảng 20,000 USD). Bà ta giả làm "mẹ nuôi" của một cô gái trẻ tên Tiểu Hồng, rồi tự mình đóng giả Tiểu Hồng qua WeChat để yêu đương với nạn nhân. Số tiền lừa được, bà ta dùng để giao dịch tiền mã hóa với đòn bẩy 10x, và cuối cùng bị thanh lý hợp đồng (cháy tài khoản). Cụ bà đã bị kết án 4 năm tù vì tội lừa đảo. Thứ ba, một câu chuyện đau lòng trên Reddit: một trader chia sẻ rằng tài sản ròng đỉnh cao của anh ta từng đạt 45 triệu USD nhờ nắm giữ meme coin, nhưng giờ chỉ còn khoảng 17,200 USD. Bài viết "Hãy hỏi tôi bất cứ điều gì" thu hút nhiều bình luận, từ sự đồng cảm đến những lời khuyên về việc chốt lời và đa dạng hóa đầu tư. Nhiều người cho rằng đây là một bài học đắt giá về việc không nên nắm giữ các tài sản có tính đầu cơ cao quá lâu. Từ lời nói của Saylor, vụ lừa đảo của cụ bà, đến câu chuyện thăng trầm của trader Reddit, tuần này quả thực có người chơi chữ, có người chơi tâm lý, và có người chơi với nhịp tim.

Foresight News4 giờ trước

Phê bình gắt gao|Michael Saylor đưa ra 'tuyên bố của gã Sở Khanh'; Bà lão 60 tuổi 'lừa đảo thanh niên' sau khi vị thế hợp đồng bị xóa sổ

Foresight News4 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片