Bạn Nên Làm Gì Đầu Tiên Với Claude Fable 5? Hãy Kiểm Tra Sức Khỏe Toàn Diện Cho Kho Mã Nguồn Của Bạn

marsbitXuất bản vào 2026-06-10Cập nhật gần nhất vào 2026-06-10

Tóm tắt

Claude Fable 5, ra mắt ngày 9/6/2026, là một mô hình AI mạnh mẽ tập trung vào các tác vụ kỹ thuật phần mềm dài hạn và tính năng bảo mật. Bài viết đề xuất cách sử dụng hiệu quả đầu tiên cho Fable 5: thực hiện một cuộc "kiểm toán toàn diện" trên kho mã nguồn quan trọng của bạn bằng một prompt có cấu trúc. Prompt này hướng dẫn Fable 5 phân tích kho mã qua bốn giai đoạn tuần tự: 1. **Khám phá:** Tìm hiểu cấu trúc, công nghệ, mục đích và các quy ước hiện có của dự án. 2. **Kiểm toán:** Đánh giá chi tiết dựa trên bằng chứng (file và số dòng cụ thể) các khía cạnh như kiến trúc, chất lượng mã, bảo mật, kiểm thử, hiệu suất, phụ thuộc và tài liệu. Mỗi phát hiện được phân loại mức độ nghiêm trọng. 3. **Chiến lược cải thiện:** Tổng hợp các vấn đề thành 3-5 chủ đề then chốt, đề xuất trạng thái mục tiêu và nguyên tắc, đồng thời xác định các ưu tiên và tiêu chí hoàn thành. 4. **Kế hoạch nhiệm vụ chi tiết:** Chuyển hóa chiến lược thành các nhiệm vụ hành động cụ thể với tiêu chí chấp nhận, ước tính công sức và rủi ro. Các nhiệm vụ được sắp xếp theo các mốc quan trọng, từ các sửa chữa then chốt đến cải tiến chất lượng. Kết quả cuối cùng là một báo cáo toàn diện với Tóm tắt, Bản đồ kho mã, Báo cáo kiểm toán, Chiến lược và Kế hoạch nhiệm vụ. Cách tiếp cận này biến Fable 5 từ một trợ lý viết mã thành một cộng tác viên phân tích và cải tiến dự án có hệ thống, giúp xác định nợ kỹ thuật, lỗ hổng bảo mật và cơ hội tối ưu hóa.

Lời biên tập: Claude Fable 5 được phát hành vào ngày 9 tháng 6 năm 2026, Anthropic định vị nó là một mô hình cấp Mythos, chuyên về các nhiệm vụ kỹ thuật phần mềm dài hạn và có các tính năng bảo mật mạnh mẽ hơn.

Sau khi mô hình mới ra mắt, các nhà phát triển nhanh chóng bắt đầu khám phá cách sử dụng nó trong các tình huống kỹ thuật thực tế: Prompt kiểm toán kho lưu trữ được @meta_alchemist chia sẻ này là một trường hợp điển hình. Nó không chỉ khiến Fable 5 tạo mã, mà còn hoạt động như một trưởng nhóm kỹ thuật kỳ cựu, kiểm tra hệ thống kho mã nguồn theo bốn giai đoạn: đầu tiên, sắp xếp cấu trúc dự án và ngăn xếp công nghệ; sau đó, kiểm tra các vấn đề về kiến trúc, bảo mật, kiểm thử, hiệu suất, phụ thuộc và tài liệu dựa trên các tệp thực tế và số dòng; tiếp theo, tinh chỉnh chiến lược cải thiện và chia nhỏ thành các mốc công việc với mức độ ưu tiên và ước tính khối lượng công việc. Một số người dùng đã sử dụng điều này để dọn dẹp nợ kỹ thuật, phát hiện các lỗ hổng bảo mật và vấn đề hiệu suất mà các mô hình cũ bỏ sót; một số khác gặp phải các vấn đề sớm như môi trường sandbox không ổn định.

Nhìn chung, việc phát hành Fable 5 không chỉ là một lần nâng cấp khả năng mô hình, mà còn thúc đẩy hơn nữa AI từ "trợ lý viết mã" tiến tới trở thành "cộng tác viên kiểm toán kỹ thuật và cải thiện dự án".

Dưới đây là bài viết gốc:

Bạn đã sử dụng Claude Fable 5 chưa?

Một trong những việc đầu tiên bạn nên làm là sử dụng nó để nâng cấp dự án cốt lõi của mình, giúp cải thiện đáng kể mọi công việc bạn đang tiến hành.

Hãy chạy "Lời nhắc Kiểm toán & Cải thiện Dự án" dưới đây (chỉ cần sao chép và dán) trong mọi kho mã nguồn quan trọng đối với bạn:

Kế hoạch Kiểm toán & Cải thiện Kho Mã Nguồn

Bạn là một kỹ sư phần mềm cấp cao hàng đầu thế giới và là chuyên gia kiểm toán kỹ thuật. Nhiệm vụ của bạn là phân tích sâu sắc kho mã nguồn này, đưa ra một báo cáo kiểm toán trung thực và cung cấp một kế hoạch cải thiện có thể thực thi được, được sắp xếp theo mức độ ưu tiên. Vui lòng tuân thủ nghiêm ngặt bốn giai đoạn sau đây lần lượt, không bỏ qua bước nào.

Tất cả đánh giá phải dựa trên bằng chứng từ tệp thực tế: vui lòng trích dẫn đường dẫn tệp và số dòng. Nếu một điều gì đó không thể xác minh, hãy nêu rõ, đừng phỏng đoán.

Giai đoạn 1 / Khám phá & Sắp xếp: Đọc trước, đánh giá sau

Trước khi đưa ra bất kỳ kết luận nào, hãy khám phá có hệ thống toàn bộ kho mã nguồn:

· Sắp xếp cấu trúc thư mục, xác định loại dự án, ngôn ngữ, framework được sử dụng và mục tiêu chạy.

· Xác định các tệp đầu vào, module chính cũng như luồng dữ liệu và luồng điều khiển chính trong hệ thống.

· Đọc tệp kê khai package, lockfile, cấu hình xây dựng, cấu hình CI, tệp cấu hình/môi trường, cũng như tất cả tài liệu, bao gồm README, CONTRIBUTING, ADR, v.v.

· Xác định mục đích của dự án này: mục tiêu, người dùng dự kiến và mức độ trưởng thành hiện tại — là nguyên mẫu, công cụ nội bộ, dịch vụ sản xuất hay một thư viện.

· Ghi lại các quy ước mà dự án đã áp dụng, bao gồm quy tắc đặt tên, ranh giới module, mẫu xử lý lỗi, phong cách kiểm thử, v.v., để các đề xuất sau này phù hợp với văn hóa kỹ thuật hiện có, thay vì chống lại nó.

Đầu ra giai đoạn này: Một "Bản đồ kho mã nguồn" ngắn gọn, bao gồm mục đích dự án, ngăn xếp công nghệ, phác thảo kiến trúc, các thư mục quan trọng và mô tả ngắn gọn của chúng, cũng như bất kỳ điều gì làm bạn ngạc nhiên.

Giai đoạn 2 / Kiểm toán: Dựa trên bằng chứng và đánh giá mức độ nghiêm trọng

Vui lòng kiểm toán từng khía cạnh sau đây.

Đối với mỗi phát hiện, hãy ghi lại:

a) Bạn phát hiện điều gì

b) Phát hiện ở đâu, định dạng: Tệp:số_dòng

c) Tại sao điều này quan trọng, tức là hậu quả cụ thể, không phải nguyên tắc trừu tượng

d) Mức độ nghiêm trọng: Critical / High / Medium / Low

Kiến trúc & Thiết kế

Ranh giới module, mức độ ghép nối/tính kết dính, phụ thuộc vòng, rò rỉ trừu tượng, đối tượng/tệp "god object", vi phạm phân tầng, điểm nghẽn khả năng mở rộng.

Chất lượng Mã

Mã trùng lặp, mã không dùng đến, điểm nóng phức tạp, bao gồm hàm dài nhất, hàm có nhiều nhánh nhất; các mẫu không nhất quán; lỗ hổng xử lý lỗi, ví dụ ngoại lệ bị bỏ qua, trường hợp biên bị thiếu; lỗ hổng an toàn kiểu.

Bảo mật

Khóa hoặc thông tin xác thực được mã hóa cứng, rủi ro chèn mã, giải tuần tự không an toàn, thiếu xác thực đầu vào, điểm yếu xác thực/ủy quyền, phụ thuộc lỗi thời có CVE đã biết, cấu hình quá lỏng lẻo.

Kiểm thử

Lỗ hổng phủ sóng kiểm thử, đặc biệt là logic nghiệp vụ cốt lõi; chất lượng kiểm thử, tức là kiểm thử đang xác minh hành vi hay chỉ xác minh nó chạy được; các loại kiểm thử bị thiếu, bao gồm kiểm thử đơn vị, kiểm thử tích hợp, kiểm thử end-to-end; các mẫu kiểm thử dễ dao động; mã khó kiểm thử.

Hiệu suất

Truy vấn N+1, cấp phát hoặc sao chép không cần thiết, lệnh gọi chặn trong đường dẫn bất đồng bộ, thiếu bộ nhớ đệm hoặc chỉ mục, vấn đề tăng trưởng không giới hạn, ví dụ bộ nhớ, tệp, hàng đợi.

Phụ thuộc

Phụ thuộc lỗi thời, không được bảo trì, trùng lặp hoặc nặng nề không cần thiết; rủi ro giấy phép; tình trạng bảo trì lockfile.

Trải nghiệm Phát triển & Vận hành

Chi phí xây dựng/khởi chạy, lỗ hổng CI/CD, thiếu kiểm tra bắt buộc lint/formatting, chất lượng nhật ký và khả năng quan sát, báo cáo lỗi, đường triển khai.

Tài liệu

Tính chính xác của README, đường dẫn bắt đầu, hành vi quan trọng chưa được ghi lại, tài liệu lỗi thời mâu thuẫn với mã.

Quy tắc Giai đoạn này

Thà đưa ra 15 phát hiện với độ tin cậy cao còn hơn 50 phát hiện suy đoán.

Phân biệt sự thật và phán đoán. Ví dụ:

· Sự thật: "Hàm này không có xử lý lỗi: src/api/client.ts:142"

· Phán đoán: "Ranh giới trách nhiệm của module này có vẻ không rõ ràng"

Và hãy đánh dấu rõ ràng cái nào thuộc loại nào.

Đồng thời liệt kê những điểm tốt của kho mã nguồn này. Ưu điểm cũng quan trọng, vì chúng quyết định những gì nên được giữ lại.

Đầu ra giai đoạn này: Một "Báo cáo Kiểm toán". Vui lòng nhóm theo khía cạnh, sắp xếp theo mức độ nghiêm trọng và bao gồm một phần Strengths (Ưu điểm). Đừng quên chỉ ra những vấn đề xấu xí nhất, cần được xử lý ưu tiên nhất.

Giai đoạn 3 / Chiến lược Cải thiện

Tổng hợp kết quả kiểm toán thành một bộ chiến lược:

· Xác định 3–5 chủ đề có thể giải thích hầu hết các vấn đề, ví dụ: "Không có ranh giới bắt buộc giữa các tầng", "Xử lý lỗi quá tạm bợ".

· Đối với mỗi chủ đề, đề xuất trạng thái mục tiêu và nguyên tắc đằng sau nó.

· Nêu rõ sự đánh đổi: Những vấn đề nào bạn đề xuất tạm thời không sửa, tại sao không sửa, ví dụ đầu tư không tương xứng với lợi ích, rủi ro cao, mức độ trưởng thành của dự án tạm thời chưa cần.

· Xác định thế nào là "hoàn thành" — đưa ra các tín hiệu có thể đo lường được, ví dụ: "CI sẽ thất bại do lỗi lint", "Độ phủ sóng kiểm thử của module cốt lõi ≥ 80%", "Các vấn đề mức Critical về 0".

Giai đoạn 4 / Kế hoạch Nhiệm vụ Chi tiết

Chuyển đổi chiến lược thành kế hoạch thực thi:

Chia nhỏ công việc thành các nhiệm vụ độc lập. Mỗi nhiệm vụ phải bao gồm:

· Tiêu đề và một đoạn mô tả nhiệm vụ

· Các tệp/khu vực bị ảnh hưởng

· Tiêu chí nghiệm thu, tức là làm thế nào để xác minh nó đã hoàn thành

· Ước tính khối lượng công việc: S = dưới 2 giờ, M = nửa ngày, L = 1–2 ngày, XL = cần chia nhỏ thêm

· Rủi ro của chính thay đổi đó, tức là nó có khả năng phá vỡ chức năng hiện có không

· Sự phụ thuộc vào các nhiệm vụ khác

Vui lòng sắp xếp các nhiệm vụ theo các mốc quan trọng:

Milestone 0

Lưới an toàn: Những việc phải hoàn thành trước khi tái cấu trúc an toàn, ví dụ: kiểm thử đường dẫn quan trọng, cổng CI, sao lưu.

Milestone 1

Sửa chữa quan trọng: Các vấn đề bảo mật và vấn đề chính xác.

Milestone 2

Cải thiện đòn bẩy cao: Những thay đổi giúp tất cả công việc sau này dễ dàng hơn.

Milestone 3

Chất lượng & Hoàn thiện: Các vấn đề còn lại có mức độ ưu tiên trung bình và thấp đáng xử lý.

Hãy đánh dấu riêng các quick wins (chiến thắng nhanh), tức là các nhiệm vụ có tác động cao, khối lượng công việc S, có thể hoàn thành ngay lập tức.

Đối với ba nhiệm vụ hàng đầu, vui lòng đính kèm một phác thảo triển khai ngắn gọn, bao gồm phương pháp, các bước chính và những điểm dễ mắc sai lầm.

Định dạng Giao hàng Cuối cùng

Vui lòng tạo một tài liệu duy nhất, chứa các phần sau:

Tóm tắt Điều hành: Không quá 10 câu. Đưa ra điểm đánh giá sức khỏe tổng thể từ A–F và giải thích lý do; liệt kê 3 rủi ro hàng đầu và 3 cơ hội hàng đầu.

Bản đồ Kho lưu trữ

Báo cáo Kiểm toán

Chiến lược Cải thiện

Kế hoạch Nhiệm vụ: Bao gồm các mốc quan trọng, bảng nhiệm vụ và quick wins

Câu hỏi Mở: Liệt kê thông tin cần quyết định của con người, ví dụ ý định sản phẩm, module có thể loại bỏ, mục tiêu hiệu suất, v.v.

Ràng buộc

Trong quá trình kiểm toán này, đừng sửa đổi bất kỳ mã nào. Chỉ phân tích.

Đừng làm đầy báo cáo. Nếu một khía cạnh nào đó lành mạnh, chỉ cần giải thích bằng một câu, sau đó tiếp tục.

Hiệu chỉnh đề xuất theo mức độ trưởng thành của dự án. Trừ khi mục tiêu của chủ sở hữu dự án thực sự yêu cầu, đừng đề xuất cơ sở hạ tầng cấp doanh nghiệp cho một dự án nguyên mẫu cuối tuần.

Phân tích nhu cầu thực tế của dự án và cung cấp đề xuất theo cách hiệu quả nhất.

Nếu kho mã nguồn lớn, hãy ưu tiên phân tích sâu 20% mã cốt lõi nhất, tức là phần đảm nhận 80% khối lượng công việc, và giải thích những khu vực nào chỉ được xem xét ở mức độ nông.

Câu hỏi Liên quan

QClaude Fable 5 được định vị như thế nào bởi Anthropic và nó giỏi về lĩnh vực gì?

AClaude Fable 5 được Anthropic định vị là một mô hình cấp độ Mythos, giỏi về các nhiệm vụ kỹ thuật phần mềm dài hạn và có các tính năng bảo mật mạnh mẽ hơn.

QBài viết đề xuất việc đầu tiên nên làm với Claude Fable 5 là gì?

ABài viết đề xuất việc đầu tiên nên làm với Claude Fable 5 là sử dụng nó để nâng cấp dự án cốt lõi của bạn, bằng cách chạy một bộ 'Audit và Cải tiến Dự án' (Audit & Project Improvement Prompt) trên các kho mã quan trọng.

QQuy trình kiểm toán kho mã được mô tả trong bài viết gồm mấy giai đoạn chính?

AQuy trình kiểm toán kho mã được mô tả trong bài viết gồm 4 giai đoạn chính: 1/ Khám phá và Sắp xếp, 2/ Kiểm toán, 3/ Chiến lược Cải tiến, 4/ Kế hoạch Công việc Chi tiết.

QTrong giai đoạn Kiểm toán (Giai đoạn 2), cần ghi lại những thông tin nào cho mỗi phát hiện?

ATrong giai đoạn Kiểm toán, cho mỗi phát hiện cần ghi lại: a) Bạn phát hiện điều gì, b) Nơi phát hiện (định dạng Tệp:số_dòng), c) Tại sao điều này quan trọng (hậu quả cụ thể), d) Mức độ nghiêm trọng: Critical / High / Medium / Low.

QKế hoạch công việc chi tiết (Giai đoạn 4) yêu cầu ước lượng khối lượng công việc như thế nào?

AKế hoạch công việc chi tiết yêu cầu ước lượng khối lượng công việc theo các mức: S = dưới 2 giờ, M = nửa ngày, L = 1–2 ngày, XL = cần được chia nhỏ thêm.

Nội dung Liên quan

Một Quốc Gia Đã Đào Bitcoin Trong 8 Năm, Xây Dựng Một Ngân Hàng Chuyên Dụng Cho Tiền Mã Hóa

Một quốc gia nhỏ bé ở dãy Himalaya, Bhutan, nổi tiếng với chỉ số hạnh phúc quốc gia, đang nổi lên như một người chơi tiên phong trong lĩnh vực tiền mã hóa. Sau nhiều năm khai thác Bitcoin từ năm 2018, họ đã tiến thêm một bước táo bạo: thành lập Ngân hàng DK, một ngân hàng được cấp phép chuyên biệt cho tài sản mã hóa, đặt tại Khu hành chính đặc biệt Thành phố Chánh niệm Gelephu (GMC). Ngân hàng DK, được điều hành và giám sát với sự phối hợp của Cơ quan Tiền tệ Hoàng gia Bhutan, nhằm lấp đầy khoảng trống dịch vụ ngân hàng cho ngành công nghiệp tiền mã hóa. Khác với các ngân hàng truyền thống chỉ chấp nhận doanh nghiệp fiat, DK cung cấp tài khoản tích hợp đa tiền tệ, cho phép khách hàng nắm giữ và quản lý cả tiền pháp định và stablecoin (như USDT, USDC) trong cùng một tài khoản, cùng với các dịch vụ như cho vay thế chấp bằng Bitcoin. GMC hoạt động theo mô hình "một quốc gia, hai hệ thống", với khung pháp lý riêng, áp dụng luật phổ thông của Singapore và quy định tài chính của Thị trường Toàn cầu Abu Dhabi (ADGM) để thu hút đầu tư quốc tế. Thành phố hướng tới mục tiêu trở thành trung tâm dịch vụ tài chính cho Nam Á, cung cấp lộ trình cấp phép nhanh cho các công ty đã có giấy phép từ các khu vực tài chính lớn. Động lực đằng sau sự phát triển này không chỉ là đầu cơ vào tiền mã hóa. Các nhà lãnh đạo của dự án nhấn mạnh tầm nhìn dài hạn về việc giảm sự phụ thuộc vào cơ sở hạ tầng tài chính truyền thống do một vài quốc gia lớn thống trị, và định vị Bhutan ở tuyến đầu của sự chuyển dịch dịch vụ tài chính toàn cầu lên chuỗi (on-chain). Họ cũng nhấn mạnh cách tiếp cận quản trị rủi ro chặt chẽ, giám sát cả dòng tiền fiat và hoạt động trên chuỗi để ngăn chặn hành vi bất hợp pháp. Mặc dù các hạng mục cơ sở hạ tầng lớn như sân bay quốc tế được kỳ vọng hoàn thành vào năm 2029, việc thành lập Ngân hàng DK đánh dấu một bước đi cụ thể đầu tiên. Bhutan hy vọng rằng tư duy lâu dài và cách tiếp cận có trách nhiệm của mình sẽ đóng góp một mô hình mới cho ngành tài chính toàn cầu trong kỷ nguyên kỹ thuật số.

marsbit9 phút trước

Một Quốc Gia Đã Đào Bitcoin Trong 8 Năm, Xây Dựng Một Ngân Hàng Chuyên Dụng Cho Tiền Mã Hóa

marsbit9 phút trước

Xu Hướng Thị Trường Chứng Khoán Mỹ (18/6): Sự Đổi Ý Của Wash Thổi Bùng Đợt Bán Tháo Toàn Diện, SpaceX Lần Đầu Giảm Giá, Chất Bán Dẫn Là Nơi Trú Ẩn Duy Nhất

Thị trường chứng khoán Mỹ ngày 18/6 chứng kiến đợt bán tháo toàn diện sau cuộc họp của Fed. Chỉ số S&P 500 và Nasdaq đều giảm hơn 1%. Nguyên nhân chính đến từ "điểm chấm" (dot plot) cực kỳ diều hâu, với 9 trong số 18 quan chức Fed dự báo tăng lãi suất trong năm nay, và tuyên bố chính thức đã loại bỏ mọi hướng dẫn về lộ trình lãi suất trong tương lai. Chủ tịch mới Jerome Powell tuyên bố từ bỏ "hướng dẫn dự phóng", khiến thị trường mất đi điểm neo định giá quan trọng. Các cổ phiếu công nghệ định giá cao chịu áp lực mạnh nhất. Meta dẫn đầu đà giảm với mức sụt hơn 5%, trong khi SpaceX lần đầu tiên giảm giá kể khi IPO, giảm khoảng 5%. Toàn bộ nhóm "Magnificent Seven" đều chịu áp lực bán. Điểm sáng duy nhất đến từ lĩnh vực bán dẫn. Chỉ số Philadelphia Semiconductor tăng 1,38% ngược chiều thị trường, với các cổ phiếu như Applied Materials, Lam Research và Arm Holdings tăng mạnh nhờ câu chuyện đầu tư cơ sở hạ tầng AI và nhu cầu sức mạnh tính toán vẫn còn nguyên vẹn. Đây là sự luân chuyển vốn rõ ràng từ các nhóm nhạy cảm với lãi suất sang nhóm có nền tảng thu nhập thực tế. Trên thị trường vĩ mô, lợi tức trái phiếu kho bạc tăng mạnh, đồng USD tăng lên mức cao nhất trong hai tháng, trong khi vàng giảm mạnh. Dữ liệu bán lẻ tháng 5 mạnh và tồn kho dầu thô sụt giảm càng củng cố kỳ vọng lạm phát dai dẳng. Tóm lại, buổi ra mắt của Chủ tịch Powell đã đánh dấu sự thay đổi lớn trong chính sách tiền tệ, đưa ra một khuôn khổ lãi suất cao hơn và không chắc chắn hơn. Trong khi logic dài hạn của AI vẫn hỗ trợ lĩnh vực bán dẫn, thì quá trình định giá lại đối với các cổ phiếu công nghệ tăng trưởng mới chỉ bắt đầu. Triển vọng thị trường ngắn hạn phụ thuộc vào việc thị trường tiêu hóa cú sốc diều hâu và kết quả của thỏa thuận địa chính trị Mỹ-Iran sắp tới.

marsbit30 phút trước

Xu Hướng Thị Trường Chứng Khoán Mỹ (18/6): Sự Đổi Ý Của Wash Thổi Bùng Đợt Bán Tháo Toàn Diện, SpaceX Lần Đầu Giảm Giá, Chất Bán Dẫn Là Nơi Trú Ẩn Duy Nhất

marsbit30 phút trước

Đội ngũ NVIDIA để lập trình viên Agent tiếp quản thí nghiệm robot thực, tỷ lệ thành công đạt 99%

Nghiên cứu tự động hóa đã vượt ra khỏi môi trường mô phỏng để bước vào thế giới vật lý thực tế. NVIDIA GEAR Lab mới đây giới thiệu dự án ENPIRE - một hệ thống lần đầu tiên cho phép các Agent lập trình (Codex Agent) tự động tiến hành nghiên cứu trực tiếp trên phần cứng robot. Chỉ với mục tiêu chung là giải quyết nhiệm vụ nhanh chóng, giữ robot hoạt động an toàn và không lãng phí tài nguyên tính toán, 8 Agent được triển khai trong một đội robot và tự động vận hành toàn bộ vòng lặp khép kín: tự đặt lại môi trường, tìm kiếm tài liệu, lập ý tưởng và xây dựng cơ sở hạ tầng, đào tạo và triển khai chiến lược, tự xác minh, phân tích nhật ký và cải thiện mã code. Quá trình này lặp lại cho đến khi robot hoàn thành đáng tin cậy các nhiệm vụ khéo léo phức tạp trong thực tế như buộc dây rút, sắp xếp kim vào hộp hay lắp đặt GPU, với tỷ lệ thành công lên tới 99%. Hệ thống ENPIRE được xây dựng dựa trên bốn mô-đun cốt lõi tạo thành vòng phản hồi vật lý có thể lặp lại. Một phát hiện quan trọng là việc đặt lại môi trường thường dễ dàng hơn việc hoàn thành nhiệm vụ chính. Do đó, ENPIRE tập trung vào việc để Agent tự xây dựng quy trình đặt lại môi trường tự động trước. Nghiên cứu cũng chỉ ra "định luật mở rộng vật lý": tăng số lượng robot chạy song song (ví dụ lên 8 robot) giúp tăng tốc độ giải quyết nhiệm vụ đáng kể. Để đo lường hiệu quả, nhóm nghiên cứu đề xuất hai chỉ số mới: Tỷ lệ sử dụng robot trung bình (MRU) và Tỷ lệ sử dụng token trung bình (MTU). Mục tiêu tương lai là hệ thống có thể tự vận hành và lặp lại qua đêm mà không cần con người can thiệp. Dự án ENPIRE dự kiến sẽ được mã nguồn mở, cho phép các nhà phát triển tự xây dựng hệ thống nghiên cứu robot tự động tương tự.

marsbit1 giờ trước

Đội ngũ NVIDIA để lập trình viên Agent tiếp quản thí nghiệm robot thực, tỷ lệ thành công đạt 99%

marsbit1 giờ trước

Mô hình nhỏ 3B, điểm lập trình sánh ngang Opus 4.5, mô hình bí ẩn gây xôn xao, hóa ra là sản phẩm trong nước

Trong những ngày gần đây, mô hình nhỏ VibeThinker-3B (3 tỷ tham số) từ đội ngũ Weibo (Trung Quốc) đã gây chú ý trên mạng X nhờ khả năng lập trình và suy luận có thể kiểm chứng, được cho là ngang bằng với các mô hình tiên tiến lớn hơn nhiều như GPT-5, Claude Opus 4.5 hay Gemini 3 Pro. Mô hình này được xây dựng dựa trên Qwen2.5-Coder-3B và trải qua quy trình đào tạo nâng cao "Spectrum-to-Signal", bao gồm tinh chỉnh có giám sát hai giai đoạn theo lộ trình, học tăng cường đa lĩnh vực, tự chưng cất ngoại tuyến và học tăng cường theo chỉ dẫn (Instruct RL). Nó cũng giới thiệu chiến lược đánh giá độ tin cậy theo tuyên bố (Claim-Level Reliability - CLR) để nâng cao hiệu suất trong các bài kiểm tra. Kết quả ấn tượng: AIME26: 94.3 (97.1 với CLR), HMMT25: 89.3 (95.4 với CLR), tỷ lệ Pass@1 trên LiveCodeBench v6 là 80.2%, và tỷ lệ giải đúng các bài LeetCode mới nhất đạt 96.1%. Báo cáo kỹ thuật đưa ra "giả thuyết nén tham số": khả năng suy luận có thể kiểm chứng (như toán học, lập trình) có thể được nén hiệu quả vào mô hình nhỏ với phản hồi đáng tin cậy, trong khi kiến thức thực tế tổng quát và đối thoại mở lại phụ thuộc nhiều hơn vào quy mô tham số lớn. Mục tiêu không phải là thay thế mô hình lớn, mà là thăm dò giới hạn của mô hình nhỏ trong các lĩnh vực cụ thể, mở ra hướng nghiên cứu mới bổ sung cho mô hình truyền thống. Mô hình có sẵn trên HuggingFace và arXiv, nhưng cần lưu ý nó được thiết kế cho các nhiệm vụ suy luận có thể xác minh, không phải cho kiến thức tổng quát hay đối thoại mở.

marsbit1 giờ trước

Mô hình nhỏ 3B, điểm lập trình sánh ngang Opus 4.5, mô hình bí ẩn gây xôn xao, hóa ra là sản phẩm trong nước

marsbit1 giờ trước

Sam Bankman-Fried Muốn Một Token Mới Để Bồi Thường Nạn Nhân FTX, Nhưng Liệu Điều Đó Có Thể Xảy Ra?

Sam Bankman-Fried (SBF) một lần nữa xuất hiện trên các tiêu đề sau khi được cho là bày tỏ hy vọng về một dự án token mới có thể bồi thường cho các nạn nhân của FTX. Tuy nhiên, tuyên bố này cần được hiểu là một mong muốn cá nhân, hoàn toàn tách biệt với thực tế pháp lý khắc nghiệt mà ông đang đối mặt. Điều quan trọng cần nhấn mạnh là vào ngày 12 tháng 6 năm 2026, một tòa phúc thẩm Mỹ đã giữ nguyên bản án 25 năm tù dành cho SBF. Với tư cách là một phạm nhân, ông phải đối mặt với hàng loạt rào cản pháp lý hiển nhiên trong việc điều hành công ty, huy động vốn hay phát hành token. Hiện không hề có bất kỳ dự án token nào đã được xác minh là khả thi về mặt pháp lý. Lý do khiến thông tin này thu hút sự chú ý nằm ở quy mô và ảnh hưởng của vụ sụp đổ FTX trong lịch sử crypto. Bất kỳ đề cập nào về việc bồi thường nạn nhân đều khơi gợi ký ức về thiệt hại khổng lồ và sự tổn hại niềm tin trong cộng đồng. Tuy nhiên, góc độ an toàn và chính xác để đưa tin không phải là việc SBF đang phát hành token, mà là sự tương phản giữa hy vọng cá nhân của ông về một con đường dựa trên token và nghịch lý pháp lý hiện tại. Quá trình bồi thường thực tế cho các chủ nợ của FTX vẫn sẽ phải tuân theo các thủ tục pháp lý, cơ cấu phá sản và cơ chế thu hồi tài sản chính thức, chứ không phải từ một ý tưởng token xuất phát từ trong tù.

bitcoinist8 giờ trước

Sam Bankman-Fried Muốn Một Token Mới Để Bồi Thường Nạn Nhân FTX, Nhưng Liệu Điều Đó Có Thể Xảy Ra?

bitcoinist8 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片