# Bài viết Liên quan Chuẩn mực

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Chuẩn mực", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

AI2 Công Bố Trình Tác Vụ Web Mã Nguồn Mở Toàn Phần MolmoWeb: Chỉ Cần 'Thị Giác' Là Có Thể Điều Khiển Trang Web

Viện Nghiên cứu Trí tuệ Nhân tạo Allen (AI2) vừa công bố tác nhân duyệt web mã nguồn mở đột phá **MolmoWeb**. Khác với các tác nhân truyền thống phụ thuộc vào mã nguồn trang web (DOM), MolmoWeb chỉ đưa ra quyết định dựa trên việc đọc ảnh chụp màn hình, đánh dấu một bước nhảy vọt lớn trong công nghệ điều hướng web dựa trên "thị giác". MolmoWeb hoạt động theo cách chụp ảnh màn hình trình duyệt, phân tích hình ảnh để quyết định thao tác tiếp theo (như nhấp chuột, cuộn trang), rồi thực hiện và lặp lại. Phương thức này giúp nó mạnh mẽ hơn vì bố cục trực quan của trang web thường ổn định hơn mã nguồn. Về hiệu suất, dù chỉ có quy mô tham số 4B và 8B, MolmoWeb thể hiện sức mạnh vượt trội: - **Dẫn đầu bảng xếp hạng:** Phiên bản 8B đạt **78.2%** trên bài kiểm tra WebVoyager, không chỉ đứng đầu trong các mô hình nguồn mở mà còn sát với mô hình độc quyền o3 của OpenAI (79.3%). - **Tiềm năng lớn:** Bằng cách chạy lặp lại và chọn kết quả tốt nhất, tỷ lệ thành công có thể tăng vọt lên **94.7%**. - **Định vị chính xác:** Nó thậm chí vượt qua Claude3.7 của Anthropic trong các bài kiểm tra định vị phần tử giao diện. AI2 cũng công bố bộ dữ liệu mở khổng lồ **MolmoWebMix**, bao gồm: - **36.000 nhiệm vụ duyệt web thực** được thực hiện bởi tình nguyện viên. - Hơn **2.2 triệu** cặp ảnh chụp màn hình - câu hỏi. - Dữ liệu tổng hợp tự động được xác thực bởi GPT-4o, thậm chí còn hiệu quả hơn dữ liệu con người trong việc hướng dẫn tác nhân. Hiện tại, MolmoWeb đã được mở hoàn toàn trên **Hugging Face** và **GitHub** với giấy phép Apache 2.0. Dù vẫn còn thách thức với các hướng dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý, AI2 tin rằng sự minh bạch và cộng tác cộng đồng là chìa khóa để chống lại sự độc quyền dữ liệu.

marsbit03/26 01:41

AI2 Công Bố Trình Tác Vụ Web Mã Nguồn Mở Toàn Phần MolmoWeb: Chỉ Cần 'Thị Giác' Là Có Thể Điều Khiển Trang Web

marsbit03/26 01:41

Founders Fund, Pantera và Franklin Templeton tham gia 'Arena' của Sentient, thử nghiệm áp lực cho các tác nhân AI cấp doanh nghiệp

Tổ chức nghiên cứu AI mã nguồn mở Sentient đã ra mắt Arena, một môi trường thử nghiệm áp lực thời gian thực dành cho các tác nhân AI cấp doanh nghiệp, với sự tham gia ban đầu của các tổ chức lớn như Founders Fund, Pantera và Franklin Templeton (quản lý tài sản 1,5 nghìn tỷ USD). Arena được thiết kế để kiểm tra độ tin cậy và khả năng lập luận của AI trong các tình huống phức tạp, đa bước và rủi ro cao, mô phỏng các quy trình làm việc thực tế như phân tích tài chính, dịch vụ khách hàng và tuân thủ. Thay vì chỉ đánh giá kết quả cuối cùng, Arena ghi lại toàn bộ quá trình lập luận, giúp các nhóm kỹ thuật xác định lỗi và cải thiện hiệu suất. Mục tiêu là tạo ra một tiêu chuẩn trung lập, không phụ thuộc vào nhà cung cấp, để đánh giá khả năng của AI trong các tình huống sản xuất thực tế. Thách thức đầu tiên tập trung vào lập luận tài liệu (document reasoning), một nền tảng cho nhiều ứng dụng doanh nghiệp. Các công ty như OpenHands và OpenRouter cũng tham gia hỗ trợ cơ sở hạ tầng và công cụ phát triển. Arena dự kiến mở rộng quy mô toàn cầu với các sự kiện trực tiếp từ tháng 3/2026.

marsbit02/27 13:30

Founders Fund, Pantera và Franklin Templeton tham gia 'Arena' của Sentient, thử nghiệm áp lực cho các tác nhân AI cấp doanh nghiệp

marsbit02/27 13:30

活动图片