# Bài viết Liên quan Tập dữ liệu

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Tập dữ liệu", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

Đột phá mới trong Trí tuệ thể hiện: AutoNomy mở nguồn toàn bộ mô hình nền tảng robot đa năng ABot-M0

Lĩnh vực trí tuệ thể hiện (Embodied AI) đạt bước tiến đột phá: AutoNomy (Gaode) chính thức mở nguồn toàn bộ mô hình nền tảng robot đa năng ABot-M0 - mô hình kiến trúc thống nhất đầu tiên trên toàn cầu dành cho thao tác của robot. ABot-M0 hướng tới mục tiêu "một bộ não đa năng phù hợp với nhiều loại robot", phá vỡ rào cản giữa các phần cứng khác nhau, thúc đẩy ứng dụng trí tuệ thể hiện từ phòng thí nghiệm vào công nghiệp và gia đình. Về hiệu suất: ABot-M0 đạt tỷ lệ hoàn thành nhiệm vụ 80.5% trên benchmark Libero-Plus, vượt trội hơn 30% so với phương án tiêu chuẩn trước đó là Pi0, đồng thời thiết lập kỷ lục mới (SOTA) trên cả Libero và RoboCasa. AutoNomy mở nguồn toàn diện 3 khía cạnh: 1. **Dữ liệu:** Bộ dữ liệu UniACT với hơn 6 triệu đường dẫn thao tác thực tế. 2. **Thuật toán:** Công bố kiến trúc mô hình, framework huấn luyện, bao gồm thuật toán học đa tạp hành động (AML) sáng tạo và kiến trúc cảm nhận hai luồng. 3. **Mô hình:** Cung cấp mô hình đã tiền huấn luyện end-to-end và bộ công cụ đầy đủ, cho phép sử dụng ngay lập tức. Việc mở nguồn ABot-M0 nhằm giải quyết các vấn đề "ốc đảo dữ liệu" và "triển khai khó khăn", giảm đáng kể ngưỡng ứng dụng cho robot hợp tác công nghiệp và robot dịch vụ gia đình, xây dựng cầu nối giữa nghiên cứu học thuật và ứng dụng công nghiệp.

marsbit04/01 08:20

Đột phá mới trong Trí tuệ thể hiện: AutoNomy mở nguồn toàn bộ mô hình nền tảng robot đa năng ABot-M0

marsbit04/01 08:20

AI2 Công Bố Trình Tác Vụ Web Mã Nguồn Mở Toàn Phần MolmoWeb: Chỉ Cần 'Thị Giác' Là Có Thể Điều Khiển Trang Web

Viện Nghiên cứu Trí tuệ Nhân tạo Allen (AI2) vừa công bố tác nhân duyệt web mã nguồn mở đột phá **MolmoWeb**. Khác với các tác nhân truyền thống phụ thuộc vào mã nguồn trang web (DOM), MolmoWeb chỉ đưa ra quyết định dựa trên việc đọc ảnh chụp màn hình, đánh dấu một bước nhảy vọt lớn trong công nghệ điều hướng web dựa trên "thị giác". MolmoWeb hoạt động theo cách chụp ảnh màn hình trình duyệt, phân tích hình ảnh để quyết định thao tác tiếp theo (như nhấp chuột, cuộn trang), rồi thực hiện và lặp lại. Phương thức này giúp nó mạnh mẽ hơn vì bố cục trực quan của trang web thường ổn định hơn mã nguồn. Về hiệu suất, dù chỉ có quy mô tham số 4B và 8B, MolmoWeb thể hiện sức mạnh vượt trội: - **Dẫn đầu bảng xếp hạng:** Phiên bản 8B đạt **78.2%** trên bài kiểm tra WebVoyager, không chỉ đứng đầu trong các mô hình nguồn mở mà còn sát với mô hình độc quyền o3 của OpenAI (79.3%). - **Tiềm năng lớn:** Bằng cách chạy lặp lại và chọn kết quả tốt nhất, tỷ lệ thành công có thể tăng vọt lên **94.7%**. - **Định vị chính xác:** Nó thậm chí vượt qua Claude3.7 của Anthropic trong các bài kiểm tra định vị phần tử giao diện. AI2 cũng công bố bộ dữ liệu mở khổng lồ **MolmoWebMix**, bao gồm: - **36.000 nhiệm vụ duyệt web thực** được thực hiện bởi tình nguyện viên. - Hơn **2.2 triệu** cặp ảnh chụp màn hình - câu hỏi. - Dữ liệu tổng hợp tự động được xác thực bởi GPT-4o, thậm chí còn hiệu quả hơn dữ liệu con người trong việc hướng dẫn tác nhân. Hiện tại, MolmoWeb đã được mở hoàn toàn trên **Hugging Face** và **GitHub** với giấy phép Apache 2.0. Dù vẫn còn thách thức với các hướng dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý, AI2 tin rằng sự minh bạch và cộng tác cộng đồng là chìa khóa để chống lại sự độc quyền dữ liệu.

marsbit03/26 01:41

AI2 Công Bố Trình Tác Vụ Web Mã Nguồn Mở Toàn Phần MolmoWeb: Chỉ Cần 'Thị Giác' Là Có Thể Điều Khiển Trang Web

marsbit03/26 01:41

活动图片