Viện Nghiên Cứu Trí Tuệ Nhân Tạo Allen (AI2) gần đây đã công bố trình tác vụ web mã nguồn mở đột phá MolmoWeb . Khác với các trình tác vụ truyền thống phụ thuộc vào mã nguồn cơ bản (DOM) của trang web, MolmoWeb chỉ đưa ra quyết định thông qua việc đọc ảnh chụp màn hình, đánh dấu một bước tiến vượt bậc trong công nghệ điều hướng web 'được điều khiển bằng thị giác'.
Công Nghệ Cốt Lõi: 'Nhìn' Trang Web Như Con Người
Logic hoạt động của MolmoWeb rất trực quan: nó chụp ảnh màn hình cửa sổ trình duyệt hiện tại, phân tích thị giác để quyết định thao tác tiếp theo (như nhấp chuột, cuộn, lật trang), sau đó thực hiện và lặp lại. Mô hình 'thấy là có' này giúp nó mạnh mẽ hơn so với các trình tác vụ truyền thống, vì bố cục trực quan của trang web thường ổn định hơn mã nguồn cơ bản, và quá trình ra quyết định của nó hoàn toàn minh bạch và có thể giải thích được đối với người dùng.
Bước Nhảy Về Hiệu Suất: Mô Hình Nhỏ Đánh Bại Gã Khổng Lồ
Mặc dù quy mô tham số của MolmoWeb chỉ là 4B và 8B, nhưng về hiệu suất lại thể hiện sức mạnh 'lấy nhỏ thắng lớn':
Dẫn Đầu Bảng Xếp Hạng: Trong bài kiểm tra WebVoyager, phiên bản 8B đạt điểm số cao tới 78.2%, không chỉ đứng đầu trong các mô hình mã nguồn mở, mà còn tiệm cận với mô hình độc quyền o3 của OpenAI (79.3%).
Tiềm Năng Lớn: Nghiên cứu phát hiện, thông qua việc chạy lặp lại tác vụ và lọc ra kết quả tối ưu, tỷ lệ thành công của nó có thể nhảy vọt lên 94.7%.
Định Vị Chính Xác: Trong bài kiểm tra chuẩn định vị phần tử UI, nó thậm chí còn vượt qua Claude3.7 của Anthropic.
Dữu Liệu Hỗ Trợ: Bộ Dữ Liệu Mở Lớn Nhất Từ Trước Đến Nay
Lần này, AI2 không chỉ mở mã nguồn trọng số mô hình, mà còn đóng góp một bộ dữ liệu khổng lồ có tên MolmoWebMix. Bộ dữ liệu này bao gồm:
3.6 vạn lượt tác vụ duyệt web thực được hoàn thành bởi các tình nguyện viên con người.
Hơn 2.2 triệu cặp ảnh chụp màn hình - câu hỏi đáp án.
Dữ liệu tổng hợp tự động được xác minh bởi GPT-4o. Thực nghiệm chứng minh, dữ liệu tổng hợp trong việc hướng dẫn tác nhân thông minh tìm kiếm 'con đường tối ưu' thậm chí còn vượt trội hơn so với quỹ đạo của con người.
Tinh Thần Mã Nguồn Mở Và Thách Thức Tương Lai
Hiện tại, MolmoWeb đã được mở hoàn toàn trên Hugging Face và GitHub thông qua giao thức Apache2.0. Mặc dù vẫn phải đối mặt với những thách thức trong việc xử lý các chỉ dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý (như điều khoản dịch vụ), nhưng AI2 tin tưởng rằng chỉ thông qua sự minh bạch hoàn toàn và sự hợp tác cộng đồng, mới có thể thực sự chống lại sự độc quyền dữ liệu của các công ty công nghệ lớn.







