AI2 Công Bố Trình Tác Vụ Web Mã Nguồn Mở Toàn Phần MolmoWeb: Chỉ Cần 'Thị Giác' Là Có Thể Điều Khiển Trang Web

marsbitXuất bản vào 2026-03-26Cập nhật gần nhất vào 2026-03-26

Tóm tắt

Viện Nghiên cứu Trí tuệ Nhân tạo Allen (AI2) vừa công bố tác nhân duyệt web mã nguồn mở đột phá **MolmoWeb**. Khác với các tác nhân truyền thống phụ thuộc vào mã nguồn trang web (DOM), MolmoWeb chỉ đưa ra quyết định dựa trên việc đọc ảnh chụp màn hình, đánh dấu một bước nhảy vọt lớn trong công nghệ điều hướng web dựa trên "thị giác". MolmoWeb hoạt động theo cách chụp ảnh màn hình trình duyệt, phân tích hình ảnh để quyết định thao tác tiếp theo (như nhấp chuột, cuộn trang), rồi thực hiện và lặp lại. Phương thức này giúp nó mạnh mẽ hơn vì bố cục trực quan của trang web thường ổn định hơn mã nguồn. Về hiệu suất, dù chỉ có quy mô tham số 4B và 8B, MolmoWeb thể hiện sức mạnh vượt trội: - **Dẫn đầu bảng xếp hạng:** Phiên bản 8B đạt **78.2%** trên bài kiểm tra WebVoyager, không chỉ đứng đầu trong các mô hình nguồn mở mà còn sát với mô hình độc quyền o3 của OpenAI (79.3%). - **Tiềm năng lớn:** Bằng cách chạy lặp lại và chọn kết quả tốt nhất, tỷ lệ thành công có thể tăng vọt lên **94.7%**. - **Định vị chính xác:** Nó thậm chí vượt qua Claude3.7 của Anthropic trong các bài kiểm tra định vị phần tử giao diện. AI2 cũng công bố bộ dữ liệu mở khổng lồ **MolmoWebMix**, bao gồm: - **36.000 nhiệm vụ duyệt web thực** được thực hiện bởi tình nguyện viên. - Hơn **2.2 triệu** cặp ảnh chụp màn hình - câu hỏi. - Dữ liệu tổng hợp tự động được xác thực bởi GPT-4o, thậm chí còn hiệu quả hơn dữ liệu con người trong việc hướng dẫn tác nhân. Hiện tại, MolmoWeb đã được mở hoàn toàn trên **...

Viện Nghiên Cứu Trí Tuệ Nhân Tạo Allen (AI2) gần đây đã công bố trình tác vụ web mã nguồn mở đột phá MolmoWeb . Khác với các trình tác vụ truyền thống phụ thuộc vào mã nguồn cơ bản (DOM) của trang web, MolmoWeb chỉ đưa ra quyết định thông qua việc đọc ảnh chụp màn hình, đánh dấu một bước tiến vượt bậc trong công nghệ điều hướng web 'được điều khiển bằng thị giác'.

Công Nghệ Cốt Lõi: 'Nhìn' Trang Web Như Con Người

Logic hoạt động của MolmoWeb rất trực quan: nó chụp ảnh màn hình cửa sổ trình duyệt hiện tại, phân tích thị giác để quyết định thao tác tiếp theo (như nhấp chuột, cuộn, lật trang), sau đó thực hiện và lặp lại. Mô hình 'thấy là có' này giúp nó mạnh mẽ hơn so với các trình tác vụ truyền thống, vì bố cục trực quan của trang web thường ổn định hơn mã nguồn cơ bản, và quá trình ra quyết định của nó hoàn toàn minh bạch và có thể giải thích được đối với người dùng.

Bước Nhảy Về Hiệu Suất: Mô Hình Nhỏ Đánh Bại Gã Khổng Lồ

Mặc dù quy mô tham số của MolmoWeb chỉ là 4B và 8B, nhưng về hiệu suất lại thể hiện sức mạnh 'lấy nhỏ thắng lớn':

  • Dẫn Đầu Bảng Xếp Hạng: Trong bài kiểm tra WebVoyager, phiên bản 8B đạt điểm số cao tới 78.2%, không chỉ đứng đầu trong các mô hình mã nguồn mở, mà còn tiệm cận với mô hình độc quyền o3 của OpenAI (79.3%).

  • Tiềm Năng Lớn: Nghiên cứu phát hiện, thông qua việc chạy lặp lại tác vụ và lọc ra kết quả tối ưu, tỷ lệ thành công của nó có thể nhảy vọt lên 94.7%.

  • Định Vị Chính Xác: Trong bài kiểm tra chuẩn định vị phần tử UI, nó thậm chí còn vượt qua Claude3.7 của Anthropic.

Dữu Liệu Hỗ Trợ: Bộ Dữ Liệu Mở Lớn Nhất Từ Trước Đến Nay

Lần này, AI2 không chỉ mở mã nguồn trọng số mô hình, mà còn đóng góp một bộ dữ liệu khổng lồ có tên MolmoWebMix. Bộ dữ liệu này bao gồm:

  • 3.6 vạn lượt tác vụ duyệt web thực được hoàn thành bởi các tình nguyện viên con người.

  • Hơn 2.2 triệu cặp ảnh chụp màn hình - câu hỏi đáp án.

  • Dữ liệu tổng hợp tự động được xác minh bởi GPT-4o. Thực nghiệm chứng minh, dữ liệu tổng hợp trong việc hướng dẫn tác nhân thông minh tìm kiếm 'con đường tối ưu' thậm chí còn vượt trội hơn so với quỹ đạo của con người.

Tinh Thần Mã Nguồn Mở Và Thách Thức Tương Lai

Hiện tại, MolmoWeb đã được mở hoàn toàn trên Hugging Face GitHub thông qua giao thức Apache2.0. Mặc dù vẫn phải đối mặt với những thách thức trong việc xử lý các chỉ dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý (như điều khoản dịch vụ), nhưng AI2 tin tưởng rằng chỉ thông qua sự minh bạch hoàn toàn và sự hợp tác cộng đồng, mới có thể thực sự chống lại sự độc quyền dữ liệu của các công ty công nghệ lớn.

Câu hỏi Liên quan

QMolmoWeb là gì và nó khác biệt như thế nào so với các tác nhân duyệt web truyền thống?

AMolmoWeb là một tác nhân duyệt web mã nguồn mở hoàn toàn do Viện Trí tuệ Nhân tạo Allen (AI2) phát triển. Khác với các tác nhân truyền thống phụ thuộc vào mã nguồn HTML (DOM) của trang web, MolmoWeb chỉ đưa ra quyết định dựa trên việc đọc ảnh chụp màn hình, đánh dấu một bước tiến lớn trong công nghệ điều hướng web dựa trên thị giác.

QMolmoWeb hoạt động như thế nào?

AMolmoWeb hoạt động theo một quy trình trực quan: nó chụp ảnh màn hình cửa sổ trình duyệt hiện tại, phân tích hình ảnh để đưa ra quyết định cho thao tác tiếp theo (như nhấp chuột, cuộn trang, chuyển trang), thực hiện thao tác đó và lặp lại quá trình. Cách tiếp cận 'nhìn thấy là làm được' này giúp nó mạnh mẽ hơn vì bố cục trực quan của trang web thường ổn định hơn mã nguồn.

QHiệu suất của MolmoWeb so với các mô hình lớn hơn như thế nào?

AMặc dù có quy mô tham số khiêm tốn (4B và 8B), MolmoWeb thể hiện hiệu suất vượt trội. Phiên bản 8B đạt 78.2% trên bài kiểm tra WebVoyager, gần bằng mô hình độc quyền o3 của OpenAI (79.3%) và thậm chí còn vượt trội hơn Claude3.7 của Anthropic trong các bài kiểm tra định vị phần tử giao diện người dùng. Nếu chạy nhiều lần và chọn kết quả tốt nhất, tỷ lệ thành công của nó có thể tăng lên đến 94.7%.

QBộ dữ liệu MolmoWebMix đi kèm có những đặc điểm gì nổi bật?

ABộ dữ liệu MolmoWebMix là một trong những bộ dữ liệu mở lớn nhất, bao gồm: 36.000 nhiệm vụ duyệt web thực tế được thực hiện bởi tình nguyện viên con người, hơn 2.2 triệu cặp ảnh chụp màn hình - câu hỏi, và dữ liệu tổng hợp được xác minh bởi GPT-4o. Nghiên cứu chỉ ra rằng dữ liệu tổng hợp thậm chí còn hiệu quả hơn dữ liệu con người trong việc hướng dẫn tác nhân tìm ra 'con đường tối ưu'.

QMolmoWeb đã được phát hành như thế nào và còn thách thức nào?

AMolmoWeb đã được phát hành hoàn toàn miễn phí trên Hugging Face và GitHub với giấy phép Apache 2.0. AI2 tin rằng chỉ thông qua sự minh bạch và hợp tác cộng đồng hoàn toàn, họ mới có thể chống lại sự độc quyền dữ liệu của các công ty công nghệ lớn. Tuy nhiên, tác nhân này vẫn còn những thách thức như xử lý các hướng dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý (ví dụ: điều khoản dịch vụ).

Nội dung Liên quan

Tại sao bạn luôn thua lỗ trên Polymarket? Vì bạn đang đặt cược vào tin tức, còn ‘đầu tàu’ đang đọc kỹ luật chơi

Tại sao bạn luôn thua lỗ trên Polymarket? Vì bạn đang cá cược vào tin tức, trong khi các "đầu tàu" phân tích kỹ lưỡng luật chơi. Bài viết lấy ví dụ từ thị trường dự đoán về lãnh đạo Venezuela năm 2026, nơi nhiều người đặt cược sai vì hiểu nhầm giữa quyền lực thực tế và chức vụ chính thức được quy định rõ trong điều khoản. Polymarket vận hành một cơ chế giải quyết tranh chấp phức tạp gồm 5 bước: Nộp đề xuất (Propose) có ký quỹ, cửa sổ khiếu nại (Dispute) 2 giờ, thảo luận trên Discord tối đa 48h, bỏ phiếu kép 48h bởi holder UMA, và tự động thanh toán. Cơ chế này tuy có điểm tương đồng với tòa án truyền thống nhưng tồn tại khác biệt căn bản: không có sự tách bạch giữa người phân xử và người nắm giữ lợi ích. Các holder UMA vừa là trọng tài vừa có thể có vị thế trên thị trường đang tranh chấp, dẫn đến xung đột lợi ích, làm giảm hiệu quả của phiên thảo luận và khiến kết quả cuối cùng thiếu minh bạch, không tạo ra được các tiền lệ rõ ràng. Bài học then chốt: Thắng thua trên Polymarket không chỉ phụ thuộc vào việc dự đoán đúng sự kiện, mà còn ở khả năng diễn giải chính xác các điều khoản được viết sẵn. Lợi thế của các "đầu tàu" nằm ở chỗ họ hiểu sâu hệ thống quy tắc này và biết khai thác khoảng cách giữa thực tế và ngôn từ trong hợp đồng.

marsbit1 giờ trước

Tại sao bạn luôn thua lỗ trên Polymarket? Vì bạn đang đặt cược vào tin tức, còn ‘đầu tàu’ đang đọc kỹ luật chơi

marsbit1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片