AI2 Công Bố Trình Tác Vụ Web Mã Nguồn Mở Toàn Phần MolmoWeb: Chỉ Cần 'Thị Giác' Là Có Thể Điều Khiển Trang Web

marsbitXuất bản vào 2026-03-26Cập nhật gần nhất vào 2026-03-26

Tóm tắt

Viện Nghiên cứu Trí tuệ Nhân tạo Allen (AI2) vừa công bố tác nhân duyệt web mã nguồn mở đột phá **MolmoWeb**. Khác với các tác nhân truyền thống phụ thuộc vào mã nguồn trang web (DOM), MolmoWeb chỉ đưa ra quyết định dựa trên việc đọc ảnh chụp màn hình, đánh dấu một bước nhảy vọt lớn trong công nghệ điều hướng web dựa trên "thị giác". MolmoWeb hoạt động theo cách chụp ảnh màn hình trình duyệt, phân tích hình ảnh để quyết định thao tác tiếp theo (như nhấp chuột, cuộn trang), rồi thực hiện và lặp lại. Phương thức này giúp nó mạnh mẽ hơn vì bố cục trực quan của trang web thường ổn định hơn mã nguồn. Về hiệu suất, dù chỉ có quy mô tham số 4B và 8B, MolmoWeb thể hiện sức mạnh vượt trội: - **Dẫn đầu bảng xếp hạng:** Phiên bản 8B đạt **78.2%** trên bài kiểm tra WebVoyager, không chỉ đứng đầu trong các mô hình nguồn mở mà còn sát với mô hình độc quyền o3 của OpenAI (79.3%). - **Tiềm năng lớn:** Bằng cách chạy lặp lại và chọn kết quả tốt nhất, tỷ lệ thành công có thể tăng vọt lên **94.7%**. - **Định vị chính xác:** Nó thậm chí vượt qua Claude3.7 của Anthropic trong các bài kiểm tra định vị phần tử giao diện. AI2 cũng công bố bộ dữ liệu mở khổng lồ **MolmoWebMix**, bao gồm: - **36.000 nhiệm vụ duyệt web thực** được thực hiện bởi tình nguyện viên. - Hơn **2.2 triệu** cặp ảnh chụp màn hình - câu hỏi. - Dữ liệu tổng hợp tự động được xác thực bởi GPT-4o, thậm chí còn hiệu quả hơn dữ liệu con người trong việc hướng dẫn tác nhân. Hiện tại, MolmoWeb đã được mở hoàn toàn trên **...

Viện Nghiên Cứu Trí Tuệ Nhân Tạo Allen (AI2) gần đây đã công bố trình tác vụ web mã nguồn mở đột phá MolmoWeb . Khác với các trình tác vụ truyền thống phụ thuộc vào mã nguồn cơ bản (DOM) của trang web, MolmoWeb chỉ đưa ra quyết định thông qua việc đọc ảnh chụp màn hình, đánh dấu một bước tiến vượt bậc trong công nghệ điều hướng web 'được điều khiển bằng thị giác'.

Công Nghệ Cốt Lõi: 'Nhìn' Trang Web Như Con Người

Logic hoạt động của MolmoWeb rất trực quan: nó chụp ảnh màn hình cửa sổ trình duyệt hiện tại, phân tích thị giác để quyết định thao tác tiếp theo (như nhấp chuột, cuộn, lật trang), sau đó thực hiện và lặp lại. Mô hình 'thấy là có' này giúp nó mạnh mẽ hơn so với các trình tác vụ truyền thống, vì bố cục trực quan của trang web thường ổn định hơn mã nguồn cơ bản, và quá trình ra quyết định của nó hoàn toàn minh bạch và có thể giải thích được đối với người dùng.

Bước Nhảy Về Hiệu Suất: Mô Hình Nhỏ Đánh Bại Gã Khổng Lồ

Mặc dù quy mô tham số của MolmoWeb chỉ là 4B và 8B, nhưng về hiệu suất lại thể hiện sức mạnh 'lấy nhỏ thắng lớn':

  • Dẫn Đầu Bảng Xếp Hạng: Trong bài kiểm tra WebVoyager, phiên bản 8B đạt điểm số cao tới 78.2%, không chỉ đứng đầu trong các mô hình mã nguồn mở, mà còn tiệm cận với mô hình độc quyền o3 của OpenAI (79.3%).

  • Tiềm Năng Lớn: Nghiên cứu phát hiện, thông qua việc chạy lặp lại tác vụ và lọc ra kết quả tối ưu, tỷ lệ thành công của nó có thể nhảy vọt lên 94.7%.

  • Định Vị Chính Xác: Trong bài kiểm tra chuẩn định vị phần tử UI, nó thậm chí còn vượt qua Claude3.7 của Anthropic.

Dữu Liệu Hỗ Trợ: Bộ Dữ Liệu Mở Lớn Nhất Từ Trước Đến Nay

Lần này, AI2 không chỉ mở mã nguồn trọng số mô hình, mà còn đóng góp một bộ dữ liệu khổng lồ có tên MolmoWebMix. Bộ dữ liệu này bao gồm:

  • 3.6 vạn lượt tác vụ duyệt web thực được hoàn thành bởi các tình nguyện viên con người.

  • Hơn 2.2 triệu cặp ảnh chụp màn hình - câu hỏi đáp án.

  • Dữ liệu tổng hợp tự động được xác minh bởi GPT-4o. Thực nghiệm chứng minh, dữ liệu tổng hợp trong việc hướng dẫn tác nhân thông minh tìm kiếm 'con đường tối ưu' thậm chí còn vượt trội hơn so với quỹ đạo của con người.

Tinh Thần Mã Nguồn Mở Và Thách Thức Tương Lai

Hiện tại, MolmoWeb đã được mở hoàn toàn trên Hugging Face GitHub thông qua giao thức Apache2.0. Mặc dù vẫn phải đối mặt với những thách thức trong việc xử lý các chỉ dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý (như điều khoản dịch vụ), nhưng AI2 tin tưởng rằng chỉ thông qua sự minh bạch hoàn toàn và sự hợp tác cộng đồng, mới có thể thực sự chống lại sự độc quyền dữ liệu của các công ty công nghệ lớn.

Câu hỏi Liên quan

QMolmoWeb là gì và nó khác biệt như thế nào so với các tác nhân duyệt web truyền thống?

AMolmoWeb là một tác nhân duyệt web mã nguồn mở hoàn toàn do Viện Trí tuệ Nhân tạo Allen (AI2) phát triển. Khác với các tác nhân truyền thống phụ thuộc vào mã nguồn HTML (DOM) của trang web, MolmoWeb chỉ đưa ra quyết định dựa trên việc đọc ảnh chụp màn hình, đánh dấu một bước tiến lớn trong công nghệ điều hướng web dựa trên thị giác.

QMolmoWeb hoạt động như thế nào?

AMolmoWeb hoạt động theo một quy trình trực quan: nó chụp ảnh màn hình cửa sổ trình duyệt hiện tại, phân tích hình ảnh để đưa ra quyết định cho thao tác tiếp theo (như nhấp chuột, cuộn trang, chuyển trang), thực hiện thao tác đó và lặp lại quá trình. Cách tiếp cận 'nhìn thấy là làm được' này giúp nó mạnh mẽ hơn vì bố cục trực quan của trang web thường ổn định hơn mã nguồn.

QHiệu suất của MolmoWeb so với các mô hình lớn hơn như thế nào?

AMặc dù có quy mô tham số khiêm tốn (4B và 8B), MolmoWeb thể hiện hiệu suất vượt trội. Phiên bản 8B đạt 78.2% trên bài kiểm tra WebVoyager, gần bằng mô hình độc quyền o3 của OpenAI (79.3%) và thậm chí còn vượt trội hơn Claude3.7 của Anthropic trong các bài kiểm tra định vị phần tử giao diện người dùng. Nếu chạy nhiều lần và chọn kết quả tốt nhất, tỷ lệ thành công của nó có thể tăng lên đến 94.7%.

QBộ dữ liệu MolmoWebMix đi kèm có những đặc điểm gì nổi bật?

ABộ dữ liệu MolmoWebMix là một trong những bộ dữ liệu mở lớn nhất, bao gồm: 36.000 nhiệm vụ duyệt web thực tế được thực hiện bởi tình nguyện viên con người, hơn 2.2 triệu cặp ảnh chụp màn hình - câu hỏi, và dữ liệu tổng hợp được xác minh bởi GPT-4o. Nghiên cứu chỉ ra rằng dữ liệu tổng hợp thậm chí còn hiệu quả hơn dữ liệu con người trong việc hướng dẫn tác nhân tìm ra 'con đường tối ưu'.

QMolmoWeb đã được phát hành như thế nào và còn thách thức nào?

AMolmoWeb đã được phát hành hoàn toàn miễn phí trên Hugging Face và GitHub với giấy phép Apache 2.0. AI2 tin rằng chỉ thông qua sự minh bạch và hợp tác cộng đồng hoàn toàn, họ mới có thể chống lại sự độc quyền dữ liệu của các công ty công nghệ lớn. Tuy nhiên, tác nhân này vẫn còn những thách thức như xử lý các hướng dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý (ví dụ: điều khoản dịch vụ).

Nội dung Liên quan

Polymarket Bị Kẹt: Bài Kiểm Tra Thực Sự Sau Khi Vượt Qua Giai Đoạn Lưu Lượng Tăng Đột Biến

Polymarket, nền tảng dự đoán thị trường hàng đầu, đang đối mặt với thách thức lớn khi trải nghiệm giao dịch xuống cấp do hạ tầng không theo kịp đà tăng trưởng. Phó chủ tịch kỹ thuật Josh Stevens thừa nhận vấn đề và công bố kế hoạch cải tổ toàn diện, bao gồm: giảm độ trễ dữ liệu, sửa lỗi hủy lệnh, xây dựng lại hệ thống order book (CLOB), nâng cao hiệu suất website, và quan trọng nhất là di chuyển chain (chain migration). Nguyên nhân sâu xa nằm ở việc Polymarket không còn là ứng dụng dự đoán đơn thuần mà đã phát triển thành một nền tảng giao dịch tần suất cao. Polygon, từng là lựa chọn chi phí thấp hoàn hảo, giờ đây trở thành rào cản kỹ thuật. Động thái này ngay lập tức thu hút sự quan tâm của các blockchain khác như Solana, Sui, Algorand... trong khi Polygon nỗ lực giữ chân ứng dụng quan trọng này - nguồn đóng góp phí giao dịch đáng kể cho hệ sinh thái của họ. Bài kiểm tra thực sự của Polymarket không chỉ là chọn chain mới, mà là xây dựng một hệ thống giao dịch đủ mạnh và ổn định để giữ chân người dùng trong giai đoạn tăng trưởng mới, nơi độ tin cậy quan trọng hơn bao giờ hết.

Odaily星球日报Hôm qua 03:21

Polymarket Bị Kẹt: Bài Kiểm Tra Thực Sự Sau Khi Vượt Qua Giai Đoạn Lưu Lượng Tăng Đột Biến

Odaily星球日报Hôm qua 03:21

Điều chỉnh kỳ vọng giảm cho chu kỳ tăng giá tiếp theo của BTC

Tác giả Alex Xu, một nhà đầu tư Bitcoin lâu năm, đã chia sẻ quyết định giảm dần tỷ trọng BTC trong danh mục đầu tư của mình, từ vị thế lớn nhất xuống còn khoảng 30%, và giải thích lý do cho việc điều chỉnh kỳ vọng về đỉnh giá trong chu kỳ bull market tiếp theo. Các lý do chính bao gồm: 1. **Năng lượng tăng trưởng tiềm năng giảm:** Các chu kỳ trước được thúc đẩy bởi việc mở rộng đối tượng đầu tư theo cấp số nhân (từ cá nhân đến tổ chức). Chu kỳ tới cần sự chấp nhận từ các quỹ đầu tư quốc gia hoặc ngân hàng trung ương, điều này khó xảy ra trong 2-3 năm tới. 2. **Chi phí cơ hội cá nhân:** Tìm thấy nhiều cơ hội đầu tư hấp dẫn khác (cổ phiếu công ty) với mức giá hợp lý. 3. **Tác động tiêu cực từ sự thu hẹp của ngành crypto:** Nhiều mô hình Web3 (SocialFi, GameFi...) không thành công, dẫn đến sự thu hẹp của toàn ngành và làm chậm tốc độ tăng trưởng số người nắm giữ BTC. 4. **Áp lực từ nhà mua lớn nhất (MicroStrategy):** Chi phí huy động vốn của MicroStrategy tiếp tục tăng cao (lãi suất 11.5%), có thể làm giảm tốc độ mua vào và gây áp lực bán. 5. **Sự cạnh tranh từ Vàng được token hóa:** Sản phẩm vàng token hóa (tokenized gold) đã thu hẹp khoảng cách về tính dễ chia nhỏ, dễ mang theo và dễ xác minh so với BTC. 6. **Vấn đề ngân sách bảo mật:** Phần thưởng khối giảm sau mỗi lần halving làm trầm trọng thêm vấn đề ngân sách cho bảo mật mạng lưới. Tác giả vẫn giữ một phần BTC đáng kể và sẵn sàng mua lại nếu các lý kiến trên được giải quyết hoặc xuất hiện các yếu tố tích cực mới, với điều kiện giá cả phù hợp.

marsbitHôm qua 02:46

Điều chỉnh kỳ vọng giảm cho chu kỳ tăng giá tiếp theo của BTC

marsbitHôm qua 02:46

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片