AI2 Công Bố Trình Tác Vụ Web Mã Nguồn Mở Toàn Phần MolmoWeb: Chỉ Cần 'Thị Giác' Là Có Thể Điều Khiển Trang Web

marsbitXuất bản vào 2026-03-26Cập nhật gần nhất vào 2026-03-26

Tóm tắt

Viện Nghiên cứu Trí tuệ Nhân tạo Allen (AI2) vừa công bố tác nhân duyệt web mã nguồn mở đột phá **MolmoWeb**. Khác với các tác nhân truyền thống phụ thuộc vào mã nguồn trang web (DOM), MolmoWeb chỉ đưa ra quyết định dựa trên việc đọc ảnh chụp màn hình, đánh dấu một bước nhảy vọt lớn trong công nghệ điều hướng web dựa trên "thị giác". MolmoWeb hoạt động theo cách chụp ảnh màn hình trình duyệt, phân tích hình ảnh để quyết định thao tác tiếp theo (như nhấp chuột, cuộn trang), rồi thực hiện và lặp lại. Phương thức này giúp nó mạnh mẽ hơn vì bố cục trực quan của trang web thường ổn định hơn mã nguồn. Về hiệu suất, dù chỉ có quy mô tham số 4B và 8B, MolmoWeb thể hiện sức mạnh vượt trội: - **Dẫn đầu bảng xếp hạng:** Phiên bản 8B đạt **78.2%** trên bài kiểm tra WebVoyager, không chỉ đứng đầu trong các mô hình nguồn mở mà còn sát với mô hình độc quyền o3 của OpenAI (79.3%). - **Tiềm năng lớn:** Bằng cách chạy lặp lại và chọn kết quả tốt nhất, tỷ lệ thành công có thể tăng vọt lên **94.7%**. - **Định vị chính xác:** Nó thậm chí vượt qua Claude3.7 của Anthropic trong các bài kiểm tra định vị phần tử giao diện. AI2 cũng công bố bộ dữ liệu mở khổng lồ **MolmoWebMix**, bao gồm: - **36.000 nhiệm vụ duyệt web thực** được thực hiện bởi tình nguyện viên. - Hơn **2.2 triệu** cặp ảnh chụp màn hình - câu hỏi. - Dữ liệu tổng hợp tự động được xác thực bởi GPT-4o, thậm chí còn hiệu quả hơn dữ liệu con người trong việc hướng dẫn tác nhân. Hiện tại, MolmoWeb đã được mở hoàn toàn trên **...

Viện Nghiên Cứu Trí Tuệ Nhân Tạo Allen (AI2) gần đây đã công bố trình tác vụ web mã nguồn mở đột phá MolmoWeb . Khác với các trình tác vụ truyền thống phụ thuộc vào mã nguồn cơ bản (DOM) của trang web, MolmoWeb chỉ đưa ra quyết định thông qua việc đọc ảnh chụp màn hình, đánh dấu một bước tiến vượt bậc trong công nghệ điều hướng web 'được điều khiển bằng thị giác'.

Công Nghệ Cốt Lõi: 'Nhìn' Trang Web Như Con Người

Logic hoạt động của MolmoWeb rất trực quan: nó chụp ảnh màn hình cửa sổ trình duyệt hiện tại, phân tích thị giác để quyết định thao tác tiếp theo (như nhấp chuột, cuộn, lật trang), sau đó thực hiện và lặp lại. Mô hình 'thấy là có' này giúp nó mạnh mẽ hơn so với các trình tác vụ truyền thống, vì bố cục trực quan của trang web thường ổn định hơn mã nguồn cơ bản, và quá trình ra quyết định của nó hoàn toàn minh bạch và có thể giải thích được đối với người dùng.

Bước Nhảy Về Hiệu Suất: Mô Hình Nhỏ Đánh Bại Gã Khổng Lồ

Mặc dù quy mô tham số của MolmoWeb chỉ là 4B và 8B, nhưng về hiệu suất lại thể hiện sức mạnh 'lấy nhỏ thắng lớn':

  • Dẫn Đầu Bảng Xếp Hạng: Trong bài kiểm tra WebVoyager, phiên bản 8B đạt điểm số cao tới 78.2%, không chỉ đứng đầu trong các mô hình mã nguồn mở, mà còn tiệm cận với mô hình độc quyền o3 của OpenAI (79.3%).

  • Tiềm Năng Lớn: Nghiên cứu phát hiện, thông qua việc chạy lặp lại tác vụ và lọc ra kết quả tối ưu, tỷ lệ thành công của nó có thể nhảy vọt lên 94.7%.

  • Định Vị Chính Xác: Trong bài kiểm tra chuẩn định vị phần tử UI, nó thậm chí còn vượt qua Claude3.7 của Anthropic.

Dữu Liệu Hỗ Trợ: Bộ Dữ Liệu Mở Lớn Nhất Từ Trước Đến Nay

Lần này, AI2 không chỉ mở mã nguồn trọng số mô hình, mà còn đóng góp một bộ dữ liệu khổng lồ có tên MolmoWebMix. Bộ dữ liệu này bao gồm:

  • 3.6 vạn lượt tác vụ duyệt web thực được hoàn thành bởi các tình nguyện viên con người.

  • Hơn 2.2 triệu cặp ảnh chụp màn hình - câu hỏi đáp án.

  • Dữ liệu tổng hợp tự động được xác minh bởi GPT-4o. Thực nghiệm chứng minh, dữ liệu tổng hợp trong việc hướng dẫn tác nhân thông minh tìm kiếm 'con đường tối ưu' thậm chí còn vượt trội hơn so với quỹ đạo của con người.

Tinh Thần Mã Nguồn Mở Và Thách Thức Tương Lai

Hiện tại, MolmoWeb đã được mở hoàn toàn trên Hugging Face GitHub thông qua giao thức Apache2.0. Mặc dù vẫn phải đối mặt với những thách thức trong việc xử lý các chỉ dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý (như điều khoản dịch vụ), nhưng AI2 tin tưởng rằng chỉ thông qua sự minh bạch hoàn toàn và sự hợp tác cộng đồng, mới có thể thực sự chống lại sự độc quyền dữ liệu của các công ty công nghệ lớn.

Câu hỏi Liên quan

QMolmoWeb là gì và nó khác biệt như thế nào so với các tác nhân duyệt web truyền thống?

AMolmoWeb là một tác nhân duyệt web mã nguồn mở hoàn toàn do Viện Trí tuệ Nhân tạo Allen (AI2) phát triển. Khác với các tác nhân truyền thống phụ thuộc vào mã nguồn HTML (DOM) của trang web, MolmoWeb chỉ đưa ra quyết định dựa trên việc đọc ảnh chụp màn hình, đánh dấu một bước tiến lớn trong công nghệ điều hướng web dựa trên thị giác.

QMolmoWeb hoạt động như thế nào?

AMolmoWeb hoạt động theo một quy trình trực quan: nó chụp ảnh màn hình cửa sổ trình duyệt hiện tại, phân tích hình ảnh để đưa ra quyết định cho thao tác tiếp theo (như nhấp chuột, cuộn trang, chuyển trang), thực hiện thao tác đó và lặp lại quá trình. Cách tiếp cận 'nhìn thấy là làm được' này giúp nó mạnh mẽ hơn vì bố cục trực quan của trang web thường ổn định hơn mã nguồn.

QHiệu suất của MolmoWeb so với các mô hình lớn hơn như thế nào?

AMặc dù có quy mô tham số khiêm tốn (4B và 8B), MolmoWeb thể hiện hiệu suất vượt trội. Phiên bản 8B đạt 78.2% trên bài kiểm tra WebVoyager, gần bằng mô hình độc quyền o3 của OpenAI (79.3%) và thậm chí còn vượt trội hơn Claude3.7 của Anthropic trong các bài kiểm tra định vị phần tử giao diện người dùng. Nếu chạy nhiều lần và chọn kết quả tốt nhất, tỷ lệ thành công của nó có thể tăng lên đến 94.7%.

QBộ dữ liệu MolmoWebMix đi kèm có những đặc điểm gì nổi bật?

ABộ dữ liệu MolmoWebMix là một trong những bộ dữ liệu mở lớn nhất, bao gồm: 36.000 nhiệm vụ duyệt web thực tế được thực hiện bởi tình nguyện viên con người, hơn 2.2 triệu cặp ảnh chụp màn hình - câu hỏi, và dữ liệu tổng hợp được xác minh bởi GPT-4o. Nghiên cứu chỉ ra rằng dữ liệu tổng hợp thậm chí còn hiệu quả hơn dữ liệu con người trong việc hướng dẫn tác nhân tìm ra 'con đường tối ưu'.

QMolmoWeb đã được phát hành như thế nào và còn thách thức nào?

AMolmoWeb đã được phát hành hoàn toàn miễn phí trên Hugging Face và GitHub với giấy phép Apache 2.0. AI2 tin rằng chỉ thông qua sự minh bạch và hợp tác cộng đồng hoàn toàn, họ mới có thể chống lại sự độc quyền dữ liệu của các công ty công nghệ lớn. Tuy nhiên, tác nhân này vẫn còn những thách thức như xử lý các hướng dẫn phức tạp, xác thực đăng nhập và tuân thủ pháp lý (ví dụ: điều khoản dịch vụ).

Nội dung Liên quan

BingX Giới Thiệu Tính Năng Tự Động Kiếm Lãi Cho Tài Sản Hợp Đồng Tương Lai Đầu Tiên Trong Ngành Dành Cho Thành Viên VIP BingX

BingX, một sàn giao dịch tiền mã hóa và công ty Web3-AI hàng đầu, đã chính thức ra mắt sự kiện Futures Asset Auto Earn dành riêng cho người dùng VIP từ cấp 3 trở lên. Chương trình đầu tiên trong ngành này cho phép các nhà giao dịch đủ điều kiện kiếm thu nhập thụ động từ các vị thế hợp đồng vĩnh viễn USDT-M mà không ảnh hưởng đến giao dịch, với thao tác kích hoạt tức thì chỉ bằng một cú nhấp chuột. Cơ chế mới, có hiệu lực từ ngày 12/6 đến ngày 12/8/2026, biến số tiền ký quỹ hợp đồng nhàn rỗi thành nguồn thu lãi hàng ngày mà không yêu cầu người dùng khóa vốn, thay đổi chiến lược hoặc bỏ lỡ cơ hội thị trường. Với Futures Asset Auto Earn, người dùng VIP được chọn của BingX được hưởng các lợi ích: Kích hoạt một lần nhấp, lãi suất được tính toán và tín dụng tự động hàng ngày vào tài khoản hợp đồng, không có thời gian khóa vốn và mức thưởng lãi suất phân cấp theo cấp VIP (lên tới 4%). Sự kiện này bổ sung vào bộ đặc quyền BingX VIP, khẳng định cam kết của sàn trong việc mang lại giá trị và đổi mới hàng đầu cho cộng đồng giao dịch. BingX, được thành lập năm 2018, phục vụ hơn 40 triệu người dùng toàn cầu và là đối tác chính thức của Chelsea FC (từ 2024) và Scuderia Ferrari HP (từ 2026).

TheNewsCrypto1 giờ trước

BingX Giới Thiệu Tính Năng Tự Động Kiếm Lãi Cho Tài Sản Hợp Đồng Tương Lai Đầu Tiên Trong Ngành Dành Cho Thành Viên VIP BingX

TheNewsCrypto1 giờ trước

SEC Mỹ muốn bãi bỏ một quy định cũ năm 2005, cổ phiếu token hóa nhìn thấy điều gì

Ngày 11/6, Ủy ban Chứng khoán và Giao dịch Mỹ (SEC) đã đề xuất bãi bỏ Quy tắc 611 và 610(e) thuộc Quy định Hệ thống Thị trường Quốc gia (Regulation NMS). Động thái này thu hút sự chú ý của cộng đồng Web3 vì trong bối cảnh đề xuất, SEC đề cập cụ thể đến công nghệ sổ cái phân tán (DLT), tài sản mã hóa và các phương thức giao dịch mới như hợp đồng thông minh và AMM. Quy tắc 611 (quy tắc "không bỏ qua giá tốt hơn") yêu cầu các trung tâm giao dịch phải ưu tiên thực hiện lệnh tại mức giá mua/bán tốt nhất hiện có trên toàn thị trường. SEC nhận định quy tắc năm 2005 này nay đã làm tăng chi phí tuân thủ, hạn chế lựa chọn xử lý lệnh, góp phần chia cắt thị trường và thúc đẩy việc theo đuổi tốc độ khớp lệnh cực nhanh. Quy tắc 610(e) hạn chế việc hiển thị "giá chốt" (giá mua bằng giá bán) và "giá chéo" (giá mua cao hơn giá bán). SEC cho rằng việc bãi bỏ nó có thể thu hẹp chênh lệch giá, giảm chi phí giao dịch và giảm độ phức tạp của hệ thống. Tuy nhiên, nó cũng có thể gây nhầm lẫn cho nhà đầu tư. Liên quan đến cổ phiếu mã hóa, đề xuất này được xem như một bước nới lỏng khả năng có thể xảy ra đối với cấu trúc thị trường chứng khoán tập trung truyền thống. Nó mở ra không gian thử nghiệm lớn hơn cho các cơ chế khớp lệnh mới (như AMM, đấu giá) tại các sàn giao dịch hoặc hệ thống giao dịch thay thế (ATS), vốn có thể tương thích hơn với đặc điểm giao dịch 24/7 và trên chuỗi của tài sản mã hóa. Tuy nhiên, đề xuất chưa giải quyết các vấn đề cốt lõi khác như đăng ký phát hành, lưu ký, quyền cổ đông hay tuân thủ. SEC ước tính việc bãi bỏ hai quy tắc này có thể giúp các bên tham gia thị trường tiết kiệm từ 54,2 đến 77 triệu USD chi phí tuân thủ hàng năm. Mục tiêu cuối cùng là giảm bớt sự phức tạp do quy định mang lại, thúc đẩy cạnh tranh thông qua chất lượng khớp lệnh và thiết kế cơ chế, từ đó tạo điều kiện cho các hình thức giao dịch sáng tạo hơn phát triển.

Foresight News3 giờ trước

SEC Mỹ muốn bãi bỏ một quy định cũ năm 2005, cổ phiếu token hóa nhìn thấy điều gì

Foresight News3 giờ trước

Sự Chuyển Đổi Của Ethena Và Nỗi Lo Của Phố Wall

Đồng tiền ổn định Ethena (USDe) đã có bước chuyển mình lớn khi công bố hợp tác chiến lược với gã khổng lồ quản lý tài sản truyền thống Janus Henderson (4800 tỷ USD) vào tháng 6/2026. Thỏa thuận bao gồm bốn tầng: Janus Henderson cung cấp tài sản RWA (quỹ CLO) cho dự trữ của USDe, đầu tư vào token quản trị ENA, sử dụng USDe làm công cụ quản lý tiền mặt và lên kế hoạch phát hành sản phẩm ETP để phân phối USDe cho khách hàng tổ chức. Đây là bước đi quan trọng trong quá trình chuyển đổi của Ethena từ một giao thức DeFi thuần túy sang mô hình ổn định lai. Sau khi gặp khủng hoảng vì phụ thuộc vào cơ chế Delta-neutral (lệnh vĩnh viễn) trong đợt sụt giảm thị trường 2025, Ethena đã đa dạng hóa tài sản dự trữ cho USDe, bổ sung trái phiếu kho bạc, tín dụng doanh nghiệp và RWA, giảm tỷ trọng lệnh phái sinh xuống chỉ còn khoảng 20%. Hợp tác này phản ánh sự lo ngại mang tính cấu trúc từ phố Wall. Sau khi khung pháp lý rõ ràng (đạo luật GENIUS 2025), cạnh tranh trong lĩnh vực stablecoin chuyển sang việc xây dựng mạng lưới phân phối. Các định chế tài chính truyền thống như Janus Henderson lo sợ bị đứng ngoài cuộc trong nền tảng hạ tầng tài chính mới, nơi stablecoin đang trở thành tầng thanh toán cốt lõi với khối lượng giao dịch khổng lồ. Bằng cách hợp tác với Ethena, họ chấp nhận vai trò "phân phối" để đổi lấy vị thế và chia sẻ lợi nhuận, đảm bảo mình không bị bỏ lại phía sau trong xu hướng tích hợp giữa tài chính truyền thống (TradFi) và tài chính phi tập trung (DeFi).

Foresight News3 giờ trước

Sự Chuyển Đổi Của Ethena Và Nỗi Lo Của Phố Wall

Foresight News3 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片