AI2 Releases Fully Open-Source Web Agent MolmoWeb: Controlling Web Pages Using Only "Vision"

marsbitDipublikasikan tanggal 2026-03-26Terakhir diperbarui pada 2026-03-26

Abstrak

AI2 has released MolmoWeb, a groundbreaking, fully open-source web agent that operates solely by analyzing screenshots, marking a significant leap in vision-driven web navigation. Unlike traditional agents that rely on DOM, MolmoWeb captures and interprets visual data to make decisions—such as clicking, scrolling, or typing—making its process transparent and robust. Despite its compact size (4B and 8B parameters), MolmoWeb performs impressively: it scores 78.2% on the WebVoyager benchmark, nearing OpenAI’s proprietary o3 model (79.3%), and achieves up to 94.7% success with multiple attempts. It even surpasses Anthropic’s Claude3.7 in UI element localization. AI2 also released MolmoWebMix, a massive open dataset with 36K human-browsing tasks, over 2.2M screenshot-QA pairs, and GPT-4o-verified synthetic data. The model and data are fully available on Hugging Face and GitHub under Apache 2.0, promoting transparency and collaboration in AI development. Challenges remain in complex instructions, logins, and legal compliance.

The Allen Institute for Artificial Intelligence (AI2) recently released the groundbreaking fully open-source web agent MolmoWeb . Unlike traditional agents that rely on a webpage's underlying code (DOM), MolmoWeb makes decisions solely by reading screenshots, marking a significant leap forward in "vision-driven" web navigation technology.

Core Technology: "Seeing" Web Pages Like a Human

MolmoWeb's operating logic is very intuitive: it captures a screenshot of the current browser window, decides the next action (such as clicking, scrolling, or paging) through visual analysis, then executes it and repeats. This "what you see is what you get" model makes it more robust than traditional agents because the visual layout of a webpage is generally more stable than its underlying code, and its decision-making process is completely transparent and explainable to human users.

Performance Leap: Small Model Outperforms Giants

Despite having parameter sizes of only 4B and 8B, MolmoWeb demonstrates a "small but mighty" performance:

  • Topping the Charts: In the WebVoyager test, the 8B version scored an impressive 78.2%, not only ranking among the top open-source models but also approaching the performance of OpenAI's proprietary model o3 (79.3%).

  • Huge Potential: Research found that by running tasks multiple times and selecting the optimal result, its success rate could further jump to 94.7%.

  • Precise Localization: In UI element localization benchmark tests, it even surpassed Anthropic's Claude3.7.

Data Support: The Largest Open Dataset to Date

AI2 has not only open-sourced the model weights but also contributed a massive dataset named MolmoWebMix. This dataset contains:

  • 36,000 real browsing tasks completed by human volunteers.

  • Over 2.2 million screenshot-question-answer pairs.

  • Automated synthetic data verified by GPT-4o. Experiments show that synthetic data is even better than human trajectories at guiding the agent to find the "optimal path".

Open-Source Spirit and Future Challenges

Currently, MolmoWeb is fully available under the Apache 2.0 license on Hugging Face and GitHub. Although it still faces challenges in handling complex instructions, login authentication, and legal compliance (such as terms of service), AI2 firmly believes that only through complete transparency and community collaboration can we truly counter the data monopoly of large tech companies.

Pertanyaan Terkait

QWhat is the name of the fully open-source web agent released by the Allen Institute for AI (AI2) that navigates using only screenshots?

AThe web agent is called MolmoWeb.

QHow does MolmoWeb's approach to web navigation differ from traditional web agents?

AUnlike traditional agents that rely on a webpage's underlying code (DOM), MolmoWeb makes decisions by reading and analyzing screenshots, making it a 'vision-driven' technology.

QWhat was the performance score of the 8B parameter version of MolmoWeb on the WebVoyager test, and how does it compare to OpenAI's model?

AThe 8B version scored 78.2% on the WebVoyager test, which is very close to the performance of OpenAI's proprietary model o3, which scored 79.3%.

QWhat is the name of the large, open dataset released alongside MolmoWeb, and what does it contain?

AThe dataset is called MolmoWebMix. It contains 36,000 real browsing tasks completed by human volunteers, over 2.2 million screenshot-QA pairs, and automated synthetic data verified by GPT-4o.

QOn which platforms has MolmoWeb been made available, and under what license?

AMolmoWeb has been fully released on Hugging Face and GitHub under the Apache 2.0 license.

Bacaan Terkait

Hukum Tau (τ), Membuat EDA "Tersorot" ke Permukaan

"Hukum Tao (τ)" yang diusulkan oleh Huawei pada ISCAS 2026 memperkenalkan konsep baru untuk pengembangan industri semikonduktor global. Berbeda dengan Hukum Moore yang berfokus pada miniaturisasi geometris, Hukum Tao berfokus pada "miniaturisasi waktu," dengan tujuan mengurangi konstanta waktu (τ) sinyal pada tingkat perangkat, sirkuit, chip, dan sistem. Pendekatan ini menawarkan jalur alternatif untuk meningkatkan kinerja chip tanpa hanya bergantung pada pemrosesan canggih. Hukum ini telah diterapkan oleh Huawei dalam produksi 381 chip untuk berbagai aplikasi, dan diperkirakan akan mencapai tingkat kinerja setara dengan 1,4nm pada tahun 2031. Implementasinya sangat bergantung pada alat EDA (Electronic Design Automation) yang berevolusi dari alat gambar tradisional menjadi platform pengoptimalan kinerja sistem. EDA perlu mengembangkan kemampuan desain 3D asli, optimasi kolaboratif lintas lapisan (STCO), dan analisis kopling multi-fisik untuk mendukung teknologi seperti Chiplet, 3DIC, dan LogicFolding. Produsen EDA domestik Tiongkok, seperti Huada Jiutian, semakin melengkapi kemampuan mereka. Sebagai contoh, universitas seperti Universitas Peking telah mengembangkan prototipe alat EDA "3D sejati" yang menunjukkan peningkatan signifikan. Perkembangan ini menandai transisi industri EDA dari pengembangan alat tunggal menuju pembangunan platform kolaboratif yang lengkap dan kuat, membuka peluang baru dalam tren "miniaturisasi waktu."

marsbit1j yang lalu

Hukum Tau (τ), Membuat EDA "Tersorot" ke Permukaan

marsbit1j yang lalu

SEC AS Ingin Hapus Aturan Lama Tahun 2005, Apa yang Dilihat oleh Tokenisasi Saham

**Ringkasan:** Pada 11 Juni, Komisi Sekuritas dan Bursa AS (SEC) mengusulkan penghapusan dua aturan inti dalam Peraturan Sistem Pasar Nasional (Regulation NMS): Aturan 611 dan Aturan 610(e). Aturan ini, yang dibuat pada 2005, dirancang untuk melindungi harga terbaik di pasar saham AS. Aturan 611 mencegah pesanan "dilaksanakan melalui" harga yang lebih baik di tempat lain (trade-through rule), sedangkan Aturan 610(e) membatasi kutipan terkunci dan silang. SEC berargumen bahwa pasar saat ini jauh lebih otomatis, terhubung, dan kompetitif dibandingkan 2005. Aturan-aturan ini dianggap telah meningkatkan kompleksitas, biaya kepatuhan, dan fragmentasi perdagangan, sementara mungkin tidak lagi diperlukan karena kewajiban pelaksanaan terbaik yang sudah dimiliki pialang. Proposal ini menarik perhatian komunitas Web3 dan aset tokenisasi karena dalam latar belakangnya, SEC secara eksplisit menyebutkan teknologi buku besar terdistribusi (DLT), aset kripto, kontrak pintar, dan Automated Market Makers (AMM) sebagai pendorong bentuk dan metode perdagangan sekuritas baru. Dengan menghapus aturan yang sangat terpusat dan kaku ini, SEC membuka pintu bagi lebih banyak eksperimen dalam mekanisme perdagangan, keselarasan yang lebih baik dengan perdagangan 24/7, dan potensi integrasi yang lebih mulus untuk model seperti saham ter-tokenisasi. Namun, ini baru tahap usulan dengan periode masukan publik 60 hari. Perubahan ini tidak mengatasi tantangan mendasar tokenisasi saham seperti penjagaan aset, penyelesaian, hak pemegang saham, atau persyaratan KYC/AML. Bahkan jika aturan federal ini dicabut, aturan terkait dari bursa dan FINRA mungkin masih berlaku. Intinya, ini adalah langkah awal potensial untuk mengurangi kompleksitas yang digerakkan oleh aturan dan memungkinkan inovasi dalam struktur pasar ekuitas AS.

Foresight News5j yang lalu

SEC AS Ingin Hapus Aturan Lama Tahun 2005, Apa yang Dilihat oleh Tokenisasi Saham

Foresight News5j yang lalu

Trading

Spot
Futures
活动图片