AI2 publie l'agent web entièrement open source MolmoWeb : Contrôle des pages web par la "vision" uniquement

marsbitPublié le 2026-03-26Dernière mise à jour le 2026-03-26

Résumé

L'Institut Allen pour l'Intelligence Artificielle (AI2) a présenté MolmoWeb, un agent web open source révolutionnaire qui navigue sur internet uniquement en analysant des captures d'écran, sans recourir au code sous-jacent des pages (DOM). Cette approche "pilotée par la vision" reproduit le comportement humain, offrant une plus grande robustesse et transparence. Malgré sa taille modeste (4B et 8B de paramètres), MolmoWeb surpasse de nombreux concurrents. Sa version 8B a obtenu un score de 78,2% sur le benchmark WebVoyager, rivalisant avec des modèles propriétaires comme OpenAI o3, et peut atteindre 94,7% de réussite en sélectionnant les meilleurs résultats. AI2 a également ouvert le jeu de données MolmoWebMix, comprenant 36 000 tâches de navigation humaine et plus de 2,2 millions de paires capture d'écran-question. Le modèle et les données sont librement accessibles sur Hugging Face et GitHub. Bien que des défis persistent pour les instructions complexes et la conformité légale, AI2 mise sur la transparence et la collaboration communautaire pour contrer la monopolisation des données.

L'Allen Institute for Artificial Intelligence (AI2) a récemment publié l'agent web révolutionnaire et entièrement open source MolmoWeb. Contrairement aux agents traditionnels qui dépendent du code sous-jacent des pages web (DOM), MolmoWeb prend des décisions uniquement en lisant des captures d'écran, marquant ainsi une avancée majeure dans la technologie de navigation web "pilotée par la vision".

Technologie clé : "Voir" les pages web comme un humain

La logique de fonctionnement de MolmoWeb est très intuitive : il capture une capture d'écran de la fenêtre actuelle du navigateur, décide de l'action suivante (comme cliquer, faire défiler, tourner la page) par analyse visuelle, puis l'exécute et répète. Ce mode "ce que vous voyez est ce que vous obtenez" le rend plus robuste que les agents traditionnels, car la mise en page visuelle d'une page web est généralement plus stable que son code sous-jacent, et son processus de décision est complètement transparent et explicable pour l'utilisateur humain.

Saut de performance : Les petits modèles surpassent les géants

Bien que MolmoWeb ait une taille de paramètres de seulement 4B et 8B, il montre une force "petite mais puissante" en termes de performance :

  • Leader du classement : Dans le test WebVoyager, la version 8B a obtenu un score élevé de 78.2%, se classant non seulement parmi les meilleurs modèles open source, mais se rapprochant également du modèle propriétaire o3 d'OpenAI (79.3%).

  • Potentiel énorme : L'étude a montré qu'en exécutant la tâche plusieurs fois et en sélectionnant le résultat optimal, son taux de réussite pouvait encore monter à 94.7%.

  • Positionnement précis : Dans les tests de référence de localisation des éléments UI, il a même surpassé Claude3.7 d'Anthropic.

Soutien des données : Le plus grand ensemble de données ouvert de l'histoire

AI2 a non seulement ouvert les poids du modèle, mais a également contribué à un vaste ensemble de données nommé MolmoWebMix. Cet ensemble de données contient :

  • 36 000 tâches de navigation réelles accomplies par des volontaires humains.

  • Plus de 2.2 millions de paires capture d'écran-question/réponse.

  • Des données synthétiques automatisées vérifiées par GPT-4o. L'expérience a prouvé que les données synthétiques sont même supérieures aux trajectoires humaines pour guider l'agent à trouver le "chemin optimal".

Esprit open source et défis futurs

Actuellement, MolmoWeb est entièrement ouvert sur Hugging Face et GitHub sous licence Apache2.0. Bien qu'il reste confronté à des défis dans le traitement d'instructions complexes, la vérification de connexion et la conformité légale (comme les conditions de service), AI2 est convaincu que seule une transparence totale et une collaboration communautaire peuvent véritablement contrer la monopolisation des données par les grandes entreprises technologiques.

Questions liées

QQu'est-ce que MolmoWeb et en quoi est-il révolutionnaire ?

AMolmoWeb est un agent web open-source développé par l'Allen Institute for AI (AI2) qui se distingue par son approche purement visuelle. Contrairement aux agents traditionnels qui s'appuient sur le code sous-jacent (DOM) des pages web, MolmoWeb ne prend ses décisions qu'en analysant des captures d'écran, ce qui représente une avancée majeure dans la navigation web pilotée par la vision.

QComment fonctionne techniquement MolmoWeb ?

AMolmoWeb fonctionne selon une logique intuitive : il capture une capture d'écran de la fenêtre du navigateur, analyse visuellement cette image pour décider de la prochaine action à entreprendre (comme un clic, un défilement, un changement de page), puis exécute cette action. Ce cycle se répète. Ce mode opératoire 'ce que vous voyez est ce que vous obtenez' le rend plus robuste, car la mise en page visuelle d'une page web est généralement plus stable que son code sous-jacent.

QQuelles sont les performances de MolmoWeb par rapport aux modèles propriétaires ?

AMalgré sa taille modeste (4B et 8B de paramètres), MolmoWeb affiche des performances compétitives. Sa version 8B a obtenu un score de 78,2% sur le benchmark WebVoyager, se classant parmi les meilleurs modèles open source et se rapprochant du modèle propriétaire o3 d'OpenAI (79,3%). De plus, dans des tests de localisation d'éléments d'interface utilisateur, il a surpassé le Claude3.7 d'Anthropic.

QQu'est-ce que le jeu de données MolmoWebMix et pourquoi est-il important ?

AMolmoWebMix est un vaste jeu de données open-source publié parallèlement au modèle. Il contient 36 000 tâches de navigation réelles effectuées par des volontaires humains, plus de 2,2 millions de paires capture d'écran-question/réponse, ainsi que des données synthétiques vérifiées par GPT-4o. Il est crucial car il sert de base d'entraînement et d'évaluation pour les agents web visuels, et les données synthétiques se sont avérées particulièrement efficaces pour apprendre les chemins optimaux.

QOù MolmoWeb est-il disponible et quels défis reste-t-il à relever ?

AMolmoWeb est entièrement open-source et disponible sur les plateformes Hugging Face et GitHub sous licence Apache 2.0. Les défis restants incluent la gestion d'instructions complexes, la navigation des processus de connexion et d'authentification, ainsi que le respect des conditions d'utilisation et autres aspects de conformité légale des sites web.

Lectures associées

Qui prend les décisions pour l'IA trace un seuil de 40 000 milliards de dollars

Le véritable enjeu de l'IA ne réside pas dans sa capacité technique, mais dans la conception des responsabilités. L’article distingue deux avenirs possibles : un où l’IA amplifie les humains, et un autre où elle les remplace. La différence fondamentale réside dans l’attribution des conséquences. Pour que l’IA soit un outil d’augmentation, chaque action à impact doit être traçable vers une personne identifiable qui a consciemment approuvé ou refusé la décision. Sans cette boucle de responsabilité humaine, les systèmes glissent naturellement vers le remplacement, poussés par la « fatigue des permissions » qui incite les utilisateurs à automatiser les validations. La valeur des agents IA ne réside donc pas dans l’exécution de tâches, mais dans leur capacité à compresser la complexité en décisions signables. Les gagnants de demain seront ceux qui saurant produire des résumés fidèles et actionnables pour les humains. Enfin, l’article souligne que les constructeurs d’IA devraient assumer la responsabilité des actions de leurs systèmes, comme dans tout autre secteur. Cette accountability inverserait la logique économique : au lieu de viser le remplacement des emplois, le marché se concentrerait sur l’amplification des capacités humaines, visant un potentiel de 40 000 milliards de dollars de revenus du travail qualifié plutôt que les budgets logiciels.

marsbitIl y a 55 mins

Qui prend les décisions pour l'IA trace un seuil de 40 000 milliards de dollars

marsbitIl y a 55 mins

Trading

Spot
Futures
活动图片