L'Allen Institute for Artificial Intelligence (AI2) a récemment publié l'agent web révolutionnaire et entièrement open source MolmoWeb. Contrairement aux agents traditionnels qui dépendent du code sous-jacent des pages web (DOM), MolmoWeb prend des décisions uniquement en lisant des captures d'écran, marquant ainsi une avancée majeure dans la technologie de navigation web "pilotée par la vision".
Technologie clé : "Voir" les pages web comme un humain
La logique de fonctionnement de MolmoWeb est très intuitive : il capture une capture d'écran de la fenêtre actuelle du navigateur, décide de l'action suivante (comme cliquer, faire défiler, tourner la page) par analyse visuelle, puis l'exécute et répète. Ce mode "ce que vous voyez est ce que vous obtenez" le rend plus robuste que les agents traditionnels, car la mise en page visuelle d'une page web est généralement plus stable que son code sous-jacent, et son processus de décision est complètement transparent et explicable pour l'utilisateur humain.
Saut de performance : Les petits modèles surpassent les géants
Bien que MolmoWeb ait une taille de paramètres de seulement 4B et 8B, il montre une force "petite mais puissante" en termes de performance :
Leader du classement : Dans le test WebVoyager, la version 8B a obtenu un score élevé de 78.2%, se classant non seulement parmi les meilleurs modèles open source, mais se rapprochant également du modèle propriétaire o3 d'OpenAI (79.3%).
Potentiel énorme : L'étude a montré qu'en exécutant la tâche plusieurs fois et en sélectionnant le résultat optimal, son taux de réussite pouvait encore monter à 94.7%.
Positionnement précis : Dans les tests de référence de localisation des éléments UI, il a même surpassé Claude3.7 d'Anthropic.
Soutien des données : Le plus grand ensemble de données ouvert de l'histoire
AI2 a non seulement ouvert les poids du modèle, mais a également contribué à un vaste ensemble de données nommé MolmoWebMix. Cet ensemble de données contient :
36 000 tâches de navigation réelles accomplies par des volontaires humains.
Plus de 2.2 millions de paires capture d'écran-question/réponse.
Des données synthétiques automatisées vérifiées par GPT-4o. L'expérience a prouvé que les données synthétiques sont même supérieures aux trajectoires humaines pour guider l'agent à trouver le "chemin optimal".
Esprit open source et défis futurs
Actuellement, MolmoWeb est entièrement ouvert sur Hugging Face et GitHub sous licence Apache2.0. Bien qu'il reste confronté à des défis dans le traitement d'instructions complexes, la vérification de connexion et la conformité légale (comme les conditions de service), AI2 est convaincu que seule une transparence totale et une collaboration communautaire peuvent véritablement contrer la monopolisation des données par les grandes entreprises technologiques.







