AI2 publie l'agent web entièrement open source MolmoWeb : Contrôle des pages web par la "vision" uniquement

marsbitPublié le 2026-03-26Dernière mise à jour le 2026-03-26

Résumé

L'Institut Allen pour l'Intelligence Artificielle (AI2) a présenté MolmoWeb, un agent web open source révolutionnaire qui navigue sur internet uniquement en analysant des captures d'écran, sans recourir au code sous-jacent des pages (DOM). Cette approche "pilotée par la vision" reproduit le comportement humain, offrant une plus grande robustesse et transparence. Malgré sa taille modeste (4B et 8B de paramètres), MolmoWeb surpasse de nombreux concurrents. Sa version 8B a obtenu un score de 78,2% sur le benchmark WebVoyager, rivalisant avec des modèles propriétaires comme OpenAI o3, et peut atteindre 94,7% de réussite en sélectionnant les meilleurs résultats. AI2 a également ouvert le jeu de données MolmoWebMix, comprenant 36 000 tâches de navigation humaine et plus de 2,2 millions de paires capture d'écran-question. Le modèle et les données sont librement accessibles sur Hugging Face et GitHub. Bien que des défis persistent pour les instructions complexes et la conformité légale, AI2 mise sur la transparence et la collaboration communautaire pour contrer la monopolisation des données.

L'Allen Institute for Artificial Intelligence (AI2) a récemment publié l'agent web révolutionnaire et entièrement open source MolmoWeb. Contrairement aux agents traditionnels qui dépendent du code sous-jacent des pages web (DOM), MolmoWeb prend des décisions uniquement en lisant des captures d'écran, marquant ainsi une avancée majeure dans la technologie de navigation web "pilotée par la vision".

Technologie clé : "Voir" les pages web comme un humain

La logique de fonctionnement de MolmoWeb est très intuitive : il capture une capture d'écran de la fenêtre actuelle du navigateur, décide de l'action suivante (comme cliquer, faire défiler, tourner la page) par analyse visuelle, puis l'exécute et répète. Ce mode "ce que vous voyez est ce que vous obtenez" le rend plus robuste que les agents traditionnels, car la mise en page visuelle d'une page web est généralement plus stable que son code sous-jacent, et son processus de décision est complètement transparent et explicable pour l'utilisateur humain.

Saut de performance : Les petits modèles surpassent les géants

Bien que MolmoWeb ait une taille de paramètres de seulement 4B et 8B, il montre une force "petite mais puissante" en termes de performance :

  • Leader du classement : Dans le test WebVoyager, la version 8B a obtenu un score élevé de 78.2%, se classant non seulement parmi les meilleurs modèles open source, mais se rapprochant également du modèle propriétaire o3 d'OpenAI (79.3%).

  • Potentiel énorme : L'étude a montré qu'en exécutant la tâche plusieurs fois et en sélectionnant le résultat optimal, son taux de réussite pouvait encore monter à 94.7%.

  • Positionnement précis : Dans les tests de référence de localisation des éléments UI, il a même surpassé Claude3.7 d'Anthropic.

Soutien des données : Le plus grand ensemble de données ouvert de l'histoire

AI2 a non seulement ouvert les poids du modèle, mais a également contribué à un vaste ensemble de données nommé MolmoWebMix. Cet ensemble de données contient :

  • 36 000 tâches de navigation réelles accomplies par des volontaires humains.

  • Plus de 2.2 millions de paires capture d'écran-question/réponse.

  • Des données synthétiques automatisées vérifiées par GPT-4o. L'expérience a prouvé que les données synthétiques sont même supérieures aux trajectoires humaines pour guider l'agent à trouver le "chemin optimal".

Esprit open source et défis futurs

Actuellement, MolmoWeb est entièrement ouvert sur Hugging Face et GitHub sous licence Apache2.0. Bien qu'il reste confronté à des défis dans le traitement d'instructions complexes, la vérification de connexion et la conformité légale (comme les conditions de service), AI2 est convaincu que seule une transparence totale et une collaboration communautaire peuvent véritablement contrer la monopolisation des données par les grandes entreprises technologiques.

Questions liées

QQu'est-ce que MolmoWeb et en quoi est-il révolutionnaire ?

AMolmoWeb est un agent web open-source développé par l'Allen Institute for AI (AI2) qui se distingue par son approche purement visuelle. Contrairement aux agents traditionnels qui s'appuient sur le code sous-jacent (DOM) des pages web, MolmoWeb ne prend ses décisions qu'en analysant des captures d'écran, ce qui représente une avancée majeure dans la navigation web pilotée par la vision.

QComment fonctionne techniquement MolmoWeb ?

AMolmoWeb fonctionne selon une logique intuitive : il capture une capture d'écran de la fenêtre du navigateur, analyse visuellement cette image pour décider de la prochaine action à entreprendre (comme un clic, un défilement, un changement de page), puis exécute cette action. Ce cycle se répète. Ce mode opératoire 'ce que vous voyez est ce que vous obtenez' le rend plus robuste, car la mise en page visuelle d'une page web est généralement plus stable que son code sous-jacent.

QQuelles sont les performances de MolmoWeb par rapport aux modèles propriétaires ?

AMalgré sa taille modeste (4B et 8B de paramètres), MolmoWeb affiche des performances compétitives. Sa version 8B a obtenu un score de 78,2% sur le benchmark WebVoyager, se classant parmi les meilleurs modèles open source et se rapprochant du modèle propriétaire o3 d'OpenAI (79,3%). De plus, dans des tests de localisation d'éléments d'interface utilisateur, il a surpassé le Claude3.7 d'Anthropic.

QQu'est-ce que le jeu de données MolmoWebMix et pourquoi est-il important ?

AMolmoWebMix est un vaste jeu de données open-source publié parallèlement au modèle. Il contient 36 000 tâches de navigation réelles effectuées par des volontaires humains, plus de 2,2 millions de paires capture d'écran-question/réponse, ainsi que des données synthétiques vérifiées par GPT-4o. Il est crucial car il sert de base d'entraînement et d'évaluation pour les agents web visuels, et les données synthétiques se sont avérées particulièrement efficaces pour apprendre les chemins optimaux.

QOù MolmoWeb est-il disponible et quels défis reste-t-il à relever ?

AMolmoWeb est entièrement open-source et disponible sur les plateformes Hugging Face et GitHub sous licence Apache 2.0. Les défis restants incluent la gestion d'instructions complexes, la navigation des processus de connexion et d'authentification, ainsi que le respect des conditions d'utilisation et autres aspects de conformité légale des sites web.

Lectures associées

La Loi de Tao (τ) propulse l'EDA sur le devant de la scène

Loi de Tao (τ) : Un nouveau principe chinois fait monter l’EDA sur le devant de la scène Le 25 mai 2026, lors de l'IEEE ISCAS, Huawei a présenté la "Loi de Tao (τ)", un nouveau principe directeur pour l'industrie des semi-conducteurs. Contrairement à la Loi de Moore axée sur la miniaturisation géométrique, la loi τ prône la "miniaturisation temporelle". Elle vise à optimiser la constante de temps τ à tous les niveaux (composant, circuit, puce, système) pour améliorer les performances de traitement de l'information, indépendamment du nœud de fabrication. Ce changement de paradigme replace l'EDA au cœur de la conception. Pour soutenir la loi τ, les outils EDA doivent évoluer au-delà des flux 2D traditionnels. Trois exigences majeures émergent : 1. **Conception 3D native et optimisation multiniveau** : Les flux "pseudo-3D" actuels sont insuffisants. Une véritable conception 3D, permettant une répartition flexible des cellules logiques à travers plusieurs puces (dies), est nécessaire pour des techniques comme le "Logic Folding". 2. **Optimisation STCO (System Technology Co-Optimization)** : Avec la coexistence des technologies Chiplet, 3DIC et Logic Folding, une approche systémique unifiée est cruciale pour optimiser conjointement l'architecture logique, la disposition physique, l'intégrité du signal et de l'alimentation, ainsi que les contraintes thermiques et mécaniques. 3. **Analyse couplée multi-physique** : L'analyse thermique, électrique et mécanique ne peut plus être menée de manière isolée dans les systèmes 3D empilés, nécessitant des outils de simulation intégrés. Ces défis représentent une opportunité pour les éditeurs d'EDA chinois, comme Huada Jiutian, qui a déjà développé une plateforme de vérification physique 3DIC complète, ou l'Université de Pékin, dont un prototype d'outil "vrai 3D" montre des améliorations significatives (réduction de 30% de la longueur des interconnexions, baisse de la température). La loi τ pourrait ainsi catalyser la transition de l'EDA chinois d'une collection d'outils ponctuels vers une base logicielle industrielle complète et intégrée, capable de répondre aux exigences de la miniaturisation temporelle.

marsbitIl y a 1 h

La Loi de Tao (τ) propulse l'EDA sur le devant de la scène

marsbitIl y a 1 h

Ce n'est pas Jensen Huang qui veut changer le PC, c'est le PC qui va faire sa propre révolution

L'industrie du PC, vieille de 40 ans, est en pleine transformation. En juin 2026, NVIDIA a lancé le super-puce RTX Spark pour PC Windows, marquant son entrée sur le marché des processeurs centraux. Soutenu par Microsoft et les principaux fabricants de PC, cet événement a officialisé la redéfinition de l'AI PC. Lors du Build 2026, Microsoft a repositionné Windows comme "plateforme native pour les agents d'IA locaux" et a présenté le Surface RTX Spark Dev Box. Jensen Huang a souligné que l'IA redessine l'industrie du PC, transformant l'ordinateur d'un outil passif en un assistant d'IA autonome capable d'exécuter des tâches en arrière-plan. Pourtant, le concept d'AI PC a été initialement lancé par Intel début 2026 avec ses processeurs Core Ultra de 3ᵉ génération. Le marché voit également l'arrivée de Qualcomm, AMD et Apple, signalant une tendance claire : l'IA migre massivement vers les dispositifs de calcul personnels. L'article retrace l'essor historique du duopole Wintel (Microsoft-Intel) qui a dominé l'industrie pendant des décennies, reléguant NVIDIA au rôle de fournisseur de composants. Le tournant est survenu avec les puces M d'Apple et la définition des "Copilot+ PC" par Microsoft en 2024, exigeant une puissance NPU minimale. Cependant, le manque d'applications IA locales tangibles a initialement freiné l'adoption. La stratégie de NVIDIA repose sur son écosystème. Avec 6 millions de développeurs CUDA, l'entreprise possède un avantage considérable en matière de logiciels. Le RTX Spark, une SoC intégrant CPU ARM, cœurs CUDA et mémoire unifiée, vise à porter cet écosystème sur PC portable, permettant l'exécution locale de grands modèles de langage. Trois signaux majeurs se dégagent : 1) Le PC passe d'une architecture centrée sur le CPU à une architecture centrée sur une SoC IA. 2) Il évolue d'un outil opéré par l'humain vers une plateforme de collaboration avec des agents IA autonomes. 3) La base massive de développeurs CUDA de NVIDIA trouve un nouveau support matériel grand public. Le succès dépendra du prix final, de la maturité de l'écosystème logiciel Windows sur ARM et de l'émergence d'applications phares pour les agents IA locaux. En définitive, la révolution est moins menée par un acteur spécifique que par la trajectoire inévitable de la technologie IA cherchant à s'intégrer au PC. Intel, avec ses processeurs Panther Lake, suit la même direction. Microsoft, en adaptant Windows, conserve un rôle pivot. L'ère de l'AI PC est ouverte, et l'industrie du PC est en train de se réinventer.

marsbitIl y a 3 h

Ce n'est pas Jensen Huang qui veut changer le PC, c'est le PC qui va faire sa propre révolution

marsbitIl y a 3 h

La SEC américaine envisage d'abroger une vieille règle de 2005 : que signifie-t-elle pour les actions tokenisées ?

Le 11 juin, la SEC américaine a proposé de supprimer les Règles 611 et 610(e) du Règlement NMS, une réforme potentielle de la structure des marchés traditionnels. La Règle 611, dite « trade-through rule », empêche les transactions d'ignorer les meilleures cotations disponibles sur d'autres plateformes. La SEC estime qu'elle est devenue moins nécessaire dans un marché désormais hautement automatisé, et qu'elle génère des coûts de conformité et une fragmentation excessive. La Règle 610(e) restreint les « cotations verrouillées » (prix d'achat égal au prix de vente) et « croisées » (prix d'achat supérieur au prix de vente). Sa suppression pourrait permettre des écarts de prix plus serrés, tout en réduisant la complexité des systèmes. Cette proposition est pertinente pour le monde de la tokenisation, car la SEC évoque explicitement les technologies de registre distribué et les contrats intelligents. En assouplissant ces règles conçues en 2005, la SEC pourrait ouvrir un espace pour des mécanismes de négociation plus innovants et compatibles avec des actifs tokenisés fonctionnant 24h/24. Cependant, cette réforme ne résout pas les défis réglementaires fondamentaux liés à la tokenisation des titres. La SEC estime que cette suppression pourrait générer des économies annuelles de 54 à 77 millions de dollars pour les acteurs du marché en réduisant les complexités induites par la réglementation.

Foresight NewsIl y a 5 h

La SEC américaine envisage d'abroger une vieille règle de 2005 : que signifie-t-elle pour les actions tokenisées ?

Foresight NewsIl y a 5 h

Trading

Spot
Futures
活动图片