Jingdong et Mira Murati, ancienne CTO d'Open AI, misent sur la même piste de l'IA
Imaginez un scénario où un système d’IA perçoit et réagit en temps réel aux événements du monde physique sans attendre de demande explicite. C’est la promesse du modèle JoyAI-VL-Interaction, récemment rendu open source par JD.com. Il s’agit du premier modèle d’interaction visio-linguistique en temps réel entièrement open source, capable d’analyser un flux vidéo continu pour décider quand intervenir, quand rester silencieux ou quand déléguer une tâche complexe à un autre modèle.
Contrairement aux assistants classiques fonctionnant en "tour par tour" (question-réponse), cette approche permet à l’IA d’être proactive dans des situations où l’utilisateur n’a pas le temps ou la capacité de formuler une requête : aide aux personnes âgées, assistance aux malvoyants, commentaire sportif automatique, surveillance industrielle ou robotique.
JD.com n’est pas seul à explorer cette voie : Mira Murati, ancienne CTO d’OpenAI, et son laboratoire Thinking Machines Lab promeuvent une vision similaire des "modèles d’interaction". La particularité de JD.com est de placer la vision (plutôt que la voix) au cœur de la prise de décision, et de s’appuyer sur ses vastes données issues de scénarios réels (logistique, vente au détail, santé) pour entraîner le modèle.
Le modèle, léger (8B paramètres) et conçu pour être déployé sur du matériel accessible (comme une carte graphique RTX 3090), est accompagné de son système d’inférence, de jeux de données et d’une documentation technique complets. JD.com ouvre ainsi la voie à une adoption large par les développeurs, visant à faire de l’IA proactive un élément central de l’intégration du numérique dans le monde physique.
marsbitIl y a 8 mins