C'est vrai, l'IA continue d'accélérer sa course.
En 2016, l'apprentissage profond a explosé pendant à peine un an avant de presque stagner. En 2026, les modèles massifs, en plein essor depuis quatre ans, n'ont toujours pas atteint leur limite.
Sur place lors de la conférence Zhiyuan 2026, Guāng zhuī Zhìnéng a observé que tout, des modèles au logiciel et au matériel en passant par les produits, s'efforce de faire sortir l'IA du monde numérique pour la faire "courir" dans le monde physique.
D'une part, la loi d'échelle (Scaling Law) joue un rôle stable, continuant de pousser les grands modèles de langage et les modèles multimodaux à se développer. L'industrie de l'IA est entrée dans une phase de poursuite des modèles du monde. Seulement, les questions de trajectoires technologiques, de données, etc., restent en suspens et nécessitent probablement encore au moins 3 à 5 ans d'exploration.
D'autre part, les percées réalisées par les agents accélèrent l'adoption de l'IA dans des scénarios réels. Alors que les agents atteignent un stade utilisable, le secteur promeut leur application dans des domaines comme la santé, les réunions, etc. Pour faire passer les agents de l'"utilisable" à l'"agréable à utiliser", la synergie logicielle-matérielle devient également cruciale. Sur le stand de la conférence Zhiyuan, les fabricants de puces occupaient "la moitié du terrain". Presque tous les principaux fabricants de puces IA chinois étaient présents.
"Nous nous tenons à un nouveau point critique de l'histoire. L'intelligence artificielle n'est plus seulement un outil pour transformer une industrie, elle devient une force sous-jacente en train de restructurer le monde. Le codage par IA, les agents autonomes, l'auto-évolution des modèles ouvrent la possibilité pour l'IA de créer de l'IA. Les modèles du monde, l'intelligence incarnée et la robotique étendent l'intelligence du monde numérique au monde physique.", a déclaré Wang Zhongyuan, président de l'Institut de recherche Zhiyuan.
Que se passe-t-il vraiment dans cette vague de restructuration par une force sous-jacente ?
Le premier jour de la conférence Zhiyuan, les invités présents ont donné cette réponse : l'IA est en train de passer de "savoir discuter" à "savoir travailler". La loi d'échelle se poursuit, les modèles du monde, dont la direction technologique ne s'est pas encore convergée, deviennent le centre d'intérêt de la prochaine étape, et les agents intelligents commencent à passer de l'utilisable à l'agréable, avec de nombreux problèmes à optimiser.
L'IA non seulement n'a pas atteint son plafond technologique
Mais a également appris à s'auto-évoluer
L'année dernière, alors que les données textuelles de haute qualité d'Internet s'épuisaient, une humeur pessimiste de "la loi d'échelle (Scaling Law) est sur le point d'atteindre son sommet" s'est répandue dans le secteur.
Dans plusieurs forums de la conférence Zhiyuan, la question "les bénéfices de la loi d'échelle diminuent-ils ?" a été fréquemment soulevée, et plusieurs intervenants ont nié cette affirmation.
"Je reste assez convaincu que l'échelle est loin d'être arrivée à son terme.", a déclaré Wang He, fondateur et CTO de Yinhe Tongyong. "Aujourd'hui, avec le recul, la loi d'échelle n'a pas échoué, elle est simplement devenue plus diversifiée."
Sur une série de nouveaux grands modèles de langage publiés, l'échelle continue de jouer son rôle. En analysant Fable 5, récemment publié par Anthropic, Luo Fuli de Xiaomi a indiqué que ce modèle lui-même est le produit d'une avancée scientifique de la loi d'échelle. C'est le résultat de la combinaison de l'échelle des paramètres, des données synthétiques et de l'apprentissage par renforcement dans trois dimensions.
"Nous supposons que l'échelle des paramètres de Fable 5 elle-même est probablement plusieurs fois supérieure à celle du plus grand modèle open source actuel. Ensuite, une puissance de calcul importante a également été investie dans l'extension au moment de l'inférence (Test-Time Scaling) ou dans l'apprentissage par renforcement. De plus, les données synthétiques générées par des humains et des agents ont porté l'échelle des données à un nouveau niveau.", a déclaré Luo Fuli.
Dans le domaine multimodal, l'amélioration des performances des modèles apportée par la loi d'échelle est également significative. Zhu Jun, fondateur et scientifique en chef de Shengshu Keji, a déclaré que la qualité des données, la taille des modèles et l'entraînement à grande échelle apportent tous des améliorations aux modèles. Sur la base de l'amélioration des capacités des modèles de base, la compréhension par le modèle des lois physiques et des scènes 3D sera également plus efficace.
Alors que la loi d'échelle reste efficace, avec la maturation progressive du codage par IA et l'adoption accélérée des agents, la tendance à l'auto-évolution de l'IA devient évidente, passant de l'écriture de code à la réalisation autonome des itérations et mises à jour de produits.
"Le monde numérique humain est largement construit sur du code. Le fait que le codage par IA ait réalisé de véritables progrès substantiels et soit devenu dominant signifie que tout ce qui se trouve dans le monde numérique pourrait progressivement être pris en charge par l'IA.", a déclaré Wang Zhongyuan.
En Chine et à l'étranger, l'utilisation de l'IA pour réaliser des mises à jour de produits est devenue une norme.
"Si le modèle détermine les capacités de l'agent, alors le harnais (Harness) détermine la limite supérieure des capacités de l'agent.", a déclaré Li Jingqiu. "Sa difficulté réside dans le fait qu'il faut, sur la base du modèle, clarifier, valider et fournir un retour d'information sur le problème."
Par exemple, si on ne compte que sur le modèle pour comprendre le problème, il aura inévitablement ses limites. Le harnais doit améliorer et enrichir la simple instruction d'une phrase de l'utilisateur, permettant au modèle de mieux comprendre le besoin. Cela nécessite que le harnais déploie sa capacité de compréhension de l'intention, et après avoir reçu la tâche, conçoive le flux de tâches suivant avant de planifier l'exécution par le modèle. Ce processus peut nécessiter une intervention humaine et des corrections, ainsi qu'une vérification avant l'achèvement de la tâche.
Les modèles du monde
Le prochain champ de bataille clé des grands modèles
En repoussant les frontières du monde numérique vers l'extérieur, les modèles du monde sont devenus le prochain champ de bataille clé des grands modèles.
"Actuellement, aucun modèle du monde ne donne vraiment une impression particulièrement brillante, capable de résoudre les divers problèmes du monde physique réel.", a déclaré Wang Zhongyuan.
Pour les modèles du monde, qui en sont à leurs débuts, l'industrie n'a pas encore atteint un consensus complet sur les technologies spécifiques aux modèles du monde. Et dans un contexte où les trajectoires technologiques ne sont pas encore convergées, une série de problèmes urgents reste à résoudre. Prenons l'exemple des données, Wang Zhongyuan cite : faut-il des données vidéo, des données de simulation ou des données du monde physique réel ? On n'a pas encore trouvé la méthode et le chemin.
Prenant l'exemple de Yinhe Tongyong, Wang He a présenté sur place leur utilisation des données synthétiques.
"Avant l'émergence du paradigme WAM (World Action Model, modèle d'action mondial), dans le paradigme VLA, nous avons d'abord utilisé des données synthétiques pour effectuer de nombreux essais sur la préhension.", a déclaré Wang He. "Nous avons prouvé avec 1 milliard d'images de données de simulation : dès que vous mettez les données à cette échelle, vous pouvez réaliser un apprentissage zero-shot (zéro échantillon), et dans le monde réel, donnez-moi n'importe quel objet, je peux gérer la préhension."
Concernant l'état de développement des modèles du monde, l'Institut de recherche Zhiyuan prévoit "qu'il faudra encore plusieurs années". Les trois à cinq prochaines années seront une phase d'évolution et d'itération continues des modèles du monde.
Ces dernières années, plusieurs modèles du monde suivant différentes trajectoires technologiques sont apparus dans l'industrie, chacun se développant avec ses propres caractéristiques.
Prenant l'exemple des modèles du monde multimodaux, Zhu Jun a déclaré que les modèles vidéo et les modèles du monde sont étroitement liés, car les modèles du monde doivent posséder trois capacités : voir et comprendre l'état, prédire et agir. Parmi les données d'entraînement actuellement accessibles, les données vidéo sont les plus pertinentes pour les modèles du monde.
Dans un contexte de divergence des trajectoires technologiques et d'absence de consensus industriel, l'Institut de recherche Zhiyuan a classé les modèles du monde en quatre catégories :
Première catégorie : les modèles du monde centrés sur le langage, qui mappent d'autres modalités et capacités dans l'espace linguistique, y compris les grands modèles de langage, VLM, VLA, etc. ;
Deuxième catégorie : les modèles du monde centrés sur les pixels. La génération vidéo consiste essentiellement à prédire la trame d'image suivante, mais un modèle de génération vidéo n'est pas égal à un modèle du monde. Il est lié aux modèles du monde, et le World Action Model (WAM) qui pourrait être très populaire cette année évolue également à partir d'un centrage sur les pixels ;
Troisième catégorie : les modèles du monde centrés sur la structure tridimensionnelle, y compris la reconstruction 3D qui représente simplement le monde en 3D ;
Quatrième catégorie : les modèles du monde axés sur la représentation visuelle.
Actuellement, l'Institut de recherche Zhiyuan explore une "cinquième" voie - la fusion des approches centrées sur le langage et centrées sur la représentation visuelle, c'est-à-dire la représentation de l'espace latent, qui consiste à compresser des informations telles que le texte, les images, etc., dans un espace vectoriel pour représenter divers états du monde physique réel.
"À l'avenir, la modélisation unifiée de l'espace latent ne concernera pas seulement l'espace visuel, mais l'espace latent multimodal complet, ce qui pourrait très bien être la prochaine trajectoire possible des modèles du monde.", a déclaré Wang Zhongyuan.
L'Institut de recherche Zhiyuan a présenté lors de la conférence le modèle du monde en cours de développement - Wu Jie · Physis-v0.1, qui se centre sur la modélisation de l'espace physique et la prédiction du prochain état physique. Son positionnement est celui du premier modèle de base mondial universel, mettant l'accent sur quatre capacités clés : "correct physiquement, traçabilité causale des actions, cohérence temporelle longue, généralisation universelle".
Actuellement, le modèle est encore en phase d'entraînement. Dans la seconde moitié de l'année, Zhiyuan continuera à partager les progrès et ouvrira le modèle en source ouverte une fois l'entraînement terminé.
De "utilisable" à "agréable à utiliser"
Les agents intelligents ont encore plus d'obstacles à franchir
Côté modèles, les progrès des modèles du monde favorisent la réalisation de l'IA physique ; côté produits, les agents (intelligents) deviennent le produit clé pour l'adoption de l'IA dans la vie du grand public.
Depuis 2025, qualifiée d'"année de l'agent intelligent", des produits d'agents impressionnants ont émergé, montrant des signes d'explosion, mais la popularité phénoménale des "lobsters" (probablement un nom de produit ou une référence culturelle) cette année était encore inattendue.
Par rapport à l'année dernière où les agents n'étaient qu'en état d'exécution, les agents de cette année sont clairement devenus plus proactifs, plus aptes à gérer les affaires, et peuvent aider les utilisateurs à exécuter activement des tâches plus complexes.
Lors de la conférence Zhiyuan de cette année, l'Institut de recherche Zhiyuan a également présenté quatre agents orientés vers des secteurs verticaux : BAAI Cardiac Agent, le premier agent d'aide au diagnostic au monde pour l'IRM cardiaque, qui intègre des capacités multimodales et l'expertise médicale pour aider les médecins dans leurs décisions ; l'agent de recherche autonome AREX appliqué au domaine scientifique ; l'agent intelligent SoulAgent qui aide les utilisateurs à suivre les réunions en temps réel et à capturer les points essentiels ; et un agent de détection des risques pour l'acquisition de protéines dangereuses.
Prenant l'exemple de l'agent d'écoute de réunions, Guāng zhuī Zhìnéng a testé sa capacité à résumer le contenu de différentes réunions. SoulAgent a effectivement fait un bref résumé du contenu de la réunion. Bien que moins complet qu'un compte-rendu, les points de vue essentiels étaient corrects. Cela semble adapté aux situations où les horaires des forums se chevauchent.
Cependant, les agents actuels présentent encore de nombreux problèmes techniques nécessitant une optimisation supplémentaire. Le professeur titulaire de la présidence de l'Université technologique de Nanyang, An Yang, a mentionné que pour maintenir l'amélioration des capacités des agents, la partie la plus importante actuellement est toujours liée à l'ingénierie du contexte, comme la mémoire (Memory), l'orchestration, etc.
Lors du forum sur les agents, le terme Harness (signifiant littéralement "harnais", faisant référence à l'ensemble du cadre ou environnement d'ingénierie construit autour de l'agent), peu mentionné l'année dernière mais très populaire cette année, est devenu un mot-clé fréquemment évoqué sur place.
"Si le modèle détermine les capacités de l'agent, alors le harnais (Harness) détermine la limite supérieure des capacités de l'agent.", a déclaré Li Jingqiu. "Sa difficulté réside dans le fait qu'il faut, sur la base du modèle, clarifier, valider et fournir un retour d'information sur le problème."
Par exemple, si on ne compte que sur le modèle pour comprendre le problème, il aura inévitablement ses limites. Le harnais doit améliorer et enrichir la simple instruction d'une phrase de l'utilisateur, permettant au modèle de mieux comprendre le besoin. Cela nécessite que le harnais déploie sa capacité de compréhension de l'intention, et après avoir reçu la tâche, conçoive le flux de tâches suivant avant de planifier l'exécution par le modèle. Ce processus peut nécessiter une intervention humaine et des corrections, ainsi qu'une vérification avant l'achèvement de la tâche.
En bref, comme un assistant humain, chaque détail nécessite que le produit affine le harnais pour améliorer davantage l'efficacité d'exécution de l'agent.
Actuellement, les agents en sont encore à un stade de développement précoce. Il est prévisible que les progrès dans ce secteur soient importants, que ce soit l'amélioration des capacités des modèles ou la consolidation des détails d'ingénierie, contribueront tous à renforcer davantage la capacité des agents à accomplir des tâches.
Cet article provient du compte public WeChat : Guāng zhuī Zhìnéng , auteur : s'intéressant aux technologies de pointe










