Auteur : Li Yuan
Avez-vous déjà posé des questions sur votre santé à un assistant IA ?
Si vous êtes, comme moi, un utilisateur intensif de l'IA, il y a de fortes chances que vous ayez aussi essayé.
Les données fournies par OpenAI indiquent que la santé est devenue l'un des scénarios d'utilisation les plus courants de ChatGPT, avec plus de 230 millions de personnes dans le monde posant chaque semaine des questions liées à la santé et au bien-être.
C'est pourquoi, en cette année 2026, le domaine de la santé montre tous les signes de devenir un terrain de conquête dans le domaine de l'IA.
Le 7 janvier, OpenAI a lancé ChatGPT Santé, permettant aux utilisateurs de connecter leurs dossiers médicaux électroniques et diverses applications de santé pour obtenir des réponses médicales plus ciblées ; et le 12 janvier, Anthropic a immédiatement lancé Claude for Healthcare, en mettant en avant les capacités de son nouveau modèle dans les scénarios médicaux.
Mais chose intéressante, cette fois, les entreprises chinoises ne sont pas à la traîne, et semblent même prendre les devants.
Le 13 janvier, Baichuan Intelligence a annoncé le lancement de son modèle Baichuan M3, qui a surpassé le GPT-5.2 High d'OpenAI sur l'ensemble de test d'évaluation HealthBench, publié par OpenAI dans le domaine de la santé, obtenant ainsi le SOTA (State Of The Art).
Après avoir annoncé son engagement total (All-in) dans la santé et fait face à de nombreux doutes, Baichuan Intelligence semble enfin avoir fait ses preuves. Geek Park a profité de l'occasion pour s'entretenir avec Wang Xiaochuan sur la façon dont Baichuan Intelligence perçoit les capacités de ce modèle M3, ainsi que sur la finalité de l'IA dans la santé.
01 Première fois qu'un modèle dépasse OpenAI sur un benchmark de santé
L'une des performances les plus remarquables de ce modèle M3 est d'avoir, pour la première fois, surpassé le GPT-5.2 High d'OpenAI sur l'ensemble d'évaluation HealthBench dans le domaine de la santé publié par OpenAI, obtenant le SOTA.
SOTA sur Healthbench, Healthbench Hard and Hallucination Evaluation
Healthbench est un ensemble d'évaluation dans le domaine de la santé publié par OpenAI en mai 2025. Construit par 262 médecins de 60 pays, il contient 5000 conversations médicales multitours hautement réalistes, ce qui en fait l'un des benchmarks médicaux les plus autoritaires et proches des scénarios cliniques réels au monde.
Depuis sa publication, les modèles d'OpenAI ont dominé le classement.
Cette fois, le nouveau modèle open source de Baichuan Intelligence, Baichuan-M3, a obtenu un score global de 65,1 points, se classant premier mondial. Même sur HealthBench Hard, qui teste spécifiquement les capacités de prise de décision complexe, M3 a remporté la première place, battant le record.
Baichuan a également publié un résultat de test sur le taux d'hallucination : le modèle M3 a atteint 3,5 %, l'un des plus bas au monde.
Il est important de noter que ce taux d'hallucination est mesuré sans outils de recherche externes, dans une configuration purement basée.
Baichuan Intelligence indique que la clé de ces deux améliorations réside dans l'introduction d'un algorithme de reinforcement learning adapté à la santé.
Baichuan a utilisé pour la première fois la technologie Fact Aware RL (Renforcement de l'Apprentissage Conscient des Faits) sur le modèle M3, atteignant l'effet de faire en sorte que le modèle ne dise pas de banalités, mais aussi qu'il ne dise pas n'importe quoi.
C'est en fait crucial dans le domaine médical.
Lorsqu'on pose une question médicale à un modèle non optimisé, les problèmes les plus courants sont de deux types : soit le modèle invente complètement vos symptômes et suppose une maladie ; soit il est sémantiquement vague, finissant par vous suggérer de consulter un médecin, ce qui n'est d'une grande aide ni pour le médecin ni pour le patient.
C'est parce que de nombreux modèles optimisent uniquement pour un faible taux d'hallucination pur. Le modèle peut alors diluer le taux global d'hallucination en empilant des faits simples et corrects. Baichuan a introduit un mécanisme de clustering sémantique et de pondération par importance – le clustering élimine les interférences des formulations redondantes, la pondération garantit que les affirmations médicales centrales obtiennent un poids plus élevé.
Simultanément, si on introduit simplement une pénalité d'hallucination à poids élevé, cela force facilement le modèle à adopter une stratégie conservatrice de « moins on en dit, moins on risque de se tromper ». Par conséquent, l'algorithme Fact Aware RL intègre également un mécanisme de réglage dynamique des poids, équilibrant adaptativement ces deux objectifs en fonction du niveau de capacité actuel du modèle – pendant la phase de construction des capacités, l'accent est mis sur l'apprentissage et l'expression des connaissances médicales (poids de tâche élevé) ; une fois les capacités matures, les contraintes de factualité sont progressivement resserrées (augmentation du poids d'hallucination).
Lorsqu'une recherche en ligne est possible, Baichuan a ajouté un module de vérification en ligne basé sur une recherche multitours, tout en introduisant un système de cache efficace pour aligner les vastes connaissances médicales.
02 Le niveau d'interrogatoire dépasse celui des médecins humains, entrant dans une phase utilisable
Cependant, dépasser OpenAI sur Healthbench n'est pas le seul point fort.
Un aspect plus intéressant est que Baichuan a créé de manière innovante son propre benchmark SCAN-benche. Par rapport au simple fait de battre le benchmark d'OpenAI, le benchmark construit par Baichuan illustre peut-être mieux la direction que Baichuan Intelligence souhaite optimiser dans le domaine de la santé.
L'objectif clé de ce benchmark créé par Baichuan est d'optimiser « la capacité d'interrogatoire de bout en bout ». Cela découle d'une observation expérimentale de Baichuan : chaque augmentation de 2 % de la précision de l'interrogatoire entraîne une augmentation de 1 % de la précision des résultats du diagnostic.
Autrement dit, alors que le HealthBench d'OpenAI se concentre principalement sur « l'IA sait-elle répondre aux questions », le SCAN-benche de Baichuan vise à évaluer : l'IA peut-elle, dans un échange de questions-réponses, acquérir des informations efficaces tout en fournissant des résultats de diagnostic et des avis médicaux corrects.
Normalement, lorsque nous interrogeons un assistant IA, si nous mentionnons simplement « vous êtes un médecin expérimenté », nous n'obtenons généralement pas un très bon effet. Parce que le processus d'interrogatoire d'un vrai médecin est très structuré – Baichuan le résume en quatre principes SCAN : Safety Stratification (Stratification de la Sécurité), Clarity Matters (Clarté de l'Information), Association & Inquiry (Association et Investigation) et Normative Protocol (Protocole de Sortie Normalisé).
Autour des principes SCAN, Baichuan, s'inspirant de la méthode OSCE utilisée depuis longtemps dans l'éducation médicale, et en collaboration avec plus de 150 médecins de première ligne, a construit le système d'évaluation SCAN-bench. Il décompose le processus de diagnostic en trois étapes : collecte des antécédents, examens complémentaires, diagnostic précis. Il évalue de manière dynamique et multitours, simulant complètement le processus complet du médecin de la consultation au diagnostic, afin d'obtenir de meilleurs résultats à chacune de ces étapes et d'optimiser le modèle.
Baichuan a également publié les résultats d'évaluation du modèle M3 sur SCAN-benche.
Les résultats sont très intéressants. Baichuan a cette fois comparé non seulement avec d'autres modèles, mais aussi avec de vrais médecins. Et dans les quatre quadrants, les médecins humains étaient déjà dépassés par le niveau que le modèle pouvait atteindre.
Geek Park a spécifiquement interrogé l'équipe de Baichuan à ce sujet. La réponse fut : pour cette évaluation, il s'agissait de vrais médecins spécialistes comparés au modèle sur des cas spécialisés. La victoire du modèle s'explique, premièrement, par sa plus grande patience, mais surtout par sa meilleure capacité à maîtriser les connaissances interdisciplinaires.
Par exemple, dans un cas impliquant un enfant de 10 ans avec une fièvre récurrente, la fièvre est un phénomène médical très complexe. Si on interroge seulement sur la toux et les problèmes pulmonaires, on risque d'ignorer des problèmes graves dans les articulations ou le système urinaire, conduisant à un diagnostic erroné d'infection commune.
Les médecins humains sont généralement compétents seulement pour les pathologies de leur spécialité, c'est pourquoi les symptômes complexes nécessitent souvent des consultations d'experts, ou pourquoi les experts en maladies difficiles doivent souvent consulter des ouvrages.
Et un modèle standard, sans entraînement spécifique, qui joue simplement le rôle d'un médecin, a souvent du mal à bien répondre à ce type de questions.
03 Prochaine étape : Commencer progressivement à développer des produits grand public (C端), promouvoir une médecine plus sérieuse
Pour Baichuan Intelligence, franchir ce cap du dépassement des médecins humains est très significatif : cela signifie que l'IA commence à franchir le seuil de l'utilisabilité et peut être déployée dans des scénarios d'utilisation.
À partir du 13 janvier, les utilisateurs peuvent déjà commencer à expérimenter les réponses fournies par le modèle M3 sur le site web et l'application Baixiaoying.
La conception actuelle du site est très intéressante. Bien que les réponses utilisent toutes le modèle M3, une distinction est faite entre la version médecin et la version utilisateur. Dans la version médecin, les réponses sont plus concises, citent plus de références et sont moins « grand public ». Dans la version patient ordinaire, le modèle ne donne presque jamais de réponse immédiate, il pose plus de questions pour un diagnostic plus précis.
Baichuan Intelligence mentionne que la réflexion du modèle en arrière-plan est très intéressante. « Nous voyons souvent le modèle mentionner dans sa chaine de pensée : 'Ce patient n'a pas répondu à ma question, mais je dois absolument la poser.' Nous avons même vu des cas extrêmes où le modèle dit : 'J'ai déjà posé 20 questions à ce patient, cela dépasse le nombre maximum de tours défini, mais je dois encore poser cette question.' C'est parce que pendant l'entraînement, le modèle n'est pas récompensé s'il répond de manière évasive. Il doit vraiment obtenir suffisamment d'informations clés et poser le bon diagnostic pour être récompensé. C'est une différence notable entre notre façon de former le modèle et celle des autres. »
Récemment, de nombreuses entreprises d'IA se sont lancées dans le domaine de la santé. C'est là que Baichuan Intelligence voit sa plus grande différence – vouloir faire de la médecine plus sérieuse.
« Cela signifie que Baichuan, en choisissant ses scénarios, ne regarde pas lequel est le plus facile à faire. Au contraire, Baichuan insiste pour continuellement pousser ses capacités technologiques et relever des défis plus difficiles », explique Wang Xiaochuan.
Un exemple typique est que Baichuan priorisera à l'avenir les scénarios de résolution en oncologie, tandis que la psychothérapie sera moins prioritaire.
Dans l'opinion générale, on pense souvent que fournir une psychothérapie par IA est plus simple et un scénario plus facile à mettre en œuvre. La logique de jugement de Baichuan est différente. Ils estiment que le domaine de l'oncologie a des bases scientifiques plus solides. Là, l'IA a plus de chances d'avoir un effet médical sérieux, atteignant ou dépassant le niveau des médecins humains. En comparaison, le domaine de la psychologie manque de ce point d'ancrage scientifique certain.
De même, certaines entreprises choisissent de créer des « doubles » numériques de médecins, mais Wang Xiaochuan estime que cette direction n'est pas celle que Baichuan souhaite prendre. Le double d'un médecin ne peut pas réutiliser complètement le niveau du médecin, et encore moins le dépasser. Une telle IA finirait par n'être qu'une façade et un outil d'acquisition de clients, sans vraiment faire avancer la médecine sérieuse.
Cette insistance sur le sérieux influence profondément de nombreux choix commerciaux de Baichuan.
Cela est directement lié à la réflexion de Wang Xiaochuan sur la question fondamentale de la prochaine étape de l'IA médicale. Il estime que la tâche la plus importante à ce stade est, sur la base du renforcement des capacités de l'IA, de fournir progressivement plus d'offre médicale.
La Chine essaie depuis des années de mettre en œuvre un système de soins hiérarchisés et de médecins généralistes. L'objectif initial était que le public consulte d'abord au niveau local, pour résoudre les problèmes de difficulté à obtenir un rendez-vous, les longues files d'attente et l'encombrement des grands hôpitaux.
La raison pour laquelle ce système est difficile à mettre en œuvre est fondamentalement due à l'insuffisance de l'offre de ressources médicales. Les établissements de soins primaires manquent de médecins de haut niveau. Même pour un simple rhume, les gens préfèrent faire la queue dans un hôpital de type 3A parce qu'ils n'ont pas confiance dans le niveau des soins primaires.
C'est là que l'IA médicale peut jouer un rôle clé. Les grands modèles de langage peuvent permettre une distribution à grande échelle des connaissances médicales de pointe. Ils comblent le déficit d'offre au niveau local, permettant à chaque communauté, chaque famille, d'avoir une capacité de diagnostic comparable à celle des experts des hôpitaux de type 3A.
À long terme, cela peut avoir un impact plus large, permettant peut-être de transférer progressivement le pouvoir décisionnel des mains des médecins vers celles des utilisateurs. Dans le scénario médical traditionnel, le patient est le bénéficiaire, mais n'a souvent pas le pouvoir de décision. Le pouvoir décisionnel est concentré entre les mains du médecin. Cette asymétrie de pouvoir engendre souvent des coûts de communication et des souffrances pendant le traitement.
Baichuan espère, grâce à l'IA, permettre aux patients d'accéder plus facilement à une offre de ressources médicales de qualité. « Beaucoup pensent que la médecine est trop complexe, que les patients ne pourront jamais la comprendre. Mais nous pensons au système judiciaire américain qui a un jury. Le droit est aussi une affaire très professionnelle, les jurés ordinaires ne comprennent pas, alors il est demandé au juge, aux avocats et au procureur de guider, de débattre pleinement, d'expliquer clairement jusqu'à ce qu'une personne ordinaire puisse juger s'il y a culpabilité ou non, permettant à une personne ordinaire de juger normalement sur la base de la logique », explique Wang Xiaochuan.
C'est aussi une des raisons pour lesquelles Baichuan Intelligence ne veut pas se contenter de scénarios simples, mais espère continuellement progresser vers des diagnostics sérieux et difficiles.
Interrogé sur le fait de résoudre des problèmes de haute difficulté est-il le plus rentable commercialement, Wang Xiaochuan a donné une réponse profonde.
Il estime que résoudre de petits problèmes comme le rhume ou la fièvre permet difficilement d'établir une confiance suffisante chez l'utilisateur. La santé est un secteur qui dépend fortement de la confiance. Ce n'est que lorsque l'IA pourra résoudre des problèmes difficiles comme les maladies graves qu'elle pourra véritablement jeter les bases de la confiance.
D'un point de vue logique commercial, face à des problèmes de santé sérieux, les patients sont aussi plus disposés à payer pour des services IA de haute qualité. Cette confiance est non seulement une condition préalable au retour sur investissement commercial, mais aussi le cœur de l'application à grande échelle de l'IA médicale.
Et, plus fondamentalement, la santé représente pour Baichuan Intelligence et Wang Xiaochuan personnellement, une voie vers l'intelligence artificielle générale (IAG ou AGI).
Wang Xiaochuan pense que l'IA a déjà trouvé des solutions tangibles dans les domaines des arts, des sciences, de l'ingénierie, etc. La santé est un domaine extrêmement unique. L'exploration humaine de la médecine n'est pas encore épuisée, et l'IA dans ce domaine en est encore à un stade exploratoire.
La feuille de route de Baichuan est très claire. D'abord, utiliser l'IA pour améliorer l'efficacité du diagnostic, résoudre le problème actuel de pénurie de l'offre médicale. Sur cette base, Baichuan s'engage à établir une confiance profonde avec les patients. Lorsque les patients sont prêts à utiliser les outils d'IA pour des consultations médicales à long terme, l'IA peut accumuler des données médicales réelles et de haute qualité lors de cet accompagnement prolongé.
L'objectif ultime de ces données est de construire un modèle mathématique de la vie. C'est une voie que les médecins humains n'ont pas encore complètement parcourue, et il est fort probable que l'IA la réalise en premier. Si la modélisation de l'essence de la vie peut être accomplie, cela deviendra une étape clé pour faire progresser l'intelligence artificielle générale vers un niveau supérieur.









