Autor: Li Yuan
¿Alguna vez le has preguntado a un asistente de IA sobre tus problemas de salud?
Si eres un usuario intensivo de IA como yo, es muy probable que lo hayas intentado.
Los datos que OpenAI proporciona son que la salud se ha convertido en uno de los escenarios de uso más comunes de ChatGPT, con más de 230 millones de personas en todo el mundo haciendo preguntas relacionadas con la salud y el bienestar cada semana.
Por ello, al entrar en 2026, el campo de la salud parece estar convirtiéndose en un territorio codiciado en el ámbito de la IA.
El 7 de enero, OpenAI lanzó ChatGPT Salud, permitiendo a los usuarios conectar registros médicos electrónicos y diversas aplicaciones de salud para obtener respuestas médicas más específicas; y el 12 de enero, Anthropic inmediatamente presentó Claude for Healthcare, destacando las capacidades del nuevo modelo en escenarios médicos.
Sin embargo, lo interesante es que esta vez, una empresa china no se ha quedado atrás, e incluso parece ir por delante.
El 13 de enero, Baichuan Intelligence anunció el lanzamiento del modelo Baichuan M3, que superó al GPT-5.2 High de OpenAI en el conjunto de pruebas de evaluación HealthBench del campo de la salud publicado por OpenAI, obteniendo el estado del arte (SOTA).
Después de enfrentar muchas dudas por anunciar su compromiso total (All-in) con la medicina, Baichuan Intelligence finalmente parece haberse demostrado a sí misma. Geek Park se reunió específicamente con Wang Xiaochuan para hablar sobre cómo Baichuan Intelligence ve las capacidades de este modelo M3 y el final del juego de la IA en medicina.
01 Primera vez que se supera a OpenAI en un conjunto de pruebas del campo de la salud
Uno de los logros más destacados del modelo M3 lanzado esta vez es que, por primera vez, superó al GPT-5.2 High de OpenAI en el conjunto de pruebas de evaluación HealthBench del campo de la salud publicado por OpenAI, obteniendo el estado del arte (SOTA).
SOTA en Healthbench, Healthbench Hard y Hallucination Evaluation
Healthbench es un conjunto de pruebas de evaluación en el campo de la salud publicado por OpenAI en mayo de 2025, construido conjuntamente por 262 médicos de 60 países, que incluye 5000 grupos de conversaciones médicas multirronda altamente realistas. Es uno de los conjuntos de evaluación médica más autorizados y cercanos a escenarios clínicos reales del mundo.
Desde su lanzamiento, los modelos de OpenAI han dominado la clasificación.
Esta vez, el nuevo modelo médico de código abierto de nueva generación de Baichuan Intelligence, Baichuan-M3, obtuvo una puntuación general de 65.1, ocupando el primer lugar a nivel mundial. Incluso en HealthBench Hard, que específicamente prueba la capacidad de toma de decisiones complejas, M3 también logró el primer puesto, estableciendo un nuevo récord.
Baichuan también publicó simultáneamente un resultado de prueba de la tasa de alucinaciones, donde el modelo M3 alcanzó un 3.5%, una de las más bajas del mundo.
Cabe destacar que esta tasa de alucinaciones es sin depender de herramientas de recuperación externas, en una configuración de modelo puro.
Baichuan Intelligence indicó que la clave para lograr estos dos puntos radica en la introducción de algoritmos de aprendizaje por refuerzo adecuados para el ámbito médico en el modelo.
Baichuan utilizó por primera vez la tecnología Fact Aware RL (Aprendizaje por Refuerzo Consciente de los Hechos) en el modelo M3, logrando el efecto de que el modelo no diga vaguedades ni hable sin sentido.
Esto es crucial en el campo médico.
Al hacer preguntas médicas a un modelo no optimizado, los problemas más comunes son de dos tipos: uno, que el modelo simplemente invente sus síntomas y se imagine una enfermedad; y el otro, que sea semánticamente vago, terminando por sugerirle que aún debe ir al médico, lo cual no es de mucha ayuda ni para el médico ni para el paciente.
Esto se debe a que muchos modelos toman la tasa de alucinaciones pura como objetivo de optimización, momento en el cual el modelo puede diluir la tasa general de alucinaciones acumulando hechos simples y correctos. Baichuan introdujo un mecanismo de agrupación semántica y ponderación de importancia: la agrupación elimina la interferencia de expresiones redundantes, la ponderación asegura que los postulados médicos centrales obtengan un peso mayor.
Al mismo tiempo, si simplemente se introduce un alto peso de penalización por alucinación, es extremadamente fácil forzar al modelo a caer en una estrategia conservadora de "decir poco, equivocarse poco". Por lo tanto, el algoritmo Fact Aware RL también diseña un mecanismo de ajuste de peso dinámico, equilibrando adaptativamente estos dos objetivos según el nivel de capacidad actual del modelo: en la fase de construcción de capacidades, se enfoca en el aprendizaje y expresión del conocimiento médico (alto Peso de Tarea); una vez maduras las capacidades, se ajustan gradualmente las restricciones factuales (aumentando el Peso de Alucinación).
Cuando se puede buscar en línea, Baichuan también añadió un módulo de verificación en línea basado en búsquedas multirronda, introduciendo simultáneamente un sistema de caché eficiente para alinear el vasto conocimiento médico.
02 El nivel de consulta supera al de los médicos humanos, entrando en una fase utilizable
Sin embargo, superar a OpenAI en Healthbench no fue el único punto destacado esta vez.
Un punto más interesante es que Baichuan construyó creativamente su propio conjunto de evaluación SCAN-benche. En comparación con competir en el conjunto de evaluación de OpenAI, el conjunto construido por Baichuan quizás indique mejor la dirección en la que Baichuan Intelligence quiere optimizar en el campo médico.
El punto clave de este conjunto de evaluación construido por Baichuan es optimizar la "capacidad de consulta de extremo a extremo". Esto se origina en la perspicacia experimental de Baichuan: por cada aumento del 2% en la precisión de la consulta, la precisión del resultado del diagnóstico aumenta un 1%.
Es decir, en comparación con HealthBench de OpenAI, que todavía se centra principalmente en "si la IA puede responder preguntas", SCAN-benche de Baichuan espera evaluar: si la IA puede, en un intercambio de preguntas y respuestas, obtener información efectiva y al mismo tiempo dar resultados de diagnóstico correctos y opiniones médicas.
Normalmente, cuando hacemos una pregunta a un asistente de IA, si solo mencionamos "eres un médico con experiencia", generalmente no se obtendrá un efecto de modelo muy bueno. Porque el proceso de consulta de un médico real es muy estandarizado: Baichuan lo resume en los cuatro cuadrantes del principio SCAN: Safety Stratification (Estratificación de Seguridad), Clarity Matters (Claridad de la Información), Association & Inquiry (Preguntas de Asociación y Seguimiento) y Normative Protocol (Salida Estandarizada).
Alrededor del principio SCAN, Baichuan, tomando como referencia el método OSCE utilizado durante mucho tiempo en la educación médica, y en conjunto con más de 150 médicos de primera línea, construyó el sistema de evaluación SCAN-bench, desglosando el proceso de diagnóstico y tratamiento en tres etapas: recopilación de historial médico, exámenes auxiliares y diagnóstico preciso. A través de una evaluación dinámica y multirronda, simula completamente el proceso completo de un médico desde la recepción del paciente hasta el diagnóstico, y también optimiza el modelo al obtener mejores resultados en estos flujos.
Esta vez, Baichuan también publicó los resultados de la evaluación del modelo M3 en SCAN-benche.
Los resultados son muy interesantes. Baichuan esta vez no solo comparó con otros modelos, sino que también comparó con médicos reales. Y en los cuatro cuadrantes, los médicos reales ya estaban por detrás del nivel que el modelo puede alcanzar.
Geek Park preguntó específicamente al equipo de Baichuan sobre esto, y la respuesta fue: esta evaluación fue una comparación entre médicos especialistas reales en casos especializados y el modelo. La victoria del modelo se debe, en primer lugar, a que el modelo es más paciente, pero lo más importante es que el modelo posee una mejor capacidad de dominio del conocimiento interdisciplinario.
Por ejemplo, en un caso, se menciona a un niño de 10 años con fiebre recurrente. La fiebre es un fenómeno médico muy complejo; si solo se preguntan sobre tos y otras afecciones pulmonares, es fácil pasar por alto problemas graves en las articulaciones y el sistema urinario, diagnosticando erróneamente como una infección común.
Los médicos humanos suelen ser buenos solo en las enfermedades de su especialidad, por lo que los síntomas complejos a menudo requieren consultas con especialistas, o incluso los expertos en enfermedades difíciles a menudo tienen que consultar libros para encontrar información.
Y un modelo común, sin entrenamiento especializado, que simplemente interpreta el papel de un médico, a menudo tampoco puede responder bien a este tipo de preguntas.
03 Próximo paso: comenzar gradualmente a hacer productos para el consumidor final (C端), promover una medicina más seria
Para Baichuan Intelligence, superar a los médicos humanos es un hito muy significativo: significa que la IA comienza a traspasar el umbral de usabilidad y puede comenzar a desplegarse en escenarios de uso.
A partir del 13 de enero, los usuarios ya pueden comenzar a experimentar las respuestas proporcionadas por el modelo M3 en el sitio web y la aplicación de Baixiaoying.
El diseño actual del sitio web es muy interesante. Aunque ambos utilizan el modelo M3 para responder, se distingue entre la versión para médicos y la versión para usuarios. En la versión para médicos, las respuestas son más concisas, citan más referencias y son más "técnicas". En la versión para pacientes comunes, el modelo casi nunca da una respuesta de una vez, sino que hace más preguntas de seguimiento para un diagnóstico más claro.
Baichuan Intelligence mencionó que el proceso de pensamiento del modelo en segundo plano es muy interesante. "A menudo podemos ver que este modelo menciona en su cadena de pensamiento: 'Este paciente no ha respondido a mi pregunta, pero debo hacer esta pregunta'. Incluso hemos visto casos extremos, donde dice que ya le he preguntado al paciente 20 veces, esto ha excedido el número máximo de rondas establecido, pero aún debo hacer esta pregunta. Esto se debe a que en el proceso de entrenamiento, si el modelo habla de manera evasiva, no recibe recompensa; solo cuando realmente obtiene suficiente información clave y llega al diagnóstico correcto, recibe recompensa. Esta es una diferencia notable en la forma en que entrenamos nuestro modelo en comparación con otros."
Recientemente, muchas empresas de IA han comenzado a incursionar en el campo médico. Esta es también la mayor diferencia que Baichuan Intelligence cree tener: hacer una medicina más seria.
"Esto significa que Baichuan, al elegir escenarios, no elige cuál es el más fácil de hacer. Por el contrario, Baichuan insiste en seguir impulsando la capacidad técnica, desafiando problemas más difíciles", dijo Wang Xiaochuan.
Un ejemplo típico es que en el futuro, Baichuan priorizará escenarios de solución en oncología, mientras que la curación psicológica se encuentra en una posición de prioridad más baja para Baichuan.
En la opinión popular, generalmente se cree que es más simple que la IA proporcione curación psicológica, y también es un escenario más fácil de implementar. La lógica de juicio de Baichuan es diferente. Ellos creen que el campo de la oncología tiene bases científicas más estrictas. Aquí, es más probable que la IA logre efectos médicos serios, alcanzando o superando el nivel de los médicos humanos. En comparación, el campo de la psicología carece de este anclaje científico determinista.
Por ejemplo, algunas empresas eligen hacer avatares de médicos, Wang Xiaochuan cree que esta dirección no es la que Baichuan quiere tomar. El avatar de un médico en sí mismo no puede reutilizar completamente el nivel del médico, y mucho menos superarlo. Tal IA finalmente solo se convertirá en una fachada y una herramienta para captar clientes, y no podrá promover verdaderamente la medicina seria.
Esta insistencia en la seriedad ha influido profundamente en muchas de las elecciones comerciales de Baichuan.
Esto se relaciona directamente con la reflexión de Wang Xiaochuan sobre el problema fundamental de la IA médica en la próxima etapa. Él cree que la tarea más importante en la etapa actual es, sobre la base de mejorar la capacidad de la IA, proporcionar gradualmente más oferta médica.
China ha intentado durante muchos años implementar un sistema de diagnóstico y tratamiento por niveles y médicos generales. La intención original era que la gente primero fuera atendida a nivel de atención primaria, resolviendo la dificultad para obtener citas, las largas colas y la congestión en los grandes hospitales.
La razón por la cual este sistema ha sido difícil de implementar es esencialmente la oferta insuficiente de recursos médicos. Las instituciones médicas de atención primaria carecen de médicos de alto nivel. La gente, incluso por un resfriado, prefiere hacer cola en un hospital de tercer nivel porque desconfía del nivel de diagnóstico y tratamiento de la atención primaria.
Este es precisamente el punto clave donde la IA médica puede desempeñar un papel. Los grandes lenguajes pueden lograr una distribución a escala del conocimiento médico de primer nivel. Llenan el vacío de oferta de la atención primaria, permitiendo que cada comunidad, cada familia, tenga capacidad de diagnóstico y tratamiento como los expertos de un hospital de tercer nivel.
Y a largo plazo, esto puede tener un impacto más amplio, posiblemente transfiriendo gradualmente el poder de decisión de las manos de los médicos a las de los usuarios. En los escenarios médicos tradicionales, el paciente es el beneficiario, pero a menudo no tiene poder de decisión. El poder de decisión está concentrado en las manos del médico. Esta asimetría de poder a menudo conlleva costos de comunicación y sufrimiento durante el tratamiento.
Y Baichuan espera, a través de la IA, que los pacientes puedan obtener más fácilmente el suministro de recursos médicos de calidad. "Mucha gente piensa que la medicina es demasiado compleja, que los pacientes nunca podrán entenderla. Pero pensamos que en el sistema judicial de Estados Unidos hay un sistema llamado jurado. La ley también es algo muy profesional, los miembros del jurado, personas comunes, no la entienden, entonces se requiere que el juez, los abogados y el fiscal puedan guiar, debatir plenamente, aclarar las cosas hasta un punto en que una persona común pueda juzgar si hay culpabilidad o no, permitiendo que una persona común juzgue según la lógica normal", dijo Wang Xiaochuan.
Esta es una de las razones por las que Baichuan Intelligence no está dispuesta a hacer solo escenarios simples, sino que espera avanzar continuamente hacia diagnósticos y tratamientos serios de alta dificultad.
Cuando se le preguntó si resolver problemas de alta dificultad es el más rentable comercialmente, Wang Xiaochuan dio una respuesta profunda.
Él cree que resolver pequeños problemas como resfriados y fiebre es difícil para establecer suficiente confianza en la mente del usuario. La medicina es una industria que depende en gran medida de la confianza. Solo cuando la IA pueda resolver problemas de alta dificultad como enfermedades graves, podrá establecer verdaderamente una base de confianza.
Desde la lógica comercial, los pacientes, al enfrentar problemas de salud serios, también están más dispuestos a pagar por servicios de IA de alta calidad. Esta confianza no solo es un requisito previo para el retorno comercial, sino también el núcleo para que la IA médica pueda aplicarse a escala.
Y en un sentido más fundamental, la medicina para Baichuan Intelligence y para el propio Wang Xiaochuan todavía significa un camino hacia la inteligencia artificial general (IAG).
Wang Xiaochuan cree que la IA ya ha encontrado soluciones prácticas en los campos de las letras, ciencias, ingeniería y arte, pero la medicina es un campo extremadamente único. La exploración humana de la medicina aún no se ha agotado, y la IA también está en una etapa de exploración en este campo.
La hoja de ruta de Baichuan es muy clara. Primero, mejorar la eficiencia del diagnóstico mediante la IA, resolviendo el problema actual de la escasez de oferta médica. Sobre esta base, Baichuan se dedica a establecer una confianza profunda con los pacientes. Cuando los pacientes estén dispuestos a utilizar herramientas de IA para consultas médicas a largo plazo, la IA podrá acumular datos médicos reales y de alta calidad durante su acompañamiento a largo plazo.
El objetivo final de estos datos es construir un modelo matemático de la vida. Este es un camino que los médicos humanos aún no han recorrido por completo, y es muy probable que la IA lo logre primero en el futuro. Si se puede completar el modelado de la esencia de la vida, esto se convertirá en un paso clave para impulsar a la inteligencia artificial general hacia un progreso de orden superior.









