Dos años de trabajo, ahora completados en semanas.
Recientemente, el neurocientífico Jérôme Lecoq y su equipo del Allen Institute redujeron el tiempo de escritura de una revisión bibliográfica extensa de casi dos años a unas pocas semanas.
Jérôme Lecoq tenía acumuladas unas 10 revisiones, muchas de más de 100 páginas, donde cada cita fue verificada frase por frase por un agente.
Quien lo ayudó fue Claude Science, la nueva aplicación recién lanzada por Anthropic.

El 30 de junio de 2026, Anthropic lanzó Claude Science, posicionándolo como un banco de trabajo de IA para científicos. (Fuente: Blog oficial de Anthropic)
Según Anthropic, esta tarea le habría tomado dos años al científico y su equipo anteriormente.
La posición de Claude Science según Anthropic no es ser un modelo de investigación más inteligente, sino un banco de trabajo de IA para científicos.
Su verdadero avance radica en: por primera vez, desglosa la investigación científica en una cadena de producción que puede ser auditada paso a paso.
Ahora, Claude Science está en beta para macOS y Linux, disponible para usuarios Pro, Max, Team y Enterprise.
Lo que realmente cambia es toda la cadena de herramientas de investigación
Cualquiera que haya hecho investigación conoce esa complejidad:
Un proyecto requiere saltar entre docenas de bases de datos, cada una con su propio esquema y lenguaje de consulta;
Los formatos de archivo son diversos, cada uno requiere construir su propio flujo y encontrar su visor específico;
Además, hay una batería de herramientas a mano: PubMed para buscar literatura, Jupyter para ejecutar código, R para estadísticas, terminales de clúster para enviar trabajos...
Constante cambio de contexto. El tiempo realmente dedicado a pensar en los problemas científicos a menudo se consume en estas tareas de mover, unir y depurar.
Lo que hace Claude Science es precisamente "integrar" estos escenarios fragmentados en el mismo entorno de ejecución:
Análisis de literatura, cálculo de múltiples pasos, refinamiento de gráficos, redacción del manuscrito; todas las etapas se completan en el mismo entorno. Ya no tienes que interrumpir tu línea de pensamiento por cambiar de herramienta.
Puede ejecutarse en tu máquina local con macOS o Linux, conectarse por SSH a una máquina remota, o montarse en un nodo de acceso de computación de alto rendimiento (HPC).
Como cuando usas Jupyter, va donde están los datos.
Incluso la gestión de recursos de cálculo la maneja.
Doblar una proteína o ejecutar un flujo genómico en datos masivos son tareas que antes requerían que el investigador se encargara personalmente: configurar trabajos, esperar en cola en el clúster, monitorear éxito o fracaso, y luego recuperar resultados. Todo eso podía llevarse medio día.
Claude Science se encarga de este proceso: primero redacta un plan, te pide autorización antes de usar nuevos recursos, te permite revisar o cancelar antes de escribir y enviar trabajos, y escala el análisis de 1 GPU hasta cientos.

Claude Science envía un escaneo de 8 conjuntos de hiperparámetros scVI para ejecutar en un clúster de laboratorio A100. El cuaderno de la derecha y el agente comparten el mismo núcleo en tiempo real, con variables y estado sincronizados instantáneamente. (Fuente: Blog oficial de Anthropic)
Algo más importante: los datos sensibles no abandonan el sistema original; solo el contexto necesario para cada paso se envía a Claude.
Cada gráfico viene con su código rastreable
La investigación científica trata naturalmente con gráficos: estructuras 3D de proteínas, tracks de navegadores genómicos, fórmulas químicas estructurales; todo eso ya son gráficos.
Claude Science aprovecha esto y, al generar gráficos y manuscritos, también proporciona el código que los generó, pudiendo incluso renderizarlos nativamente.
Lo más crucial está en la reproducibilidad.
Cada vez que Claude Science genera un gráfico, empaqueta y "adjunta" a él el código exacto que lo generó, el entorno de ejecución, una descripción en lenguaje natural y el historial completo de la conversación.

A la izquierda, un gráfico celular que abarca 138 especies; a la derecha, en la misma pantalla, el código exacto que lo generó. Un comentario puede hacer que el agente modifique el gráfico. Cada resultado es reproducible y rastreable al código. (Fuente: Blog oficial de Anthropic)
Entre el envío de un artículo y su publicación suele pasar más de medio año; meses después, cuando los revisores te piden volver a ejecutar un gráfico específico, puedes reproducir fácilmente toda la cadena de entradas, procesos y resultados.
¿Quieres modificar un gráfico? Solo dilo: "quita las líneas de cuadrícula", "cambia el eje Y a logarítmico". El agente modificará directamente el código que escribió.
También puedes bifurcar (fork) la sesión en cualquier punto para probar dos líneas de pensamiento simultáneamente, sin desordenar el hilo original.
En resumen, la investigación científica se integra por primera vez en un flujo de trabajo auditable, donde el código, el entorno y el historial se colocan en un ciclo cerrado.
Un agente escribe, otro se especializa en encontrar errores
Detrás de Claude Science no hay un solo agente trabajando en solitario.
Te enfrentas a un agente coordinador que planifica, equipado con más de 60 habilidades y conectores preconfigurados para genómica, células individuales, proteómica, biología estructural, quimioinformática.
Cuando el trabajo se acumula, puede derivar por sí mismo más agentes para dividir tareas, y también puede invocar agentes expertos que tú hayas creado personalmente.
Lo más ingenioso es el agente revisor (reviewer agent).
Se especializa en verificar citas y cálculos, detectando citas erróneas, números sin origen trazable, gráficos que no coinciden con el código, y marcándolos o corrigiéndolos por sí mismo.
En el caso del Allen Institute, el equipo usó precisamente un par "actor-crítico": un agente se encargaba de escribir, y otro se especializaba en evaluar su precisión y la veracidad de las citas.
Esta estructura ya tiene visos de un "revisión por pares interna de la IA".
Pero hay un límite que debe quedar claro: hay un humano en el circuito (human-in-the-loop) durante todo el proceso.
Antes de utilizar nuevos recursos, solicita autorización; cada decisión puedes revisarla y cancelarla. Lo que automatiza son los flujos, no el hacer descubrimientos científicos por ti.
También se conecta con el kit de herramientas NVIDIA BioNeMo Agent Toolkit, permitiendo conexión nativa con modelos de ciencias de la vida como Evo 2, Boltz-2, OpenFold3.
Tus propios modelos, datos y flujos de trabajo confiables del laboratorio también se pueden guardar como habilidades reutilizables e integrarse, heredándose automáticamente en futuras sesiones.
La primera parada de Claude Science son las ciencias de la vida
El primer foco de Claude Science está en las ciencias de la vida.
Genómica, células individuales, proteómica, biología estructural, quimioinformática; listo para usar.
Puede leer literatura, consultar más de 60 bases de datos científicas como UniProt, PDB, Ensembl, ClinVar, ChEMBL, GEO. Ya no tienes que aprender a usar cada una de estas bases de datos, todas con especificaciones distintas.

Claude Science viene con entornos preconfigurados para genómica, células individuales, proteómica, quimioinformática, respaldado por más de 60 bases de datos científicas. (Fuente: Blog oficial de Anthropic)
Manifold Bio se dedica a medicamentos dirigidos a tejidos.
Usan Claude Science para proponer dianas para experimentos más recientes, evaluando para cada tejido y diana la expresión superficial, el transporte y la seguridad, y luego clasificando candidatos según los estándares aprendidos de sus propios datos.
Manifold dice que los asistentes de programación comunes no pueden hacer esto; Claude Science puede hacerlo de extremo a extremo: tomar los datos correctos, tomar decisiones correctas, y con el contexto de proyectos pasados.
Hay ejemplos aún más técnicos.
Un profesor asociado de epidemiología en el centro de tumores cerebrales de UCSF lo usa para estudios de epidemiología molecular del glioblastoma, analizando cómo miles de variantes germinales de pequeño efecto se suman y moldean la susceptibilidad individual.
Según Anthropic, este análisis germinal fue completado por Claude Science en aproximadamente 1/10 del tiempo anterior. Su equipo también revisó los resultados de forma independiente, confirmando que fueron tanto rápidos como sólidos.
Sin embargo, estos escenarios de aceleración por 10 están actualmente limitados a escritura de revisiones, análisis genómico y automatización de flujos específicos. No equivalen a "aceleración general de la investigación por 10".
Mientras tanto, el listón de la credibilidad científica también se está redefiniendo.
Antes, la credibilidad de una investigación se medía por la revisión por pares y la posibilidad de que otros la reprodujeran.
La reproducibilidad ha sido durante mucho tiempo uno de los mayores puntos débiles de la investigación: se pierde el código, cambia el entorno, meses después ni el propio autor puede reproducir aquel gráfico.
Cada gráfico de Claude Science tiene código rastreable, cada resultado está vinculado a su entorno e historial. Este obstáculo de la reproducibilidad podría ser el primero que logra superar.
El mismo campo, tres tipos de jugadores
En el campo de la investigación biológica, los tres gigantes compiten, pero cada uno con un enfoque diferente.
Google apuesta por modelos propietarios, OpenAI por el coeficiente intelectual científico del modelo, y Anthropic por los flujos de trabajo.
Google posee modelos propios como AlphaFold y AlphaGenome que otros no tienen, entrando directamente en el campo.
OpenAI sigue otra línea.
En abril de este año lanzó GPT-Rosalind, un modelo avanzado creado específicamente para razonamiento biológico y descubrimiento de fármacos.
Ahora va más allá, entrenando la "capacidad de juicio científico" del modelo.
Acaba de lanzar GeneBench-Pro, diseñado específicamente para probar si el modelo puede tomar decisiones como un biólogo computacional: 129 preguntas, desde genómica y genética de poblaciones hasta diagnóstico clínico, midiendo específicamente la intuición sobre "si los datos respaldan esta pregunta" y "en qué punto hay que volver a empezar".

El más fuerte, GPT-5.6 Sol, obtuvo un 28.7%, y 31.5% en modo Pro; GPT-5 de hace unas generaciones estaba por debajo del 5%.
El propio OpenAI dice que, a este ritmo, podría ser superado a finales de año.
Pero incluso el modelo más fuerte solo resuelve menos de un tercio. Y la parte que no resuelve es precisamente donde se encuentra el científico humano.
Las deficiencias de la IA expuestas por GeneBench-Pro también son evidentes:
El modelo puede comenzar, pero no cerrar el último paso. Por ejemplo, decidir si descartar un lote de datos atípicos o cómo cambiar el rumbo cuando se refuta una hipótesis; este tipo de juicios aún deben ser tomados por el propio científico.
Claude Science tampoco elude esto: el plan se entrega para revisión humana, cada decisión permite su cancelación; automatiza el flujo, pero el poder de decisión no se cede al modelo, el humano siempre está en el circuito.
Para científicos como Lecoq, que una revisión sea reproducible y que siga siendo válida meses después es más importante que unas décimas de porcentaje más en las clasificaciones.
La apuesta de Claude Science es precisamente que la IA de investigación se integre realmente en la rutina del laboratorio.
Referencias:
https://www.anthropic.com/news/claude-science-ai-workbench
https://openai.com/index/introducing-genebench-pro/
Este artículo proviene del WeChat Official Account "新智元", autor: ASI启示录





