Cómo utilizar los Dynamic Workflows de Claude para realizar investigaciones en profundidad

marsbitPublicado a 2026-06-09Actualizado a 2026-06-09

Resumen

La investigación técnica, ya sea para humanos o IA, está llena de trampas: información abrumadora y conclusiones borrosas. Claude Code ha lanzado "Dynamic Workflows", una función que supera los modos tradicionales de planificación al permitir que la IA diseñe automáticamente el flujo de trabajo óptimo antes de ejecutar una tarea. Esto se activa con `/deep-research`. El sistema se basa en seis patrones de orquestación de agentes: 1. **Clasificar y Actuar (Classify-And-Act)**: Un agente enruta la tarea al especialista más adecuado. Es preciso y eficiente, pero débil con tareas de límites ambiguos. 2. **División y Fusión (Fan-out & Merge)**: Divide la tarea en partes paralelas y luego fusiona los resultados. Rápido y aislado, pero costoso en tokens y con desafíos en la síntesis. 3. **Verificación Antagónica (Adversarial Verification)**: Múltiples agentes desafían una conclusión desde ángulos de refutación. Mitiga el sesgo de confirmación, pero requiere hechos verificables. 4. **Generar y Filtrar (Generate & Filter)**: Genera múltiples soluciones y filtra las mejores. Fomenta la diversidad, pero depende de la calidad de los criterios de filtrado. 5. **Modo Torneo (Tournament)**: Los agentes compiten en rondas de comparación por pares hasta elegir el mejor. Ofrece alta confiabilidad en juicios relativos. 6. **Modo Bucle (Loop)**: Itera adaptativamente hasta cumplir los criterios de aceptación. Único para tareas de extensión desconocida, pero con riesgo de bucles infinitos. ...

La investigación técnica es una tarea llena de trampas (tanto para humanos como para IA), ya que desde el inicio se recibe una gran cantidad de información, los puntos de vista se multiplican y las conclusiones se vuelven más difusas. Por eso, es fundamental recordar constantemente el objetivo original.

Esta es precisamente una de las áreas donde la IA tradicionalmente no ha sobresalido: desde la perspectiva de la atención y la asociación, tiende a quedar más atrapada en el volumen de información actual y es débil en las asociaciones verdaderamente valiosas que cruzan disciplinas.

Por supuesto, el punto fuerte de la IA es su capacidad de ejecución, que puede adoptar la forma de agentes que buscan, sintetizan y resumen capa por capa, evitando así la pérdida de detalles.

Aunque llevo medio año sin publicar mucho en mi cuenta oficial, he estado siguiendo y estudiando de manera exhaustiva los principales campos de la industria. Lo que sustenta esta labor de entrada y salida de información es mi propio sistema de investigación profunda (deep-research).

Con el lanzamiento de la funcionalidad Dynamic Workflows en Claude Code la semana pasada, me propuse enfrentarlos, para ver si sus capacidades predeterminadas pueden superar completamente las mías.

2. ¿Qué son los Dynamic Workflows (Flujos de trabajo dinámicos)?

El concepto central de los Dynamic Workflows es: antes de ejecutar una tarea, la IA diseña automáticamente qué flujo de trabajo debe usar para completarla, y luego inicia la ejecución.

Esto es fundamentalmente diferente de los modos "plan" o "skill" que usábamos antes. El modo plan descompone la tarea en partes más pequeñas, pero no necesariamente sigue un flujo de trabajo racional. Solo según la disposición de tu prompt, es posible que añada criterios de verificación (cruciales para la investigación); igualmente, solo con un prompt adecuado, podrá establecer mejor algunas reglas de control (harness).

Sin embargo, el flujo de trabajo dinámico incorpora automáticamente la lógica de verificación, la convergencia de resultados y la validación por confrontación (adversarial verification).

La forma de activarlo es simple: en Claude Code, usa /deep-research y luego proporciona algunas plantillas de investigación y materiales de entrada. Si quieres usar solo la capacidad de flujo de trabajo dinámico, puedes usar un prompt o simplemente mencionar 'ultracode'. Ten en cuenta antes de usarlo que el consumo de tokens será decenas de veces mayor que el habitual.

3. Los seis modos de flujo de trabajo integrados

En el núcleo del flujo de trabajo dinámico hay seis modos de orquestación centrales resumidos por los desarrolladores. Esta es la razón por la que es más potente que un diálogo normal, un agente o una skill.

En realidad, detrás de estos seis modos solo hay dos preguntas centrales: ¿Cómo se descompone la tarea? ¿Cómo se combinan los resultados? Los seis modos son esencialmente combinaciones de estas dos variables.

3.1 Modo Enrutamiento (Clasificar y Actuar - Classify-And-Act)

Primero, un agente identifica el tipo de tarea y luego la distribuye al agente especializado más adecuado para realizarla. La lógica central es la lógica de selección de ruta, no la ejecución en paralelo o iterativa. Una tarea sigue un solo camino; los demás no se ejecutan en absoluto.

Por ejemplo, puedo tener tres subagentes predefinidos: un agente analista que verifica datos rigurosamente, un agente de salida experto en escritura y un agente desafiante especializado en encontrar fallos. La capa de enrutamiento juzgará a qué agente es más adecuado asignar la subtarea actual, en lugar de que un solo agente lo haga todo.

El valor de este modo radica en: precisión y economía. El prompt de cada agente puede ser altamente independiente, sin interferencias de otros objetivos, permitiendo una exploración con profundidad vertical. Consume la menor cantidad de tokens y tiene la velocidad de respuesta más rápida. Los límites de responsabilidad son muy claros.

La desventaja es evidente: capacidad débil para manejar tareas con límites difusos (por ejemplo, "es un problema técnico y también de cuenta").

3.2 División y Fusión (Abanico y Fusión - Fan-out & Merge)

Es también el modo que uso con más frecuencia. La lógica central es paralelismo + fusión. La tarea se divide en N subtareas independientes que se ejecutan simultáneamente, y cuando todas terminan, se fusionan uniformemente.

Las ventajas son velocidad y aislamiento. El tiempo total es aproximadamente igual al de la subtarea más lenta, no a la suma de todas. Cada subtarea tiene un contexto independiente, no se interfieren entre sí, y el ruido de una subtarea no contamina a las demás.

El punto débil es que el coste en tokens es N veces mayor que en serie, y la capa de fusión (Synthesize) en sí misma es un desafío de diseño: ¿cómo fusionar N salidas con estructuras inconsistentes? Una mala división de las subtareas puede provocar omisiones o cobertura redundante.

3.3 Validación por Confrontación (Adversarial Verification)

La lógica central es la verificación. Para una misma conclusión, varios agentes la desafían desde un ángulo de "refutación"; solo se aprueba si obtiene más de la mitad de los votos.

La ventaja es que, como el Verificador no conoce el razonamiento del Trabajador (Worker) y solo ve el resultado, se elimina estructuralmente el sesgo de autoevaluación que ocurre cuando "se le pide al modelo que revise su propio código".

Este modo resuelve un problema que me ha molestado durante mucho tiempo: a menudo hablamos con la IA de manera coloquial, pero la IA tiende a responder conforme a nuestras expectativas, lo que fácilmente genera "sesgo de confirmación". La validación por confrontación obliga a la IA a buscar contraejemplos, a verificar basándose en datos y experimentos, no a complacer tus ideas.

Sin embargo, si la verificación da un juicio erróneo, puede desviar al Trabajador para que se ajuste al Verificador. Por lo tanto, es preferible basarse en hechos reproducibles, no en opiniones.

Bromeando un poco, si le pides a la IA que busque problemas, puede encontrarlos infinitamente, así que debes limitar el alcance de su búsqueda de problemas.

3.4 Generación y Filtrado (Generate & Filter)

La lógica central es divergencia y luego convergencia. Primero se genera deliberadamente un exceso de candidatos, luego se eliminan mediante una rúbrica (criterios) hasta quedarse con lo esencial, y solo se retienen los resultados de alta confianza para la salida.

En lugar de que un agente genere una respuesta "aceptable", es mejor que genere diez y luego las filtre con una capa de verificación. Por lo tanto, la ventaja es la diversidad. Múltiples Generadores pueden usar diferentes estrategias y prompts, produciendo soluciones difíciles de prever manualmente. El paso de filtrado hace que la calidad de la salida final esté muy concentrada.

El punto débil es que la calidad de la rúbrica del Filtro determina directamente el resultado final; un diseño erróneo de la rúbrica equivale a que todo el proceso sea inútil.

Es adecuado para escenarios donde no se conoce de antemano la respuesta correcta, cuando se necesita elegir lo mejor entre múltiples posibilidades o cuando hay una necesidad explícita de diversidad.

Solo superficialmente se parece a Fan-out-And-Synthesize: Ambos son "múltiples vías en paralelo → una sola salida", lo que los hace más fáciles de confundir.

La diferencia clave está en la intención: En Fan-out, cada vía procesa una parte diferente de la tarea, los resultados son complementarios y todas contribuyen en la fusión; en Generar-y-Filtrar, cada vía procesa la misma tarea, los resultados compiten y la mayoría se descarta en la fusión. El primero es un "puzzle", el segundo un "concurso de belleza".

3.5 Modo Torneo (Tournament)

La lógica central es la eliminación competitiva. N agentes realizan independientemente la misma tarea, se eliminan por rondas mediante comparaciones por pares (pairwise) y finalmente se selecciona la mejor solución.

Yo he hecho esto manualmente antes: ejecutar dos o tres versiones del mismo cambio de código y luego pedir a la IA que compare cuál es mejor. Ahora se puede integrar directamente en el flujo de trabajo.

La ventaja es la estabilidad en la evaluación. Comparar de dos en dos ("¿cuál es mejor, A o B?") es mucho más estable que una puntuación absoluta ("puntúa A"), porque elimina el problema de la deriva en los criterios de puntuación. El resultado, tras múltiples rondas de competencia, da una alta credibilidad al ganador final.

También se parece superficialmente a Generar-y-Filtrar: Ambos seleccionan lo mejor entre múltiples candidatos. La diferencia clave está en el mecanismo de selección: el Torneo usa un juez por pares (pairwise judge) para comparaciones de dos en dos, es "hacer que los candidatos compitan entre sí". Es más confiable cuando la rúbrica es difícil de cuantificar o el juicio es esencialmente relativo.

3.6 Modo Bucle (Loop)

La lógica central es la iteración adaptativa. Se intenta constantemente, al encontrar obstáculos se recopila información de error, se complementa el contexto, se reintenta, y así hasta que se cumplen las condiciones de aceptación.

En esencia, se contrarresta la aleatoriedad de la IA: probando varias veces, eventualmente se obtendrá un mejor resultado. Pero un enfoque más maduro es combinarlo con la validación por confrontación, haciendo que cada ciclo se ejecute con más información, no solo dependiendo del azar.

La ventaja es la capacidad de manejar tareas con carga de trabajo desconocida. Los otros cinco modos asumen que los límites de la tarea están definidos; Loop Until Done es el único modo que puede manejar "no saber cuántas rondas se necesitarán".

El punto débil es el riesgo potencial de pérdida de control: una condición de parada mal diseñada puede causar un bucle infinito. El agente de cada ronda tiene un contexto completamente nuevo y no puede acumular estado entre rondas (a menos que se escriba explícitamente en un archivo).

4. La batalla entre mi propia skill y el flujo de trabajo oficial

Antes de que aparecieran los flujos de trabajo dinámicos, diseñé mi propio sistema de investigación profunda (deep-research). La lógica de mi skill era más o menos así:

  1. Solo proporcionar información simple (por ejemplo, que cierto proyecto lanzó cierta funcionalidad).
  2. Hacer que la IA busque todos los materiales relacionados: documentación oficial, código fuente, opiniones del mercado.
  3. Comprimir la información en resúmenes significativos.
  4. Múltiples agentes con diferentes roles realizan análisis confrontados y generan informes.
  5. Eliminación automática de duplicados, porque el contenido de múltiples agentes tiene una alta tasa de repetición.

Lo usé durante un tiempo y me pareció bastante útil. Pero tiene un defecto fundamental: carece de convergencia orientada a objetivos.

Y muchas veces, incluso con el paso 5 de eliminación de duplicados, a menudo borraba información valiosa. Si no se eliminaban duplicados, la skill fácilmente generaba un documento de diez mil palabras, con información completa pero sin decirte directamente "qué tiene que ver esto contigo, qué debes hacer".

Sin embargo, la investigación sirve para "tomar decisiones". Por eso muchas skills solo pueden detenerse en la investigación misma, alcanzan un 80%, pero les falta el 20% más crucial.

Como resultado, después de completar la investigación preliminar, la IA a menudo necesita continuar con diez rondas más de pensamiento y diálogo para llegar a una conclusión satisfactoria y completa.

¿Qué más hace el flujo de trabajo dinámico oficial?

A través de experimentos esta semana con varias tareas de investigación complejas, descubrí que el flujo de trabajo deep research integrado en Claude Code (no solo una skill, sino un módulo compilado e incrustado en CC), en comparación con mi skill, añade varios pasos clave:

  • Capa de descomposición del problema: No comienza a buscar directamente, sino que primero pregunta, descomponiendo mi pregunta en varias subpreguntas: ¿Qué quieres realmente aclarar? ¿Qué tiene que ver esto contigo? ¿Qué dimensiones merecen un estudio profundo? Este paso yo solía saltármelo.
  • Evaluación de credibilidad: Evalúa la falsabilidad de cada pieza de información, similar a la puntuación de autoridad en el SEO tradicional: ¿La fuente es confiable? ¿Cuántas veces se ha citado? Este es un paso que nunca pensé en añadir.
  • Eliminación cruzada en lugar de fusión promedio: Mi enfoque anterior era promediar o seleccionar uniformemente todas las conclusiones, por lo que el documento era enorme. El flujo de trabajo dinámico realiza una votación multi-agente para cada conclusión, eliminando las que no obtengan suficientes votos, no es una simple fusión.
  • Salida orientada a objetivos: El informe final no es una acumulación de información, sino que proporciona juicios y planes de sugerencia en torno a tu objetivo original. La clave para lograr esto reside en su capacidad predefinida para orquestar múltiples subagentes. La razón por la que mi skill carecía de orientación al objetivo final era precisamente la atenuación del peso de las instrucciones tras la avalancha de información.

¿Qué problemas resuelven estos mecanismos?

Abordan específicamente varios problemas típicos de la IA en tareas largas:

Deriva del objetivo (Goal drift): Al inicio de la tarea el estado es bueno, en medio no sabe lo que está haciendo, y al final recupera el ritmo (similar a cuando un humano se distrae en clase). Cuanto más larga la tarea, más evidente.

Parada prematura (Early stopping): Durante la ejecución encuentra dificultades, la IA cree que ha "terminado" y se detiene, cuando en realidad no se han cumplido los criterios de aceptación.

Contaminación del contexto (Context pollution): Un solo agente realizando una tarea compleja hace que el prompt inicial masivo comprima el espacio de ejecución posterior. Una mejor manera es mantener el prompt inicial en unos pocos miles de tokens y usar múltiples agentes para distribuir el contexto.

Sesgo en la salida (Output bias): La IA tiende a responder conforme a tus expectativas; hacer preguntas de manera coloquial activa más fácilmente este problema.

El flujo de trabajo dinámico resuelve estos cuatro problemas de manera estructural: añade automáticamente criterios de verificación para evitar paradas prematuras; aísla contextos mediante paralelismo; contrarresta el sesgo de salida con validación por confrontación; descompone el problema y obliga a la IA a entender primero el objetivo antes de actuar.

5. Resumen

Finalmente, como investigador durante muchos años, quedo asombrado ante este nuevo mecanismo de CC. Sus seis modos integrados (enrutamiento, división-fusión, validación por confrontación, generación-filtrado, torneo, bucle) cubren las necesidades de orquestación de la gran mayoría de las tareas de investigación complejas.

Ya no necesito diseñar manualmente la orquestación de agentes, ni hacer la eliminación de duplicados y validación cruzada yo mismo; todo esto está integrado en el propio flujo de trabajo.

Y es especialmente adecuado para pensar en problemas abiertos y exploratorios con falta de información, porque la orquestación multi-agente natural + la descomposición de objetivos de la tarea elevan nuevamente su generalidad. En realidad, hace 3 años, la IA ya era muy buena resolviendo pequeños problemas extremadamente claros y con restricciones por capas. Pero el cambio cualitativo real de la IA está en la generalidad; esto es lo que hace que su competidor pase de ser un simple código a convertirse en un verdadero Agente, de resolver un problema de forma estática a adaptarse a cualquier problema.

Por lo tanto, Dynamic Workflows no es un "diálogo único más inteligente", sino la estructuración del propio proceso de investigación.

Una investigación que originalmente requería iniciar diez o más diálogos independientes ahora se comprime en 3-4. Aunque el consumo de tokens correspondiente ha aumentado decenas de veces.

¿Por qué todavía se necesitan 3-4 veces? Creo que la causa principal radica en las diferencias entre estas demandas.

La primera es la rigurosidad del mecanismo de verificación. Investigo principalmente nuevas tecnologías en blockchain, donde a menudo la documentación oficial está desactualizada y hay datos más relevantes como código abierto, transacciones en cadena, etc. Actualmente, la IA por defecto aún prioriza la documentación oficial, no la verificación factual.

La segunda es el pensamiento profundo completamente interdisciplinario. Aunque el flujo de trabajo predefinido puede resolver algo de esto (definiendo previamente subagentes de varias dimensiones) para pensar sobre el mismo problema, la IA sobresale en modelos de pensamiento convencionales; para lo muy nuevo, muy profundo o que carece de base de datos, es ligeramente insuficiente.

La tercera es el diseño y verificación de soluciones. El valor de una solución no está en proponerla, sino en verificarla y respaldarla, lo que depende de evaluar mecanismos existentes, inversiones y costos. Con un buen ajuste (fine-tuning), la IA ciertamente puede hacerlo mejor, pero esto entraría en conflicto con la generalidad.

Finalmente, la concentración extrema de información requiere volver a comprender el nivel de conocimiento de la audiencia objetivo. Algunas personas sin antecedentes necesitan una explicación antropomórfica y vívida, mientras que otros oyentes necesitan que los impactes en una sola frase.

Preguntas relacionadas

Q¿Cuál es el problema principal que aborda el artículo sobre la investigación profunda con Dynamic Workflows de Claude?

AEl artículo aborda cómo la investigación profunda con IA a menudo se ve limitada por la dificultad de mantener el enfoque en el objetivo, evitar el sesgo de confirmación y manejar grandes volúmenes de información de manera estructurada y convergente, problemas que Dynamic Workflows de Claude ayuda a resolver.

Q¿En qué se diferencia el enfoque 'Fan-out & Merge' de 'Generate & Filter' en los Dynamic Workflows?

ALa diferencia clave está en la intención. 'Fan-out & Merge' divide una tarea en partes complementarias que se ejecutan en paralelo y cuyos resultados se fusionan como un rompecabezas. 'Generate & Filter' genera múltiples soluciones para la misma tarea, que compiten entre sí, y la mayoría se descarta en el filtrado, como en un concurso de belleza.

Q¿Qué tres mecanismos clave añade el Dynamic Workflow integrado de Claude Code a un proceso de investigación profundo, según el artículo?

AAñade 1) Una capa de descomposición del problema para clarificar objetivos, 2) Una evaluación de credibilidad de cada información y 3) Una salida orientada a objetivos que proporciona juicios y recomendaciones, no solo una acumulación de datos.

Q¿Cuáles son las principales desventajas o limitaciones de los Dynamic Workflows mencionadas por el autor?

AEl autor menciona tres limitaciones principales: 1) Un alto consumo de tokens (decenas de veces mayor), 2) Dificultad para validaciones extremadamente rigurosas basadas en datos fácticos (más allá de documentos oficiales), y 3) Limitaciones para pensamientos profundos y completamente interdisciplinarios sobre temas muy nuevos o con poca información.

QSegún el autor, ¿por qué los Dynamic Workflows representan un cambio cualitativo frente a los agentes de IA tradicionales?

APorque no se trata de una conversación única más inteligente, sino de estructurar el flujo de investigación en sí. Automatizan el diseño del flujo de trabajo, la planificación de subtareas, la verificación y la síntesis orientada a objetivos, superando problemas como la deriva de objetivos, la parada prematura o el sesgo en la salida.

Lecturas Relacionadas

La "orden del héroe" emitida por el Agente de WeChat, la mitad del mundo de Internet responde

WeChat AI pronto llegará, transformando la aplicación en una plataforma de agentes inteligentes capaz de gestionar tareas cotidianas. La plataforma ha publicado pautas para desarrolladores, permitiendo que los mini-programas se integren y puedan ser recomendados y utilizados por el AI de WeChat. Empresas como Meituan, Ctrip y Tongcheng ya han anunciado su integración. El agente, accesible deslizando la pantalla principal, puede entender instrucciones en lenguaje natural y utilizar mini-programas para realizar acciones como pedir comida o reservar restaurantes, creando un ciclo completo desde la decisión hasta la ejecución. Su potencia radica en su acceso privilegiado al ecosistema de WeChat: 1.432 millones de usuarios activos mensuales, cadenas sociales, historiales de chat, millones de mini-programas y WeChat Pay. Para desarrollarlo, Tencent utiliza un modelo de mundo llamado UI-Oceanus, que entrena al agente en un entorno simulado para predecir los resultados de las interacciones con los mini-programas. El proyecto se beneficia de las capacidades acumuladas por otros productos de IA de Tencent, como Yuanbao o WorkBuddy, a través de un mecanismo interno de Co-Design. Frente al enfoque GUI (que simula clics en pantalla y fue bloqueado por WeChat), Tencent apuesta por el protocolo A2A (Agent-to-Agent), que permite una colaboración controlada y autorizada con asistentes de otros fabricantes, como demostró el reciente acuerdo con Honor. Para manejar los enormes costes computacionales, Tencent busca aliados como DeepSeek, cuyo modelo eficiente en costes se ofrecerá en Tencent Cloud sin recargo. El objetivo final no es la exhibición técnica, sino resolver "buenos problemas" prácticos para los usuarios, convirtiendo a WeChat AI en la respuesta de Tencent para la segunda mitad de la era de la IA.

marsbitHace 15 min(s)

La "orden del héroe" emitida por el Agente de WeChat, la mitad del mundo de Internet responde

marsbitHace 15 min(s)

Humanity es hackeada por 31 millones de dólares: una sola clave privada desploma el precio del token un 90%

El 9 de junio, el protocolo de identidad digital Humanity Protocol sufrió un ataque significativo debido a la filtración de una clave privada de un miembro de la fundación. Según el analista Specter, cientos de carteras con tokens H fueron comprometidas, resultando en pérdidas superiores a 31 millones de dólares. El atacante habría acuñado 100 millones de tokens H adicionales para venderlos. El token H se desplomó más de un 90%, cayendo de aproximadamente 0.7 USDT a un mínimo de 0.052 USDT, y su capitalización de mercado se redujo drásticamente de 2.000 millones a unos 35,7 millones de dólares. El fundador, Terence Kwok, confirmó el incidente y advirtió a los usuarios que eviten interactuar con el puente cruzado o los pools de liquidez del protocolo hasta nuevo aviso. Humanity Protocol, fundado en 2024, prometía verificar la identidad humana mediante el reconocimiento de palmas y pruebas de conocimiento cero. Sin embargo, ha estado rodeado de polémicas, incluida la revelación de que hasta un 88% de sus usuarios iniciales podrían ser bots y acusaciones de ser un "proyecto con cáscara" chino que recopila datos biométricos sensibles. Kwok también tiene un historial anterior con Tink Labs, una startup unicornio que fracasó después de quemar 170 millones de dólares en inversiones. El ataque subraya los riesgos persistentes de la gestión deficiente de claves privadas en la industria de las criptomonedas, donde este tipo de fallos de seguridad básicos continúan causando pérdidas enormes.

marsbitHace 58 min(s)

Humanity es hackeada por 31 millones de dólares: una sola clave privada desploma el precio del token un 90%

marsbitHace 58 min(s)

Trading

Spot
Futuros
活动图片