A mediados y finales de mayo de 2026, Deepseek formó internamente un nuevo equipo de "Harness", enfocado en productos de agentes inteligentes de código, con un referente interno en Claude Code de Anthropic. El destacado ingeniero cuantitativo de Jane Street, Cui Tianyi, se unió al equipo en marzo, y el investigador senior Chen Deli lo confirmó públicamente y está a cargo del reclutamiento. En la descripción del puesto de Deepseek, se escribe claramente una fórmula: "Modelo + Harness = Agente". A medida que las capacidades de los modelos base de gran tamaño se nivelan, la era de competir simplemente por parámetros está llegando a su fin. Deepseek formando personalmente un equipo de herramientas marca que el campo de batalla principal de la competencia de IA en China está pasando de "refinar modelos grandes" a "construir cadenas de herramientas y aplicaciones prácticas en la oficina".
¿Por qué Deepseek entra personalmente en el desarrollo de Harness?
Durante mucho tiempo, la expectativa de los desarrolladores hacia Deepseek se mantuvo en la liberación de modelos base más potentes de código abierto. Pero una fuerte capacidad de generación de código no significa que los desarrolladores lo utilicen como herramienta de productividad. Lo que realmente cambia la forma de trabajar no son las respuestas de código en un cuadro de chat, sino el agente de ingeniería capaz de entrar en la terminal, entender el proyecto, leer y escribir archivos, ejecutar comandos y corregir errores. Antes de que la empresa oficial actuara, la comunidad de desarrolladores ya había creado varios agentes de terminal de código abierto basados en los modelos de Deepseek. La formación del equipo Harness por parte de Deepseek en este momento tiene la intención de tomar el control del diseño de la interfaz y el ciclo cerrado de datos de entrenamiento, convirtiendo los caminos explorados por la comunidad en el producto oficial principal.
Para entender esta intención estratégica, primero debemos aclarar qué es exactamente Harness. Para lectores sin antecedentes técnicos, el término "Harness" puede resultar desconocido. En la fórmula de Deepseek, el modelo se encarga del razonamiento, y Harness se encarga de todo lo demás. Originalmente en ingeniería, "Harness" tiene el significado de "arnés" o "cinturón de seguridad", pero extendido al campo de la IA, se refiere a la "infraestructura de tiempo de ejecución" del Agente.
Para entenderlo de manera más sencilla, podemos comparar el modelo de gran tamaño con el "cerebro" y la "inteligencia" de un trabajador altamente capacitado, mientras que Harness es la "descripción de funciones, los estándares de evaluación de KPIs, la pared de contención de la oficina y la caja de herramientas" de ese trabajador. No es un "andamio" que se ensambla antes de ejecutar, ni un "marco" que proporciona bloques de construcción, sino un sistema que se ejecuta continuamente. Es responsable de orquestar el ciclo de ejecución, distribuir llamadas a herramientas, gestionar el contexto, ejecutar controles de seguridad y manejar la recuperación de errores y la persistencia del estado. El modelo de gran tamaño en sí mismo no tiene estado ni capacidad para interactuar con el entorno; solo puede recibir entrada de texto y generar salida de texto. Harness suple estas deficiencias, permitiendo que el modelo interactúe realmente con el mundo exterior y ejecute tareas específicas.
¿Por qué las empresas de modelos base deben controlar personalmente este entorno de ejecución? El núcleo radica en que el producto Agente no es solo una salida de las capacidades del modelo, sino también un campo de entrenamiento para esas capacidades. La descripción del puesto de Deepseek enfatiza "lograr la co-evolución del modelo y el Harness". En tareas complejas reales, el modelo encontrará diversos fallos debido a limitaciones del entorno o anomalías en los retornos de las herramientas. El Harness registra estas trayectorias de fallo, que pueden retroalimentar el entrenamiento del modelo, creando un efecto de volante de inercia. Si se deja que la comunidad construya esto, los proveedores de modelos perderán los comentarios de datos más cruciales de la capa de aplicación, convirtiéndose en meros proveedores de potencia de cálculo y ponderaciones.
Desde una perspectiva de ingeniería, optimizar el Harness determina más el éxito del Agente que simplemente optimizar el Prompt (instrucción). Según el análisis de expertos técnicos, en la ejecución de un Agente, la salida de las herramientas constituye el 67.6% del contenido que el Agente realmente ve en el contexto, mientras que el prompt del sistema representa solo el 3.4%. Esto significa que la mayor parte del "campo de visión" del modelo está ocupado por los resultados de las llamadas a herramientas. Si el Harness procesa incorrectamente el formato de la salida de las herramientas o no logra comprimir eficazmente la información redundante, el modelo caerá en la "corrupción del contexto", lo que provocará una caída drástica en la calidad del razonamiento posterior.
Más grave aún es el problema del error compuesto. Un proceso de Agente que contiene 10 pasos, cada uno con una confiabilidad del 99%, tiene una tasa de éxito de extremo a extremo de aproximadamente el 90%; cuando la complejidad de la tarea aumenta a 50 pasos, la tasa de éxito se desploma a alrededor del 60%. En escenarios reales de mantenimiento de repositorios de código o automatización empresarial en la oficina, las operaciones continuas de decenas de pasos son la norma. En este punto, por fuerte que sea la capacidad de razonamiento del modelo en sí, no puede compensar la pérdida acumulativa en términos de probabilidad. Solo a través de mecanismos de manejo de errores y recuperación dentro del Harness es posible reintentar o corregir la ruta cuando un paso falla. Este es precisamente el valor de ingeniería del Harness y la razón por la cual Deepseek debe involucrarse personalmente.
Tencent hace conectores, Alibaba hace infiltración frontend: los caminos diferenciados de las cadenas de herramientas de los gigantes tecnológicos
El giro de Deepseek no es un caso aislado. Según informes de la industria, fortalecer las capacidades de los Agentes se ha convertido en una dirección de desarrollo importante para los modelos de lenguaje grandes nacionales en 2026. Los modelos base se están convirtiendo gradualmente en "servicios públicos" como agua y electricidad, y el campo de batalla principal de la competencia se desplaza hacia la capa de aplicación. Otros gigantes tecnológicos nacionales también están buscando posiciones diferenciadas a través de cadenas de herramientas, pero con caminos diferentes, lo que refleja las dotaciones ecológicas y las diferencias en los usuarios objetivo de cada empresa.
Tencent presentó en junio de 2026 su nueva carta fuerte de Agente empresarial, lanzando WorkBuddy Enterprise Edition. Su posicionamiento central es una plataforma de escritorio de agente inteligente para entornos laborales de escenario completo, enfocándose en pasar de la eficiencia individual a la colaboración organizativa. WorkBuddy Enterprise Edition admite múltiples Agentes en paralelo y la integración de Conectores de sistemas empresariales, intentando capturar la entrada unificada de la IA en la oficina. La lógica de posicionamiento de Tencent se basa en su enorme ecosistema de WeChat Empresarial y Tencent Cloud. Para las grandes empresas, el dolor de la IA en la oficina no está en la experiencia extrema de una herramienta puntual, sino en si puede integrar los sistemas de oficina internos aislados. Tencent, al actuar como conector, permite que el Agente pueda acceder directamente a los datos y procesos empresariales, centrándose en la colaboración a nivel organizativo y la entrega de tareas complejas. La ventaja de este enfoque es que tiene una barrera alta; una vez integrado en los flujos de trabajo empresariales clave, el costo de reemplazo es enorme; el desafío es que requiere una gran capacidad de servicio empresarial y soporte personalizado.
Alibaba tomó un camino diferente, optando por reducir el umbral de automatización en el lado del cliente web. Alibaba liberó el marco de Agente GUI de navegador puramente frontend y de código abierto, PageAgent. Este marco no requiere despliegue backend; con una línea de código, un sitio web puede integrar capacidades de operador de IA. La lógica de posicionamiento de Alibaba reside en empoderar a los desarrolladores web, permitiendo que cualquier página web se convierta instantáneamente en una aplicación nativa de IA. Ante la realidad de que muchos sistemas empresariales tradicionales no pueden proporcionar interfaces API, lograr la automatización a través de la manipulación del DOM frontend es un camino práctico de ataque por saturación. La ventaja de este enfoque es que es ligero, fácil de integrar y puede cubrir rápidamente una gran cantidad de sitios web de nicho; sin embargo, los cambios frecuentes en la estructura del DOM frontend también pueden plantear desafíos de estabilidad, exigiendo una mayor capacidad de recuperación de errores por parte del Harness.
En comparación, cada empresa ya no compite simplemente en puntuaciones de referencia de modelos, sino que construye cadenas de herramientas según sus propias dotaciones ecológicas. Tencent hace conectores, Alibaba hace infiltración frontend, y Deepseek aborda el escenario de ingeniería de código, que es la necesidad más urgente para los desarrolladores. Esta diferenciación indica que la industria de IA nacional ya ha reconocido que no existe un Agente universal perfecto, solo soluciones verticales pulidas a través de un sólido trabajo de ingeniería de Harness en escenarios específicos. Para las adquisiciones empresariales, elegir qué cadena de herramientas es, en esencia, elegir qué camino de automatización: la integración profunda con un ecosistema de oficina, la integración flexible en sistemas web existentes o el empoderamiento de los flujos de trabajo de ingeniería de los desarrolladores.
Los 20 millones de dólares de ARR de Viktor lo demuestran: las empresas están dispuestas a pagar por la ejecución autónoma
La madurez de las cadenas de herramientas está cambiando el paradigma de cómo la IA participa en el ámbito de la oficina. La lógica del Copilot nativo es "redactar y esperar a que el humano complete"; la IA genera un texto o un fragmento de código, y el último paso todavía requiere intervención humana para modificarlo y ejecutarlo. En este modelo, la IA es solo una herramienta de eficiencia, incapaz de reemplazar realmente la fuerza laboral. Los empleados empresariales necesitan supervisar constantemente la salida de la IA para verificarla e implementarla, lo que en realidad aumenta la carga cognitiva.
En el mercado internacional ya hay señales claras de un cambio de paradigma. Como referencia de tendencias en el extranjero, la empresa polaca de automatización de oficinas con IA, Viktor, se posiciona como empleado de IA dentro de Slack, logrando 20 millones de dólares en ingresos anuales recurrentes (ARR) sin un equipo de ventas, sirviendo a 30,000 empresas, y asegurando una ronda de financiación Serie A de 75 millones de dólares en mayo de 2026. El modelo de Viktor representa la forma final del nuevo empleado de IA: posee un ordenador en la nube, puede operar de manera continua durante largos períodos, gestiona firmemente un contexto masivo y entrega resultados directamente.
Viktor se posiciona como un "Compañero de trabajo de IA de Nivel 3 (Tier 3 AI Coworker)", lo que significa que ya no maneja simples preguntas y respuestas, sino tareas complejas que requieren múltiples pasos y ejecución prolongada, como auditorías de marketing, gestión de anuncios e investigación de leads. El lado empresarial muestra una gran disposición a pagar por esta IA que no necesita confirmación humana final y puede operar de manera continua durante largos períodos. Esta explosión de datos comerciales demuestra que el punto de anclaje de valor de la automatización de oficinas ya se ha desplazado de la "asistencia en la generación" a la "ejecución autónoma".
La disposición de las empresas nacionales en Harness y cadenas de herramientas de Agentes es precisamente para aprovechar esta tendencia. Cuando el Harness puede proporcionar suficientes barreras de seguridad, persistencia de estado y capacidades de recuperación de errores, la IA puede pasar de ser un "pasante" que necesita supervisión humana constante a un "subcontratista" que puede entregar resultados de trabajo de forma independiente. El foco de las adquisiciones empresariales también cambiará del tamaño de los parámetros del modelo a si el Agente puede ejecutarse de manera estable durante 8 horas sin colapsar, si puede manejar automáticamente las limitaciones de API y los cambios en la estructura de las páginas web. Para los desarrolladores, esto significa que el foco en la construcción de aplicaciones de IA pasará de "cómo escribir un buen Prompt" a "cómo diseñar un entorno de ejecución robusto".
Explosión de Tokens y las barreras de ingeniería de los "marcos gruesos (thick frameworks)"
Después del cambio hacia la competencia en cadenas de herramientas, los desafíos que enfrentan las adquisiciones empresariales y los desarrolladores en la implementación práctica no han disminuido, sino que se han centrado aún más en el nivel de ingeniería.
El primer problema es la explosión de Tokens. Los Agentes que se ejecutan durante largos períodos, en el ciclo de "pensar, actuar, retroalimentar", son muy propensos a que su contexto se expanda rápidamente debido a salidas redundantes de herramientas. La comunidad de desarrolladores discute ampliamente este problema, argumentando que no solo aumenta el costo de inferencia, sino que también causa que la atención del modelo se disperse, aumentando drásticamente la tasa de fallos de las tareas. Por ejemplo, al ejecutar una tarea de extracción de datos de una página web, si el Harness introduce sin modificar el código fuente HTML completo de la página en el contexto, el modelo pronto se perderá en la información redundante, olvidando el objetivo original de la tarea. Por lo tanto, la capacidad de compresión de contexto y gestión de memoria del Harness se convierte en un indicador central de evaluación en las adquisiciones empresariales. Un Harness excelente debe saber qué información histórica puede descartar y qué resultados de retorno de herramientas necesitan resumirse. Esto pone a prueba una profunda capacidad de arquitectura de ingeniería, no la inteligencia del modelo en sí.
Esto también ha despertado la alerta de los desarrolladores hacia los "marcos delgados (thin frameworks) de envoltura". Si el Harness lanzado por los proveedores de modelos grandes es solo un simple envoltorio de API, proporcionando una ventana de diálogo básica y una interfaz de llamada a herramientas, carecerá de valor de depuración real. La fragilidad en el entorno de producción exige que el Harness debe poseer características de "marco grueso" como aislamiento de sandbox, control de permisos granular, reanudación desde punto de interrupción, etc. Solo un entorno de ejecución con profundas barreras de ingeniería puede resolver verdaderamente las necesidades de estabilidad de las aplicaciones empresariales. Por ejemplo, en escenarios de ejecución de código, el Harness debe proporcionar un entorno de sandbox seguro para evitar que el código malicioso generado por el modelo dañe el sistema anfitrión; en tareas de larga duración, debe admitir la reanudación desde punto de interrupción para evitar que toda la tarea tenga que reiniciarse debido a fluctuaciones de la red.
Además, factores geopolíticos dejan un enorme vacío de mercado para los Harness nacionales. Productos de agentes de ingeniería líderes en el extranjero, como Claude Code, imponen restricciones de acceso a China continental y empresas de capital chino. Ante la imposibilidad de usar directamente estas herramientas líderes, los desarrolladores nacionales solo pueden buscar alternativas locales. La formación del equipo Harness por parte de Deepseek no solo es un seguimiento de la tendencia tecnológica, sino también una respuesta a esta enorme demanda de sustitución.
Para las adquisiciones empresariales y los desarrolladores, entender el valor de Harness significa que, al elegir un producto de IA, ya no se dejan engañar por demostraciones de diálogo llamativas, sino que se preguntan cuál es su mecanismo de recuperación de errores, cuál es su estrategia de gestión de contexto y si realmente puede integrarse en los flujos de trabajo existentes. En la etapa de competencia de cadenas de herramientas, las empresas deben priorizar la evaluación de la capacidad de entrega de ingeniería y la compatibilidad ecológica del proveedor, en lugar de simplemente comparar puntuaciones de referencia de modelos; los desarrolladores, por su parte, deben centrarse en el grado de apertura del marco Harness y la integridad de las herramientas de depuración, eligiendo una plataforma que pueda proporcionar un entorno de ejecución profundamente controlable.







