Nota del editor: Con la mejora continua de las capacidades de los modelos grandes, la capa de aplicaciones de IA está enfrentando una ansiedad generalizada: si empresas de modelos como OpenAI y Anthropic dominan tanto los modelos base como los canales de distribución y tienen ventajas de marca, ¿qué pueden hacer las startups en la capa de aplicaciones?
Esta es precisamente la pregunta que el socio de a16z, Joe Schmidt, intenta responder en este artículo. Utilizando la metáfora del «Camino de Ladrillos Amarillos» de *El Mago de Oz*, divide las oportunidades de aplicaciones de IA en dos categorías: una es la ruta principal que las empresas de modelos grandes están entrando directamente, como generación de código, escritura, generación de imágenes, agentes universales y asistentes horizontales de oficina; la otra es «el resto de la tierra de Oz», es decir, aquellos escenarios verticales que profundizan en los procesos de la industria, dependen de flujos de trabajo complejos, acumulación de datos, gestión de cumplimiento y capacidades de integración de sistemas.
En su opinión, la verdadera oportunidad para las startups está en esta última.
Desde ventas hasta seguros, Joe Schmidt enfatiza repetidamente la misma lógica: lo que las empresas realmente están dispuestas a pagar no es una ventana de chat más inteligente, sino un sistema que pueda responsabilizarse de los resultados del negocio. Necesita entender el estado caótico de los datos del cliente, manejar aprobaciones de múltiples personas y casos límite, asumir responsabilidades de cumplimiento y auditoría, y también realizar la migración, el enrutamiento y la optimización de costos para el cliente cuando los modelos se actualicen continuamente.
Este es también el juicio central de este artículo sobre el próximo software empresarial: los modelos base serán cada vez más potentes y también más reemplazables; pero lo que realmente es insustituible son los datos, procesos, capacidades de gobierno y memoria operativa acumulados en torno a industrias y flujos de trabajo específicos. La oportunidad para las empresas de aplicaciones de IA no está en competir con las empresas de modelos por el «Camino de Ladrillos Amarillos», sino en adentrarse en aquellos lugares más complejos, más sucios, más lentos, pero también más cercanos al valor comercial real.
A continuación, el texto original:
Últimamente, escucho constantemente la misma pregunta de fundadores y posibles empleados: ¿Hay algo que hacer aún en la capa de aplicaciones de IA? ¿O es que OpenAI y Anthropic finalmente acabarán con todo?
Detrás de esta pregunta hay una ansiedad típica de la IA. Algunos ya han llegado a la conclusión: si no quieres terminar como una capa base permanente, las únicas posiciones con valor a largo plazo están dentro de los laboratorios de modelos grandes, o emprendiendo en robótica, hard tech o campos similares de vanguardia, es decir, teóricamente, hacer aquellas cosas que «los laboratorios no tocan». Porque si cada tipo de software va a ser devorado, ya sea porque Codex o Claude absorban directamente el trabajo correspondiente, o porque algún modelo futuro lo vuelva innecesario, la mejor opción parece ser: ¡corre!
Admito que yo casi soy un maximalista de IA, y creo que tienen razón a medias. Los laboratorios de modelos grandes efectivamente están entrando en grandes áreas de la capa de aplicaciones. Pero la «capa de aplicaciones» no es un conjunto homogéneo de oportunidades. El criterio de juicio verdaderamente importante es: ¿estás en el «Camino de Ladrillos Amarillos» o en el resto de la tierra de Oz?
El llamado «Camino de Ladrillos Amarillos» es la ruta que usamos para describir la que los laboratorios de modelos grandes están siguiendo e invirtiendo enormes recursos. Problemas como la generación de código, escritura y creación de imágenes son naturalmente adecuados para los laboratorios porque mejoran con el aumento de la capacidad bruta del modelo: cada dólar invertido en pre-entrenamiento y post-entrenamiento mejora directamente la calidad del producto.
Pero en el resto de la tierra de Oz, existen problemas más complejos, y generalmente más verticales. No se trata simplemente de dar a un usuario empresarial una herramienta horizontal y hacer que se conecte a herramientas estándar y capacidades informáticas para resolverlo. Aquí el valor proviene más del andamiaje que rodea al modelo: ese andamiaje hace que la salida sea confiable, cumpla las normativas y realmente ingrese en los flujos de trabajo del negocio dentro de una industria específica. La capacidad bruta del modelo base sigue siendo importante, por supuesto, pero ya no lo es todo.
Estamos viendo esto en tiempo real. OpenAI y Anthropic están admitiendo esencialmente al mercado: no pueden resolver todos los problemas con un asistente de IA universal. Han anunciado grandes inversiones en empresas conjuntas de despliegue en primera línea, construyendo compañías completas en torno a configurar y personalizar modelos para empresas. Si realmente creyeran que el próximo lanzamiento de un modelo resolvería estos problemas, no invertirían miles de millones de dólares en este tipo de proyectos.
Entonces, si quieres ganar dinero haciendo aplicaciones de IA, no vayas por el Camino de Ladrillos Amarillos, ve a construir en el resto de la tierra de Oz. A continuación, algunas lecciones aprendidas en la práctica por nosotros y por algunos fundadores de nuestra cartera de inversiones.
Camino de Ladrillos Amarillos
Si vas a fundar una empresa, el Camino de Ladrillos Amarillos es el más obvio, pero también el más peligroso. Toma un modelo de alto rendimiento, conéctalo a algunos conectores listos para usar, como Google Drive, Slack, Salesforce, Notion, GitHub, y construye una capa de orquestación de agentes encima. Parece magia.
El problema es que esto es precisamente lo que los laboratorios de modelos grandes están haciendo con Coworker y Codex. Claramente, ellos poseen el modelo, lo que significa que tienen mejores márgenes, mayor control y pueden ejercer poder de fijación de precios sobre todos los actores aguas abajo. Pero quizás lo más importante es que también controlan las decisiones arquitectónicas que determinan para qué es adecuado el producto resolver. Hasta ahora, han sido muy intencionales en adoptar el patrón «modelo + llamada a herramientas», que es precisamente el modo necesario para esos trabajos horizontales y de pocos pasos en el Camino de Ladrillos. Incluso si una startup lograra de alguna manera superar a Codex o Claude Code, los laboratorios de modelos grandes aún poseen una enorme capacidad de distribución y el aura de marca más fuerte en el campo de la IA.
Si eres una empresa de aplicaciones de IA y sigues el mismo juego: conectarte a los mismos conectores, sin subagentes o configuración debajo, y sin canales de distribución, probablemente estés en un camino hacia la nada.
El resto de la tierra de Oz
Para las startups, la situación no es del todo pesimista. Fuera del Camino de Ladrillos Amarillos, todavía existen enormes oportunidades. Las startups pueden tener clientes y resolver problemas complejos en estos lugares.
Estas empresas están construyendo experiencias de agentes: los modelos están entrelazados en redes complejas de herramientas, automatización e integraciones, en otras palabras, software. Esto también hace que la mayoría de estas startups sean naturalmente verticales. Pueden enfocarse en flujos de trabajo de múltiples pasos y múltiples participantes, diseñar subagentes para diferentes roles y escenarios verticales, y abordar problemas difíciles de alcanzar para las plataformas horizontales de Anthropic y OpenAI: recolectar contexto a través de sistemas y luego enrutar tareas a múltiples personas que necesitan aprobación en diferentes etapas.
Este tipo de trabajo a menudo involucra uno o más sistemas heredados, a menudo requiere resultados deterministas porque la ambigüedad es inaceptable, y a veces está directamente vinculado a un resultado comercial importante. Los laboratorios de modelos grandes ciertamente saben cuán valiosos son estos problemas: por eso están construyendo sus propios equipos de configuración externalizados y por qué está surgiendo toda una categoría de empresas de servicios de aprendizaje por refuerzo para grandes clientes.
Por qué el resto de la tierra de Oz no será completamente ocupado por el «Mago»
Un contraargumento a lo anterior es: hasta ahora, apostar a que los modelos o laboratorios no seguirán mejorando ha sido una mala apuesta. Es probable que continúen volviéndose más fuertes y eventualmente devoren los mercados servidos por estas empresas de aplicaciones.
Los laboratorios de modelos grandes ciertamente seguirán progresando. Pero creo que las empresas en el resto de la tierra de Oz todavía tienen varias formas de defenderse a largo plazo.
Datos y rueda de aprendizaje
Muchas de las cosas que realmente internalizas en un negocio no existen en ningún conjunto de entrenamiento: convenciones de la industria no escritas, estándares no documentados, conocimiento tribal que existe en las mentes de los profesionales. No están en la internet pública. No importa cuánto poder de cómputo de entrenamiento se invierta, no puede reemplazar realmente entrar en el flujo de trabajo donde reside ese conocimiento.
Aquí se superponen dos ruedas: una es la rueda entre clientes, es decir, cuando ves más variaciones del mismo tipo de problema, los patrones se capitalizan continuamente; la otra es la rueda interna del cliente, es decir, las razones detrás de decisiones específicas, esas excepciones no dichas, las reglas empíricas de la propia empresa, que solo surgen cuando los usuarios interactúan realmente con el sistema.
Incluso si los datos del cliente no se pueden usar entre clientes, las empresas de aplicaciones aún pueden aprovechar el reconocimiento de patrones de diferentes tipos de problemas de clientes y usarlo para guiar el diseño arquitectónico de problemas futuros. Una empresa que ya ha hecho que sus agentes manejen cien revisiones de líneas rojas legales, mil ciclos de suscripción de seguros o diez mil actividades de desarrollo de ventas SDR, tiene una comprensión de la forma del problema que un recién llegado que inicia un nuevo agente por primera vez no puede replicar.
Teóricamente, un agente horizontal también podría construir la misma infraestructura de aprendizaje. Pero la razón por la que no lo hace, además de la falta de enfoque, es más importante, la experiencia del usuario. Capturar este conocimiento depende completamente de qué tipo de interfaz de flujo de trabajo le proporciones al usuario. Los jugadores verticales pueden diseñar estas interfaces en torno a la información que realmente necesita exponer un flujo de trabajo específico, algo que las herramientas horizontales no pueden hacer. Los conjuntos de evaluación, las salidas etiquetadas, los sistemas de clasificación de casos límite pueden combinarse en una rueda de datos de dominio vertical que, a su vez, soporta el ajuste fino. Para un recién llegado sin una exposición equivalente en entorno de producción, es difícil generar esta rueda. Su viabilidad depende de los derechos de datos, el volumen de uso en producción acumulado y la estructura contractual con los clientes, pero el reconocimiento de patrones en sí mismo continuará acumulándose.
Gestionar la volatilidad y complejidad del modelo
Los laboratorios de modelos grandes ya hacen enrutamiento internamente: llaman a diferentes categorías de modelos para diferentes solicitudes, utilizando conjuntos de modelos en el backend. Pero lo que no pueden hacer es enrutar entre proveedores, también es difícil evaluar modelos de la competencia para una subtarea concreta, o usar un modelo de ajuste fino de código abierto verdaderamente más adecuado en un paso estrecho.
Las empresas en el resto de la tierra de Oz elegirán el modelo más adecuado para cada subtarea en todo el mercado de modelos, no solo el modelo lanzado por un laboratorio madre. También asumirán el trabajo que nadie más quiere hacer: volver a ejecutar evaluaciones con cada nuevo lanzamiento de modelo, recalibrar indicaciones para los casos límite de los clientes, poner en línea sin romper el entorno de producción. Los laboratorios de modelos grandes no harán esto por sus clientes. Te venden el nuevo modelo y te dicen que migres. Las empresas en el resto de la tierra de Oz absorben el costo de migración. El cliente obtiene la mejor capacidad inteligente de todo el mercado, junto con la continuidad durante cada actualización.
Optimización de costos
Enviar cada consulta a Opus 4.7 es la forma más rápida de hacer que el margen bruto sea negativo. Las mejores empresas de Oz enrutarán entre diferentes niveles de modelos: las tareas más difíciles para modelos de vanguardia, la mayoría de las tareas para modelos medios, modelos personalizados más pequeños o modelos de ajuste fino donde ya se haya demostrado que funcionan.
Algunas de estas empresas ahora hacen su propio post-entrenamiento sobre esto, optimizando el modelo en ese pequeño segmento de trabajo que realmente le importa al cliente, y ofreciendo el servicio a un costo muy inferior al de las llamadas API de vanguardia. Los laboratorios de modelos grandes fijan precios para el «precio mínimo»: el nivel mínimo de inteligencia que puedes obtener por X dólares. Las empresas de Oz venden lo contrario: el costo en dólares más bajo para el nivel de inteligencia realmente requerido por un flujo de trabajo específico. Esto solo es posible cuando sabes exactamente qué nivel de inteligencia necesita cada subtarea. Y los laboratorios de modelos grandes, estructuralmente, no pueden conocer cada tarea en cada industria vertical. Finalmente, esto se traduce directamente en precios de resultados más bajos y más controlables.
Gobernanza
Convertirse en el plano de control donde un cliente ejecuta IA en un dominio vertical genera un valor considerable. Este plano de control es donde convergen los permisos, la auditoría, lo que se permite que haga el agente y lo que el agente realmente hizo.
Este plano de control se construye sobre barreras de protección para casos de uso específicos, y las barreras son completamente diferentes en diferentes industrias y tipos de roles. Debido a que estas empresas poseen de extremo a extremo las herramientas, flujos de trabajo y datos que tocan los agentes, pueden proporcionar resultados deterministas de formas difíciles de lograr para herramientas horizontales. También absorben la complejidad regulatoria para el comprador final: las Reglas Federales de Procedimiento Civil de EE.UU. y las reglas de ética profesional en el ámbito legal, HIPAA en el ámbito sanitario, las reglas de la SEC y FINRA en el ámbito financiero, la regulación estatal de seguros, etc. Los jugadores horizontales no pueden hacer esto de manera creíble sin convertirse en cien industrias verticales diferentes. Un CIO necesita un socio que pueda comprometerse claramente en un contrato: asumirá la responsabilidad del manejo del cumplimiento normativo para los agentes que proporciona.
Todos estos puntos finalmente regresan a lo mismo: enfoque.
Este enfoque puede ser una industria vertical, como seguros, legal, contabilidad; o puede ser una función que se lleve a una profundidad suficiente, como ventas, servicio al cliente, finanzas. Cualquiera que sea, este trabajo requiere que un equipo se sumerja a largo plazo en el mismo tipo de base de clientes, entendiendo sus flujos de trabajo, casos límite y requisitos regulatorios. Los laboratorios de modelos grandes no están construidos para esto. Deben servir a todos, cubrir todos los lugares, y esa es la razón por la que construyeron el Camino de Ladrillos Amarillos en primer lugar. La misma compensación hará que sea difícil para ellos entrar en el resto de la tierra de Oz: puedes estar en todas partes a la vez, o puedes hacer una cosa extremadamente bien, pero no ambas.
Tomando las ventas como ejemplo: Consejos prácticos del CEO tecnológico de 11x
En la práctica, ¿cómo se debe entender esto? A continuación, algunos consejos prácticos de Prabhav Jain, CEO de 11x.
Enfócate en los resultados
Un camino táctico viable para construir una empresa que pueda resistir el impacto de los laboratorios de modelos grandes es comenzar desde los resultados específicos que realmente le importan al cliente. Para nosotros, ese resultado es ayudar a las empresas a generar más leads y más pipeline de ventas.
Desde aquí, el problema se vuelve muy específico: ¿Qué actividades queremos poseer de extremo a extremo y que realmente impulsen el crecimiento del pipeline de ventas? Desglosa cada actividad en tareas. ¿Qué tareas son adecuadas para un agente y cuáles no? ¿Cuáles requieren una comprensión compleja del dominio y cuáles no? Los laboratorios de modelos grandes también lanzarán flujos de trabajo, pero cuando un paso del flujo de trabajo tiene muchos pasos, entradas desordenadas, estados difíciles de interpretar o existen restricciones del mundo real, simplemente tener un mejor modelo no lo logrará. Entonces, el trabajo vuelve a la ingeniería de software tradicional, y en ese nivel, los laboratorios de modelos grandes no tienen ventaja sobre una empresa de aplicaciones enfocada.
Por ejemplo, algunas de las tareas que manejamos incluyen: prospección de leads basada en señales personalizadas, enriquecimiento de información de leads, investigación profunda de cuentas, extracción de contexto del CRM, redacción de mensajes para diferentes canales, agente de calificación de leads y sistema de entrega de correos. Algunas de estas son tareas de agente, otras no. Estas tareas no se completan con un solo prompt, sino que requieren capacidades de ingeniería profundas.
La idea clave en la analogía de Oz es: En cualquier flujo de trabajo real, aproximadamente la mitad son tareas no de agente, y esa mitad no aporta ventaja de laboratorio. Debajo de la capa del modelo, su capacidad para escribir software determinista no es mejor que la tuya. Y la otra mitad de tareas de agente todavía te exigen ajustar, entrenar y restringir el modelo en torno al resultado que realmente deseas.
El conocimiento del dominio a menudo no está en los datos de entrenamiento genéricos. Estas capacidades deben construirse de abajo hacia arriba desde la industria vertical o función específica, y alimentarse al modelo en el momento adecuado dentro del flujo de trabajo. Cuando nuestro agente califica una lead entrante por teléfono, debe ser entrenado para entender: para una industria específica, un perfil de usuario específico, qué constituye una buena conversación de ventas. Este es el trabajo de la empresa de aplicaciones, y esta capacidad se capitaliza.
Lo más importante es que estas capacidades se vuelven obsoletas continuamente, porque la propia empresa está evolucionando. Por lo tanto, tu capacidad para evolucionar continuamente el flujo de trabajo y el contexto se convierte en sí misma en una ventaja competitiva. Por ejemplo, cuando comenzamos con el producto de outreach de correo escalable, los «correos escritos por IA» recién comenzaban a aparecer. Avanza rápido hasta hoy, la gente ha desarrollado un sentido agudo para distinguir qué correos están escritos por IA y cuáles se sienten más humanos, y lo clave es que este juicio cambia cada pocos meses. Nuestros agentes deben ajustarse continuamente con la dinámica del mercado, pero la ventaja competitiva también se construye aquí. De hecho, a pesar de esta dinámica, nuestra tasa de respuesta positiva ha aumentado 4 veces en los últimos meses y ha creado cientos de millones de dólares en pipeline de ventas para los clientes.
Aborda problemas de alta complejidad
Los problemas complejos son donde se libera el verdadero valor comercial. De lo contrario, fácilmente te encontrarás haciendo solo una capa delgada de envoltura.
Al desglosar cualquier problema comercial lo suficientemente complejo, rápidamente aparece el caos. Aquí hay un ejemplo del ámbito de GTM (Go-To-Market) que suena simple: si una empresa ya es tu cliente, no deberías contactar a un contacto dentro de esa empresa. Pero esto no es nada simple.
Tal vez tu CRM tiene el dominio correspondiente a esa empresa. Entonces, ¿qué pasa con esas empresas que tienen docenas de subsidiarias? ¿Y si el registro del CRM es el dominio de la empresa matriz? ¿Y si un campo de coincidencia desactualizado en Salesforce hace que envíes un correo de ventas en frío al Chief Revenue Officer de un cliente existente? Los datos del mundo real son desordenados. A los humanos les cuesta manejarlos, y los modelos no superarán mágicamente este umbral. Para crear orden a partir de este caos, se necesita diseñar agentes especializados en torno a la forma específica del problema, no simplemente apuntar un copiloto genérico al CRM y terminar. De hecho, basándonos en los datos que tenemos, encontramos que nuestra calidad y frescura de datos ya es más alta que la del propio cliente, por lo que, por defecto, nos anclamos en nuestros propios datos.
Las barreras de protección no solo son para evitar que sucedan cosas malas. El cliente paga exactamente por esto
Las barreras de protección están tremendamente subestimadas. Incluso dentro del mismo producto, cada caso de uso necesita sus propias barreras. Para nosotros, las garantías requeridas para un lead de servicios financieros regulado son completamente diferentes a las de un cliente de SaaS mediano. Y estas garantías se transmiten en capas a cómo escribe el agente, a quién puede contactar, a qué datos puede acceder, qué puede decir en una llamada y cómo se registra cada decisión.
Un sistema «único para todos» colapsaría ante esta variación. Las barreras de protección deben construirse por caso de uso, configurarse por cliente y auditarse continuamente, y este trabajo recae completamente en la empresa de aplicaciones. Es por eso que necesitamos ingenieros de despliegue en primera línea y estrategas técnicos de implementación para ajustar según los requisitos de cada cliente.
Por ejemplo, trabajamos con una institución Fortune 1000 para realizar llamadas salientes autorizadas por voz a su enorme base de clientes PYME. En los primeros intentos, la tasa de respuesta fue baja. Tuvimos que iterar rápidamente, aprendiendo cómo lograr que este público específico se involucrara dentro de los primeros 10 segundos de la llamada. Los propietarios de PYME se comportan de manera completamente diferente a los compradores B2B grandes o a los consumidores. Ahora, creamos más oportunidades de ventas para ellos en un día de las que todo su equipo de ventas podría generar en un mes en ese segmento.
Tomando los seguros como ejemplo: Consejos prácticos del CEO de FurtherAI
Las ventas son solo un ejemplo. Los seguros son otro ejemplo que ilustra lo mismo desde un ángulo diferente. A continuación, la comprensión de Aman Gour, CEO de FurtherAI, sobre «construir fuera del Camino de Ladrillos Amarillos».
Cuando comenzamos a desplegar IA en las operaciones reales de seguros, escuchamos repetidamente una suposición: el modelo es la inteligencia, el flujo de trabajo es solo el andamiaje construido alrededor del modelo.
Pero cuantas más aseguradoras colaboramos, más nos convencimos de que es exactamente lo contrario.
En la industria de seguros, mucha inteligencia reside en el propio flujo de trabajo. Dos aseguradoras pueden hacer que una presentación siga un camino que parece idéntico: presentación, revisión, cotización, suscripción. El camino en sí es fácil. Lo que realmente distingue a dos aseguradoras es todo lo que hay dentro del camino: qué riesgos necesitan escalarse, qué señales de pérdida son importantes, cuál regla de preferencia de suscripción tiene prioridad cuando dos entran en conflicto, cuándo debe firmar un humano, qué datos externos deben recuperarse y cómo se registra la decisión final.
Esta lógica no existe en un motor de reglas limpio. Está dispersa en procedimientos operativos estándar, revisiones de gerentes, filosofías de suscripción, preferencias de riesgo específicas de la aseguradora y años de experiencia operativa. Mucho de esto no está escrito de una forma que el modelo pueda leer directamente.
Es por eso que no creemos en el agente puro que razona desde cero cada vez, ni en el flujo de trabajo rígido que se rompe ante la complejidad del mundo real. En cambio, hemos estado construyendo flujos de trabajo de agentes. El flujo de trabajo aporta repetibilidad, auditabilidad y control de costos; el agente maneja la variabilidad y recupera el proceso cuando se interrumpe la ruta ideal; los humanos permanecen en el circuito donde hay juicio y responsabilidad involucrados.
El primer día, este sistema automatiza el trabajo manual. Pero con el tiempo, cada escalada se convierte en una señal, cada excepción es una retroalimentación, cada corrección humana te dice dónde está incompleto el manual operativo original. Con el tiempo, el flujo de trabajo deja de ser solo un script y se convierte en la memoria operativa de la aseguradora.
Esto es precisamente la parte difícil de alcanzar para los laboratorios de modelos grandes. Continuarán lanzando mejores modelos y mejores agentes genéricos, y deberían hacerlo. Pero no se quedarán a largo plazo en el flujo de trabajo de producción de una aseguradora para aprender por qué se escaló una cuenta, por qué se rechazó un riesgo, o por qué un suscriptor anuló la guía de preferencia de riesgo y resultó tener razón.
Esta comprensión solo puede provenir de ejecutar el mismo flujo de trabajo miles y miles de veces en un entorno de producción. El flujo de trabajo que entregas el primer día no es la ventaja competitiva. El ciclo que se forma con el uso en producción a lo largo del tiempo es la ventaja competitiva.
Para nosotros, esto es lo que significa «construir fuera del Camino de Ladrillos Amarillos».
Cómo determinar si estás en el resto de la tierra de Oz o aún en el Camino de Ladrillos Amarillos
Prueba de herramientas y pasos
¿Cuántos pasos requiere este trabajo? ¿Qué tan complejas son las herramientas que necesitas construir para soportarlo?
Compara una búsqueda de IA horizontal en Google Drive: es una operación de un paso sobre una herramienta, y la tolerancia al error en los resultados es alta. El usuario lee el resumen, si está mal, pregunta de nuevo.
Ahora mira una tarea de múltiples pasos para modificar líneas rojas legales basada en precedentes de los últimos tres años de un bufete de abogados: puede involucrar docenas de pasos, múltiples herramientas, la salida debe pasar la revisión de un socio, e incluso puede necesitar defenderse en un tribunal. Ambos pueden parecer «un agente haciendo algo», pero solo este último requiere ese software profundo construido por un equipo enfocado durante años.
Prueba del sistema
¿Estás construyendo un sistema que el cliente usa para ejecutar el trabajo, o estás agregando una herramienta sobre el sistema existente del cliente?
Un sistema posee el flujo de trabajo de extremo a extremo: captura de datos, gobernanza, registro del trabajo completado. El cliente señala este sistema al describir cómo ocurre realmente el trabajo. Una herramienta simplemente agrega una capa de inteligencia al flujo de trabajo que el cliente ya está ejecutando.
Los productos tipo herramienta también pueden generar ingresos reales, pero los laboratorios de modelos grandes pueden quitárselos más fácilmente, porque el cliente no depende de ti como capa de orquestación. Un ACV (valor de contrato anual) alto suele ser una señal de producto tipo sistema, porque el sistema reemplaza mano de obra real y, por lo tanto, obtiene el pago correspondiente. Pero esto no es una garantía absoluta. Debes preguntarte: Si un laboratorio de modelos grandes lanza un producto que parece competir directamente contigo, ¿el cliente aún necesitaría tu herramienta? Si la respuesta es sí, estás construyendo un sistema. Si la respuesta es no, eres una herramienta, incluso si tu ACV es alto.
Prueba del fondo de cobertura / estado de resultados
El desempeño de los laboratorios de modelos grandes se juzga por puntos de referencia (benchmarks); el desempeño de las empresas en el resto de la tierra de Oz se juzga por el estado de resultados del cliente.
Al cliente no le importa cuántos puntos obtuvo tu modelo en SWE-Bench o MMLU. Les importa: ¿tu agente cerró el trato, modificó correctamente las líneas rojas del contrato, suscribió la póliza correcta? Si el cliente se enfoca en resultados específicos del flujo de trabajo, no en puntajes de capacidad genérica, estás en el resto de la tierra de Oz. Si el cliente paga por capacidad genérica, entonces estás vendiendo algo que podrían obtener con un asiento de Claude o Codex.
Las mejores empresas de agentes necesitan ejecutar como un fondo de cobertura: ganan por el alfa, y el alfa se mide en el estado de resultados del cliente, no en los puntajes de los puntos de referencia.
Ambos pueden ganar, y lo harán
Veremos grandes ganadores tanto en el Camino de Ladrillos Amarillos como fuera de él. Los modelos seguirán ganando, porque poseen el modelo y también tienen la capacidad de distribución diseñada para herramientas horizontales.
El resto de la tierra de Oz también puede ganar, siempre que posean el sistema de trabajo: es decir, la interfaz donde la empresa realmente ejecuta el trabajo y los datos que fluyen y se capturan a través de ella. Estas empresas poseen la captura de datos, el sistema de acciones del flujo de trabajo y la gobernanza. A medida que los flujos de trabajo complejos en un dominio vertical maduran, se combinan en una experiencia central de la que el cliente no puede prescindir. A medida que los actores existentes y los nuevos participantes lanzan continuamente nuevas generaciones de modelos, esta empresa se convierte en la capa que integra y entrega esos modelos al cliente. El modelo subyacente es reemplazable, pero el sistema de trabajo no lo es.
El próximo software empresarial se construirá fuera del Camino de Ladrillos Amarillos.






