La Ansiedad de 2026 para los Inversores en IA: Cuando los Modelos se lo Tragan Todo, ¿Qué Queda en la Fosa de las Startups?

marsbitPublicado a 2026-06-11Actualizado a 2026-06-11

Resumen

El artículo aborda la ansiedad de los inversores en IA hacia 2026: si los modelos de gran tamaño se vuelven omnipotentes, ¿qué defensas tienen las startups? La autora argumenta que la verdadera ventaja competitiva no está en los benchmarks públicos, donde los modelos avanzan rápidamente, sino en dominios privados e "intratables". El progreso en tareas medibles, como la ingeniería de software, es rápido pero engañoso. Aunque los agentes de codificación aumentan la productividad, la parte crucial del trabajo —integrar cambios en sistemas complejos, mantener equipos, generar confianza— no se puede medir ni entrenar. Esta "corrección" se construye lentamente en la realidad operativa de cada empresa. El valor migra hacia donde los modelos no pueden llegar fácilmente: donde la verificación es privada, la integración es profunda, y la confianza y la responsabilidad son claves. Sectores como banca, derecho o medicina tienen barreras altas (licencias, responsabilidad, procesos internos) que la mera inteligencia no salva. Las empresas que triunfan son las que realizan el "trabajo invisible" de traducir las necesidades del dominio, integrarse en los flujos de trabajo existentes y definir internamente qué constituye un buen resultado. Por tanto, el futuro no es solo para los gigantes de los modelos base. Habrá espacio para aplicaciones especializadas que construyan lentamente autoridad en un nicho, utilizando datos privados y evaluaciones propias para crear modelos especializados que ...

Autora: Sarah Guo

Compilación: Deep Tide TechFlow

Guía de Deep Tide: Cuando los modelos grandes comienzan a superar a los humanos en todas las clasificaciones, los inversores caen en la desesperación: aparte de Anthropic y Nvidia, ¿qué más vale la pena invertir? Esta destacada inversora del Silicon Valley explica con datos y casos que la verdadera fosa defensiva no está en las clasificaciones; se esconde donde los benchmarks no pueden medir.

A mediados de 2026, la versión inversora de la locura por la IA es la desesperación: no hay nada que valga la pena invertir, deberíamos poner todo nuestro dinero en Anthropic y Nvidia y marcharnos a casa.

Yo nunca he sentido eso. Estoy convencida de que los modelos son más inteligentes que yo por varias subversiones, estaría encantada de comprar Anthropic y Nvidia al precio de mercado, todos mis amigos más inteligentes están bastante seguros de que la auto-mejora pronto tendrá éxito, pero aún así no siento esa desesperación.

Esta desesperación no es estúpida. La lógica es: si los modelos siguen mejorando en todo, entonces cada empresa construida sobre ellos es solo una fina capa de empaquetado, esperando ser absorbida, y el único valor que sobrevive es el poder de cómputo y el peso de la vanguardia.

Tomemos el software, el caso favorito de los defensores de la desesperación. Cuando Devin se lanzó en 2024, solo podía resolver el 13% de las tareas en el benchmark estándar de software, básicamente fue ignorado. Un año y medio después, los mejores agentes alcanzan más de 80 puntos, están haciendo trabajos reales dentro de Goldman Sachs y el Ejército de EE. UU. Casi todos sacaron la misma lección equivocada: los modelos se comieron la ingeniería de software. Pero mientras los modelos devoran la parte más fácil de medir de la ingeniería de software, estamos redescubriendo lo que muchos equipos siempre han sabido: la ingeniería siempre ha sido resistente a la medición, y la parte más fácil de medir puede no ser la única importante.

Mert Demirer del MIT y sus colaboradores finalmente dieron números: entre más de 100.000 desarrolladores, los últimos agentes de codificación aumentaron la cantidad de código escrito en aproximadamente un 180%, mientras que el código realmente publicado aumentó en aproximadamente un 30%. Escribir código se abarató. Lo que queda todavía pasa por personas, y es importante. Por supuesto, el impacto neto sigue siendo sorprendente.

Los benchmarks son lo que puedes medir, y lo que puedes medir es en lo que puedes entrenar. Por lo tanto, los agentes de codificación maduraron primero: los compiladores son verificadores gratuitos, las suites de prueba son verificadores gratuitos, cuando la respuesta se verifica sola, puedes pulir y pulir contra esa verificación hasta que la superes. Pero pasar las pruebas nunca te dice si este cambio es correcto para una base de código de diez años con tres módulos no documentados cuya razón de ser, y una pipeline de despliegue que depende precariamente de un cron job que nadie quiere admitir que escribió.

Esa corrección no se puede leer en una tabla de clasificación; de hecho, no se puede leer en nada. Se aprende ejecutando en el mundo real el tiempo suficiente para descubrir si un sistema tan complejo funciona, y los modelos más inteligentes no hacen que el mundo funcione más rápido. Nadie ejecuta pruebas unitarias en algo del tamaño de Google y luego confía en la marca verde; confías en ello porque ha resistido cargas reales durante años. Esa corrección no solo es privada, es el tipo de fosa defensiva lenta que el capital no puede derrumbar. Incluso los optimistas admiten que el reloj no se puede saltar: Noam Brown, pionero de los modelos de razonamiento de OpenAI, escribió recientemente que la única forma confiable de evaluar un agente en un lapso de un año probablemente sea... ejecutarlo durante un año.

Como dijo Gabe Pereyra, la verdadera automatización no es solo que el modelo mejore. Es que el producto, el modelo, el flujo de trabajo y la empresa se muevan juntos, y tres de esos cuatro se mueven a la velocidad de la organización.

Las personas que se mueven son la parte que el benchmark no toca: hacer que una socia escéptica cambie su forma de manejar asuntos, mantener unida a un equipo durante una reconstrucción. Por eso, cuando contratamos CEOs, la capacidad para manejar personas es al menos tan importante como la analítica, y los modelos más inteligentes no cambiarán esa ponderación. La retroalimentación es ambigua, los plazos son de años, la confianza pertenece a una persona. Cada empresa que conozco puso los modelos de codificación de vanguardia a disposición de todos sus ingenieros, pero ninguna cambió su organización de ingeniería a una velocidad cercana a esa. La adopción tomó un trimestre, ¡qué trimestre mágico de crecimiento de tokens fue ese! Pero la reconstrucción está tomando años.

Lo que es visible es lo que se está yendo. El trabajo valioso es estructuralmente invisible: cualquier cosa que puedas poner en una tabla de clasificación, puedes entrenar para ello, por lo que todo lo medible ya está en camino a la mercantilización. Este proceso lleva tiempo y nunca es completo, pero la dirección nunca se revierte. En términos monetarios de mi amigo Matt MacInnis de Rippling: los tokens gastados en responder preguntas genéricas valen casi nada, porque el modelo de cualquiera puede responderla, y los tokens gastados en razonar sobre los datos de tu empresa valen mucho más, porque hace lo que realmente quieres, no solo lo plausible.

El trabajo visible es devorado desde dos direcciones. Desde abajo, saturación de tareas: una vez que un trabajo puede ser verificado de manera barata, los compradores ya no preguntan qué modelo lo hizo, sino cuánto cuesta, y el trabajo cae en el modelo de código abierto o destilado más barato de esa semana. Donde pueden hacer mella, los márgenes finalmente importan. Desde arriba, los laboratorios intentan que los modelos devoren sus propios andamiajes. La recuperación, el enrutamiento entre llamadas baratas y caras, el uso de herramientas, incluso las estrategias de razonamiento, todos los dispositivos que una vez envolvieron al modelo son absorbidos por los pesos, hasta que el envoltorio es el modelo. Esto es absorción de la vanguardia. La presión sobre los márgenes también retrocede: un agente genérico debe estar preparado para cualquier cosa, es costoso, mientras que una aplicación especializada puede ajustar un flujo de trabajo hasta que funcione con una fracción del gasto en tokens, y a diferencia de los laboratorios que venden esos tokens, se queda con la diferencia.

Entonces, podemos preguntarnos dos cosas sobre cualquier tipo de trabajo. ¿Su corrección es privada y costosa de construir, esa verdad que solo existe dentro de los datos de alguien? ¿Está aislado, encerrado en sistemas a los que no puedes acceder? Contrasta esto con qué tan saturada está la tarea, y obtienes una matriz 2x2. El trabajo saturado con respuestas públicas es token commodity, los modelos de código abierto lo poseen. El trabajo de vanguardia con respuestas públicas, donde están los benchmarks de codificación, es donde ganan los laboratorios, porque cuando la evaluación es gratuita, poseerla no cuesta nada. El premio está en la última esquina, la que no se puede entrenar: trabajo de vanguardia cuya corrección solo existe en el ámbito privado. Puedes verlo en las nubes de inferencia que albergan pioneros nativos de IA, donde la gran mayoría de los tokens son generados por modelos personalizados, no por modelos genéricos de código abierto.

Las paredes para entrar en esa última esquina varían en altura. La base de código de juguete de un solo desarrollador es portable y estándar, por lo que el ascenso es corto. El sistema de producción de un banco no es ninguna de las dos cosas, no obtienes acceso root por ser un 2% más listo en SWE-Bench Verified.

La capacidad devora muchas cosas, pero los modelos mejores no convierten los hechos fundamentales privados en públicos. No poseen licencias, no firman responsabilidades, no poseen los documentos de la empresa, no pueden ser la parte demandada cuando la respuesta es incorrecta. La inteligencia no es el cuello de botella aquí. La licencia lo es, la responsabilidad también. Puedes imaginar un modelo mucho más inteligente que cualquier persona, que aún debe ser permitido entrar, que aún debe haber alguien que firme por lo que haga.

Esa puerta tiene una cerradura y un pestillo. La cerradura es el entorno: solo después de ser confiado dentro del sistema, después de revisiones de seguridad, integraciones, contratos donde firmas tus resultados, puedes verificar si la IA hizo algo útil. El pestillo es el usuario. La mayoría de los médicos en EE. UU. abren OpenEvidence todos los días ahora, ninguna cantidad de poder de cómputo puede comprar eso. Un laboratorio podría entrenar un modelo médico perfecto mañana, y aún no entraría en los hábitos del médico, o en el flujo de decisiones de UCSF, porque la confianza se construye lentamente, se basa en relaciones, requiere la aquiescencia del usuario, no borrar su gradiente descendente.

Esto también es trabajo. Una aplicación gana su lugar en la esquina no entrenable haciendo el trabajo invisible: organizar la realidad privada de la empresa para que el modelo pueda actuar sobre ella, darle al modelo herramientas para actuar, trabajar con clientes para cambiar la realidad de sus empleados. Una empresa que traduce es difícil de copiar, y la traducción nunca termina. La integración y el mantenimiento duran tanto como las relaciones, ganados por equipos que colocan ingenieros de dominio y herramientas junto al cliente.

Por ejemplo, en un bufete de abogados de élite, solo el negocio de fusiones y adquisiciones ejecuta casi mil transacciones al año. Por confidencialidad y muchas otras razones, no puedes dejar que cientos de asociados descarguen documentos de clientes en sus escritorios y pidan a un agente genérico que los examine, incluso si pudieras, lo que aprenderías serían fragmentos, una corrección por asociado a la vez, sin ver cómo fluye toda la transacción. La señal importante existe a nivel de transacción, y una transacción tiene una forma: para fusiones y adquisiciones es el NDA, la hoja de términos, la diligencia debida, el acuerdo de compra, documentos anexos, lista de cierre; para litigios de propiedad intelectual, mociones, descubrimiento, estado de la técnica, más mociones. Cada área de práctica tiene la suya, y tanto abogados como herramientas no son intercambiables entre áreas. Y el problema real que resuelve el bufete está un nivel por encima de todo esto: ejecutar cada área de práctica en paralelo, como un socio principal que ejecuta cientos de asuntos a la vez, mientras incorpora nuevos asuntos y entrena asociados. Transformar un bufete así no es una tarea única para la que puedas escribir una evaluación. Requiere un operador para hacerlo con análisis de datos, objetivos extremadamente vagos, retroalimentación incompleta, plazos largos, en un entorno que no se queda quieto.

Desafortunadamente, el valor invisible también es difícil de vender, por la misma razón que es difícil de mercantilizar: las empresas no pueden juzgar desde fuera si la IA transformará sus operaciones, tal como el benchmark no puede juzgar. Así que las empresas más fuertes dejan de intentar demostrarlo desde fuera y entran dentro, poniendo precio al resultado. Sierra cobra cuando su agente resuelve un problema del cliente, no cobra cuando lo pasa a un humano, por lo que el precio se convierte en evaluación, lo que solo funciona si Sierra posee la definición de "resuelto". Devin de Cognition hace lo mismo en software, ofreciendo una "garantía de rendimiento" que solo puedes dar por resultados en sistemas donde se confía en tu acceso.

Incluso los tokens de servicio, la capa que a todos les gusta llamar puro commodity, no funcionan como tal. Las mejores empresas nativas de IA concentran su servicio en uno o dos proveedores (Baseten o Fireworks) porque el costo por token se mercantiliza según el plan, mientras que la confiabilidad bajo tráfico real y el acceso garantizado a capacidad de cómputo escasa no lo hacen. Dónde sirves es una elección diferente a qué modelos usas. El precio es la única parte de la inferencia que funciona como un commodity.

Una objeción común es que los laboratorios son tus proveedores, ¿por qué no ejecutarían su propio producto de primera parte por debajo del costo para exprimirte, o revocar tu acceso a la API y tomar el mercado ellos mismos? Esta es la versión verdadera del argumento de la desesperación, y solo funciona si la capa de modelos es un juego de un solo jugador. Claramente no lo es; se parece más a una competencia mortal de tres jugadores y medio, con un grupo de jugadores internacionales seis meses atrás en entrenamiento, y una liga de desarrollo cinco veces más grande que el año pasado. Los clientes quieren competencia entre proveedores, los laboratorios prefieren cuota de mercado a que muera cualquier aplicación.

Puedes ver esto en los mercados donde los laboratorios compiten de frente. En el chat para consumidores, el mejor modelo nunca ganó simplemente. ChatGPT mantuvo el liderazgo durante años de competencia real, la cuota que pierde ahora va a Gemini, impulsado por Android y la búsqueda, no por un modelo mejor. Anthropic, calificada actualmente por los mercados de predicción (y el ambiente de Internet) como la empresa con el mejor modelo, apenas es un factor en el chat para consumidores, pero construyó su negocio en empresas y codificación. Si un modelo mejor no puede quitarle usuarios a un competidor en la aplicación más central, no lo hará a través de la integración en los registros de un hospital o la responsabilidad de un banco. La elección pública hoy no se basa solo en la codificación. Si la vanguardia sigue estando abarrotada, su capa superior será valiosa.

Si el trabajo no puede ser puntuado desde fuera, alguien interno debe decidir qué es incluso una buena respuesta, y esa decisión es todo el juego. Suficientes de estas decisiones, escritas, se convierten en un benchmark. Harvey publicó uno para derecho, Sierra para agentes de voz. Ganas el derecho a definir qué significa "bueno" para un área siendo el que esa área ya usa, y estas empresas ganaron ese derecho mediante la lucha de la adopción real.

Las evaluaciones que deciden el dinero real son privadas y varían según la empresa: esta empresa, en este tipo de asunto, aceptará qué como buen trabajo, está lejos de completarse porque la profundidad del derecho hace que cualquier prueba pública parezca insignificante. OpenEvidence está determinando qué es una respuesta clínica segura. Estas no son realmente mediciones, se trata de juicios sobre qué es verdadero y qué es bueno, escritos hasta que se convierten en el estándar contra el que todos los demás son medidos, y el laboratorio base, por muy inteligente que sea, no puede escribirlo, porque ese estatus solo existe dentro del campo. Esta autoridad tiende a caer donde ya está sentada. Los abogados senior escriben el benchmark legal. Definir la respuesta clínica segura cae en los médicos. Y "resuelto" significa lo que cualquier empresa que ya tiene clientes dice que significa.

La absorción de la vanguardia sigue aumentando porque seguimos aprendiendo a medir más trabajo, lo medible es devorado. El terreno no entrenable se reduce bajo los pies de cualquiera que esté sobre él, por lo que no puedes encontrar un punto defendible y descansar. Avanzas constantemente hacia cualquier cosa que aún no pueda ser puntuada, re-evalúas constantemente. En una tarea estrecha, con tus datos privados y tu propia evaluación, puedes entrenar hasta la vanguardia y superar al modelo genérico donde importa, ese modelo especializado se convierte en parte de la fosa. Por otro lado, competir en modelos genéricos es una guerra de capital, perderás contra quien tenga más poder de cómputo, esa es la trampa para empresas con acceso superficial y tareas visibles. Promete superar el entrenamiento de vanguardia en tareas genéricas por supervivencia, el día en que el ganador parece determinado más por la escala del centro de datos, el final generalmente no es un campeón independiente sino una venta al que tiene abundancia de cómputo.

Todo esto es defensa. Lo más difícil es la ofensiva, elegir qué construir primero. Esto es lo que busqué durante un año, y quizás lo encontré tres veces. Los modelos no ayudan aquí. Harán cualquier cosa a la que apuntes, pero no pueden decirte qué vale la pena apuntar, no puedes hacer un benchmark de eso, así que no puedes entrenarlo. Esta es también la razón por la que las empresas existentes no se lo llevan todo: mantienen el terreno que tienen, la siguiente cosa viene de quienes descubren usos antes que el resto de nosotros. Quizás la intención es un insumo más escaso que el poder de cómputo.

El argumento de la desesperación tiene la mitad de razón. Las capas de empaquetado delgadas están siendo absorbidas, mucho de lo que parece empresa hoy es empaquetado delgado. Se equivoca sobre lo que queda. El mecanismo es claro; el destino no lo es. Apostaría por la dirección: la inteligencia se abarata constantemente, el valor se desliza constantemente hacia los pocos lugares a los que el modelo no puede llegar. Lo no entrenable es el valor que tiene historia. Así que entra en uno, haz la traducción invisible, comienza a escribir qué significa "bueno" allí, porque alguien lo hará. La puntuación de benchmark más citada de este año es un mapa del territorio que pronto no valdrá nada, y un aviso sobre quién está a punto de perder el derecho a decir qué cuenta como bueno.

Preguntas relacionadas

Q¿Por qué los inversores en IA podrían sentir desesperación en 2026 según el artículo?

APorque creen que si los modelos se vuelven excelentes en todo, las empresas construidas sobre ellos serán solo capas delgadas, absorbidas por las grandes, y solo sobrevivirán la capacidad de cómputo y los pesos de vanguardia, dejando poco valor para invertir.

Q¿Qué lección errónea sacó mucha gente del progreso de los agentes de codificación como Devin?

ALa lección errónea fue que 'el modelo se comió la ingeniería de software', cuando en realidad los agentes mejoraron las partes medibles (como escribir código), pero la ingeniería involucra mucho trabajo no medible, como entender bases de código complejas y dinámicas organizativas.

Q¿Cuáles son las dos características que definen el trabajo valioso e inexpugnable para la IA según el autor?

A1. Su corrección es privada y costosa de construir (verdades que solo existen dentro de los datos de alguien). 2. Está aislado, encerrado en sistemas a los que no se puede acceder fácilmente.

Q¿Cómo ganan las empresas de IA nativas defensa y autoridad en un campo específico, según el artículo?

AGanan defensa integrando profundamente en los sistemas y flujos de trabajo de los clientes, realizando el 'trabajo invisible' de adaptación. Ganando autoridad al definir, desde dentro del campo y a través de la adopción real, qué constituye un buen resultado, creando así sus propios benchmarks.

Q¿Por qué el autor argumenta que la 'intención' podría ser un recurso más escaso que el poder de cómputo para crear la próxima gran cosa en IA?

APorque los modelos pueden hacer lo que se les indique, pero no pueden decidir qué vale la pena construir. Identificar nuevos usos valiosos requiere intuición y descubrimiento humano, algo que no se puede medir ni entrenar en un benchmark.

Lecturas Relacionadas

Tres años de máximos aplastan el sueño de recortes de tasas, ¿quién está aprovechando el IPC para limpiar las fichas de las ballenas?

**Resumen ejecutivo (Español de Europa):** La inflación de EE.UU. se disparó en mayo, alcanzando un máximo de tres años (4.2% anual), lo que desvaneció las esperanzas de rebajas de tasas de la Reserva Federal (Fed) en 2026. El repunte fue impulsado principalmente por un fuerte aumento en los precios de la energía (+3.9% mensual), vinculado a conflictos geopolíticos. El "CPI núcleo", que excluye alimentos y energía, se moderó (0.2% mensual), ofreciendo un contrapeso a los datos generales. Sin embargo, los mercados repreciaron agresivamente: ahora asignan un 72% de probabilidad a que la Fed no recorte tasas este año, y los rendimientos de los bonos subieron. En respuesta, los activos de riesgo cayeron. Bitcoin oscila peligrosamente alrededor de los $61,000-$62,000, presionado por las salidas netas de los ETF y un apetito por el riesgo debilitado. El mercado de cifrado está experimentando una fase de capitulación, con una reducción del apalancamiento pero sin una recuperación significativa en la demanda directa (spot). El consenso entre los analistas es que los datos refuerzan un escenario de "tasas altas durante más tiempo", pero aún no señalan un reinicio del ciclo de aumentos. La atención se centra en la próxima reunión de la Fed y en si el impacto energético se propagará a precios más amplios, definiendo el panorama de liquidez para los mercados de riesgo en los próximos meses.

Foresight NewsHace 1 hora(s)

Tres años de máximos aplastan el sueño de recortes de tasas, ¿quién está aprovechando el IPC para limpiar las fichas de las ballenas?

Foresight NewsHace 1 hora(s)

El imperio cripto de Trump: Un experimento de transferencia de riqueza de 23 mil millones de dólares

En junio de 2026, informes de Reuters expusieron el creciente imperio cripto de la familia Trump. Desde su regreso a la Casa Blanca, sus cuatro principales negocios -World Liberty Financial, la meme coin $TRUMP, American Bitcoin y ALT5 Sigma (renombrada AI Financial)- habrían generado unos 23.000 millones de dólares en ganancias para el clan, mientras los inversores acumularon pérdidas similares. Los proyectos, que abarcan finanzas descentralizadas, monedas estables y minería de Bitcoin, no se basan en innovación tecnológica, sino en capitalizar la enorme influencia y notoriedad del ex presidente para convertir su marca política en un activo financiero y venderla al mercado. Esta transformación es notable dada la anterior postura escéptica de Trump hacia las criptomonedas. Su giro durante la campaña de 2024, posicionándose como "presidente crypto", allanó el camino para esta red comercial. El núcleo del imperio es World Liberty Financial, una plataforma que, mediante la venta de tokens de gobernanza con liquidez restringida y una stablecoin (USD1), aportó unos 16.000 millones a las arcas familiares. La meme coin $TRUMP representó la monetización más directa de su imagen, generando más de 6.000 millones antes de desplomarse un 97%. American Bitcoin, una empresa minera, y AI Financial, una fintech, vieron sus valuaciones inflarse artificialmente por el "efecto Trump" antes de corregirse. El patrón común es claro: la familia Trump utilizó su marca para generar confianza y euforia en el mercado, atrayendo inversores a proyectos cuyos valores se inflaron rápidamente. Luego, monetizó su participación a través de ventas de tokens, acciones y regalías, mientras los inversores tardíos asumían el riesgo y las pérdidas cuando el entusiasmo inicial se desvanecía y los precios volvían a la realidad de sus fundamentos. Este caso de 23.000 millones de dólares sirve como una lección sobre los riesgos de invertir basándose en el fervor político y la influencia de celebridades en lugar de en modelos de negocio sostenibles.

marsbitHace 2 hora(s)

El imperio cripto de Trump: Un experimento de transferencia de riqueza de 23 mil millones de dólares

marsbitHace 2 hora(s)

Trading

Spot
Futuros
活动图片