¿La IA Agent produce basura? El problema es que no quieres gastar Tokens

marsbitPublicado a 2026-03-23Actualizado a 2026-03-23

Resumen

Resumen: La calidad de la salida de un agente de IA es proporcional a la cantidad de tokens que se invierten. Este artículo argumenta que, para tareas complejas, aumentar los tokens reduce errores, permitiendo revisión detallada, múltiples intentos y verificación. Sin embargo, los tokens no resuelven problemas novedosos que no están en los datos de entrenamiento. Se sugieren dos métodos simples: revisar el trabajo varias veces (WAIT) y verificar frecuentemente con tests (VERIFY). La experiencia en el dominio sigue siendo crucial para problemas innovadores.

Autor: Systematic Long Short

Compilado por: Deep Tide TechFlow

Guía de Deep Tide: El argumento central de este artículo es solo una frase: la calidad de la salida del Agente de IA es proporcional a la cantidad de Tokens que inviertes.

El autor no está hablando en términos generales teóricos, sino que ofrece dos métodos específicos que puedes comenzar a usar hoy, y delimita claramente el límite de lo que los Tokens no pueden lograr: el problema de la "novedad".

Para los lectores que están usando Agent para escribir código o ejecutar flujos de trabajo, la densidad de información y la practicidad son muy altas.

Introducción

Bueno, tienes que admitir que el título es bastante llamativo, pero en serio, no es una broma.

En 2023, cuando todavía estábamos usando LLM para ejecutar código de producción, la gente a nuestro alrededor se quedó boquiabierta, porque la percepción general en ese momento era que LLM solo podía producir basura inutilizable. Pero sabíamos algo que otros no se daban cuenta: la calidad de la salida del Agent es una función de la cantidad de Tokens que inviertes. Así de simple.

Puedes verlo ejecutando algunos experimentos tú mismo. Pídele a un Agent que complete una tarea de programación compleja y algo oscura, por ejemplo, implementar desde cero un algoritmo de optimización convexa con restricciones. Primero ejecútalo en el nivel de pensamiento más bajo; luego cámbialo al nivel más alto, pídele que revise su propio código y vea cuántos errores puede encontrar. Prueba el nivel medio y el alto. Verás intuitivamente: la cantidad de errores disminuye monótonamente a medida que aumenta la cantidad de Tokens invertidos.

No es difícil de entender, ¿verdad?

Más Tokens = Menos errores. Puedes llevar esta lógica un paso más allá, y esto es básicamente la idea central (simplificada) detrás de los productos de revisión de código. Cambia a un contexto completamente nuevo, invierte una gran cantidad de Tokens (por ejemplo, pídele que analice el código línea por línea, juzgando si cada línea tiene errores); así básicamente puedes detectar la gran mayoría, o incluso todos, los errores. Este proceso se puede repetir diez veces, cien veces, cada vez examinando el código desde un "ángulo diferente"; eventualmente podrás desenterrar todos los errores.

Este punto de vista de que "quemar más Tokens mejora la calidad del Agent" también tiene un apoyo empírico: los equipos que afirman poder usar Agent para escribir código de principio a fin y llevarlo directamente a producción, son要么 los propios proveedores de modelos base,要么 empresas extremadamente bien financiadas.

Entonces, si todavía estás luchando porque tu Agent no produce código de nivel de producción, seamos directos: el problema eres tú. O más bien, tu billetera.

Cómo saber si estoy gastando suficientes Tokens

Escribí un artículo completo diciendo que el problema definitivamente no está en tu marco de trabajo), "mantener la simplicidad" aún puede producir cosas excelentes, y sigo manteniendo ese punto de vista. Lo leíste, lo seguiste, pero aún estás muy decepcionado con la salida del Agent. Me enviaste un DM, viste que lo leí pero no respondí.

Este artículo es la respuesta.

El rendimiento deficiente de tu Agent, su incapacidad para resolver problemas, en la mayoría de los casos, se debe simplemente a que no estás gastando suficientes Tokens.

La cantidad de Tokens necesarios para resolver un problema depende completamente de la escala, complejidad y novedad de ese problema.

"¿Cuánto es 2+2?" No requiere muchos Tokens.

"Ayúdame a escribir un bot que pueda escanear todos los mercados entre Polymarket y Kalshi, encontrar mercados que sean semánticamente similares y que deberían liquidarse alrededor del mismo evento, establecer límites de no arbitraje, y operar automáticamente con baja latencia tan pronto como surja una oportunidad de arbitraje" — esto requiere quemar un montón de Tokens.

En la práctica, descubrimos algo interesante.

Si inviertes suficientes Tokens para abordar problemas causados por la escala y la complejidad, el Agent los resolverá sin importar qué. En otras palabras, si quieres construir algo extremadamente complejo, con muchos componentes y líneas de código, siempre y cuando arrojes suficientes Tokens a estos problemas, eventualmente se resolverán por completo.

Hay una pequeña pero importante excepción.

Tu problema no puede ser demasiado novedoso. En la etapa actual, ninguna cantidad de Tokens puede resolver el problema de la "novedad". Suficientes Tokens pueden reducir los errores causados por la complejidad a cero, pero no pueden hacer que el Agent invente algo que no sabe.

Esta conclusión en realidad nos alivió.

Invertimos un esfuerzo enorme, quemamos —muchos, muchos, muchísimos— Tokens, intentando ver si podíamos hacer que un Agent reconstruyera un proceso de inversión institucional con casi ninguna guía. En parte, esto fue para averiguar cuántos años nos quedan (como investigadores cuantitativos) antes de ser completamente reemplazados por la IA. Resulta que el Agent simplemente no puede acercarse a un proceso de inversión institucional decente. Creemos que esto se debe en parte a que nunca han visto algo así, es decir, el proceso de inversión institucional simplemente no existe en los datos de entrenamiento.

Por lo tanto, si tu problema es novedoso, no cuentes con resolverlo acumulando Tokens. Necesitas guiar el proceso de exploración tú mismo. Pero una vez que hayas determinado el plan de implementación, puedes confiar en acumular Tokens para ejecutarlo — no importa cuán grande sea la base de código o cuán complejos sean los componentes, no es un problema.

Aquí hay un principio heurístico simple: el presupuesto de Tokens debería crecer proporcionalmente al número de líneas de código.

Qué hacen exactamente los Tokens adicionales

En la práctica, los Tokens adicionales generalmente mejoran la calidad de la ingeniería del Agent de las siguientes maneras:

Permitirle dedicar más tiempo al razonamiento en el mismo intento, dándole la oportunidad de descubrir errores lógicos por sí mismo. Razonamiento más profundo = mejor planificación = mayor probabilidad de acertar a la primera.

Permitirle realizar múltiples intentos independientes, tomando diferentes caminos de solución. Algunos caminos son mejores que otros. Permitir más de un intento le permite elegir el óptimo.

De manera similar, más intentos de planificación independiente le permiten abandonar direcciones débiles y conservar las más prometedoras.

Más Tokens le permiten criticar su trabajo anterior con un contexto completamente nuevo, dándole la oportunidad de mejorar, en lugar de quedar atrapado en una "inercia de razonamiento".

Y, por supuesto, mi favorita: más Tokens significan que puede usar pruebas y herramientas para verificar. Ejecutar el código para ver si funciona es la forma más confiable de confirmar que la respuesta es correcta.

Esta lógica funciona porque los fracasos de ingeniería del Agent no son aleatorios. Casi siempre se deben a que eligió el camino equivocado demasiado pronto, no verificó si ese camino era realmente viable (al principio), o no tuvo suficiente presupuesto para recuperarse y retroceder después de descubrir el error.

Esa es la historia. Los Tokens son literalmente la calidad de decisión que compras. Piensa en ello como investigación: si le pides a una persona que responda una pregunta difícil en el acto, la calidad de la respuesta disminuirá a medida que aumente la presión del tiempo.

La investigación, en última instancia, es lo que genera el "saber la respuesta". Los humanos gastan tiempo biológico para producir mejores respuestas, los Agents gastan más tiempo de computación para producir mejores respuestas.

Cómo mejorar tu Agent

Puede que aún seas escéptico, pero hay muchos artículos que respaldan esto y, sinceramente, la existencia misma del "mando de regulación del razonamiento" es toda la prueba que necesitas.

Un artículo que me gusta especialmente, los investigadores entrenaron con un pequeño lote de muestras de razonamiento cuidadosamente seleccionadas, y luego forzaron al modelo a seguir pensando cuando quería detenerse usando un método — específicamente, agregando "Wait" (espera) donde quería parar. Solo esto, mejoró un punto de referencia del 50% al 57%.

Quiero ser lo más directo posible: si te has quejado de que el código escrito por el Agent es mediocre, es muy probable que el nivel de pensamiento más alto en un solo intento aún no sea suficiente para ti.

Te doy dos soluciones muy simples.

Práctica simple uno: WAIT (ESPERA)

Lo más simple que puedes comenzar a hacer hoy: configura un bucle automático — después de construir, haz que el Agent revise N veces con un contexto nuevo, reparando cada vez que encuentre un problema.

Si descubres que este simple truco mejora los efectos de tu ingeniería de Agent, entonces al menos entiendes que tu problema es solo una cuestión de cantidad de Tokens — únete al club de quemar Tokens.

Práctica simple dos: VERIFY (VERIFICAR)

Haz que el Agent verifique su propio trabajo temprano y con frecuencia. Escribe pruebas para demostrar que el camino elegido realmente funciona. Esto es especialmente útil para proyectos altamente complejos y profundamente anidados — una función puede ser llamada por muchas otras funciones aguas abajo. Poder detectar errores aguas arriba puede ahorrarte mucho tiempo de cálculo posterior (Tokens). Así que, si es posible, configura "puntos de control de verificación" en todo el proceso de construcción.

¿Después de escribir algo, el Agent principal dice que está listo? Que un segundo Agent lo verifique. Flujos de pensamiento no relacionados pueden cubrir fuentes de sesgo sistemático.

Eso es básicamente todo. Podría escribir mucho más sobre este tema, pero creo que solo darse cuenta de estas dos cosas y ejecutarlas bien puede ayudarte el 95% de los problemas. Creo firmemente en hacer las cosas simples extremadamente bien, y luego agregar complejidad según sea necesario.

Mencioné que la "novedad" es un problema que los Tokens no pueden resolver, y quiero enfatizarlo nuevamente, porque eventualmente te encontrarás con este obstáculo y vendrás a llorarme diciendo que acumular Tokens no funciona.

Cuando el problema que intentas resolver no está en el conjunto de entrenamiento, tú eres quien realmente necesita proporcionar la solución. Por lo tanto, la experiencia especializada en el dominio sigue siendo extremadamente importante.

Preguntas relacionadas

Q¿Cuál es la tesis principal del artículo sobre la calidad de la salida de los agentes de IA?

ALa calidad de la salida de un agente de IA es proporcional a la cantidad de tokens que se invierten en el proceso.

QSegún el autor, ¿qué tipo de problemas no pueden resolverse simplemente aumentando los tokens?

ALos problemas que son demasiado novedosos, es decir, aquellos que no existen en los datos de entrenamiento del modelo, no pueden resolverse con cualquier cantidad de tokens.

Q¿Qué dos métodos simples sugiere el autor para mejorar la salida de un agente de IA?

ALos dos métodos simples son: 1) WAIT (esperar): implementar un bucle automático para que el agente revise su trabajo con un contexto nuevo varias veces y corrija los errores. 2) VERIFY (verificar): hacer que el agente valide su trabajo temprana y frecuentemente, utilizando pruebas y permitiendo que un segundo agente verifique el resultado.

Q¿Cómo se relaciona la cantidad de tokens con la reducción de errores en un proyecto complejo?

AA mayor cantidad de tokens invertidos, menor es la cantidad de errores, ya que permiten un razonamiento más profundo, múltiples intentos independientes, la crítica desde contextos nuevos y el uso de pruebas y herramientas para validar el trabajo.

Q¿Por qué el autor menciona que la experiencia en el dominio sigue siendo crucial?

APorque cuando el problema a resolver es novedoso y no está presente en los datos de entrenamiento, es la expertise humana la que debe guiar el proceso y proporcionar la solución, ya que los tokens por sí solos no pueden inventar conocimiento completamente nuevo.

Lecturas Relacionadas

Token no es económico, economía no es Token

La industria de la IA se encuentra en un punto de inflexión, transitando desde una narrativa centrada en la innovación tecnológica hacia un enfoque dominado por la eficiencia del capital. Dos tendencias clave definen este cambio: la escasez de financiación y la escisión de activos por parte de los grandes conglomerados. La competencia actual se ha transformado en una carrera de activos pesados por la potencia de cálculo (compute), con costos operativos que escalan junto con el uso, un modelo "anti-internet" donde más usuarios significan mayores pérdidas. Este problema se ve agravado por prácticas de "contabilidad circular", como los acuerdos de créditos en la nube entre empresas, que inflan los ingresos sin generar flujo de caja real. La desconexión entre las valoraciones y los flujos de efectivo plantea un desafío estructural para el modelo de negocio. Paralelamente, grandes empresas como Baidu, Alibaba, ByteDance y Kuaishou están escindiendo sus unidades de IA (por ejemplo, Kling/Kunlunxin). Estos activos, valorados mucho más alto una vez independientes, pasan de ser vistos como "centros de coste" dentro del grupo a "centros de valor" en el mercado. La lógica cambia: mientras que en los estados financieros consolidados se miden por su impacto en los beneficios, como empresas independientes se valoran por su potencial de crecimiento futuro, su escasez en el mercado y su capacidad para atraer inversión. La industria evoluciona desde la "adoración del modelo" hacia la "realización de valor". Aunque la inversión en infraestructura (con un gasto de capital previsto de 805.000 millones de dólares para 2026 en EE.UU.) es enorme, la comercialización a gran escala aún está en sus inicios. El foco se desplaza de la potencia bruta de la GPU a la eficiencia integral del sistema, donde la CPU y la orquestación determinan la rentabilidad. En 2026, la pregunta central que la industria debe responder es: ¿cuánto vale realmente esta tecnología? La respuesta definirá el panorama del poder en la IA para la próxima década.

marsbitHace 2 min(s)

Token no es económico, economía no es Token

marsbitHace 2 min(s)

Más allá del "Muro de la Memoria": La Revolución a Escala de Oblea y la Ruta de la Capacidad Computacional en la Era del Razonamiento de IA

En 2026, el gasto de capital de los grandes proveedores de nube en inferencia de IA superó por primera vez al de entrenamiento, marcando un punto de inflexión hacia el uso de modelos grandes. La inferencia enfrenta la "barrera de memoria", donde el movimiento de datos (pesos del modelo, activaciones, KV Cache) entre la DRAM externa y las GPU consume más energía y tiempo que el cálculo en sí. Empresas como Cerebras abordan esto con un enfoque radical: el Wafer-Scale Engine (WSE). En lugar de cortar una oblea en múltiples chips, usan casi toda la oblea como un solo chip gigante (ej. WSE-3). Esto proporciona 44 GB de SRAM en el chip y un ancho de banda de memoria interno masivo (21 PB/s), miles de veces mayor que el HBM de las GPU, reduciendo drásticamente la latencia para cargar pesos del modelo. En inferencia, esto permite una generación de tokens entre 1.5 y 5 veces más rápida que una GPU NVIDIA B200 en ciertos modelos, con una ventaja notable en el tiempo para el primer token (TTFT) y cargas de trabajo de agentes. Su arquitectura también reduce drásticamente el consumo energético de la interconexión. Sin embargo, este enfoque conlleva desafíos: la capacidad de SRAM ya no escala fácilmente con procesos más avanzados, presenta retos de refrigeración, un ecosistema de software propietario y un ancho de banda de E/S externo limitado (150 GB/s) que dificulta la expansión multi-chip. Mientras tanto, los grandes actores persiguen otras rutas: chips ASIC especializados (Google TPU, Microsoft Maia), tecnologías de empaquetado avanzado estandarizadas (como SoW de TSMC) que podrían democratizar el concepto de "wafer-scale", y la interconexión óptica como solución a largo plazo para la barrera de memoria. Cerebras también enfrenta el reto comercial de cumplir grandes pedidos, teniendo que construir centros de datos especializados para 2026-2028. En última instancia, la arquitectura de computación se trata de equilibrar ventajas: Cerebras optimiza para la latencia extrema en cargas específicas, mientras que NVIDIA prioriza la flexibilidad y el rendimiento agregado del clúster para cargas diversas. El camino hacia la AGI sigue abierto y la incertidumbre tecnológica y comercial es precisamente lo que impulsa la innovación.

marsbitHace 7 min(s)

Más allá del "Muro de la Memoria": La Revolución a Escala de Oblea y la Ruta de la Capacidad Computacional en la Era del Razonamiento de IA

marsbitHace 7 min(s)

¿Ha 'terminado la recuperación' de Bitcoin y entra oficialmente en la fase tardía del mercado bajista?

Bitcoin ha caído un 13% esta semana, situándose en una zona intermedia entre su precio realizado y su valor de mercado real. Por primera vez desde enero de 2022, el coste base de los poseedores a corto plazo ha caído por debajo de la media del mercado real, lo que confirma características de una fase avanzada del mercado bajista. El ratio de ganancias/pérdidas realizadas se desplomó a 0.29, mientras que su media a 90 días nunca superó el umbral de 2, confirmando que el rebote a 82k USD fue solo un repunte dentro de la tendencia bajista. Las pérdidas diarias realizadas aumentaron bruscamente a 1350 millones de dólares, con 770 millones procedentes de ventas de poseedores a largo plazo, indicando una aceleración en la redistribución de la oferta. El precio fue rechazado casi exactamente en el coste promedio (83k USD) de los ETF estadounidenses al contado, reforzando ese nivel como resistencia clave. El flujo del mercado spot se ha vuelto marcadamente negativo, mostrando que los vendedores dominan el libro de órdenes. Aunque se produjo una importante liquidación de posiciones largas (más de 400 millones de dólares), la demanda spot no ha regresado para absorber la oferta. El mercado de opciones sigue mostrando una prima de volatilidad alta y un sesgo hacia las opciones de venta (puts), lo que indica una demanda persistente de protección a la baja. En conclusión, la incapacidad de superar el coste de los ETF, la aceleración de las pérdidas realizadas, el dominio de la venta en el mercado spot y la falta de una fuerte demanda de compra sugieren que el mercado sigue siendo frágil y podría enfrentarse a más presión a la baja o a una consolidación prolongada dentro de la estructura bajista.

marsbitHace 8 min(s)

¿Ha 'terminado la recuperación' de Bitcoin y entra oficialmente en la fase tardía del mercado bajista?

marsbitHace 8 min(s)

TechFlow Intelligence Bureau: Anthropic aboga por una pausa global en el desarrollo de IA mientras se prepara para una OPI de billones de dólares; la presentación de SpaceX para la OPI es un éxito, pero el S&P 500 rechaza su rápida inclusión

Resumen de noticias tecnológicas: Anthropic ha pedido públicamente una pausa en el desarrollo global de IA, citando riesgos de "automejora recursiva" de su modelo Claude. Sin embargo, esto contrasta con sus preparativos para una OPV que podría valorarla en cerca de un billón de dólares. Paralelamente, usuarios reportan una caída significativa en la calidad de las respuestas de Claude. En cripto, Bitcoin cayó por debajo de los $61,000, liquidando más de $1,100 millones en posiciones largas. Mientras, en Filipinas, la billetera Coins.ph integró pagos con BTC y ETH. Nvidia certificó la memoria HBM4 de Samsung, SK Hynix y Micron, asegurando la cadena de suministro para sus próximos chips de IA. No obstante, algunos economistas advierten sobre una posible burbuja en el sector, comparando a Nvidia con Cisco en el 2000. SpaceX avanza con su muy anticipada OPV, con Goldman Sachs proyectando un crecimiento de ingresos impulsado por IA. Sin embargo, S&P 500 anunció que no modificará sus reglas para incluir rápidamente a la compañía en su índice principal tras la salida a bolsa. En otras noticias: Cloudflare adquirió a VoidZero, la empresa detrás de herramientas clave para desarrolladores web; Apple se prepara para lanzar su primer teléfono plegable; y la aplicación de IA "Doubao" de ByteDance perdió 6.1 millones de usuarios tras introducir suscripciones de pago. La línea subyacente de hoy apunta a una crisis de confianza: discrepancias entre las declaraciones y acciones de las empresas, junto con un escepticismo creciente hacia narrativas infladas, mientras las reglas del mercado (como las de S&P 500) se mantienen firmes.

marsbitHace 25 min(s)

TechFlow Intelligence Bureau: Anthropic aboga por una pausa global en el desarrollo de IA mientras se prepara para una OPI de billones de dólares; la presentación de SpaceX para la OPI es un éxito, pero el S&P 500 rechaza su rápida inclusión

marsbitHace 25 min(s)

Trading

Spot
Futuros
活动图片