¿La IA Agent produce basura? El problema es que no quieres gastar Tokens

marsbitPublicado a 2026-03-23Actualizado a 2026-03-23

Resumen

Resumen: La calidad de la salida de un agente de IA es proporcional a la cantidad de tokens que se invierten. Este artículo argumenta que, para tareas complejas, aumentar los tokens reduce errores, permitiendo revisión detallada, múltiples intentos y verificación. Sin embargo, los tokens no resuelven problemas novedosos que no están en los datos de entrenamiento. Se sugieren dos métodos simples: revisar el trabajo varias veces (WAIT) y verificar frecuentemente con tests (VERIFY). La experiencia en el dominio sigue siendo crucial para problemas innovadores.

Autor: Systematic Long Short

Compilado por: Deep Tide TechFlow

Guía de Deep Tide: El argumento central de este artículo es solo una frase: la calidad de la salida del Agente de IA es proporcional a la cantidad de Tokens que inviertes.

El autor no está hablando en términos generales teóricos, sino que ofrece dos métodos específicos que puedes comenzar a usar hoy, y delimita claramente el límite de lo que los Tokens no pueden lograr: el problema de la "novedad".

Para los lectores que están usando Agent para escribir código o ejecutar flujos de trabajo, la densidad de información y la practicidad son muy altas.

Introducción

Bueno, tienes que admitir que el título es bastante llamativo, pero en serio, no es una broma.

En 2023, cuando todavía estábamos usando LLM para ejecutar código de producción, la gente a nuestro alrededor se quedó boquiabierta, porque la percepción general en ese momento era que LLM solo podía producir basura inutilizable. Pero sabíamos algo que otros no se daban cuenta: la calidad de la salida del Agent es una función de la cantidad de Tokens que inviertes. Así de simple.

Puedes verlo ejecutando algunos experimentos tú mismo. Pídele a un Agent que complete una tarea de programación compleja y algo oscura, por ejemplo, implementar desde cero un algoritmo de optimización convexa con restricciones. Primero ejecútalo en el nivel de pensamiento más bajo; luego cámbialo al nivel más alto, pídele que revise su propio código y vea cuántos errores puede encontrar. Prueba el nivel medio y el alto. Verás intuitivamente: la cantidad de errores disminuye monótonamente a medida que aumenta la cantidad de Tokens invertidos.

No es difícil de entender, ¿verdad?

Más Tokens = Menos errores. Puedes llevar esta lógica un paso más allá, y esto es básicamente la idea central (simplificada) detrás de los productos de revisión de código. Cambia a un contexto completamente nuevo, invierte una gran cantidad de Tokens (por ejemplo, pídele que analice el código línea por línea, juzgando si cada línea tiene errores); así básicamente puedes detectar la gran mayoría, o incluso todos, los errores. Este proceso se puede repetir diez veces, cien veces, cada vez examinando el código desde un "ángulo diferente"; eventualmente podrás desenterrar todos los errores.

Este punto de vista de que "quemar más Tokens mejora la calidad del Agent" también tiene un apoyo empírico: los equipos que afirman poder usar Agent para escribir código de principio a fin y llevarlo directamente a producción, son要么 los propios proveedores de modelos base,要么 empresas extremadamente bien financiadas.

Entonces, si todavía estás luchando porque tu Agent no produce código de nivel de producción, seamos directos: el problema eres tú. O más bien, tu billetera.

Cómo saber si estoy gastando suficientes Tokens

Escribí un artículo completo diciendo que el problema definitivamente no está en tu marco de trabajo), "mantener la simplicidad" aún puede producir cosas excelentes, y sigo manteniendo ese punto de vista. Lo leíste, lo seguiste, pero aún estás muy decepcionado con la salida del Agent. Me enviaste un DM, viste que lo leí pero no respondí.

Este artículo es la respuesta.

El rendimiento deficiente de tu Agent, su incapacidad para resolver problemas, en la mayoría de los casos, se debe simplemente a que no estás gastando suficientes Tokens.

La cantidad de Tokens necesarios para resolver un problema depende completamente de la escala, complejidad y novedad de ese problema.

"¿Cuánto es 2+2?" No requiere muchos Tokens.

"Ayúdame a escribir un bot que pueda escanear todos los mercados entre Polymarket y Kalshi, encontrar mercados que sean semánticamente similares y que deberían liquidarse alrededor del mismo evento, establecer límites de no arbitraje, y operar automáticamente con baja latencia tan pronto como surja una oportunidad de arbitraje" — esto requiere quemar un montón de Tokens.

En la práctica, descubrimos algo interesante.

Si inviertes suficientes Tokens para abordar problemas causados por la escala y la complejidad, el Agent los resolverá sin importar qué. En otras palabras, si quieres construir algo extremadamente complejo, con muchos componentes y líneas de código, siempre y cuando arrojes suficientes Tokens a estos problemas, eventualmente se resolverán por completo.

Hay una pequeña pero importante excepción.

Tu problema no puede ser demasiado novedoso. En la etapa actual, ninguna cantidad de Tokens puede resolver el problema de la "novedad". Suficientes Tokens pueden reducir los errores causados por la complejidad a cero, pero no pueden hacer que el Agent invente algo que no sabe.

Esta conclusión en realidad nos alivió.

Invertimos un esfuerzo enorme, quemamos —muchos, muchos, muchísimos— Tokens, intentando ver si podíamos hacer que un Agent reconstruyera un proceso de inversión institucional con casi ninguna guía. En parte, esto fue para averiguar cuántos años nos quedan (como investigadores cuantitativos) antes de ser completamente reemplazados por la IA. Resulta que el Agent simplemente no puede acercarse a un proceso de inversión institucional decente. Creemos que esto se debe en parte a que nunca han visto algo así, es decir, el proceso de inversión institucional simplemente no existe en los datos de entrenamiento.

Por lo tanto, si tu problema es novedoso, no cuentes con resolverlo acumulando Tokens. Necesitas guiar el proceso de exploración tú mismo. Pero una vez que hayas determinado el plan de implementación, puedes confiar en acumular Tokens para ejecutarlo — no importa cuán grande sea la base de código o cuán complejos sean los componentes, no es un problema.

Aquí hay un principio heurístico simple: el presupuesto de Tokens debería crecer proporcionalmente al número de líneas de código.

Qué hacen exactamente los Tokens adicionales

En la práctica, los Tokens adicionales generalmente mejoran la calidad de la ingeniería del Agent de las siguientes maneras:

Permitirle dedicar más tiempo al razonamiento en el mismo intento, dándole la oportunidad de descubrir errores lógicos por sí mismo. Razonamiento más profundo = mejor planificación = mayor probabilidad de acertar a la primera.

Permitirle realizar múltiples intentos independientes, tomando diferentes caminos de solución. Algunos caminos son mejores que otros. Permitir más de un intento le permite elegir el óptimo.

De manera similar, más intentos de planificación independiente le permiten abandonar direcciones débiles y conservar las más prometedoras.

Más Tokens le permiten criticar su trabajo anterior con un contexto completamente nuevo, dándole la oportunidad de mejorar, en lugar de quedar atrapado en una "inercia de razonamiento".

Y, por supuesto, mi favorita: más Tokens significan que puede usar pruebas y herramientas para verificar. Ejecutar el código para ver si funciona es la forma más confiable de confirmar que la respuesta es correcta.

Esta lógica funciona porque los fracasos de ingeniería del Agent no son aleatorios. Casi siempre se deben a que eligió el camino equivocado demasiado pronto, no verificó si ese camino era realmente viable (al principio), o no tuvo suficiente presupuesto para recuperarse y retroceder después de descubrir el error.

Esa es la historia. Los Tokens son literalmente la calidad de decisión que compras. Piensa en ello como investigación: si le pides a una persona que responda una pregunta difícil en el acto, la calidad de la respuesta disminuirá a medida que aumente la presión del tiempo.

La investigación, en última instancia, es lo que genera el "saber la respuesta". Los humanos gastan tiempo biológico para producir mejores respuestas, los Agents gastan más tiempo de computación para producir mejores respuestas.

Cómo mejorar tu Agent

Puede que aún seas escéptico, pero hay muchos artículos que respaldan esto y, sinceramente, la existencia misma del "mando de regulación del razonamiento" es toda la prueba que necesitas.

Un artículo que me gusta especialmente, los investigadores entrenaron con un pequeño lote de muestras de razonamiento cuidadosamente seleccionadas, y luego forzaron al modelo a seguir pensando cuando quería detenerse usando un método — específicamente, agregando "Wait" (espera) donde quería parar. Solo esto, mejoró un punto de referencia del 50% al 57%.

Quiero ser lo más directo posible: si te has quejado de que el código escrito por el Agent es mediocre, es muy probable que el nivel de pensamiento más alto en un solo intento aún no sea suficiente para ti.

Te doy dos soluciones muy simples.

Práctica simple uno: WAIT (ESPERA)

Lo más simple que puedes comenzar a hacer hoy: configura un bucle automático — después de construir, haz que el Agent revise N veces con un contexto nuevo, reparando cada vez que encuentre un problema.

Si descubres que este simple truco mejora los efectos de tu ingeniería de Agent, entonces al menos entiendes que tu problema es solo una cuestión de cantidad de Tokens — únete al club de quemar Tokens.

Práctica simple dos: VERIFY (VERIFICAR)

Haz que el Agent verifique su propio trabajo temprano y con frecuencia. Escribe pruebas para demostrar que el camino elegido realmente funciona. Esto es especialmente útil para proyectos altamente complejos y profundamente anidados — una función puede ser llamada por muchas otras funciones aguas abajo. Poder detectar errores aguas arriba puede ahorrarte mucho tiempo de cálculo posterior (Tokens). Así que, si es posible, configura "puntos de control de verificación" en todo el proceso de construcción.

¿Después de escribir algo, el Agent principal dice que está listo? Que un segundo Agent lo verifique. Flujos de pensamiento no relacionados pueden cubrir fuentes de sesgo sistemático.

Eso es básicamente todo. Podría escribir mucho más sobre este tema, pero creo que solo darse cuenta de estas dos cosas y ejecutarlas bien puede ayudarte el 95% de los problemas. Creo firmemente en hacer las cosas simples extremadamente bien, y luego agregar complejidad según sea necesario.

Mencioné que la "novedad" es un problema que los Tokens no pueden resolver, y quiero enfatizarlo nuevamente, porque eventualmente te encontrarás con este obstáculo y vendrás a llorarme diciendo que acumular Tokens no funciona.

Cuando el problema que intentas resolver no está en el conjunto de entrenamiento, tú eres quien realmente necesita proporcionar la solución. Por lo tanto, la experiencia especializada en el dominio sigue siendo extremadamente importante.

Preguntas relacionadas

Q¿Cuál es la tesis principal del artículo sobre la calidad de la salida de los agentes de IA?

ALa calidad de la salida de un agente de IA es proporcional a la cantidad de tokens que se invierten en el proceso.

QSegún el autor, ¿qué tipo de problemas no pueden resolverse simplemente aumentando los tokens?

ALos problemas que son demasiado novedosos, es decir, aquellos que no existen en los datos de entrenamiento del modelo, no pueden resolverse con cualquier cantidad de tokens.

Q¿Qué dos métodos simples sugiere el autor para mejorar la salida de un agente de IA?

ALos dos métodos simples son: 1) WAIT (esperar): implementar un bucle automático para que el agente revise su trabajo con un contexto nuevo varias veces y corrija los errores. 2) VERIFY (verificar): hacer que el agente valide su trabajo temprana y frecuentemente, utilizando pruebas y permitiendo que un segundo agente verifique el resultado.

Q¿Cómo se relaciona la cantidad de tokens con la reducción de errores en un proyecto complejo?

AA mayor cantidad de tokens invertidos, menor es la cantidad de errores, ya que permiten un razonamiento más profundo, múltiples intentos independientes, la crítica desde contextos nuevos y el uso de pruebas y herramientas para validar el trabajo.

Q¿Por qué el autor menciona que la experiencia en el dominio sigue siendo crucial?

APorque cuando el problema a resolver es novedoso y no está presente en los datos de entrenamiento, es la expertise humana la que debe guiar el proceso y proporcionar la solución, ya que los tokens por sí solos no pueden inventar conocimiento completamente nuevo.

Lecturas Relacionadas

"Las acciones respaldadas 1:1 escalan mucho mejor", afirma Base ante la rivalidad con Robinhood

El cofundador de Base, Jesse Pollak, reconoció la ventaja de Robinhood Chain al ofrecer acciones tokenizadas en un entorno EVM, un área en la que Base se ha quedado atrás. Pollak admitió frustración por haber priorizado apuestas sociales sobre la tokenización, un error que también reconoció el CEO de Coinbase, Brian Armstrong. Para corregirlo, Base ahora se centra en trading, tokenización, pagos y agentes de IA. Pollak minimizó la amenaza de Robinhood Chain, afirmando que Base, junto a Coinbase, pronto lanzará acciones respaldadas 1:1 (frente a los derivados de Robinhood), lo que escalaría mejor en confianza, eficiencia de capital y aceptación institucional. A pesar de tener solo tres semanas, Robinhood Chain ya rivaliza con Base en métricas clave: usuarios activos semanales (~1 millón), volumen DEX e ingresos, desafiando su posición como tercera cadena de trading especulativo. Los analistas destacan la ventaja distributiva de Robinhood, con 27 millones de cuentas financiadas, lo que podría impulsar su acción HOOD y su posición a medida que el trading minorista se traslade a la cadena.

ambcryptoHace 30 min(s)

"Las acciones respaldadas 1:1 escalan mucho mejor", afirma Base ante la rivalidad con Robinhood

ambcryptoHace 30 min(s)

Predicción del precio de TON/GRAM – El lanzamiento de la billetera Gram de Telegram impulsa el token: ¿Puede continuar el repunte?

El fundador de Telegram, Pavel Durov, anunció el despliegue de una billetera nativa no custodial para Gram en todas las aplicaciones de Telegram, descrita como "el mayor lanzamiento de una billetera cripto no custodial en la historia". Esta cartera permitirá transacciones instantáneas y sin comisiones para los más de mil millones de usuarios de la plataforma. Tras el anuncio, el precio de TON/GRAM subió más de un 7%, cotizando alrededor de 1.53 dólares, aunque aún se mantiene muy por debajo de su máximo de mayo. El token se enfrenta a una resistencia inmediata en 1.60 dólares. El movimiento busca integrar pagos con criptomonedas directamente en la aplicación de mensajería, reduciendo la fricción para nuevos usuarios.

ambcryptoHace 55 min(s)

Predicción del precio de TON/GRAM – El lanzamiento de la billetera Gram de Telegram impulsa el token: ¿Puede continuar el repunte?

ambcryptoHace 55 min(s)

Cómo los 40.8 millones de ETH apostados podrían reforzar la ventaja de Ethereum sobre Bitcoin

Dos divergencias clave señalan que el rendimiento de Ethereum (ETH) frente a Bitcoin (BTC) podría estar comenzando a fortalecerse. Primero, se observa una acumulación significativa de ETH por parte de ballenas, quienes en lugar de mantener los fondos inactivos, los están apostando en su totalidad. Esto reduce la oferta líquida y refleja una convicción a largo plazo. Los datos de staking respaldan esta tendencia: la cola de entrada de validadores ha subido a 2.4 millones de ETH, mientras que el total apostado alcanza un récord de 40.8 millones, con un 33.5% del suministro total ahora bloqueado. En segundo lugar, el ecosistema DeFi de Ethereum añade otra capa de fortaleza. La actividad de ballenas en la red, medida a través de transacciones de WETH superiores a $100,000, ha alcanzado su nivel más alto desde mayo de 2021, y el TVL ha aumentado más de $5 mil millones en menos de diez días. Esto apunta a una mayor liquidez y actividad en la red. El impacto técnico ya es visible: el par ETH/BTC ha superado el nivel de resistencia de 0.025 y se acerca a la zona clave de 0.03, marcando su cierre semanal más fuerte en once semanas. La combinación de una oferta más ajustada por el staking y una creciente demanda en DeFi está creando las condiciones para una mayor outperformance de ETH frente a BTC.

ambcryptoHace 1 hora(s)

Cómo los 40.8 millones de ETH apostados podrían reforzar la ventaja de Ethereum sobre Bitcoin

ambcryptoHace 1 hora(s)

Punto de tormenta en los mercados globales: La desapalancamiento del mercado bursátil de Corea está prácticamente completado

Tras una fuerte caída del 32% desde junio, el mercado coreano ha sido el epicentro de la volatilidad global, amplificada por la estructura de apalancamiento concentrado. Sin embargo, el proceso de desapalancamiento forzoso está alcanzando su fase final. Las principales fuentes de inestabilidad, los ETF apalancados y los fondos de cobertura, han reducido significativamente su exposición. Se estima que los ETF apalancados han eliminado aproximadamente el 75% del exceso, pasando de 500 mil millones a 260 mil millones de USD, y su tamaño debería converger hacia niveles sostenibles, apoyado por nuevas regulaciones estrictas de las autoridades. Por su parte, los fondos de cobertura han reducido su apalancamiento en más del 50%. El riesgo sistémico de los préstamos al consumo para inversión es limitado, con un balance que representa solo el 0.5% de la capitalización bursátil, muy por debajo de los niveles de EE.UU. o China, y sin un mecanismo de reequilibrio diario que desencadene ventas en cascada. En resumen, las estructuras de alto apalancamiento que provocaron la espiral de ventas se han purgado en gran medida. El mercado está pasando de una caída impulsada por la liquidez a una valoración impulsada por los fundamentos. Si la tendencia subyacente de la IA permanece intacta, esta corrección representa más una limpieza de posiciones congestionadas que el fin del ciclo. La disrupción tecnológica sigue su curso, y la volatilidad actual puede ser el costo de participar en esta transición estructural, no un riesgo terminal para la tesis de inversión.

链捕手Hace 1 hora(s)

Punto de tormenta en los mercados globales: La desapalancamiento del mercado bursátil de Corea está prácticamente completado

链捕手Hace 1 hora(s)

El 92,9% de los tokens de criptomonedas lanzados desde 2024 cotizan por debajo del precio de su TGE: CryptoRank

Casi el 93 % de los tokens de criptomonedas lanzados desde 2024 se negocian por debajo del precio de su evento de generación de tokens (TGE), según datos de CryptoRank. El análisis de proyectos con capitalización de mercado superior a 100 millones de dólares revela que solo 8 de 113 (un 7,1 %) mantienen ganancias, mientras que 105 han caído, con una rentabilidad media del -95,7 %. Destacan casos excepcionales como Hyperliquid (HYPE), con una subida del 1.519 %, seguido de Ondo Finance (ONDO), EverValue Coin (EVA) y Midnight Network (NIGHT). Los datos reflejan un mercado más selectivo, donde los inversores priorizan adopción real, tokenomics sólidas y utilidad a largo plazo frente al impulso inicial. Esta tendencia podría influir en futuros lanzamientos, presionando a los proyectos para que eviten valoraciones diluidas altas, suministros circulantes limitados y desbloqueos masivos futuros, optando en cambio por modelos de distribución sostenibles y crecimiento del ecosistema.

ambcryptoHace 1 hora(s)

El 92,9% de los tokens de criptomonedas lanzados desde 2024 cotizan por debajo del precio de su TGE: CryptoRank

ambcryptoHace 1 hora(s)

Trading

Spot

¿La IA Agent produce basura? El problema es que no quieres gastar Tokens

Resumen

Introducción

Cómo saber si estoy gastando suficientes Tokens

Qué hacen exactamente los Tokens adicionales

Cómo mejorar tu Agent

Práctica simple uno: WAIT (ESPERA)

Práctica simple dos: VERIFY (VERIFICAR)

Preguntas relacionadas

Lecturas Relacionadas

"Las acciones respaldadas 1:1 escalan mucho mejor", afirma Base ante la rivalidad con Robinhood

Predicción del precio de TON/GRAM – El lanzamiento de la billetera Gram de Telegram impulsa el token: ¿Puede continuar el repunte?

Cómo los 40.8 millones de ETH apostados podrían reforzar la ventaja de Ethereum sobre Bitcoin

Punto de tormenta en los mercados globales: La desapalancamiento del mercado bursátil de Corea está prácticamente completado

El 92,9% de los tokens de criptomonedas lanzados desde 2024 cotizan por debajo del precio de su TGE: CryptoRank

Trading

Categorías populares

Etiquetas Populares