¿La IA Agent produce basura? El problema es que no quieres gastar Tokens

marsbitPublicado a 2026-03-23Actualizado a 2026-03-23

Resumen

Resumen: La calidad de la salida de un agente de IA es proporcional a la cantidad de tokens que se invierten. Este artículo argumenta que, para tareas complejas, aumentar los tokens reduce errores, permitiendo revisión detallada, múltiples intentos y verificación. Sin embargo, los tokens no resuelven problemas novedosos que no están en los datos de entrenamiento. Se sugieren dos métodos simples: revisar el trabajo varias veces (WAIT) y verificar frecuentemente con tests (VERIFY). La experiencia en el dominio sigue siendo crucial para problemas innovadores.

Autor: Systematic Long Short

Compilado por: Deep Tide TechFlow

Guía de Deep Tide: El argumento central de este artículo es solo una frase: la calidad de la salida del Agente de IA es proporcional a la cantidad de Tokens que inviertes.

El autor no está hablando en términos generales teóricos, sino que ofrece dos métodos específicos que puedes comenzar a usar hoy, y delimita claramente el límite de lo que los Tokens no pueden lograr: el problema de la "novedad".

Para los lectores que están usando Agent para escribir código o ejecutar flujos de trabajo, la densidad de información y la practicidad son muy altas.

Introducción

Bueno, tienes que admitir que el título es bastante llamativo, pero en serio, no es una broma.

En 2023, cuando todavía estábamos usando LLM para ejecutar código de producción, la gente a nuestro alrededor se quedó boquiabierta, porque la percepción general en ese momento era que LLM solo podía producir basura inutilizable. Pero sabíamos algo que otros no se daban cuenta: la calidad de la salida del Agent es una función de la cantidad de Tokens que inviertes. Así de simple.

Puedes verlo ejecutando algunos experimentos tú mismo. Pídele a un Agent que complete una tarea de programación compleja y algo oscura, por ejemplo, implementar desde cero un algoritmo de optimización convexa con restricciones. Primero ejecútalo en el nivel de pensamiento más bajo; luego cámbialo al nivel más alto, pídele que revise su propio código y vea cuántos errores puede encontrar. Prueba el nivel medio y el alto. Verás intuitivamente: la cantidad de errores disminuye monótonamente a medida que aumenta la cantidad de Tokens invertidos.

No es difícil de entender, ¿verdad?

Más Tokens = Menos errores. Puedes llevar esta lógica un paso más allá, y esto es básicamente la idea central (simplificada) detrás de los productos de revisión de código. Cambia a un contexto completamente nuevo, invierte una gran cantidad de Tokens (por ejemplo, pídele que analice el código línea por línea, juzgando si cada línea tiene errores); así básicamente puedes detectar la gran mayoría, o incluso todos, los errores. Este proceso se puede repetir diez veces, cien veces, cada vez examinando el código desde un "ángulo diferente"; eventualmente podrás desenterrar todos los errores.

Este punto de vista de que "quemar más Tokens mejora la calidad del Agent" también tiene un apoyo empírico: los equipos que afirman poder usar Agent para escribir código de principio a fin y llevarlo directamente a producción, son要么 los propios proveedores de modelos base,要么 empresas extremadamente bien financiadas.

Entonces, si todavía estás luchando porque tu Agent no produce código de nivel de producción, seamos directos: el problema eres tú. O más bien, tu billetera.

Cómo saber si estoy gastando suficientes Tokens

Escribí un artículo completo diciendo que el problema definitivamente no está en tu marco de trabajo), "mantener la simplicidad" aún puede producir cosas excelentes, y sigo manteniendo ese punto de vista. Lo leíste, lo seguiste, pero aún estás muy decepcionado con la salida del Agent. Me enviaste un DM, viste que lo leí pero no respondí.

Este artículo es la respuesta.

El rendimiento deficiente de tu Agent, su incapacidad para resolver problemas, en la mayoría de los casos, se debe simplemente a que no estás gastando suficientes Tokens.

La cantidad de Tokens necesarios para resolver un problema depende completamente de la escala, complejidad y novedad de ese problema.

"¿Cuánto es 2+2?" No requiere muchos Tokens.

"Ayúdame a escribir un bot que pueda escanear todos los mercados entre Polymarket y Kalshi, encontrar mercados que sean semánticamente similares y que deberían liquidarse alrededor del mismo evento, establecer límites de no arbitraje, y operar automáticamente con baja latencia tan pronto como surja una oportunidad de arbitraje" — esto requiere quemar un montón de Tokens.

En la práctica, descubrimos algo interesante.

Si inviertes suficientes Tokens para abordar problemas causados por la escala y la complejidad, el Agent los resolverá sin importar qué. En otras palabras, si quieres construir algo extremadamente complejo, con muchos componentes y líneas de código, siempre y cuando arrojes suficientes Tokens a estos problemas, eventualmente se resolverán por completo.

Hay una pequeña pero importante excepción.

Tu problema no puede ser demasiado novedoso. En la etapa actual, ninguna cantidad de Tokens puede resolver el problema de la "novedad". Suficientes Tokens pueden reducir los errores causados por la complejidad a cero, pero no pueden hacer que el Agent invente algo que no sabe.

Esta conclusión en realidad nos alivió.

Invertimos un esfuerzo enorme, quemamos —muchos, muchos, muchísimos— Tokens, intentando ver si podíamos hacer que un Agent reconstruyera un proceso de inversión institucional con casi ninguna guía. En parte, esto fue para averiguar cuántos años nos quedan (como investigadores cuantitativos) antes de ser completamente reemplazados por la IA. Resulta que el Agent simplemente no puede acercarse a un proceso de inversión institucional decente. Creemos que esto se debe en parte a que nunca han visto algo así, es decir, el proceso de inversión institucional simplemente no existe en los datos de entrenamiento.

Por lo tanto, si tu problema es novedoso, no cuentes con resolverlo acumulando Tokens. Necesitas guiar el proceso de exploración tú mismo. Pero una vez que hayas determinado el plan de implementación, puedes confiar en acumular Tokens para ejecutarlo — no importa cuán grande sea la base de código o cuán complejos sean los componentes, no es un problema.

Aquí hay un principio heurístico simple: el presupuesto de Tokens debería crecer proporcionalmente al número de líneas de código.

Qué hacen exactamente los Tokens adicionales

En la práctica, los Tokens adicionales generalmente mejoran la calidad de la ingeniería del Agent de las siguientes maneras:

Permitirle dedicar más tiempo al razonamiento en el mismo intento, dándole la oportunidad de descubrir errores lógicos por sí mismo. Razonamiento más profundo = mejor planificación = mayor probabilidad de acertar a la primera.

Permitirle realizar múltiples intentos independientes, tomando diferentes caminos de solución. Algunos caminos son mejores que otros. Permitir más de un intento le permite elegir el óptimo.

De manera similar, más intentos de planificación independiente le permiten abandonar direcciones débiles y conservar las más prometedoras.

Más Tokens le permiten criticar su trabajo anterior con un contexto completamente nuevo, dándole la oportunidad de mejorar, en lugar de quedar atrapado en una "inercia de razonamiento".

Y, por supuesto, mi favorita: más Tokens significan que puede usar pruebas y herramientas para verificar. Ejecutar el código para ver si funciona es la forma más confiable de confirmar que la respuesta es correcta.

Esta lógica funciona porque los fracasos de ingeniería del Agent no son aleatorios. Casi siempre se deben a que eligió el camino equivocado demasiado pronto, no verificó si ese camino era realmente viable (al principio), o no tuvo suficiente presupuesto para recuperarse y retroceder después de descubrir el error.

Esa es la historia. Los Tokens son literalmente la calidad de decisión que compras. Piensa en ello como investigación: si le pides a una persona que responda una pregunta difícil en el acto, la calidad de la respuesta disminuirá a medida que aumente la presión del tiempo.

La investigación, en última instancia, es lo que genera el "saber la respuesta". Los humanos gastan tiempo biológico para producir mejores respuestas, los Agents gastan más tiempo de computación para producir mejores respuestas.

Cómo mejorar tu Agent

Puede que aún seas escéptico, pero hay muchos artículos que respaldan esto y, sinceramente, la existencia misma del "mando de regulación del razonamiento" es toda la prueba que necesitas.

Un artículo que me gusta especialmente, los investigadores entrenaron con un pequeño lote de muestras de razonamiento cuidadosamente seleccionadas, y luego forzaron al modelo a seguir pensando cuando quería detenerse usando un método — específicamente, agregando "Wait" (espera) donde quería parar. Solo esto, mejoró un punto de referencia del 50% al 57%.

Quiero ser lo más directo posible: si te has quejado de que el código escrito por el Agent es mediocre, es muy probable que el nivel de pensamiento más alto en un solo intento aún no sea suficiente para ti.

Te doy dos soluciones muy simples.

Práctica simple uno: WAIT (ESPERA)

Lo más simple que puedes comenzar a hacer hoy: configura un bucle automático — después de construir, haz que el Agent revise N veces con un contexto nuevo, reparando cada vez que encuentre un problema.

Si descubres que este simple truco mejora los efectos de tu ingeniería de Agent, entonces al menos entiendes que tu problema es solo una cuestión de cantidad de Tokens — únete al club de quemar Tokens.

Práctica simple dos: VERIFY (VERIFICAR)

Haz que el Agent verifique su propio trabajo temprano y con frecuencia. Escribe pruebas para demostrar que el camino elegido realmente funciona. Esto es especialmente útil para proyectos altamente complejos y profundamente anidados — una función puede ser llamada por muchas otras funciones aguas abajo. Poder detectar errores aguas arriba puede ahorrarte mucho tiempo de cálculo posterior (Tokens). Así que, si es posible, configura "puntos de control de verificación" en todo el proceso de construcción.

¿Después de escribir algo, el Agent principal dice que está listo? Que un segundo Agent lo verifique. Flujos de pensamiento no relacionados pueden cubrir fuentes de sesgo sistemático.

Eso es básicamente todo. Podría escribir mucho más sobre este tema, pero creo que solo darse cuenta de estas dos cosas y ejecutarlas bien puede ayudarte el 95% de los problemas. Creo firmemente en hacer las cosas simples extremadamente bien, y luego agregar complejidad según sea necesario.

Mencioné que la "novedad" es un problema que los Tokens no pueden resolver, y quiero enfatizarlo nuevamente, porque eventualmente te encontrarás con este obstáculo y vendrás a llorarme diciendo que acumular Tokens no funciona.

Cuando el problema que intentas resolver no está en el conjunto de entrenamiento, tú eres quien realmente necesita proporcionar la solución. Por lo tanto, la experiencia especializada en el dominio sigue siendo extremadamente importante.

Preguntas relacionadas

Q¿Cuál es la tesis principal del artículo sobre la calidad de la salida de los agentes de IA?

ALa calidad de la salida de un agente de IA es proporcional a la cantidad de tokens que se invierten en el proceso.

QSegún el autor, ¿qué tipo de problemas no pueden resolverse simplemente aumentando los tokens?

ALos problemas que son demasiado novedosos, es decir, aquellos que no existen en los datos de entrenamiento del modelo, no pueden resolverse con cualquier cantidad de tokens.

Q¿Qué dos métodos simples sugiere el autor para mejorar la salida de un agente de IA?

ALos dos métodos simples son: 1) WAIT (esperar): implementar un bucle automático para que el agente revise su trabajo con un contexto nuevo varias veces y corrija los errores. 2) VERIFY (verificar): hacer que el agente valide su trabajo temprana y frecuentemente, utilizando pruebas y permitiendo que un segundo agente verifique el resultado.

Q¿Cómo se relaciona la cantidad de tokens con la reducción de errores en un proyecto complejo?

AA mayor cantidad de tokens invertidos, menor es la cantidad de errores, ya que permiten un razonamiento más profundo, múltiples intentos independientes, la crítica desde contextos nuevos y el uso de pruebas y herramientas para validar el trabajo.

Q¿Por qué el autor menciona que la experiencia en el dominio sigue siendo crucial?

APorque cuando el problema a resolver es novedoso y no está presente en los datos de entrenamiento, es la expertise humana la que debe guiar el proceso y proporcionar la solución, ya que los tokens por sí solos no pueden inventar conocimiento completamente nuevo.

Lecturas Relacionadas

Valor de la asignación del oro como "seguro financiero" en el contexto de la crisis de la deuda estadounidense y los altos rendimientos

En un contexto de crisis de deuda estadounidense y altos rendimientos de los bonos, el oro se posiciona como un "seguro financiero" de valor para la diversificación de carteras. El precio del oro alcanzó un máximo histórico de $5,589/oz en enero de 2026, con un aumento del 35% interanual y más del 230% desde 2020. Este crecimiento responde a fuerzas macroeconómicas clave: la trayectoria fiscal insostenible de EE. UU. (deuda de $39 billones), la erosión de la confianza en el dólar impulsada por la desdolarización y las compras récord de bancos centrales (863 toneladas en 2025), el riesgo geopolítico (conflictos en Medio Oriente) y un entorno de tasas de interés reales bajas o negativas que reduce el costo de oportunidad de mantener el metal. Para los inversores, las principales vías de exposición son los ETFs respaldados por oro físico (como GLD, IAU), la tenencia física a través de dealers, o los ETFs de mineras de oro (como GDX) que ofrecen un apalancamiento al precio. Se recomienda una asignación moderada del 5-10% en una cartera, entendiendo al oro como un activo de cobertura y preservación de valor, no como una inversión de crecimiento. Los riesgos incluyen un repunte fuerte del dólar, un aumento sostenido de las tasas reales o una desescalada geopolítica. Factores clave a seguir son la evolución de las tasas reales en EE. UU., las negociaciones sobre el Estrecho de Ormuz, el ritmo de compras de los bancos centrales y las señales de política monetaria de la nueva Fed. La lógica estructural para mantener una exposición al oro sigue siendo sólida.

marsbitHace 8 min(s)

Valor de la asignación del oro como "seguro financiero" en el contexto de la crisis de la deuda estadounidense y los altos rendimientos

marsbitHace 8 min(s)

Vulnerabilidad de "Impresión Ilimitada" permaneció latente cuatro años, la moneda de privacidad ZEC se desplomó en un día

"Vulnerabilidad de 'impresión ilimitada' permaneció latente durante cuatro años, la moneda de privacidad ZEC se desploma un 50% en un día. El 5 de junio, el fundador de Zcash, Zooko Wilcox, confirmó que Orchard, el nuevo grupo de privacidad implementado en 2022, tuvo una vulnerabilidad crítica de falsificación. Aunque el equipo afirma que está parcheada y con baja probabilidad de explotación, el pánico en el mercado provocó que el precio de ZEC cayera más del 50%. El investigador de seguridad Taylor Hornby descubrió y verificó en mayo que, debido a una restricción incompleta en el circuito de pruebas de conocimiento cero de Orchard, un atacante podría generar ZEC falsos ilimitados e indetectables dentro del grupo blindado. La gran controversia radica en si se crearon ZEC falsos en los últimos cuatro años y cómo demostrar lo contrario, algo extremadamente difícil dada la naturaleza privada de Orchard. Aunque la vulnerabilidad está reparada, la imposibilidad de cuantificar un posible uso pasado genera una crisis de confianza. La venta total de ZEC por parte de Arthur Hayes, un importante impulsor narrativo, exacerbó el pánico. La comunidad cuestiona la gravedad del fallo y cómo un error tan crítico pasó desapercibido durante años, incluso siendo encontrado posteriormente con ayuda de IA. La discusión ha pasado de una corrección de precio a una crisis de credibilidad sobre la seguridad y las promesas de privacidad de Zcash."

Odaily星球日报Hace 25 min(s)

Vulnerabilidad de "Impresión Ilimitada" permaneció latente cuatro años, la moneda de privacidad ZEC se desplomó en un día

Odaily星球日报Hace 25 min(s)

¿Ha «concluido la recuperación» de Bitcoin para entrar formalmente en la fase tardía del mercado bajista?

Bitcoin ha caído un 13% esta semana, confirmando características de una fase tardía de mercado bajista. El precio se sitúa ahora en la mitad del rango entre el precio realizado y la media del mercado real, con la base de coste de los poseedores a corto plazo cayendo por debajo de esta media por primera vez desde enero de 2022. El ratio de ganancias/pérdidas realizadas se desplomó, indicando que el repunte a 82k USD fue un rebote dentro de la tendencia bajista, no un cambio estructural. Las pérdidas diarias realizadas aumentaron a 1.350 millones de dólares, con 770 millones procedentes de holders a largo plazo vendiendo en pérdidas, acelerando la redistribución de la oferta. El precio encontró un fuerte rechazo en los 83k USD, el coste promedio de los ETF spot estadounidenses, lo que devolvió a sus inversores a una posición de pérdidas no realizadas y solidificó ese nivel como resistencia. La presión vendedora en el mercado spot se ha intensificado, con un delta de volumen negativo significativo, mientras que los mercados de opciones siguen cotizando una prima alta por la volatilidad y la protección a la baja. Aunque las liquidaciones de futuros han reducido el apalancamiento, la demanda spot sostenible aún no ha regresado para absorber la oferta. En conclusión, el mercado permanece frágil, con riesgos a la baja persistente hasta que mejore la demanda spot y los inversores en ETF recuperen la rentabilidad.

Foresight NewsHace 53 min(s)

¿Ha «concluido la recuperación» de Bitcoin para entrar formalmente en la fase tardía del mercado bajista?

Foresight NewsHace 53 min(s)

Trading

Spot
Futuros
活动图片