La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.

marsbitPublicado a 2026-05-31Actualizado a 2026-05-31

Resumen

**Resumen: El descenso del 99% de Xiaomi MiMo: Una victoria de la ingeniería, no del marketing** El anuncio de Xiaomi de reducir hasta un 99% el precio de las API de su modelo MiMo-V2.5 generó escepticismo, interpretado como una guerra de precios o una maniobra desesperada. Luo Fuli, responsable de MiMo, respondió con un blog técnico detallado, demostrando que la rebaja es el resultado de seis optimizaciones de ingeniería sistemáticas, no una táctica de marketing. La clave es el descuento del 99% aplicado específicamente a la entrada de tipo "Cache Hit" (contexto histórico re-leído). Para lograrlo, el equipo implementó: 1. **Arquitectura Híbrida SWA:** 60 de las 70 capas del modelo solo atienden a los 128 tokens más recientes, reduciendo el volumen de la "memoria" del modelo (KVCache) a 1/7. 2. **Gestión de Memoria en Dos Piscinas:** Asigna memoria por separado para las capas con atención completa y las de ventana deslizante (SWA), liberando realmente la capacidad ahorrada y quintuplicando los usuarios concurrentes por GPU. 3. **Cache de Prefijos Mejorado:** Un nuevo sistema garantiza que solo se reutilicen fragmentos de contexto completos y válidos, logrando una tasa de acierto en caché del 93-95% para peticiones de usuarios frecuentes. 4. **Almacenamiento en SSD Integrado (GCache):** La caché distribuida se aloja en los discos SSD de las propias máquinas con GPU, eliminando costes adicionales de almacenamiento. 5. **Sistema de Enrutamiento Inteligente (LLM-Router):*...

Artículo | Xiang Xianzhi

Luo Fuli publicó un mensaje en X, para poner punto final a la controversia por la reducción de precios del Xiaomi MiMo.

El 26 de mayo, la cuenta oficial de Xiaomi MiMo en X publicó un anuncio: La serie MiMo-V2.5 reduce permanentemente el precio de sus APIs, con una reducción máxima del 99%. Todos los contextos de longitud tienen un precio fijo, y los paquetes de Tokens se actualizan de 5 a 8 veces.

Este anuncio inundó el círculo de IA en China durante toda una semana. La reacción inicial de la industria se dividió en varias facciones. La más grande dijo que se trataba de "otra ronda de guerra de precios": en los últimos dos años, desde Zhipu, DeepSeek, Byte's Doubao hasta Alibaba's Tongyi, los grandes modelos chinos se han estado reduciendo de precio, todos están en la carrera.

Otro grupo lo vio con pesimismo: Xiaomi acaba de anunciar que este año sus ganancias se reducirán a la mitad, y en este momento aún gasta 600 mil millones en IA y recorta las APIs un noventa por ciento: un típico caso de "capturar mercado perdiendo dinero". Otros creen que es el efecto DeepSeek que continúa: este último ha arrastrado el precio de referencia de toda la industria al suelo, quien no lo siga, queda fuera.

Por eso, como responsable de MiMo, Luo Fili publicó anoche directamente un blog técnico de 5000 palabras, haciendo públicos para todos los detalles técnicos y de costos de la reducción de precios.

"Miren, esto es capacidad de ingeniería real, no una estrategia de marketing".

Para entender lo que dice Luo Fuli, primero hay que comprender exactamente en qué consiste esa reducción del 99%.

No es una reducción del precio de todo el modelo. El descuento del 99% está dirigido específicamente a una categoría de precios llamada Input (Cache Hit): es decir, la parte en la que "el usuario vuelve a leer el contexto histórico en una conversación larga". La reducción para las nuevas entradas ordinarias (No Cache Hit) es mucho menor, y la reducción para la salida del modelo (Output) es la más pequeña.

Si imaginamos el modelo como una cafetería, es más fácil de entender.

Pides un café con leche semidesnatado. La cafetería tiene dos formas de hacerlo: cada vez muele granos, mide el jarabe, añade leche, pagando por ingredientes y mano de obra cada vez; pero el modelo sabe que esta semana quieres el mismo café con leche semidesnatado todos los días, así que prepara una gran jarra y la guarda en la nevera, para la próxima vez servir una taza. Lo que hace MiMo es esto último: convierte la parte que el usuario vuelve a leer de "calcular en el momento" a "recuperar del almacenamiento", por lo que el costo real de esta parte se acerca a 0, naturalmente puede ofrecer un descuento del 99%.

Para lograr "recuperar del almacenamiento", el blog técnico habla de seis trabajos de ingeniería, cada uno indispensable. Vamos a desglosarlos uno por uno.

Trabajo de ingeniería uno: Comprimir la "memoria" del modelo a 1/7

Cuando el modelo dialoga contigo, cada token necesita calcular un "estado intermedio" y almacenarlo para el siguiente paso. Esto se llama KVCache: se puede entender como el "cuaderno de notas de memoria a corto plazo" del modelo. Cada vez que se dice una frase, el modelo anota un resumen en el cuaderno, la próxima vez simplemente revisa las notas, sin necesidad de escuchar todo lo dicho desde el principio.

Los modelos tradicionales en cada capa realizan "Full Attention": es decir, cada token debe observar todos los tokens del diálogo completo, el cuaderno de notas se vuelve cada vez más grueso. MiMo-V2.5-Pro cambia la arquitectura: de las 70 capas, 60 solo observan los últimos 128 tokens (SWA, Sliding Window Attention), y solo 10 capas de "archivistas" observan todo.

El resultado es que el volumen de KVCache se comprime directamente a 1/7 del Full Attention, y la cantidad de cálculo también es 1/7.

Esta es la primera base para reducir costos. Pongamos un ejemplo: originalmente la empresa requería que cada empleado recordara todas las actas de las reuniones, resultado: el cerebro de cada uno no daba abasto y la eficiencia era baja. El nuevo reglamento reduce la carga mental de 60 empleados a 1/7, dejando solo 10 archivistas a cargo de toda la historia: la capacidad de memoria general de la empresa no disminuye, pero la eficiencia aumenta 7 veces.

Trabajo de ingeniería dos: Hacer que el espacio ahorrado por SWA realmente se pueda usar

El primer paso es comprimir el cuaderno a 1/7 a nivel de arquitectura, pero para convertir el "1/7 teórico" en el "1/7 real", hay un obstáculo más.

Los sistemas tradicionales de KVCache asignan memoria de video (VRAM) de manera uniforme a todas las capas según el "uso máximo posible". Esto significa: aunque las 60 capas de SWA solo necesitan un cuaderno pequeño, el sistema también asigna a todas las capas según el "cuaderno grande del archivista": el espacio ahorrado por SWA se reserva inútilmente, es como si no se hubiera ahorrado.

Lo que hace el equipo de Luo Fuli es dividir el KVCache en dos grupos independientes. Las 10 capas de Full Attention van al "grupo grande", asignado según la longitud completa; las 60 capas de SWA van al "grupo pequeño", asignado solo según la ventana de 128 tokens.

Pongamos un ejemplo: originalmente la empresa le daba a cada empleado un "archivador capaz de contener documentos de 100 años", pero 60 empleados en realidad solo necesitaban un "pequeño archivador para una semana de documentos", el 99% del espacio en esos grandes archivadores estaba vacío. El nuevo método es asignar archivadores según las necesidades reales. El resultado es que toda la oficina puede acomodar 5 veces más compañeros para trabajar: la misma GPU puede servir a 5 veces más usuarios concurrentes.

Este paso parece simple, pero sin él, la ventaja del diseño arquitectónico SWA anterior equivaldría a nada.

Trabajo de ingeniería tres: Hacer que la "relectura de usuarios antiguos" realmente pueda acertar en la caché

El cuaderno comprimido a 1/7 + el espacio realmente utilizable, el siguiente paso es resolver un viejo problema: la tasa de acierto del caché de prefijos.

Muchos diálogos de usuarios tienen el mismo inicio: el mismo system prompt, la misma base de código, el mismo documento largo. El sistema almacena estos resultados ya calculados, y la próxima vez que coincidan se reutilizan directamente. Este mecanismo se llama caché de prefijos.

Pero en el modo SWA aparece un problema: que dos solicitudes tengan los mismos tokens, no significa que el KV todavía esté ahí. Es posible que el prefijo se haya calculado, pero la parte fuera de la ventana SWA ya haya sido eliminada. Si el sistema sigue la antigua regla de "si los tokens son iguales, se acierta" para reutilizar, se leerán datos inválidos o sobrescritos, y el efecto del modelo colapsará directamente.

El equipo de Luo Fuli actualizó la regla a "longitud segura de ventana": solo garantiza "la parte que puedes obtener completa".

Pongamos un ejemplo: la biblioteca tiene 1 millón de libros, quieres pedir prestada la trilogía completa de "El problema de los tres cuerpos". La arquitectura original te diría "el libro está aquí", vas y descubres que en el estante solo queda la portada y el primer libro, los otros dos ya están prestados. Este "falso acierto" te hace ir en vano y además tienes que volver a pedir prestado. El nuevo sistema cambia la regla para solo garantizar la parte que puedes obtener completa: primero te da el primer libro, y luego te trae los otros dos.

Parece más estricto, la tasa de acierto debería bajar. Pero en realidad es al revés: porque SWA reduce el volumen de KVCache a 1/7, el mismo espacio de almacenamiento puede contener varios veces más contenido, la tasa de acierto real aumenta considerablemente.

En el blog, Luo Fuli da cifras de pruebas en línea reales: en el marco harness principal, la tasa de acierto de caché en el servidor es en promedio del 93%, y para usuarios de alta frecuencia y ciclo largo puede superar el 95%.

Traduciendo el significado de esta cifra: el 95% de las solicitudes de "relectura" no necesitan cálculo de GPU, se obtienen directamente de la caché. Esta es la base física del descuento del 99%.

Trabajo de ingeniería cuatro: Meter la "caché" en el SSD incorporado de la GPU

Subida la tasa de acierto, el siguiente problema es: dónde almacenar esta caché.

La memoria de video (memoria HBM en la GPU) es cara y limitada: una máquina con 8 tarjetas H100 tiene solo 640 GB de VRAM, pero el KVCache que MiMo necesita almacenar puede ser del orden de decenas de TB. Por lo tanto, debe ser jerárquico: lo usado recientemente se pone en VRAM (L1), lo un poco más antiguo en memoria RAM de la CPU (L2), y los datos fríos en caché distribuida (L3).

Es igual que administrar dinero. El efectivo en la cartera es la VRAM: se usa al momento pero no cabe mucho. El saldo de la tarjeta bancaria es la RAM de la CPU: tomar una vez tarda 30 segundos pero puede guardar mucho. El depósito a plazo fijo es la caché distribuida L3: tomar una vez tarda 2 minutos pero es mucho más barato.

La práctica común de la industria es construir un clúster de almacenamiento separado para L3, con máquinas dedicadas, centros de datos dedicados, pagando alquiler mensualmente.

El equipo de almacenamiento de Xiaomi hace algo diferente. Desarrollaron internamente un sistema de caché distribuida llamado GCache, desplegado directamente en los SSD incorporados en las máquinas con GPU: conviviendo en la misma máquina con las tareas de entrenamiento y de inferencia.

Traducción sencilla: otros alquilan un almacén especial para guardar grandes cantidades de datos; Xiaomi descubrió que el garaje de las máquinas con GPU en realidad está vacío, y guarda los datos directamente ahí. Se ahorra el alquiler mensual.

La cita literal del blog técnico es: "El costo de almacenamiento adicional es 0."

El impacto de esto es mayor de lo que parece. En la "cuenta de capacidad de cálculo" convencional de una empresa de IA, el costo de almacenamiento es un gasto fijo: cuanto más grande es tu modelo y más usuarios tienes, más larga es la factura de almacenamiento. El método GCache elimina directamente este ítem. Combinado con el pequeño volumen de SWA + tasa de acierto del 93-95%, el tiempo de vida (TTL) del KVCache en L3 se extiende de minutos a horas o incluso días: cuanto más largo sea el TTL, más amplia será la ventana de acierto posible para el contexto histórico, mayor será la tasa de acierto de la caché, y más sólido será el descuento del 99%.

Trabajo de ingeniería cinco: Hacer que las solicitudes que aciertan en la caché tomen el camino más corto

La caché se puede guardar, se puede consultar y es barata. El último paso es: cómo enrutar la solicitud correcta a la máquina correcta.

Xiaomi desarrolló su propio sistema de programación llamado LLM-Router, que hace tres cosas:

Primero, programación de afinidad. Las solicitudes con el mismo prefijo se enrutan a la misma máquina, maximizando la reutilización de la caché.

Segundo, agrupación por longitud. Divide las solicitudes cortas (0-64K), medianas (64K-256K) y largas (256K-1M) en diferentes canales de procesamiento, evitando que las solicitudes cortas se vean perjudicadas por las largas.

Tercero, optimización de TTFT. En la cola de espera para inferencia, prioriza la programación de solicitudes con poco cálculo real (es decir, aquellas que aciertan mucho en la caché): evitando que sean bloqueadas por solicitudes de "entrada completamente nueva" que requieren mucho cálculo.

Por ejemplo, en la programación habitual de un aeropuerto, todos los pasajeros con el mismo destino se concentran en la misma sala de espera, compartiendo el proceso de recogida de equipaje: esto es programación de afinidad. Los que llevan equipaje de mano y los que llevan 3 maletas grandes facturadas pasan por dos canales de seguridad diferentes, los rápidos no se ven retrasados por los lentos: esto es agrupación por longitud. Al embarcar, se prioriza a quienes solo llevan equipaje de mano, suben rápido, permitiendo que el avión despegue antes: esto es optimización de TTFT.

Esta estrategia de programación elevó en las pruebas reales la tasa de acierto de caché L2 en un 25%, aumentó el rendimiento de entrada por máquina en un 30% y redujo la latencia P90 de las solicitudes largas en un 30%.

Tradución: la misma GPU puede servir a más usuarios. La otra mitad de la lógica de la reducción de precios está aquí: la producción efectiva por unidad de capacidad de cálculo es mayor, el costo por usuario es menor.

Trabajo de ingeniería seis: Hacer que el modelo "escriba" también más rápido

Las cinco cosas anteriores optimizan el lado de "lectura": reducir el costo de que el usuario relea el contexto histórico a casi 0. La sexta cosa es optimizar el lado de "escritura": es decir, el proceso en que el modelo genera el siguiente token.

Los modelos tradicionales solo pueden generar 1 token a la vez. MiMo soporta de forma nativa 3 capas de MTP (Multi-Token Prediction): predice los siguientes 3 tokens de una vez, si la predicción intermedia es correcta, salta directamente el cálculo intermedio.

Pongamos un ejemplo: la escritura tradicional es escribir letra por letra: quieres escribir "hoy hace buen tiempo", debes presionar 4 teclas. MTP es como tener un autocompletado que adivina cuáles serán tus próximas 1-2 palabras: si acierta, no necesitas presionar esas dos teclas.

Las pruebas de MTP de MiMo en escenarios de agentes: los primeros 128 tokens de decodificación se aceleran 2.3 veces, los tokens 128-256 se aceleran 1.5 veces.

El significado de esto es que el descuento del 99% está dirigido específicamente a Input (Cache Hit), pero cuando el modelo realmente sirve a un usuario, input y output ocurren en la misma solicitud: si output no se ahorra, el costo total de la solicitud solo se ahorra a la mitad. MTP hace que la mitad de output también baje, y así el modelo de rentabilidad de toda la reducción de precios se cierra.

Uniendo las seis cosas en una cadena de reducción de costos:

Arquitectura SWA → KVCache 1/7 → doble grupo libera realmente capacidad → la misma GPU puede albergar 5+ veces concurrencia → tasa de acierto de caché de prefijos 93-95% → 95% de solicitudes casi sin cálculo → GCache hace que costo de almacenamiento sea cero → programación prioriza solicitudes que aciertan → MTP hace que generación también ahorre → tiempo de GPU por solicitud baja un orden de magnitud → costo unitario baja 95%+ → precio baja 99%, margen bruto aún positivo.

Falta cualquier eslabón y esta cadena se rompe en algún punto. La reducción del 99% no es un número de marketing, es el efecto acumulativo de seis pilares de ingeniería superpuestos + verificado en línea real.

Mirando atrás a las interpretaciones iniciales de la industria, cada una tiene parte de razón. La guerra de precios entre las empresas de grandes modelos chinos en estos dos años es real; que Xiaomi reduzca sus ganancias a la mitad y aún apueste por la IA es real; que DeepSeek arrastre los precios de referencia de la industria al suelo también es real.

Pero Luo Fili esta vez hizo público el blog técnico y desglosó detalladamente los detalles técnicos, sin duda esperando responder a las afirmaciones sobre la guerra de precios, para que "los problemas técnicos vuelvan a la técnica, los problemas de marketing vuelvan al marketing".

Escribe en su blog que la eficiencia de inferencia de la serie de modelos MiMo-V2.5 no proviene de un único avance en un eslabón, sino del resultado de una optimización coordinada multidimensional. Hybrid SWA beneficia simultáneamente a prefill y decode, pero una implementación de KVCache no suficientemente optimizada, por el contrario, aumentaría los costos en cada eslabón. En torno a este objetivo, el equipo de MiMo reconstruyó sistemáticamente la gestión de KVCache, la caché jerárquica, el árbol de caché de prefijos, resolvió el problema central de SWA KVCache, optimizó las estrategias de programación y la cadena de Prefill/Decode, y tras ser probado en escenarios reales en línea, finalmente convirtió su ventaja de eficiencia teórica en ventaja real en el entorno de producción. Solo así Hybrid SWA pudo desplegar su ventaja arquitectónica combinando fuerza y eficiencia en el razonamiento de textos largos. Combinado con la configuración MoE y diversas optimizaciones de razonamiento multimodal, mejoró enormemente el rendimiento del servicio de inferencia en línea.

Este es un enfoque sistemático de ingeniería de IA, y también un medio de reducción de costos que vale la pena que la industria considere y tome como referencia.

La guerra de precios no necesita escribir blogs, el cumplimiento de la ingeniería sí.

Preguntas relacionadas

Q¿En qué consiste principalmente la reducción de precios del 99% anunciada por MiMo?

ALa reducción del 99% se aplica específicamente a la tarificación de 'Input (Cache Hit)', es decir, la parte en la que los usuarios releen el historial de contexto en conversaciones largas. No es una reducción en todo el modelo. Los tokens de nueva entrada (No Cache Hit) y la salida del modelo (Output) tienen descuentos menores.

Q¿Qué es el SWA y cómo contribuye a la reducción de costos?

ASWA (Sliding Window Attention) es una arquitectura donde, en el modelo MiMo-V2.5-Pro, 60 de sus 70 capas solo procesan los últimos 128 tokens de la conversación, en lugar de toda la historia. Esto reduce el volumen de la 'memoria a corto plazo' del modelo (KVCache) a 1/7, disminuyendo significativamente la carga computacional y de memoria, lo que permite mayor concurrencia de usuarios por GPU.

Q¿Qué solución tecnológica implementó el equipo de Xiaomi para almacenar de manera eficiente y económica los cachés distribuidos (L3)?

AEl equipo de almacenamiento de Xiaomi desarrolló un sistema de caché distribuido llamado GCache, que despliega los datos directamente en las unidades SSD que ya están incorporadas en las máquinas con GPU, eliminando la necesidad de un clúster de almacenamiento dedicado. Esto reduce los costos de almacenamiento adicionales a prácticamente cero.

Q¿Qué función cumple el sistema de programación LLM-Router en la optimización del rendimiento?

AEl sistema LLM-Router realiza tres funciones clave: 1) Programación por afinidad, que enruta solicitudes con prefijos similares a la misma máquina para maximizar la reutilización de la caché. 2) Segmentación por longitud, separando solicitudes cortas, medianas y largas en diferentes canales. 3) Optimización del TTFT (Time to First Token), priorizando las solicitudes con caché para una respuesta más rápida.

QSegún el artículo, ¿por qué Luo Fuli publicó un blog técnico detallado sobre la reducción de precios?

ALuo Fuli publicó un blog técnico detallado para demostrar que la reducción del 99% en los precios de la API de MiMo es el resultado de avances de ingeniería sistémica y verificados en producción, no una mera táctica de marketing o una guerra de precios insostenible. Su objetivo era separar la discusión técnica de las narrativas comerciales.

Lecturas Relacionadas

¿Por qué más agentes de IA no equivalen a mayor productividad?

**Resumen: Por qué más agentes de IA no equivalen a mayor productividad** Cuando los agentes de IA se vuelven más baratos y fáciles de ejecutar, el desarrollo de software enfrenta un nuevo desafío: el cuello de botella ya no es lanzar más agentes, sino la capacidad humana de gestionar, evaluar e integrar sus resultados. Este artículo introduce el concepto de "impuesto de orquestación". Iniciar un agente es barato (un prompt o un clic), pero cerrar el ciclo es costoso: verificar resultados, entender su impacto arquitectónico, resolver conflictos entre agentes y decidir qué código integrar. Este trabajo no se puede paralelizar; depende de un recurso en serie: el juicio humano. El desarrollador es el "GIL" (Cerradura Global del Intérprete) del sistema de agentes: el candido de un solo hilo que limita el rendimiento final. Múltiples agentes pueden ejecutarse concurrentemente, pero las fases de juicio arquitectónico, revisión de código y fusión de cambios deben pasar por la mente del desarrollador. Más agentes no siempre significan más producción; pueden solo alargar la cola de tareas pendientes de revisión, llevando a cambios de contexto más frecuentes y fatiga cognitiva. La sensación de eficiencia no equivale a productividad real. Un panel lleno de agentes en ejecución crea una ilusión de "alta producción", pero si el desarrollador no comprende, revisa e integra esos cambios, el sistema puede acumular deuda técnica y cognitiva. La discusión clave no es "cómo usar más agentes", sino "cómo rediseñar el flujo de trabajo en torno a la atención humana". La habilidad crucial es saber qué tareas delegar a la máquina para procesamiento en paralelo y cuáles reservar para el juicio humano, cuándo revisar por lotes y cuándo detener la orquestación para concentrarse en un problema central. La IA amplía la capacidad de concurrencia en la producción de software, pero la atención humana sigue siendo el recurso más escaso e irreplicable. Un flujo de trabajo maduro con agentes no consiste en asignar todas las tareas a la máquina, sino en diseñar cuidadosamente la arquitectura de la propia atención, como se haría con cualquier sistema de producción. La verdadera habilidad es diseñar el sistema respetando ese recurso en serie que no se puede clonar: tu atención.

marsbitHace 1 hora(s)

¿Por qué más agentes de IA no equivalen a mayor productividad?

marsbitHace 1 hora(s)

Tres años después: Una revisión de mis predicciones sobre ChatGPT en 2023

Tres años después: Revisando mis predicciones sobre ChatGPT en 2023 En marzo de 2023, tras el lanzamiento de ChatGPT, Wang Jianshuo hizo 20 predicciones intuitivas sobre la IA. Ahora, en mayo de 2026, un sistema con 41 agentes de IA las ha reevaluado con datos actuales. **Resultados clave:** * **Aciertos (dirección general):** La arquitectura RAG se convirtió en estándar para integrar conocimiento. La Interfaz de Usuario de Lenguaje (LUI) creó una nueva capa de interacción (ej. protocolo MCP). Surgieron redes de agentes autónomos que se comunican. China desarrolló modelos grandes útiles (ej. DeepSeek), cerrando la brecha técnica. Los LLM no tienen conciencia; el Test de Turing solo mide la apariencia. * **Errores/Matices:** La predicción de que GPT-4 tendría 100 billones de parámetros fue incorrecta (≈1.8B). Los LLM **sí** pueden hacer matemáticas complejas sin herramientas externas (ej. medallas IMO 2025). El valor no migró solo a la capa de aplicación; NVIDIA (capa de hardware) capturó gran parte. El contenido generado por IA no evade automáticamente los derechos de autor (multas multimillonarias). La IA personalizada crea, no reduce, "cámaras de eco". Los costes de entrenamiento de modelos líderes superaron con creces la estimación de 5-10 mil millones de dólares. **Lecciones aprendidas:** 1. Predecir **mecanismos y direcciones** es más fiable que dar cifras o declaraciones absolutas. 2. Se tiende a **sobreestimar la velocidad** de cambio a corto plazo y **subestimar su magnitud** a largo plazo. 3. Los promedios generales (ej. "no habrá desempleo masivo") pueden ocultar **impactos distributivos** severos (ej. en jóvenes). 4. Las afirmaciones con **matices y limitaciones** envejecen mejor. 5. Tres años no son suficientes para resolver debates fundamentales (ej. valor final, consciencia de la IA). Este ejercicio subraya la dificultad de hacer predicciones precisas en un campo en rápida evolución y la importancia de la humildad al proyectar el futuro.

marsbitHace 7 hora(s)

Tres años después: Una revisión de mis predicciones sobre ChatGPT en 2023

marsbitHace 7 hora(s)

Tres años después: Volviendo a mis juicios sobre ChatGPT en 2023

En marzo de 2023, Wang Jianshuo hizo veinte predicciones sobre ChatGPT. Tres años después, en 2026, un análisis con múltiples agentes de IA evalúa su precisión. Aciertos clave: predijo correctamente el auge de RAG como arquitectura estándar para conocimiento y reducir alucinaciones, la LUI (interfaz de lenguaje natural) como nueva capa de interacción (aunque no reemplaza a la GUI), y la aparición de redes de agentes autónomos con nuevos protocolos de direccionamiento. También acertó en que China desarrollaría modelos de IA útiles (como DeepSeek) cerrando rápidamente la brecha, y en que ChatGPT carece de consciencia real, pasando el test de Turing por mera apariencia. Otras predicciones válidas fueron que no causaría desempleo masivo (aunque afectó a jóvenes), que 2023 sería un gran año para startups de IA, y que el momento fue similar al del navegador web en 1994. Errores notables: su estimación de que GPT-4 tendría 100 billones de parámetros fue incorrecta (tuvo ~1.8 billones). Se equivocó al declarar que era "imposible" que los LLM hicieran matemáticas complejas sin herramientas, ya que luego ganaron medallas en la Olimpiada Internacional de Matemáticas. También erró al sugerir que el valor se capturaría en la capa de aplicación y no en la base, subestimando el dominio de NVIDIA (capa de hardware), y al pensar que el contenido generado por IA "evitaría" problemas de copyright, cuando han surgido multas históricas. Además, la idea de que los LLM promoverían un "consenso mundial" al promediar opiniones se volvió incorrecta, ya que ahora priorizan la personalización y pueden crear nuevas cámaras de eco. Conclusiones: Sus predicciones sobre mecanismos y direcciones fueron mayormente acertadas, pero falló en números específicos (costes, parámetros) y en subestimar la complejidad de la distribución del impacto (ej. quién gana o pierde con la IA). Tendió a ser demasiado optimista a corto plazo pero conservador sobre los límites a largo plazo. El ejercicio subraya la importancia de predecir tendencias en lugar de cifras exactas y de dejar margen para la incertidumbre.

链捕手Hace 10 hora(s)

Tres años después: Volviendo a mis juicios sobre ChatGPT en 2023

链捕手Hace 10 hora(s)

Trading

Spot
Futuros
活动图片