La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.
**Resumen: El descenso del 99% de Xiaomi MiMo: Una victoria de la ingeniería, no del marketing**
El anuncio de Xiaomi de reducir hasta un 99% el precio de las API de su modelo MiMo-V2.5 generó escepticismo, interpretado como una guerra de precios o una maniobra desesperada. Luo Fuli, responsable de MiMo, respondió con un blog técnico detallado, demostrando que la rebaja es el resultado de seis optimizaciones de ingeniería sistemáticas, no una táctica de marketing.
La clave es el descuento del 99% aplicado específicamente a la entrada de tipo "Cache Hit" (contexto histórico re-leído). Para lograrlo, el equipo implementó:
1. **Arquitectura Híbrida SWA:** 60 de las 70 capas del modelo solo atienden a los 128 tokens más recientes, reduciendo el volumen de la "memoria" del modelo (KVCache) a 1/7.
2. **Gestión de Memoria en Dos Piscinas:** Asigna memoria por separado para las capas con atención completa y las de ventana deslizante (SWA), liberando realmente la capacidad ahorrada y quintuplicando los usuarios concurrentes por GPU.
3. **Cache de Prefijos Mejorado:** Un nuevo sistema garantiza que solo se reutilicen fragmentos de contexto completos y válidos, logrando una tasa de acierto en caché del 93-95% para peticiones de usuarios frecuentes.
4. **Almacenamiento en SSD Integrado (GCache):** La caché distribuida se aloja en los discos SSD de las propias máquinas con GPU, eliminando costes adicionales de almacenamiento.
5. **Sistema de Enrutamiento Inteligente (LLM-Router):** Dirige peticiones similares a la misma máquina y prioriza las que aciertan en caché, mejorando el rendimiento y la latencia.
6. **Predicción Multi-Token (MTP):** Acelera la generación de respuestas del modelo prediciendo varios tokens a la vez, reduciendo también el coste de la parte de "salida".
En conjunto, estas innovaciones redujeron el tiempo de GPU por petición en más de un orden de magnitud, haciendo posible el descuento del 99% manteniendo márgenes positivos. Luo Fuli subraya que este es un logro de ingeniería sistémica, un modelo de reducción de costes verificable que trasciende la mera competencia por precios.
marsbit05/31 10:41