La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.

marsbitPublicado a 2026-05-31Actualizado a 2026-05-31

Resumen

**Resumen: El descenso del 99% de Xiaomi MiMo: Una victoria de la ingeniería, no del marketing** El anuncio de Xiaomi de reducir hasta un 99% el precio de las API de su modelo MiMo-V2.5 generó escepticismo, interpretado como una guerra de precios o una maniobra desesperada. Luo Fuli, responsable de MiMo, respondió con un blog técnico detallado, demostrando que la rebaja es el resultado de seis optimizaciones de ingeniería sistemáticas, no una táctica de marketing. La clave es el descuento del 99% aplicado específicamente a la entrada de tipo "Cache Hit" (contexto histórico re-leído). Para lograrlo, el equipo implementó: 1. **Arquitectura Híbrida SWA:** 60 de las 70 capas del modelo solo atienden a los 128 tokens más recientes, reduciendo el volumen de la "memoria" del modelo (KVCache) a 1/7. 2. **Gestión de Memoria en Dos Piscinas:** Asigna memoria por separado para las capas con atención completa y las de ventana deslizante (SWA), liberando realmente la capacidad ahorrada y quintuplicando los usuarios concurrentes por GPU. 3. **Cache de Prefijos Mejorado:** Un nuevo sistema garantiza que solo se reutilicen fragmentos de contexto completos y válidos, logrando una tasa de acierto en caché del 93-95% para peticiones de usuarios frecuentes. 4. **Almacenamiento en SSD Integrado (GCache):** La caché distribuida se aloja en los discos SSD de las propias máquinas con GPU, eliminando costes adicionales de almacenamiento. 5. **Sistema de Enrutamiento Inteligente (LLM-Router):*...

Artículo | Xiang Xianzhi

Luo Fuli publicó un mensaje en X, para poner punto final a la controversia por la reducción de precios del Xiaomi MiMo.

El 26 de mayo, la cuenta oficial de Xiaomi MiMo en X publicó un anuncio: La serie MiMo-V2.5 reduce permanentemente el precio de sus APIs, con una reducción máxima del 99%. Todos los contextos de longitud tienen un precio fijo, y los paquetes de Tokens se actualizan de 5 a 8 veces.

Este anuncio inundó el círculo de IA en China durante toda una semana. La reacción inicial de la industria se dividió en varias facciones. La más grande dijo que se trataba de "otra ronda de guerra de precios": en los últimos dos años, desde Zhipu, DeepSeek, Byte's Doubao hasta Alibaba's Tongyi, los grandes modelos chinos se han estado reduciendo de precio, todos están en la carrera.

Otro grupo lo vio con pesimismo: Xiaomi acaba de anunciar que este año sus ganancias se reducirán a la mitad, y en este momento aún gasta 600 mil millones en IA y recorta las APIs un noventa por ciento: un típico caso de "capturar mercado perdiendo dinero". Otros creen que es el efecto DeepSeek que continúa: este último ha arrastrado el precio de referencia de toda la industria al suelo, quien no lo siga, queda fuera.

Por eso, como responsable de MiMo, Luo Fili publicó anoche directamente un blog técnico de 5000 palabras, haciendo públicos para todos los detalles técnicos y de costos de la reducción de precios.

"Miren, esto es capacidad de ingeniería real, no una estrategia de marketing".

Para entender lo que dice Luo Fuli, primero hay que comprender exactamente en qué consiste esa reducción del 99%.

No es una reducción del precio de todo el modelo. El descuento del 99% está dirigido específicamente a una categoría de precios llamada Input (Cache Hit): es decir, la parte en la que "el usuario vuelve a leer el contexto histórico en una conversación larga". La reducción para las nuevas entradas ordinarias (No Cache Hit) es mucho menor, y la reducción para la salida del modelo (Output) es la más pequeña.

Si imaginamos el modelo como una cafetería, es más fácil de entender.

Pides un café con leche semidesnatado. La cafetería tiene dos formas de hacerlo: cada vez muele granos, mide el jarabe, añade leche, pagando por ingredientes y mano de obra cada vez; pero el modelo sabe que esta semana quieres el mismo café con leche semidesnatado todos los días, así que prepara una gran jarra y la guarda en la nevera, para la próxima vez servir una taza. Lo que hace MiMo es esto último: convierte la parte que el usuario vuelve a leer de "calcular en el momento" a "recuperar del almacenamiento", por lo que el costo real de esta parte se acerca a 0, naturalmente puede ofrecer un descuento del 99%.

Para lograr "recuperar del almacenamiento", el blog técnico habla de seis trabajos de ingeniería, cada uno indispensable. Vamos a desglosarlos uno por uno.

Trabajo de ingeniería uno: Comprimir la "memoria" del modelo a 1/7

Cuando el modelo dialoga contigo, cada token necesita calcular un "estado intermedio" y almacenarlo para el siguiente paso. Esto se llama KVCache: se puede entender como el "cuaderno de notas de memoria a corto plazo" del modelo. Cada vez que se dice una frase, el modelo anota un resumen en el cuaderno, la próxima vez simplemente revisa las notas, sin necesidad de escuchar todo lo dicho desde el principio.

Los modelos tradicionales en cada capa realizan "Full Attention": es decir, cada token debe observar todos los tokens del diálogo completo, el cuaderno de notas se vuelve cada vez más grueso. MiMo-V2.5-Pro cambia la arquitectura: de las 70 capas, 60 solo observan los últimos 128 tokens (SWA, Sliding Window Attention), y solo 10 capas de "archivistas" observan todo.

El resultado es que el volumen de KVCache se comprime directamente a 1/7 del Full Attention, y la cantidad de cálculo también es 1/7.

Esta es la primera base para reducir costos. Pongamos un ejemplo: originalmente la empresa requería que cada empleado recordara todas las actas de las reuniones, resultado: el cerebro de cada uno no daba abasto y la eficiencia era baja. El nuevo reglamento reduce la carga mental de 60 empleados a 1/7, dejando solo 10 archivistas a cargo de toda la historia: la capacidad de memoria general de la empresa no disminuye, pero la eficiencia aumenta 7 veces.

Trabajo de ingeniería dos: Hacer que el espacio ahorrado por SWA realmente se pueda usar

El primer paso es comprimir el cuaderno a 1/7 a nivel de arquitectura, pero para convertir el "1/7 teórico" en el "1/7 real", hay un obstáculo más.

Los sistemas tradicionales de KVCache asignan memoria de video (VRAM) de manera uniforme a todas las capas según el "uso máximo posible". Esto significa: aunque las 60 capas de SWA solo necesitan un cuaderno pequeño, el sistema también asigna a todas las capas según el "cuaderno grande del archivista": el espacio ahorrado por SWA se reserva inútilmente, es como si no se hubiera ahorrado.

Lo que hace el equipo de Luo Fuli es dividir el KVCache en dos grupos independientes. Las 10 capas de Full Attention van al "grupo grande", asignado según la longitud completa; las 60 capas de SWA van al "grupo pequeño", asignado solo según la ventana de 128 tokens.

Pongamos un ejemplo: originalmente la empresa le daba a cada empleado un "archivador capaz de contener documentos de 100 años", pero 60 empleados en realidad solo necesitaban un "pequeño archivador para una semana de documentos", el 99% del espacio en esos grandes archivadores estaba vacío. El nuevo método es asignar archivadores según las necesidades reales. El resultado es que toda la oficina puede acomodar 5 veces más compañeros para trabajar: la misma GPU puede servir a 5 veces más usuarios concurrentes.

Este paso parece simple, pero sin él, la ventaja del diseño arquitectónico SWA anterior equivaldría a nada.

Trabajo de ingeniería tres: Hacer que la "relectura de usuarios antiguos" realmente pueda acertar en la caché

El cuaderno comprimido a 1/7 + el espacio realmente utilizable, el siguiente paso es resolver un viejo problema: la tasa de acierto del caché de prefijos.

Muchos diálogos de usuarios tienen el mismo inicio: el mismo system prompt, la misma base de código, el mismo documento largo. El sistema almacena estos resultados ya calculados, y la próxima vez que coincidan se reutilizan directamente. Este mecanismo se llama caché de prefijos.

Pero en el modo SWA aparece un problema: que dos solicitudes tengan los mismos tokens, no significa que el KV todavía esté ahí. Es posible que el prefijo se haya calculado, pero la parte fuera de la ventana SWA ya haya sido eliminada. Si el sistema sigue la antigua regla de "si los tokens son iguales, se acierta" para reutilizar, se leerán datos inválidos o sobrescritos, y el efecto del modelo colapsará directamente.

El equipo de Luo Fuli actualizó la regla a "longitud segura de ventana": solo garantiza "la parte que puedes obtener completa".

Pongamos un ejemplo: la biblioteca tiene 1 millón de libros, quieres pedir prestada la trilogía completa de "El problema de los tres cuerpos". La arquitectura original te diría "el libro está aquí", vas y descubres que en el estante solo queda la portada y el primer libro, los otros dos ya están prestados. Este "falso acierto" te hace ir en vano y además tienes que volver a pedir prestado. El nuevo sistema cambia la regla para solo garantizar la parte que puedes obtener completa: primero te da el primer libro, y luego te trae los otros dos.

Parece más estricto, la tasa de acierto debería bajar. Pero en realidad es al revés: porque SWA reduce el volumen de KVCache a 1/7, el mismo espacio de almacenamiento puede contener varios veces más contenido, la tasa de acierto real aumenta considerablemente.

En el blog, Luo Fuli da cifras de pruebas en línea reales: en el marco harness principal, la tasa de acierto de caché en el servidor es en promedio del 93%, y para usuarios de alta frecuencia y ciclo largo puede superar el 95%.

Traduciendo el significado de esta cifra: el 95% de las solicitudes de "relectura" no necesitan cálculo de GPU, se obtienen directamente de la caché. Esta es la base física del descuento del 99%.

Trabajo de ingeniería cuatro: Meter la "caché" en el SSD incorporado de la GPU

Subida la tasa de acierto, el siguiente problema es: dónde almacenar esta caché.

La memoria de video (memoria HBM en la GPU) es cara y limitada: una máquina con 8 tarjetas H100 tiene solo 640 GB de VRAM, pero el KVCache que MiMo necesita almacenar puede ser del orden de decenas de TB. Por lo tanto, debe ser jerárquico: lo usado recientemente se pone en VRAM (L1), lo un poco más antiguo en memoria RAM de la CPU (L2), y los datos fríos en caché distribuida (L3).

Es igual que administrar dinero. El efectivo en la cartera es la VRAM: se usa al momento pero no cabe mucho. El saldo de la tarjeta bancaria es la RAM de la CPU: tomar una vez tarda 30 segundos pero puede guardar mucho. El depósito a plazo fijo es la caché distribuida L3: tomar una vez tarda 2 minutos pero es mucho más barato.

La práctica común de la industria es construir un clúster de almacenamiento separado para L3, con máquinas dedicadas, centros de datos dedicados, pagando alquiler mensualmente.

El equipo de almacenamiento de Xiaomi hace algo diferente. Desarrollaron internamente un sistema de caché distribuida llamado GCache, desplegado directamente en los SSD incorporados en las máquinas con GPU: conviviendo en la misma máquina con las tareas de entrenamiento y de inferencia.

Traducción sencilla: otros alquilan un almacén especial para guardar grandes cantidades de datos; Xiaomi descubrió que el garaje de las máquinas con GPU en realidad está vacío, y guarda los datos directamente ahí. Se ahorra el alquiler mensual.

La cita literal del blog técnico es: "El costo de almacenamiento adicional es 0."

El impacto de esto es mayor de lo que parece. En la "cuenta de capacidad de cálculo" convencional de una empresa de IA, el costo de almacenamiento es un gasto fijo: cuanto más grande es tu modelo y más usuarios tienes, más larga es la factura de almacenamiento. El método GCache elimina directamente este ítem. Combinado con el pequeño volumen de SWA + tasa de acierto del 93-95%, el tiempo de vida (TTL) del KVCache en L3 se extiende de minutos a horas o incluso días: cuanto más largo sea el TTL, más amplia será la ventana de acierto posible para el contexto histórico, mayor será la tasa de acierto de la caché, y más sólido será el descuento del 99%.

Trabajo de ingeniería cinco: Hacer que las solicitudes que aciertan en la caché tomen el camino más corto

La caché se puede guardar, se puede consultar y es barata. El último paso es: cómo enrutar la solicitud correcta a la máquina correcta.

Xiaomi desarrolló su propio sistema de programación llamado LLM-Router, que hace tres cosas:

Primero, programación de afinidad. Las solicitudes con el mismo prefijo se enrutan a la misma máquina, maximizando la reutilización de la caché.

Segundo, agrupación por longitud. Divide las solicitudes cortas (0-64K), medianas (64K-256K) y largas (256K-1M) en diferentes canales de procesamiento, evitando que las solicitudes cortas se vean perjudicadas por las largas.

Tercero, optimización de TTFT. En la cola de espera para inferencia, prioriza la programación de solicitudes con poco cálculo real (es decir, aquellas que aciertan mucho en la caché): evitando que sean bloqueadas por solicitudes de "entrada completamente nueva" que requieren mucho cálculo.

Por ejemplo, en la programación habitual de un aeropuerto, todos los pasajeros con el mismo destino se concentran en la misma sala de espera, compartiendo el proceso de recogida de equipaje: esto es programación de afinidad. Los que llevan equipaje de mano y los que llevan 3 maletas grandes facturadas pasan por dos canales de seguridad diferentes, los rápidos no se ven retrasados por los lentos: esto es agrupación por longitud. Al embarcar, se prioriza a quienes solo llevan equipaje de mano, suben rápido, permitiendo que el avión despegue antes: esto es optimización de TTFT.

Esta estrategia de programación elevó en las pruebas reales la tasa de acierto de caché L2 en un 25%, aumentó el rendimiento de entrada por máquina en un 30% y redujo la latencia P90 de las solicitudes largas en un 30%.

Tradución: la misma GPU puede servir a más usuarios. La otra mitad de la lógica de la reducción de precios está aquí: la producción efectiva por unidad de capacidad de cálculo es mayor, el costo por usuario es menor.

Trabajo de ingeniería seis: Hacer que el modelo "escriba" también más rápido

Las cinco cosas anteriores optimizan el lado de "lectura": reducir el costo de que el usuario relea el contexto histórico a casi 0. La sexta cosa es optimizar el lado de "escritura": es decir, el proceso en que el modelo genera el siguiente token.

Los modelos tradicionales solo pueden generar 1 token a la vez. MiMo soporta de forma nativa 3 capas de MTP (Multi-Token Prediction): predice los siguientes 3 tokens de una vez, si la predicción intermedia es correcta, salta directamente el cálculo intermedio.

Pongamos un ejemplo: la escritura tradicional es escribir letra por letra: quieres escribir "hoy hace buen tiempo", debes presionar 4 teclas. MTP es como tener un autocompletado que adivina cuáles serán tus próximas 1-2 palabras: si acierta, no necesitas presionar esas dos teclas.

Las pruebas de MTP de MiMo en escenarios de agentes: los primeros 128 tokens de decodificación se aceleran 2.3 veces, los tokens 128-256 se aceleran 1.5 veces.

El significado de esto es que el descuento del 99% está dirigido específicamente a Input (Cache Hit), pero cuando el modelo realmente sirve a un usuario, input y output ocurren en la misma solicitud: si output no se ahorra, el costo total de la solicitud solo se ahorra a la mitad. MTP hace que la mitad de output también baje, y así el modelo de rentabilidad de toda la reducción de precios se cierra.

Uniendo las seis cosas en una cadena de reducción de costos:

Arquitectura SWA → KVCache 1/7 → doble grupo libera realmente capacidad → la misma GPU puede albergar 5+ veces concurrencia → tasa de acierto de caché de prefijos 93-95% → 95% de solicitudes casi sin cálculo → GCache hace que costo de almacenamiento sea cero → programación prioriza solicitudes que aciertan → MTP hace que generación también ahorre → tiempo de GPU por solicitud baja un orden de magnitud → costo unitario baja 95%+ → precio baja 99%, margen bruto aún positivo.

Falta cualquier eslabón y esta cadena se rompe en algún punto. La reducción del 99% no es un número de marketing, es el efecto acumulativo de seis pilares de ingeniería superpuestos + verificado en línea real.

Mirando atrás a las interpretaciones iniciales de la industria, cada una tiene parte de razón. La guerra de precios entre las empresas de grandes modelos chinos en estos dos años es real; que Xiaomi reduzca sus ganancias a la mitad y aún apueste por la IA es real; que DeepSeek arrastre los precios de referencia de la industria al suelo también es real.

Pero Luo Fili esta vez hizo público el blog técnico y desglosó detalladamente los detalles técnicos, sin duda esperando responder a las afirmaciones sobre la guerra de precios, para que "los problemas técnicos vuelvan a la técnica, los problemas de marketing vuelvan al marketing".

Escribe en su blog que la eficiencia de inferencia de la serie de modelos MiMo-V2.5 no proviene de un único avance en un eslabón, sino del resultado de una optimización coordinada multidimensional. Hybrid SWA beneficia simultáneamente a prefill y decode, pero una implementación de KVCache no suficientemente optimizada, por el contrario, aumentaría los costos en cada eslabón. En torno a este objetivo, el equipo de MiMo reconstruyó sistemáticamente la gestión de KVCache, la caché jerárquica, el árbol de caché de prefijos, resolvió el problema central de SWA KVCache, optimizó las estrategias de programación y la cadena de Prefill/Decode, y tras ser probado en escenarios reales en línea, finalmente convirtió su ventaja de eficiencia teórica en ventaja real en el entorno de producción. Solo así Hybrid SWA pudo desplegar su ventaja arquitectónica combinando fuerza y eficiencia en el razonamiento de textos largos. Combinado con la configuración MoE y diversas optimizaciones de razonamiento multimodal, mejoró enormemente el rendimiento del servicio de inferencia en línea.

Este es un enfoque sistemático de ingeniería de IA, y también un medio de reducción de costos que vale la pena que la industria considere y tome como referencia.

La guerra de precios no necesita escribir blogs, el cumplimiento de la ingeniería sí.

Preguntas relacionadas

Q¿En qué consiste principalmente la reducción de precios del 99% anunciada por MiMo?

ALa reducción del 99% se aplica específicamente a la tarificación de 'Input (Cache Hit)', es decir, la parte en la que los usuarios releen el historial de contexto en conversaciones largas. No es una reducción en todo el modelo. Los tokens de nueva entrada (No Cache Hit) y la salida del modelo (Output) tienen descuentos menores.

Q¿Qué es el SWA y cómo contribuye a la reducción de costos?

ASWA (Sliding Window Attention) es una arquitectura donde, en el modelo MiMo-V2.5-Pro, 60 de sus 70 capas solo procesan los últimos 128 tokens de la conversación, en lugar de toda la historia. Esto reduce el volumen de la 'memoria a corto plazo' del modelo (KVCache) a 1/7, disminuyendo significativamente la carga computacional y de memoria, lo que permite mayor concurrencia de usuarios por GPU.

Q¿Qué solución tecnológica implementó el equipo de Xiaomi para almacenar de manera eficiente y económica los cachés distribuidos (L3)?

AEl equipo de almacenamiento de Xiaomi desarrolló un sistema de caché distribuido llamado GCache, que despliega los datos directamente en las unidades SSD que ya están incorporadas en las máquinas con GPU, eliminando la necesidad de un clúster de almacenamiento dedicado. Esto reduce los costos de almacenamiento adicionales a prácticamente cero.

Q¿Qué función cumple el sistema de programación LLM-Router en la optimización del rendimiento?

AEl sistema LLM-Router realiza tres funciones clave: 1) Programación por afinidad, que enruta solicitudes con prefijos similares a la misma máquina para maximizar la reutilización de la caché. 2) Segmentación por longitud, separando solicitudes cortas, medianas y largas en diferentes canales. 3) Optimización del TTFT (Time to First Token), priorizando las solicitudes con caché para una respuesta más rápida.

QSegún el artículo, ¿por qué Luo Fuli publicó un blog técnico detallado sobre la reducción de precios?

ALuo Fuli publicó un blog técnico detallado para demostrar que la reducción del 99% en los precios de la API de MiMo es el resultado de avances de ingeniería sistémica y verificados en producción, no una mera táctica de marketing o una guerra de precios insostenible. Su objetivo era separar la discusión técnica de las narrativas comerciales.

Lecturas Relacionadas

Investigación más reciente del BIS: Las stablecoins y el futuro del panorama monetario global

Según un informe reciente del Banco de Pagos Internacionales (BIS), las monedas estables (stablecoins) han evolucionado desde herramientas específicas del ecosistema criptográfico hasta activos digitales con funciones de pago transfronterizo y reserva de valor, influyendo significativamente en el panorama monetario global. El informe analiza su desarrollo, mecanismos operativos e impacto. El mercado, con un valor superior a 3 billones de dólares, está dominado por las stablecoins vinculadas al dólar (98% del valor), especialmente USDT y USDC. Su uso principal sigue siendo dentro del ecosistema criptográfico. Funcionan como un "pasivo privado en cadena" del dólar offshore, combinando características de los certificados bancarios históricos y los fondos del mercado monetario. El impacto más significativo se da en las economías emergentes (EMDEs). Las stablecoins en dólares facilitan la "dolarización digital", actuando como canal para la fuga de capitales y eludir controles, erosionando la soberanía monetaria y la efectividad de la política económica. Si bien mejoran la eficiencia de pagos transfronterizos, no han alterado aún el papel dominante del dólar como unidad de cuenta en el comercio. El informe plantea tres escenarios futuros: 1) Adopción limitada (escenario base actual); 2) Dolarización digital (alto riesgo para EMDEs); y 3) Integración de stablecoins de moneda local (escenario ideal que requiere regulación sólida). Concluye que la colaboración regulatoria global es crucial para equilibrar la innovación con la estabilidad financiera y la soberanía monetaria, en una etapa futura de coexistencia entre CBDCs y stablecoins.

链捕手Hace 7 min(s)

Investigación más reciente del BIS: Las stablecoins y el futuro del panorama monetario global

链捕手Hace 7 min(s)

La «primera medida» del «nuevo rey» de Berkshire: Vender petróleo y gas, comprar bienes raíces por 8.5 mil millones

El nuevo director ejecutivo de Berkshire Hathaway, Greg Abel, ha realizado su primera gran adquisición desde que asumió el cargo en enero: la compra de la promotora de viviendas estadounidense Taylor Morrison por 8.500 millones de dólares. La operación, que se anunció mientras la compañía redujo en aproximadamente 8.000 millones de dólares su participación en Chevron, marca un cambio en la asignación de activos en la era posterior a Buffett. La adquisición de Taylor Morrison, con sede en Arizona, representa una apuesta por la recuperación moderada del sector de la construcción de viviendas en EE.UU., alineándose con las inversiones existentes de Berkshire en el sector. Abel destacó la sinergia con la unidad Clayton Homes de Berkshire y el objetivo de ayudar a más estadounidenses a ser propietarios de una vivienda. Paralelamente, Berkshire aprovechó los precios históricos de las acciones de Chevron para reducir significativamente su participación, obteniendo una rentabilidad sustancial de una inversión iniciada en 2020. Esta combinación de operaciones parece dibujar una estrategia de tomar beneficios en energía y reorientar capital hacia la vivienda. La transacción, que se espera que se cierre en la segunda mitad del año, impulsa las expectativas sobre un posible uso más dinámico de la reserva récord de efectivo de Berkshire, que ascendía a 381.100 millones de dólares a finales del primer trimestre.

marsbitHace 41 min(s)

La «primera medida» del «nuevo rey» de Berkshire: Vender petróleo y gas, comprar bienes raíces por 8.5 mil millones

marsbitHace 41 min(s)

Interpretación del informe de Goldman Sachs: Escasez de memoria hasta 2028, seguimos comprando

Análisis del informe de Goldman Sachs: escasez de memoria hasta 2028, recomienda seguir comprando. El 1 de junio, Goldman Sachs publicó su resumen diario de acciones asiáticas "The 720", centrado en los chips de memoria. La principal conclusión es que el actual ciclo alcista del mercado de memoria "se prolongará más" (higher for longer), con escasez que se extendería hasta 2028, una duración que el mercado subestima. Goldman Sachs argumenta que esta vez es diferente debido a: 1) mayor visibilidad de la demanda de servidores para IA, 2) crecimiento limitado de la oferta, y 3) acuerdos de suministro a largo plazo más firmes. Por ello, revisó a la baja sus previsiones de oferta-demanda para 2026-2028, mostrando un déficit más profundo, especialmente en DRAM para 2027. Basándose en esta visión, el banco elevó el precio objetivo y mantuvo la recomendación de "comprar" para Samsung Electronics y SK Hynix. Además, mejoró la calificación de Kioxia de "mantener" a "comprar", anticipando que los altos márgenes de beneficio podrían sostenerse durante varios años. El informe también destaca otras compañías en la cadena de suministro de hardware para IA, como MediaTek (transición hacia chips para centros de datos), Eoptolink (módulos ópticos), Biren (chips de IA chinos), y Lenovo (por el ciclo de renovación hacia PCs con IA). Asimismo, menciona a BYD por su estrategia de asequibilidad en conducción autónoma. En el plano macroeconómico, Goldman Sachs señala que los mercados emergentes se ven tensionados entre el auge de la inversión en IA y una posible crisis energética por restricciones en el Estrecho de Hormuz, lo que beneficiaría a las economías exportadoras de tecnología. El informe concluye advirtiendo que los precios objetivos y las recomendaciones son predicciones, no promesas, y subraya la importancia de evaluar la lógica subyacente más que las cifras específicas.

marsbitHace 51 min(s)

Interpretación del informe de Goldman Sachs: Escasez de memoria hasta 2028, seguimos comprando

marsbitHace 51 min(s)

Análisis detallado de las operaciones legendarias de Cathie Wood en Circle

**La operación maestra de Cathie Wood en Circle: un caso de estudio en inversión** Cathie Wood, de ARK Invest, realizó una operación destacada en Circle, la emisora de USDC. Su estrategia fue un ejemplo de gestión disciplinada basada en convicción a largo plazo. **1. Entrada a precio de OPV:** Antes de la salida a bolsa, ARK suscribió acciones por ~$139 millones al precio de OPV de $31. El primer día, la acción cerró a $83, otorgando ganancias inmediatas debido a la alta demanda y baja oferta flotante inicial. **2. Toma de beneficios en máximos:** Tras la aprobación del proyecto de ley GENIUS en junio de 2025, el precio se disparó hasta ~$299. Wood comenzó a vender de forma sistemática alrededor de $210 (vendiendo ~1.7M de acciones por ~$352M). La venta fue impulsada por reglas de rebalanceo de ARK (límite del 10% por posición) y la anticipación de la apertura del *lock-up* de acciones. **3. Recompra en caídas:** Tras desplomarse más del 80% desde máximos (llegando a ~$50), Wood recompró agresivamente. Comenzó a comprar a mediados de los $80 tras unos buenos resultados en noviembre de 2025, y continuó comprando durante la caída hasta recuperar una posición de ~4.5M de acciones. **Lecciones clave:** 1. **Juicio independiente:** La convicción en el modelo de negocio de Circle como infraestructura clave para las stablecoins permitió comprar en máximos y recomprar en mínimos. 2. **Escalonamiento:** Vendió y compró por tramos, sin intentar acertar el precio máximo o mínimo exacto. 3. **Disciplina de cartera:** La regla del 10% forzó la toma de beneficios en máximos y liberó efectivo para recomprar más tarde. Para la mayoría de los inversores, comprar en el "momento eufórico" del debut bursátil es arriesgado, como demuestra la posterior caída. El éxito de Wood se basó en el acceso al precio de OPV, una tesis sólida y, sobre todo, una estricta disciplina.

marsbitHace 53 min(s)

Análisis detallado de las operaciones legendarias de Cathie Wood en Circle

marsbitHace 53 min(s)

Trading

Spot
Futuros
活动图片