JD.com y Mira Murati, ex CTO de Open AI, apuestan por la misma pista de IA

marsbitPublicado a 2026-06-24Actualizado a 2026-06-24

Resumen

Imagina que una persona mayor que vive sola se cae en casa y no puede pedir ayuda. Su dispositivo inteligente o una cámara, impulsado por IA, detecta la situación de forma autónoma y alerta a emergencias. Este no es un escenario futurista, sino el tipo de problema que busca resolver **JoyAI-VL-Interaction**, el primer modelo de interacción visiolingüística de código abierto del mundo, presentado por JD.com. En la industria de la IA, la interacción ha estado dominada por un formato de turnos: el usuario pregunta, el modelo responde. JD.com y otros, como Thinking Machines Lab de Mira Murati, identificaron la misma limitación y convergieron en una idea: la IA debe evolucionar de ser un procesador pasivo de información a un **participante activo** que "prediga el siguiente estado físico". JoyAI-VL-Interaction observa el flujo continuo de video de una cámara y decide *autónomamente* cuándo responder, cuándo guardar silencio y cuándo derivar tareas complejas a otros modelos. Su ventaja clave es colocar al **lenguaje visual como el motor principal** para la toma de decisiones, desacoplándolo del audio. Esto lo hace ideal para aplicaciones como asistencia a personas mayores o con discapacidad visual, comentarios automáticos en eventos deportivos, inspección de almacenes o robots colaborativos, donde los eventos ocurren demasiado rápido para una orden verbal. JD.com ha optado por una estrategia de **cód abierto integral** y un diseño ligero (8B parámetros), que permite ejecutar el ...

Imagina una escena:

Una persona mayor que vive sola se resbala en la sala de estar, y el dolor le impide pedir ayuda. En ese momento, el dispositivo inteligente que lleva puesto o la cámara de su casa "ve" la anomalía, y la IA, sin esperar ninguna orden de voz, emite activamente una alerta y contacta rápidamente con familiares o servicios de emergencia.

O estás viendo un partido de fútbol intenso, en el instante en que se produce el gol clave, antes de que puedas retroceder y preguntar, las gafas de IA te proporcionan automáticamente un análisis a cámara lenta y una explicación táctica.

Estas escenas ya no son fantasías del futuro, sino los problemas reales que el primer modelo de interacción visual-lingüística de pila completa de código abierto a nivel mundial de JD.com, JoyAI-VL-Interaction, intenta resolver.

En los últimos dos años, los límites de capacidad de los modelos grandes se han ido ampliando constantemente, pero la forma de interacción principal sigue siendo la lógica de "turnos": "el usuario pregunta, el modelo responde". Es eficiente, pero en muchos escenarios no es razonable. Muchos eventos importantes ocurren demasiado rápido para que el usuario formule una pregunta; en muchos casos, ni siquiera hay instrucciones de voz.

Este año, un juicio se está convirtiendo en consenso de la industria: la IA está pasando de "predecir el siguiente token" a "predecir el siguiente estado físico". Esto también significa que la IA debe evolucionar de ser un procesador de información pasivo a un participante activo.

Precisamente en este momento, JD.com ha publicado como código abierto JoyAI-VL-Interaction, el primer modelo de interacción visual-lingüística en tiempo real de pila completa de código abierto a nivel mundial, capaz de juzgar de forma autónoma cuándo responder, cuándo guardar silencio y cuándo delegar tareas complejas en modelos de back-end dentro de un flujo de vídeo continuo.

Lo que JoyAI-VL-Interaction quiere demostrar es: una IA que realmente entra en el mundo físico no debería esperar siempre a que le pregunten, debería aprender a ver, juzgar de forma proactiva y ofrecer ayuda en el momento adecuado.

Esta es también la señal más amplia que JD.com AI está enviando: desde la capacidad del modelo hasta los escenarios industriales, la competencia en IA está pasando del interrogatorio dentro de la pantalla al mundo real.

¿Por qué la interacción visual-lingüística?

En el mundo físico real, una gran cantidad de información crítica ocurre en momentos en los que el usuario no tiene tiempo de plantear una pregunta. Lo que hace sentir que "no hay tiempo" es a veces un problema de experiencia, pero más a menudo es un límite de capacidad causado por el paradigma del modelo.

La industria no es ajena a esta limitación.

En la primera mitad de 2026, la interacción en tiempo real se convirtió en la palabra clave más candente de la IA multimodal. La industria avanzó principalmente por dos vías: una fue hacer la conversación por turnos más rápida, la otra fue hacer las conversaciones de voz más naturales.

La primera enfatiza la baja latencia o la entrada/salida arbitraria, pero su núcleo sigue siendo "responde solo si preguntas"; la segunda permite al modelo escuchar y hablar simultáneamente, ser interrumpido en cualquier momento, acercando la experiencia a una llamada telefónica real, pero el foco sigue estando en los escenarios de voz.

El problema es que muchos cambios en el mundo real no se convierten primero en una frase. Incendios, caídas, aproximación de vehículos, cambios en el contenido de la pantalla, anomalías en la línea de producción: todos son imágenes que aparecen antes que el lenguaje. Si la IA solo puede esperar a que la gente hable, le costará estar realmente "presente".

Quien realmente llegó a la misma conclusión que JD.com al mismo tiempo fue Thinking Machines Lab, fundada por Mira Murati. El 11 de mayo, esta empresa propuso el concepto de "modelos de interacción" (interaction models) y publicó algunas vistas previas de investigación, señalando que el paradigma de respuesta autónoma de los modelos de interacción, en comparación con el paradigma tradicional de pregunta-respuesta, presenta un espacio de imaginación mayor para la colaboración Humano-IA.

Que dos equipos convergieran en la misma idea casi al mismo tiempo es en sí misma una señal: hacer de la interactividad una capacidad del propio modelo y escalarla es una dirección inevitable para la industria en los próximos años.

La diferencia radica en que JD.com coloca el lenguaje visual en una posición más central, desacoplando el lenguaje oral como una E/S desmontable, haciendo del lenguaje visual la "modalidad de conducción principal" para la toma de decisiones autónomas del modelo.

Es decir, desde el momento en que se enciende la cámara, JoyAI-VL-Interaction "observará" continuamente los cambios visuales en el mundo físico y juzgará de forma autónoma si debe hablar, qué decir y si debe delegar la tarea.

Aquí reside también la imaginación de la interacción visual: se puede utilizar en escenarios como el cuidado de ancianos y niños, asistencia para invidentes, gafas de IA, comentarios deportivos, inspección de tiendas, logística de almacenes, colaboración con robots, etc. El usuario no necesita primero formular la pregunta en una frase; la IA puede captar la necesidad a partir de los cambios en el entorno.

Por lo tanto, la visión no es solo otra forma de entrada, sino un canal de percepción insustituible para que la IA avance hacia "predecir el siguiente estado físico".

El informe técnico de JoyAI-VL-Interaction de JD.com también refuerza este punto, mostrando que en seis escenarios de flujo real, JoyAI-VL-Interaction alcanzó una tasa de victoria del 77.6% frente a los principales modelos nacionales y del 87.9% frente a modelos internacionales; en el escenario de alerta por monitorización, que más pone a prueba la capacidad de captura de eventos, la tasa de victoria alcanzó el 100%. El informe considera que la diferencia no es solo la calidad de la respuesta, sino la capacidad de actuar en el momento correcto.

Sin embargo, lograr una interacción visual proactiva es ciertamente más difícil.

La adquisición de datos para la interacción por voz es relativamente directa; grandes conjuntos de datos de comandos de voz permiten al modelo aprender cuándo hablan los humanos, cómo interrumpir, cómo continuar. Los datos necesarios para la interacción visual son completamente diferentes. El modelo debe aprender, en un flujo continuo de imágenes cambiantes, qué señal merece una respuesta y qué señal debe ser silenciada.

Una barrera más profunda es la capacidad de definición del escenario. En la interacción por voz existe un límite de activación natural: que el usuario hable marca el inicio de la interacción. La interacción visual no tiene un inicio y un final claros; el modelo debe juzgar los límites por sí mismo dentro de un flujo de información sin fronteras.

La singularidad de JD.com reside precisamente aquí: esta empresa no busca escenarios desde un laboratorio abstracto, sino que opera naturalmente dentro de redes empresariales reales como comercio minorista, logística, salud e industria.

Esto significa que la IA de JD.com no se enfrenta a una única entrada de chat, sino a una multitud de tareas reales: cómo fluyen las mercancías, cómo colaboran los dispositivos, cómo cooperan los robots con las personas, cómo se detectan las anomalías con antelación. El modelo puede aprender de las necesidades reales e iterar a partir de los comentarios reales.

Aunque hay compensaciones en la ruta tecnológica, la forma de interacción futura para la AGI general debe ser la inteligencia activa. Los agentes inteligentes deben poseer el ciclo completo de percepción del entorno, toma de decisiones autónoma y respuesta en tiempo real. Por lo tanto, muchas empresas no es que no quieran hacer modelos grandes de interacción visual, sino que actualmente carecen del terreno fértil para que surja la interacción visual. Esta es también la razón por la que el capital y la potencia computacional han fluido primero hacia la pista de la interacción por voz.

Así que la elección de JD.com de empezar por la visión no es solo una elección técnica, sino también una decisión determinada por su posición estratégica. En comparación con muchos actores de modelos grandes, JD.com está más cerca de la operativa del mundo físico y también necesita más una IA capaz de percibir proactivamente y responder en tiempo real.

Para que ese día llegue más rápido, alguien tiene que empezar antes.

Ligero, de código abierto, desplegable

¿Qué significa ser el primero de pila completa y de código abierto a nivel mundial?

Redefinir el paradigma de interacción suena grandioso, pero cuando se aplica a aplicaciones reales, el primer obstáculo es muy simple: la IA no puede estar siempre molestando a las personas, ni permanecer en silencio cuando debería alertar.

Normalmente se espera que la IA hable cuanto más mejor, pero en escenarios de interacción visual en tiempo real, un modelo que no para de interrumpir no es inteligente. La capacidad verdaderamente valiosa es aparecer proactivamente en momentos clave y permanecer en silencio en momentos irrelevantes.

Por lo tanto, JoyAI-VL-Interaction entrena el "silencio" también como una capacidad. El modelo necesita dominar tres niveles de juicio: en qué escenarios debe responder proactivamente, en cuáles debe guardar silencio y en cuáles debe delegar la tarea, pasándola a otros modelos.

Si esta capacidad solo pudiera quedarse en los artículos de investigación, su valor sería limitado. El énfasis de JD.com en "pila completa de código abierto" radica precisamente en abrir simultáneamente el modelo, el sistema de inferencia y la ruta de construcción de aplicaciones, permitiendo a los desarrolladores ejecutarlo, modificarlo y utilizarlo de verdad.

JD.com ha elegido una ruta de ingeniería más fácil de difundir: un modelo de 8B de parámetros, desplegable con una sola tarjeta gráfica 3090. Con estos parámetros, los desarrolladores individuales pueden ejecutarlo, el hardware de consumo puede soportarlo y los dispositivos del lado del cliente pueden implementarlo.

Para la interacción visual en tiempo real, esta ligereza no significa una reducción de capacidad, sino una división del trabajo más clara.

JoyAI-VL-Interaction se asemeja más a una capa de interacción frontal, responsable de ver el entorno, juzgar el momento y realizar una comunicación breve. Cuando encuentra tareas complejas que requieren un razonamiento profundo, las delega automáticamente a agentes de back-end elegidos por el usuario, como OpenClaw, Codex, Claude Code, etc. Por lo tanto, un modelo de 8B es suficiente.

Por ejemplo, el modelo puede primero decirle al usuario "Déjame pensarlo", luego pasar el problema difícil al back-end y mantenerse presente; cuando el back-end devuelva el resultado, puede sincronizar la respuesta con el usuario. Durante este proceso, también puede continuar ayudando al usuario con otras interacciones inmediatas.

JD.com también ha diseñado el sistema subyacente para ser ligero: mediante codificación de vídeo, memoria de largo alcance y compresión de contexto, el modelo puede observar continuamente flujos de vídeo largos a un costo relativamente bajo, manteniendo la latencia de extremo a extremo en el nivel sub-segundo. Para el lector común, lo importante no son estos términos técnicos, sino el resultado: la IA puede permanecer en escenarios reales durante más tiempo y con un umbral de acceso más bajo.

La elección rentable y desplegable también conduce directamente a la estrategia de código abierto de JD.com. Solo si el modelo es lo suficientemente ligero, el sistema lo suficientemente completo y el umbral de despliegue lo suficientemente bajo, la interacción visual en tiempo real puede pasar de ser un experimento de unos pocos equipos a convertirse en un ecosistema de aplicaciones explorado conjuntamente por más desarrolladores y empresas.

JD.com ya ha publicado como código abierto este sistema de inferencia, con un objetivo claro: permitir que cualquier persona con una tarjeta gráfica 3090 o superior y una cámara pueda configurar rápidamente su propia aplicación de interacción visual en tiempo real.

JoyAI-VL-Interaction ha obtenido soporte day-0 de vLLM-Omni y ya se ha integrado de forma nativa en la rama principal de vLLM-Omni.

Devolver la IA al mundo físico

El propósito del código abierto es entregar la imaginación aplicada a un mercado más amplio. Porque el valor del avance tecnológico finalmente debe ser verificado por el mundo real.

La primera ola de imaginación aplicada para JoyAI-VL-Interaction ya es muy intuitiva: en retransmisiones deportivas, la IA puede comentar automáticamente en el instante de un gol clave o decisivo; al monitorear el mercado de valores, puede observar continuamente los cambios en la pantalla y alertar sobre anomalías; en el cuidado familiar, puede alertar proactivamente cuando una persona mayor se cae o un niño se acerca a una zona peligrosa; combinado con gafas de IA, puede ayudar al usuario a reconocer calles, productos, pantallas y el entorno circundante; al servir a personas invidentes, puede convertir la información visual en asistencia en tiempo real.

Para JD.com, lo que más espera es que se pueda integrar en robots: un modelo que sabe cuándo hablar, cuándo callar y cuándo pedir ayuda al sistema de back-end puede hacer que los robots sean más eficientes y se acerquen más al asistente inteligente "con tacto" que la gente espera.

La razón fundamental por la que JD.com se atreve a "agitar" este campo en este momento es porque posee activos de datos del mundo físico que otros actores de modelos grandes no tienen.

Situado en las coordenadas de la industria de 2026, el peso de los activos de datos del mundo físico es especialmente significativo.

2026 ha sido llamado por la industria el "Año Cero de los Datos de Inteligencia Encarnada", y en este contexto generalizado, existe una contradicción aguda: los datos de interacción física de alta calidad son extremadamente escasos, muy lejos de satisfacer las necesidades de entrenamiento a gran escala. El cuello de botella de la iteración algorítmica se está trasladando completamente del lado del modelo al lado de los datos.

En este punto temporal, JD.com anunció su intención de acumular 10 millones de horas de datos de vídeo de alta calidad de escenarios reales en dos años, movilizando a 600,000 personas para participar en la recolección.

JD.com tiene más de 3,000 escenarios empresariales reales, cubriendo áreas como comercio minorista, logística, salud e industria. Este año, además, ha innovado en Suqian con un modelo de recolección comunitaria por cuadrículas, desplegando de forma masiva sus terminales de cabeza JoyEgoCam de desarrollo propio, movilizando a pequeñas y medianas empresas y residentes de los alrededores para recolectar datos en escenarios de trabajo reales.

La velocidad de despliegue es rápida. En marzo, JD.com anunció la finalización del primer centro de recolección de datos de inteligencia encarnada del mundo en Suqian; en abril, publicó la primera infraestructura de datos encarnados de la industria que cubre toda la cadena de recolección, almacenamiento, etiquetado, entrenamiento, evaluación, simulación y prueba; en mayo, JoyEgoCam entró en producción masiva, recolectando continuamente datos en primera persona.

Estos datos son el combustible más escaso para entrenar modelos encarnados y modelos de interacción visual. A medida que los datos encarnados se incorporen al entrenamiento, el valor de JoyAI-VL-Interaction también pasará de "un modelo que puede ver proactivamente" a integrarse aún más en espacios físicos más concretos como robots, vehículos no tripulados, almacenes, tiendas y hogares.

Entre el modelo y la aplicación, JoyAI-Echo, también publicado como código abierto por JD.com el 3 de junio, juega un papel igualmente clave. Echo se especializa en la generación en tiempo real de vídeos largos, e Interaction se especializa en la comprensión e interacción en tiempo real. La publicación como código abierto de dos modelos en un mes significa que JD.com ya ha conectado los extremos de entrada y salida de la multimodalidad de vídeo, y ha colocado el avance de la IA hacia el mundo físico en una posición más a largo plazo.

En la conferencia de lanzamiento del 618 de este año, JD.com dijo que quiere convertirse en el "centro operativo del mundo físico más grande del mundo".

En la era de la interacción humano-máquina, la industria está prestando cada vez más atención a cómo la IA comprende el mundo físico, pero la lógica de solución de JD.com es diferente a la de la mayoría de los actores de modelos grandes: esta empresa ya opera dentro del mundo físico.

Almacenes, distribución, comercio minorista, salud, industria: todos son campos de entrenamiento y pruebas para la IA y la inteligencia encarnada. Solo en la logística de JD.com, se planea invertir en 3 millones de robots, 1 millón de vehículos no tripulados y 100,000 drones en cinco años. Estos dispositivos de hardware también serán el campo de aplicación para JoyAI-VL-Interaction.

Ya sea por voz o por visión, los modelos de interacción esencialmente existen para conectar el mundo físico y el digital, comprender el mundo físico y orquestar el mundo digital.

El código abierto es la primera ventana que JD.com abre hacia afuera. En esta pista donde la demanda impulsa la tecnología, JD.com libera el modelo, los datos de entrenamiento y el sistema completo, apostando por algo a más largo plazo: hacer que la interacción activa pase de ser un juicio de unos pocos equipos a convertirse en una de las principales vías para que la IA avance hacia el mundo físico.

Bienvenido a activar el servicio con un clic en vLLM-Omni para experimentar, o iniciar con un clic en el repositorio:

Dirección del código: https://github.com/jd-opensource/JoyAI-VL-Interaction

Dirección del modelo: https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

Dirección del conjunto de datos: https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

Dirección del informe técnico: https://huggingface.co/papers/2606.14777

Criptos en tendencia

Preguntas relacionadas

Q¿Qué es JoyAI-VL-Interaction y qué busca lograr según el artículo?

AJoyAI-VL-Interaction es el primer modelo de interacción visual-lingüística de pila completa y de código abierto del mundo, desarrollado por JD.com. Busca cambiar el paradigma de interacción de la IA, pasando de un modelo reactivo de 'pregunta-respuesta' a uno activo y predictivo. Su objetivo es que la IA pueda percibir el entorno físico a través de flujos de video continuos, juzgar de forma autónoma cuándo responder, cuándo guardar silencio y cuándo delegar tareas complejas, todo para ofrecer ayuda en el momento adecuado sin esperar instrucciones explícitas del usuario.

Q¿En qué se diferencian los 'modelos de interacción' como JoyAI-VL-Interaction de los modelos de IA conversacional tradicionales?

ALa diferencia principal radica en el paradigma de interacción. Los modelos tradicionales operan en un modo de 'turnos' o 'pregunta-respuesta', donde la IA responde solo después de que el usuario formula una consulta. En cambio, modelos de interacción como JoyAI-VL-Interaction son activos y predictivos. Utilizan la visión como modalidad principal para percibir cambios en el entorno físico en tiempo real y toman la iniciativa para interactuar o intervenir cuando detectan una situación que lo requiere, como una caída, un evento deportivo clave o una anomalía, sin necesidad de un comando verbal previo.

Q¿Por qué JD.com y Mira Murati con su Thinking Machines Lab consideran crucial el desarrollo de la interacción visual?

AAmbas entidades convergieron en la idea de que gran parte de la información crítica en el mundo físico ocurre demasiado rápido o en contextos donde no hay una instrucción verbal. Incendios, caídas, cambios en una pantalla o anomalías en una línea de producción son eventos visuales. Si la IA espera a que alguien hable, pierde su capacidad de estar verdaderamente 'presente' y de prevenir o asistir de manera proactiva. La interacción visual permite a la IA capturar necesidades directamente desde los cambios ambientales, siendo un canal de percepción indispensable para que la IA 'prediga el siguiente estado físico' y sea un participante activo.

Q¿Qué ventajas prácticas ofrece que JoyAI-VL-Interaction sea un modelo ligero y de código abierto?

ASer un modelo ligero (8B de parámetros) y de 'pila completa' de código abierto presenta varias ventajas prácticas: 1) **Accesibilidad**: Puede desplegarse en una sola GPU como una 3090, permitiendo a desarrolladores individuales y empresas con hardware de consumo experimentar y usarlo. 2) **Difusión**: Reduce enormemente la barrera de entrada, fomentando un ecosistema de aplicaciones más amplio. 3) **Arquitectura eficiente**: Actúa como una capa de interacción frontal que maneja la percepción y respuesta inmediata, delegando tareas complejas a modelos backend más grandes. 4) **Transparencia y colaboración**: Al abrir el modelo, el código, los datos y el sistema de inferencia, JD.com permite a la comunidad examinar, mejorar y construir sobre él, acelerando la innovación en interacción visual activa.

QSegún el artículo, ¿cómo se relaciona la estrategia de JD.com con el 'mundo físico' y los datos de interacción?

ALa estrategia de JD.com está profundamente arraigada en el mundo físico. La compañía opera en miles de escenarios reales (logística, venta minorista, salud, industria), lo que le proporciona una ventaja única: acceso a flujos de datos visuales y de interacción de alta calidad del mundo real. Para superar la escasez de datos de interacción física de calidad, JD.com está invirtiendo en una infraestructura masiva de recopilación de datos, con el objetivo de acumular 10 millones de horas de video en escenarios reales. Estos datos son el 'combustible' esencial para entrenar modelos de interacción visual y de inteligencia incorporada (embodied AI), permitiendo que modelos como JoyAI-VL-Interaction evolucionen y se apliquen de manera efectiva en robots, vehículos autónomos, almacenes y entornos domésticos, cumpliendo su visión de ser un 'centro de operaciones del mundo físico'.

Lecturas Relacionadas

Fundador de IOSG: Ethereum no necesita otra fe tecnológica, necesita un compromiso al estilo de Musk

**Autora: Jocy, fundadora de IOSG** **Ethereum no necesita otra fe tecnológica, necesita un compromiso al estilo Musk.** El reciente lanzamiento de ETHLabs no es una bifurcación de la Fundación Ethereum (EF), sino que llena un vacío intencional dejado por ella. Financiado por grandes tenedores de ETH, este movimiento representa un voto de desconfianza del mercado hacia el modelo de gobernanza "pequeño y descentralizado" de la EF, mostrando que el ecosistema está actuando donde el liderazgo central es percibido como pasivo. La comparación clave es entre Vitalik Buterin (V) y Elon Musk. Mientras que Musk domina la realidad comercial y adapta la tecnología a ella, V parte de ideales técnicos puros esperando que la realidad emerja por sí misma. Esta aproximación funcionó en el pasado, pero hoy, con muchas alternativas, Ethereum carece de una narrativa comercial clara y aplicaciones del mundo real convincentes. El ecosistema debate si la falta es de una "killer app" o de esfuerzos comerciales (BD). En realidad, son dos caras de la misma moneda: Ethereum necesita que su liderazgo se sumerja y lidere la creación de aplicaciones prácticas con impacto tangible, no solo roadmaps técnicos. La crítica interna más severa señala que el problema de la EF es de gestión, no de estrategia. La fuga de talento es una gran amenaza. La nueva estructura propuesta, con múltiples nodos independientes como ETHLabs, busca descentralizar la responsabilidad pero enfrenta el desafío de mantener la cohesión y una dirección unificada sin fragmentarse. La cohesión futura no puede depender de una organización, sino del valor de ETH como activo de referencia común. Sin embargo, esto solo será posible si existe una narrativa sobre utilidad en el mundo real que una a todos los actores. Además, la verdadera independencia de estos nuevos nodos debe ganarse con transparencia y tiempo, no solo declaraciones. La amenaza más profunda no es Solana, sino la migración de la atención y el talento hacia la IA. Ethereum tiene una ventana de 12 a 18 meses. La infraestructura técnica por sí sola no recuperará esa atención. Se necesita una narrativa a una década que atraiga al mejor talento y un fundador dispuesto, como Musk, a ensuciarse las manos para construir aplicaciones reales. La luz del ideal de V no se ha apagado, pero para iluminar la realidad, necesita bajar del pedestal y sumergirse en la lucha. Y el tiempo para este giro se agota rápidamente.

marsbitHace 57 min(s)

Fundador de IOSG: Ethereum no necesita otra fe tecnológica, necesita un compromiso al estilo de Musk

marsbitHace 57 min(s)

Google comienza a vender TPU, las grandes tecnológicas buscan producir "tokens baratos" con chips de IA

Google ha anunciado la venta directa de sus chips TPU autodiseñados y hardware de computación de IA a centros de datos y clientes externos. Los TPU, o Unidades de Procesamiento de Tensores, son chips especializados en operaciones matemáticas de matrices, fundamentales para los modelos de IA actuales. Al combinar miles de TPU en clústeres, Google logra centros de cómputo de alta eficiencia. Esto permite a servicios como Gemini ofrecer precios más bajos por token, haciéndolo competitivo frente a alternativas como OpenAI y algunos modelos chinos. La estrategia de Google no se centra solo en vender hardware, sino en ofrecer un ecosistema completo similar al de Nvidia con CUDA, apuntando a empresas que buscan controlar su propia infraestructura de cómputo. Aunque Nvidia sigue siendo el estándar dominante en entrenamiento de modelos gracias a su ecosistema consolidado, el enfoque de Google es más atractivo para la inferencia, donde la eficiencia de costos es crucial. La industria está evolucionando hacia tratar la potencia de cómputo como un recurso básico, como la electricidad, donde el precio final por token se vuelve un factor clave de competitividad. En China, proveedores en la nube como Huawei Cloud y Alibaba Cloud están siguiendo un camino similar, desarrollando sus propios ecosistemas de chips (como Ascend y Zhenwu) y soluciones integrales. La competencia ya no se trata solo de tener el chip más potente, sino de quién puede ofrecer el sistema más eficiente y económico para convertir el hardware en productividad. La venta de TPU por parte de Google señala que la batalla por la infraestructura de IA es ahora una guerra de sistemas.

marsbitHace 1 hora(s)

Google comienza a vender TPU, las grandes tecnológicas buscan producir "tokens baratos" con chips de IA

marsbitHace 1 hora(s)

Interpretación de Informe de Investigación: El Sector Semiconductores Subió un 155%, Bernstein Dice que NVDA y AVGO Siguen "Absurdamente Baratas"

Análisis del informe: El sector de semiconductores subió un 155%, y Bernstein dice que NVDA y AVGO siguen "absurdamente baratas" Bernstein publicó una revisión trimestral del sector el 23 de junio. Su tesis central es que la IA es ahora el "único juego" que impulsa al sector, con fundamentales sólidos, aunque las valoraciones y la concentración de inversión están en máximos históricos. El índice SOX ha subido un 155,6% en el último año, impulsado principalmente por un crecimiento de los beneficios (EPS) del 75%, no por una burbuja de valoración. Bernstein recomienda **NVDA y AVGO** (calificación: "Outperform"), considerándolas los principales beneficiarios de la cadena de suministro de IA. A pesar del fuerte desempeño del sector, estas acciones han tenido un rendimiento relativamente atrasado este año. El analista Stacy Rasgon las describe como "absurdamente baratas", señalando que NVDA cotiza a un P/E de 25x para 2027 frente al 34x del sector, y que AVGO tiene un camino claro hacia los 100.000 millones de dólares en ingresos relacionados con la IA para 2030. **AMD** fue actualizada a "Outperform" debido a su oportunidad dual en GPU para IA y CPU. Por el contrario, **QCOM** mantiene una calificación "Market-Perform" debido a la debilidad persistente en el mercado de smartphones, que presiona su negocio principal. Los fabricantes de equipos semiconductores (como AMAT, LRCX, KLAC) siguen siendo favorecidos ("Outperform") por la fuerte demanda de construcción de capacidad. Sin embargo, Bernstein es cauteloso con los chips analógicos (ADI, TXN, calificación "Market-Perform"), cuyas valoraciones parecen elevadas. El informe advierte sobre dos riesgos clave: 1) La **congestión** del sector está en niveles históricamente altos. 2) Los niveles de **inventario** siguen siendo elevados, lo que podría generar presión si la demanda flaquea. La conclusión es que, en este entorno, la selección de acciones individuales es más crucial que nunca.

marsbitHace 1 hora(s)

Interpretación de Informe de Investigación: El Sector Semiconductores Subió un 155%, Bernstein Dice que NVDA y AVGO Siguen "Absurdamente Baratas"

marsbitHace 1 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar MIRA

¡Bienvenido a HTX.com! Hemos hecho que comprar Mira (MIRA) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Mira (MIRA) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Mira (MIRA)Después de comprar tu Mira (MIRA), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Mira (MIRA)Tradear fácilmente con Mira (MIRA) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

231 Vistas totalesPublicado en 2025.09.25Actualizado en 2026.06.02

Cómo comprar MIRA

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de MIRA (MIRA).

活动图片