Artículo | Nuevos Ojos, Autor | Lu Yao
Últimamente hay un término que está muy de moda en los círculos: "AI Físico".
En realidad, este término fue mencionado más de diez veces por Jensen Huang en su discurso en la feria CES de Las Vegas a principios del año pasado, pero no fue hasta este año que "Physical AI" tuvo una explosión de verdadero significado.
Entonces, ¿qué es exactamente el "AI Físico"?
Hace un par de días vi un video de un robot regando flores. El robot primero se acerca al grifo, lo abre, llena la regadera, luego se da la vuelta, va hacia la maceta, ajusta el ángulo y riega el agua de manera uniforme. El pico de la regadera no choca contra el borde de la maceta, y el agua no se derrama.
Para que una máquina entienda "sostener un vaso de agua", necesita saber que el vaso es cilíndrico, calcular la fuerza precisa para agarrarlo sin que se resbale o se rompa, entender que el agua es un líquido que se derrama si se agita, y ajustar en tiempo real el ángulo del brazo durante el movimiento para compensar las fluctuaciones del cuerpo.
Estas cosas, un niño humano de tres años las hace por instinto. Pero para la IA, es un salto enorme. En la última década, la IA aprendió a ver, a oír, a hablar, a dibujar, pero siempre estuvo atrapada dentro de una pantalla. Lo que el AI Físico pretende hacer es colocar ese cerebro inteligente dentro de un cuerpo capaz de correr, saltar, agarrar y soltar en el mundo real.
En pocas palabras, el AI Físico es hacer que la IA comprenda y actúe sobre el mundo físico. Ya no se trata solo de procesar texto e imágenes, sino de realizar acciones correctas en un entorno donde la gravedad, la fricción y la inercia están presentes.
Un hecho poco discutido en el ámbito nacional es que el término "Physical AI" no provino del departamento de relaciones públicas de un gigante de chips. Este concepto apareció por primera vez en un artículo de 2020 publicado en "Nature Machine Intelligence". El artículo definió sistemáticamente el Physical AI por primera vez:
Un sistema físico capaz de ejecutar tareas normalmente asociadas con organismos inteligentes, cuyo núcleo radica en integrar profundamente las leyes físicas en el sistema de inteligencia artificial, de modo que la máquina deje de ser "ciega a la física" y pueda completar el ciclo cerrado desde la percepción hasta la acción.
Desde el disparo inicial en los círculos académicos en 2020 hasta que la industria lo adoptó plenamente en 2026, pasaron seis años completos. En estos seis años, el costo de los sensores se redujo varios órdenes de magnitud, la potencia de cálculo de IA en el dispositivo pasó de la teoría a la ingeniería, y la fiabilidad y capacidad de producción en masa de los cuerpos de los robots alcanzaron silenciosamente un punto de inflexión; estas son las fuerzas impulsoras ocultas que llevaron al AI Físico del papel a la línea de producción.
De la Demostración al Trabajo
Si los modelos de lenguaje grandes de 2023 le enseñaron a la IA a conversar, la palabra clave del AI Físico en 2026 es solo una: trabajar.
El cambio es evidente.
Por estas fechas el año pasado, la forma en que las empresas de robótica mostraban sus avances era grabando videos de demostración, configurando escenarios, ensayando repetidamente y filmando en una sola toma. Era impresionante, pero no sabías cuántas veces lo habían grabado.
Este año, la dinámica es completamente diferente. Este año, la empresa de robótica Zhiyuan hizo algo en una línea de producción de 3C en Nanchang: pusieron un robot en una fábrica real para que trabajara de manera continua durante horas, transmitido en vivo. Sin guion predeterminado, sin escenarios limitados, simplemente la línea de producción que los trabajadores enfrentan a diario. Decenas de miles de personas lo vieron en línea.
Un mes después, Zhiyuan anunció en Hong Kong la producción en masa de diez mil unidades de robots humanoides. Pasar de un prototipo en el laboratorio a diez mil unidades en la línea de producción cambia la naturaleza del asunto.
El enfoque de Zhiyuan es interesante. La mayoría de las empresas emergentes de robótica se centran en un eslabón específico: algunas solo en el cuerpo, otras solo en modelos grandes, otras solo en manos hábiles. Zhiyuan eligió otro camino: hacerlo todo, desarrollando simultáneamente la fabricación del cuerpo, los modelos de IA, la manipulación hábil y la recopilación de datos, además de invertir en más de 60 empresas de la cadena de suministro.
El costo de este enfoque es evidente: la empresa matriz tiene más de mil empleados, y se espera que para fin de año esta cifra aumente aún más, solo en salarios representa entre diez y veinte mil millones anuales. Este camino consume mucho dinero, pero una vez que funcione, las barreras de entrada serán las más altas.
El fundador de Zhiyuan, Deng Taihua, mencionó un marco analítico llamado "Curva XYZ". Dijo que el desarrollo de la inteligencia encarnada se divide en tres etapas: X es el período de desarrollo y experimentación, donde todavía se hacen demostraciones; Y es el período de despliegue y crecimiento, donde los robots comienzan a trabajar realmente en las líneas de producción; Z es la etapa final de surgimiento de la inteligencia.
Él calificó a 2026 como: "El año inicial del estado de despliegue, pasando oficialmente de 'poder moverse' a 'saber trabajar'." "Poder moverse" y "saber trabajar" difieren en una palabra, pero esa diferencia marca la mayoría de edad de toda la industria.
En el extranjero también se está avanzando a toda velocidad. Al otro lado del Pacífico, el ritmo no es más lento.
Figure AI, una empresa estadounidense de robots humanoides, es un nombre que no se puede ignorar en esta carrera. En septiembre del año pasado, completaron una ronda de financiación de más de 10 mil millones de dólares, alcanzando una valoración de 39 mil millones de dólares, lo que en ese momento la convertía en la empresa de robots humanoides con mayor valoración del mundo.
Un mes después, presentaron su nuevo producto, Figure 03, con una altura de 1,68 metros y un peso de unos 60 kilogramos, demostrando tareas domésticas como regar flores, servir comida y doblar ropa. El fundador, Brett Adcock, enfatizó en las redes sociales: "Todas las acciones las realizó el robot de forma autónoma, nadie lo controlaba por detrás".
Tecnológicamente, vale la pena señalar que Figure hizo un ajuste importante en su estrategia: terminó la colaboración con OpenAI y se orientó completamente hacia su propio sistema de redes neuronales, Helix.
Este sistema imita la cognición humana con una estructura de tres capas: la capa más baja maneja el equilibrio y las reacciones instintivas, la capa intermedia traduce las órdenes del cerebro en control del motor 200 veces por segundo, y la capa superior es el cerebro lógico, responsable de comprender la escena y tomar decisiones. Esta arquitectura de tres capas "instinto-reflexión-pensamiento" es bastante ingeniosa, equivalente a dotar al robot de un sistema nervioso que no se bloquea.
Otro punto digno de mención. Este año, en la conferencia GTC, NVIDIA anunció una iniciativa: estableció una colaboración profunda con los cuatro gigantes globales de la robótica industrial: ABB, KUKA, Yaskawa y Fanuc. Los más de 2 millones de robots industriales ya instalados en líneas de producción en todo el mundo podrán ser sometidos a pruebas virtuales y entrenamiento de IA a través de la plataforma de simulación de NVIDIA.
Estas cuatro empresas representan más de la mitad del mercado mundial de robots industriales. En la próxima década, estos robots enfrentarán una actualización de "programación tradicional" a "impulsada por IA". La plataforma de software que se integre en este proceso equivaldrá a obtener la capa del "sistema operativo" de la próxima generación de automatización industrial. Claramente, NVIDIA no quiere perderse este boleto.
La Cadena de Suministro se Adelanta Cruzando Límites
Otro fenómeno interesante: las empresas de la cadena de suministro automotriz están entrando en masa en el campo del AI Físico.
En el Salón del Automóvil de Beijing de este año, proveedores automotrices tradicionales como Aptiv, Valeo, Horizon Robotics y Qianxun Spatial Intelligence mostraron soluciones relacionadas con robots. En ese momento, muchos expertos de la industria se dieron cuenta de que la percepción de la inteligencia encarnada y la percepción de la conducción autónoma de los automóviles son iguales; las soluciones automotrices pueden aplicarse directamente a los robots humanoides.
Al pensarlo detenidamente, tiene sentido. El sistema de conducción autónoma de un automóvil es esencialmente un ciclo cerrado de percepción-decisión-ejecución de un "robot móvil", donde los tres módulos principales - percepción visual, planificación de rutas y control en tiempo real - son altamente similares en arquitectura tecnológica a los robots industriales y humanoides tradicionales.
Las cámaras, radares, chasis de control por cable y sistemas operativos en tiempo real que poseen los proveedores automotrices pueden adaptarse ligeramente y transferirse al campo de la robótica. En este sentido, los cientos de miles de millones invertidos en I+D por la industria automotriz en la última década en inteligencia, están fluyendo hacia el campo del AI Físico a través del "efecto derrame tecnológico".
Esto quizás explique por qué las empresas de robótica chinas pueden avanzar tan rápidamente hacia la etapa de producción en masa. La capacidad de fabricación y la gestión de la cadena de suministro no surgen de la nada; mucho ya existe. Los proveedores de componentes que han estado trabajando en líneas de producción automotriz durante más de una década ahora tienen un nuevo campo de batalla.
Hay ejemplos listos en el extranjero. Tomemos a Tesla, por ejemplo. Su primera generación de robot humanoide, Optimus, también está acelerando su entrada. Anteriormente, Tesla anunció claramente en la conferencia de resultados del primer trimestre de 2026 que la empresa se transformaría hacia "un futuro centrado en la IA, los taxis autónomos y los robots humanoides", que la primera línea de producción de robots tendría una capacidad de un millón de unidades, y que reemplazaría las líneas de producción existentes del Model S y Model X.
La cifra de un millón de unidades puede parecer exagerada en el contexto actual, pero la lógica de Tesla es clara: quiere replicar directamente la experiencia en capacidad de producción a gran escala y gestión de la cadena de suministro acumulada en la fabricación de automóviles en el campo de los robots humanoides.
Lo que Musk busca no es un "robot que se mueva", sino una "herramienta de producción en masa" capaz de trabajar en coordinación con humanos en una fábrica. Una vez que este camino funcione, su impacto en el panorama de la automatización manufacturera no será menor que el impacto del Model 3 en el mercado de los vehículos de combustión.
Modelos del Mundo: ¿Por Qué De Repente Son Utilizables Este Año?
Después de revisar las acciones de las grandes empresas a nivel industrial, profundicemos un poco más: ¿cuál es la base tecnológica de esta competencia del AI Físico?
Si tuviera que resumirlo en una frase, sería: el avance en la ingeniería de los Modelos del Mundo. Creo que este es también el punto clave para entender esta ola.
El concepto de "Modelo del Mundo" no es nuevo; se propuso en 2018. La idea central es simple: hacer que la IA aprenda una comprensión interna de las leyes que rigen el mundo físico, para que pueda predecir "qué pasará si empujo este vaso". Pero antes, esto básicamente solo existía en los artículos académicos: consumía demasiada potencia de cálculo, la calidad de la generación era inestable y no podía hacer interacciones en tiempo real.
El punto de inflexión ocurrió en el último año. NVIDIA lanzó una serie de modelos llamada Cosmos, cuya capacidad central es generar datos de movimiento que se ajusten a las leyes físicas a partir de texto o imágenes.
Por ejemplo: si quieres entrenar a un robot para que aprenda a mover cajas en diferentes condiciones climáticas, no necesitas filmar videos reales en fábricas bajo lluvia, nieve o de noche. Configurando parámetros en un entorno de simulación, Cosmos puede generar directamente cantidades masivas de datos de entrenamiento altamente realistas, cubriendo varios escenarios extremos.
A principios de este año, el equipo Lingbo de Ant Group hizo público un framework llamado LingBot-World, especializado en modelos del mundo interactivos. Puede lograr una generación de video estable y continua durante casi 10 minutos, con una latencia de interacción extremo a extremo controlada en unidades de segundos. Los usuarios pueden controlar personajes virtuales en tiempo real con teclado y ratón como en un videojuego, y el modelo responde instantáneamente a los cambios de escena. La importancia radica en que los modelos del mundo pasaron de "renderizado offline" a "interacción online", elevando la eficiencia del entrenamiento un orden de magnitud.
Otra startup, Gigavision, lanzó la plataforma GigaWorld-1, posicionada como la "caja de arena digital" del mundo físico. Un mes después, ABot-PhysWorld de Alibaba la superó en un benchmark de evaluación llamado WorldArena, alcanzando el primer lugar en la clasificación general. La competencia avanza mes a mes.
La importancia de estos proyectos de código abierto no radica en cuán altos son sus parámetros, sino en que convierten un juego que "solo los gigantes pueden jugar" en una herramienta que "incluso los equipos pequeños pueden usar". Cuando hay suficientes personas creando las ruedas, habrá más vehículos que realmente funcionen.
La razón por la que los modelos del mundo se han convertido en un componente central en la era del AI Físico es porque responden a una pregunta que siempre ha estado pendiente: ¿cómo hacer que los robots aprendan las complejas leyes del mundo físico de manera eficiente y a bajo costo?
Obtener datos de entrenamiento del mundo real tiene un costo extremadamente alto y presenta sesgos de distribución naturales; es difícil reunir en la realidad todos los escenarios extremos, como un turno nocturno en una fábrica durante una tormenta de nieve, una emergencia por corte de energía en un almacén logístico o la intervención repentina de un trabajador en la línea. Pero los datos sintéticos pueden hacerlo. Al manipular parámetros del escenario con prompts en un entorno de simulación, los investigadores pueden generar a gran escala, en cuestión de horas, videos de entrenamiento que cubran condiciones extremas, algo que bajo el enfoque tradicional de captura real requeriría meses o incluso años.
El efecto palanca de este avance podría superar cualquier mejora algorítmica individual.
El Paradigma Ha Cambiado
El avance en los modelos del mundo es solo una parte de la evolución de la pila tecnológica del AI Físico. Los cambios en la tecnología base están impulsando una reconstrucción de la arquitectura de toda la industria robótica.
Los robots tradicionales utilizaban un enfoque de tres etapas: "percepción, planificación, control". Primero, los sensores perciben el entorno; luego, los ingenieros escriben reglas que le dicen a la máquina cómo planificar la ruta; finalmente, ejecuta la acción. Esto funciona bien en entornos estructurados como las líneas de ensamblaje de las fábricas, pero cuando la escena se vuelve compleja, las deficiencias salen a la luz: la máquina solo sigue el guion predeterminado y se atasca cuando encuentra una situación no vista antes.
El AI Físico sigue otro camino: "percepción, razonamiento, ejecución". Después de percibir, no pasa por reglas rígidas escritas por humanos, sino que una red neuronal entrenada razona por sí misma qué hacer y luego lo ejecuta. La diferencia esencial radica en que el primero es "el ingeniero piensa por la máquina", mientras que el segundo es "la máquina comprende el mundo físico por sí misma".
La Organización Internacional de Normalización en Robótica publicó este año una hoja de ruta tecnológica, prediciendo que en los próximos tres años, el 80% de los nuevos modelos adoptarán esta nueva arquitectura, y que el esquema tradicional de tres etapas se irá retirando gradualmente de la corriente principal. Esto no es un ajuste menor; es un cambio de paradigma completo.
Como dijo cierto experto de la industria, creo que resume bastante bien: "El AI Físico es el modo final del desarrollo de la IA, porque no solo necesita comprender las instrucciones humanas, sino también todas las leyes del mundo físico."
Jensen Huang dijo que el "momento ChatGPT" del desarrollo de robots ya ha llegado. En mi opinión, el "momento" del AI Físico y el de los modelos de lenguaje es completamente diferente en naturaleza. El "momento" de los modelos de lenguaje fue que, por primera vez, la gente común en todo el mundo pudo usar la IA con sus propias manos. Y el "momento" del AI Físico es que la IA, por primera vez, realmente comienza a trabajar.
Actualmente, este campo se encuentra en una etapa muy particular: la dirección está definida, el concepto es aceptado, pero el panorama aún no está establecido.
Por un lado, hacer demostraciones y hacer producción en masa son dos sistemas de capacidades completamente diferentes. Que un prototipo funcione, y que diez mil productos funcionen en escenarios reales, pone a prueba la consistencia de fabricación, la resiliencia de la cadena de suministro, la capacidad de generalización de escenarios y el sistema de mantenimiento; nada de esto tiene que ver con los algoritmos de IA, pero cada aspecto es suficiente para detener a varios jugadores. Por otro lado, el costo de recopilar datos del mundo real es alto, el ciclo es largo y la cobertura es limitada, lo que casi garantiza que el entrenamiento a gran escala del AI Físico dependerá en gran medida de datos sintéticos.
Al mismo tiempo, desde la cadena de suministro automotriz y la automatización industrial tradicional, hasta la fabricación por contrato de electrónica de consumo, industrias que aparentemente no tienen mucha relación con la "IA", están entrando aceleradamente en el AI Físico a través del efecto derrame tecnológico. Su capacidad de fabricación, experiencia en gestión de la cadena de suministro y recursos de escenarios podrían ser variables clave que determinen la velocidad de implementación del AI Físico.
Un juicio intuitivo es que, si observamos la ola de IA desencadenada por ChatGPT a principios de 2023, quienes realmente obtuvieron la mayor parte del valor no fueron los proveedores de modelos, sino los proveedores de infraestructura. ¿Se repetirá la misma dinámica en esta ola del AI Físico?
La estrategia de NVIDIA sugiere que están apostando por esta dirección, pero la historia aún no está escrita. 2026 es el año inicial del estado de despliegue, la competencia industrial acaba de comenzar. Dentro de tres años, al mirar hacia atrás, qué nombres aún estarán en la mesa de juego y cuáles ya habrán sido eliminados, podría sorprender a la mayoría.






