"El mundo es todo lo que es el caso."
En 1921, Ludwig Wittgenstein escribió esta famosa frase en su "Tractatus Logico-Philosophicus". Un siglo después, esta frase fue citada por Fei-Fei Li, una de las líderes de la IA, como apertura de su más reciente blog técnico.
En el panorama del aprendizaje profundo, en los últimos tres años nos hemos acostumbrado al impacto de la IA en la reducción de dimensionalidad del lenguaje, comenzando con ChatGPT que dotó a las máquinas de capacidades de expresión, programación y razonamiento muy superiores a las humanas.
Sin embargo, detrás del milagro digital, a menudo se pasa por alto un punto ciego: las máquinas pueden hablar sobre el mundo, pero no saben nada sobre la esencia física del mundo. Este blog publicado por Fei-Fei Li es como un momento de reflexión.
Hoy en día, cuando la IA generativa se ha convertido en una herramienta global indispensable, la definición interna de la industria sobre "modelo del mundo" se está volviendo cada vez más confusa. Ya sea en la generación de video o en la inteligencia encarnada, diversas empresas compiten por la interpretación de este concepto.
Después de que Fei-Fei Li publicara este blog, muchos pensaron que ella intentaba recuperar la definición de "modelo del mundo". Pero por el contrario, creo que lo que Fei-Fei Li realmente quiere hacer es utilizar esto para emitir un manifiesto a las personas: El mundo no está compuesto por lenguaje, sino por leyes físicas espaciales y temporales estrictas.
Para que las máquinas realmente entren en el mundo físico humano, deben salir de la zona de confort de las estadísticas de texto y comenzar a comprender la refracción de la luz, la inercia de los objetos y la lógica de las colisiones. Esto no es solo un cambio de paradigma técnico, sino también el camino inevitable para que la IA avance hacia la inteligencia encarnada.
01
La necesidad de una taxonomía
Debe admitirse que, en el diccionario de la IA, "modelo del mundo" se ha convertido en un pronombre universal; cualquier proyecto que involucre la generación de imágenes o la simulación de entornos parece poder relacionarse con él. Y esta ambigüedad proviene precisamente de las necesidades multidimensionales de las personas para definir el "mundo".
Cuando una tecnología acaba de comenzar, naturalmente no hay leyes uniformes que la restrinjan a límites claros. Esta confusión en la definición de "modelo del mundo" tampoco es rara en la historia. Cuando los filósofos griegos antiguos debatían si la esencia del mundo era el agua, el fuego o átomos indivisibles, en realidad estaban buscando una piedra angular para su razonamiento.
El campo de la IA enfrenta ahora el mismo problema: Cuando un modelo de generación de video produce resultados visualmente extremadamente realistas pero completamente imposibles según las leyes físicas, ¿cómo debe definirse? El blog de Fei-Fei Li menciona una base de definición antigua y sólida: el proceso de decisión de Markov parcialmente observable (POMDP).
Este es también el axioma central del mecanismo de aprendizaje por refuerzo, que revela el ciclo eterno de interacción de un agente inteligente con el mundo físico: el agente toma una acción (Action), lo que provoca un cambio en el estado (State) del mundo. Sin embargo, el agente no tiene una visión de Dios, solo puede construir una percepción local de la realidad a través de la observación (Observation).
El llamado modelo del mundo es esencialmente el modelo abstracto del mundo que la máquina construye en su "cerebro" para sobrevivir en este ciclo cerrado. Si algún eslabón de este ciclo no está claramente definido, entonces el llamado modelo del mundo sigue siendo una acumulación ciega de píxeles.
02
Los tres pilares para construir la inteligencia
Este ciclo cerrado suena simple, la función de cada eslabón es fácil de entender. Sin embargo, si se analiza en detalle, dentro hay innumerables detalles con definiciones borrosas. Para explicar esta confusión, Fei-Fei Li desglosa los tres componentes centrales de un modelo del mundo, que son tanto una clasificación técnica como los tres pilares para que la IA llegue a la inteligencia encarnada.
1. Renderizador (Renderer)
La lógica central del renderizador es la plausibilidad visual. Su salida son píxeles, dedicados a hacer que la imagen parezca natural, coherente y estéticamente agradable al ojo humano.
Este es también el campo comercialmente más maduro en la actualidad. Modelos de generación de video como Sora de OpenAI y Seedance 2.0 de ByteDance, y modelos de generación de imágenes como GPT-image-2 de OpenAI y Nano Banana 2 de Google, son esencialmente las máquinas de probabilidad visual más precisas actualmente. Al aprender de miles de millones de imágenes y videos de Internet, finalmente dominan la distribución de la luz, la sombra y las formas.
Aunque la realidad parece prometedora, Fei-Fei Li señala que esto tiene un costo. Estos modelos de primer nivel pueden generar edificios espléndidos, pero si se intenta interactuar dentro de sus estructuras físicas generadas, el edificio probablemente colapsará instantáneamente debido a la falta de estructura de soporte. En otras palabras, no comprenden qué es "soportar", y solo generan lo que el espectador "ve", no cómo el mundo "existe".
2. Simulador (Simulator)
Lo que busca el simulador es precisamente la fidelidad estructural que le falta al renderizador. No le importa en absoluto si el video es agradable a la vista; su única preocupación es si el mundo sigue las leyes físicas. Cuando un simulador genera un vaso común, también debe incluir la distribución de masa del vaso, el coeficiente de fricción del material, la respuesta a la gravedad y los límites físicos en caso de colisión.
Con un simulador, el contenido del video puede tener veracidad. Sin embargo, el simulador no solo está subestimado en la actual ola de IA, sino que a menudo se ignora por completo.
Desde el caso de este vaso, la existencia del simulador convierte "discutir arte" en "estudiar física". Construir un simulador que cumpla estrictamente con las leyes físicas requiere recursos computacionales y costos de anotación inimaginables. Pero para un robot, la belleza visual es casi un atributo inútil; la precisión física lo determina todo.
Si el simulador no es lo suficientemente preciso, los robots entrenados en él nunca podrán entrar en el mundo real. El desafío Sim-to-Real existe objetivamente; una acción de prueba pasada al 100% en el laboratorio, en el mundo real, una pequeña fricción puede paralizar completamente al robot. Esto es lo que a menudo llamamos la "Paradoja de Moravec".
3. Planificador (Planner)
El planificador se encarga de la salida de acciones. Como punto de conexión entre la percepción y la retroalimentación, necesita resolver el problema central de "qué hacer a continuación", que nunca tiene una respuesta estándar. En el marco de Fei-Fei Li, este es también el último eslabón del ciclo completo "percepción-acción" y simultáneamente el campo más desafiante y de vanguardia.
Todos los modelos actuales de Visión-Lenguaje-Acción (VLA) intentan que el sistema tome decisiones en un mundo complejo no estructurado. El planificador no solo predice el futuro, sino que elige, entre innumerables posibilidades, el camino que mejor logre el objetivo. Es la clave para que la máquina evolucione de "observadora" a "practicante".
03
El eje de cientos de miles de millones de dólares
En las tres categorías dadas por Fei-Fei Li, los modelos correspondientes al renderizador y al planificador ya son relativamente comunes; el simulador restante, por supuesto, se convierte en el eslabón más difícil de lograr. Fei-Fei Li también ofrece un juicio muy perspicaz: El simulador es el nexo que conecta la renderización con la planificación, y también el eje central de todo el sistema.
En el campo del simulador, el que lo hace de manera más sobresaliente no es OpenAI, Anthropic o Google, sino NVIDIA de Jensen Huang.
Omniverse de NVIDIA afirma poder sustentar el sueño de los gemelos digitales a escala de billones, la razón es que capta la esencia del simulador. En la plataforma de NVIDIA, las operaciones de fábricas, cadenas de suministro y almacenes se han convertido en imágenes digitales completas. Para la industria, esto ya no es una demostración visual de demo, sino la infraestructura central de la productividad.
Esto no es una exageración, sino una oportunidad de mercado de billones de dólares frente a todos.
Desde la visualización virtual en ingeniería de construcción, hasta la simulación de dinámica molecular en la industria farmacéutica, pasando por las pruebas de escenarios de conducción autónoma. Lo que a estas industrias les falta no son modelos de generación de imágenes y videos vívidamente realistas, sino un simulador de alta fidelidad. Sin exagerar, dominar la capacidad de simular el mundo físico equivale a tener el pase de acceso prioritario a la industrialización de la IA.
Pero las dificultades en la realidad hacen que casi no existan optimistas tecnológicos en este campo. Fei-Fei Li también admite que siempre existe una gran brecha.
Primero está el problema de los datos de inteligencia encarnada que hemos mencionado repetidamente. Los datos de video en Internet son innumerables, pero los datos 3D con anotaciones claras de estructura geométrica, propiedades de materiales y retroalimentación física son extremadamente escasos.
En segundo lugar, la aplicación de IA generativa siempre vendrá acompañada de riesgos ocultos. Los modelos geométricos generados por IA solo pueden lograr la perfección visual, pero a menudo son irrazonables en términos de estructura física, como la intersección entre una taza y una mesa, o la pérdida de sensación de volumen en colisiones de objetos. En términos humanos, dos simples palabras, "clipping" (atravesar modelos), pueden resumir estos fenómenos extraños, pero en aplicaciones industriales reales, esto significa un desastre.
04
Hacia un Modelo del Mundo Unificado
A pesar de las dificultades, Fei-Fei Li ofrece una predicción positiva sobre la tendencia de la industria: Los límites entre renderización, simulación y planificación se están volviendo cada vez más borrosos.
Esta no es una visión futura ideal, sino una realidad que ya está ocurriendo. El equipo World Labs de Fei-Fei Li, tras su exploración, cree que la humanidad ya está avanzando hacia un modelo base unificado. En esta arquitectura, la imaginación y la lógica pueden fusionarse en una.
Los modelos futuros ya no serán una superposición y ensamblaje de funciones únicas, sino una base de red neuronal unificada. Podrá, por un lado, renderizar escenas realistas a través de splatting gaussiano, y por otro, generar en tiempo real las mallas de colisión requeridas por el motor físico. En términos simples, el modelo base unificado logrará un cambio perfecto entre el modo visual requerido por los humanos y el modo de estado requerido por el motor físico.
Desde otra perspectiva, los modelos tradicionales son estáticos, mientras que los futuros modelos del mundo tendrán una interactividad más poderosa. El renderizador ya no será un generador de video pasivo, y gradualmente comenzará a aceptar instrucciones de acción; el simulador se volverá más editable y controlable; el planificador también podrá pensar lógicamente y ajustar automáticamente las estrategias según los cambios del entorno.
05
El largo arco de la inteligencia espacial
Finalmente, volviendo al nivel macro, ¿por qué es importante todo esto sobre los "modelos del mundo"?
En opinión de Fei-Fei Li, la investigación en IA de las últimas décadas ha estado buscando la llave que permita a las máquinas entrar en el mundo físico. Hoy, ya tenemos modelos de lenguaje buenos para manejar la lógica; lo siguiente que necesitamos son modelos para manejar el espacio. El núcleo de la inteligencia espacial radica en cómo la máquina interactúa con el mundo físico en el que se encuentra.
Esta batalla no se trata de quién tiene más poder de cálculo, sino de quién puede definir el estándar digital del mundo físico.
El modelo del mundo no es en absoluto una simple optimización algorítmica, sino una proeza en la evolución de la IA.
"El lenguaje le da a la máquina la capacidad de hablar sobre este mundo, mientras que el modelo del mundo es la forma en que la máquina finalmente comprende, imagina, razona e interactúa con el mundo físico."
Cada persona de esta época está pasando de la etapa de hablar sobre el mundo a una nueva era de realmente comprender y reconstruir el mundo.
Aun así, el modelo del mundo es solo un punto intermedio en el camino hacia la AGI, y la IA creada por los humanos todavía está lejos de un "modelo del mundo" en el sentido verdadero. Aquí, vale la pena compartir la opinión ligeramente sesgada de otro líder en modelos del mundo, Yann LeCun:
De manera optimista, al menos faltan entre cinco y diez años para que la inteligencia de las máquinas se acerque apenas a la de un cachorro.
Este artículo proviene del WeChat Official Account "Silicon-Based Starry Light", autor: Si Qi







