En el mercado actual de inversión y emprendimiento, "modelos del mundo" es sin duda una de las palabras de moda. Casi a diario vemos nuevas empresas de "modelos del mundo" que completan rondas de financiación, con valoraciones creciendo rápidamente y listas de accionistas impresionantes. Además, en los comunicados de prensa de estas noticias de financiación, la gente insiste en recalcar un hecho: un agente superinteligente competente no debería obtener sus capacidades únicamente a través del entrenamiento con datos, sino que debe comprender activamente el mundo físico, como lo hace un ser humano.
Pero, después de emprender, Pete Florence escribió una larga carta abierta que comienza diciendo: "No etiqueten a mi empresa como un modelo del mundo."
Esto es realmente darle la vuelta a todo. Porque Pete Florence no es simplemente un "emprendedor". Antes de emprender, Pete Florence trabajó en el equipo de Google DeepMind, ascendiendo desde investigador común hasta científico investigador senior. El modelo de control robótico Gemini Robotics lanzado por DeepMind en 2025 fue uno de los desarrollos centrales de Pete Florence. Sin embargo, su logro más influyente durante este período fue, junto a sus colegas en 2023, presentar al mundo una nueva arquitectura de modelo robótico: "Vision-Language-Action Models" (Modelos de Visión-Lenguaje-Acción).
(Pete Florence, Fuente: Redes sociales)
Así es, si los "modelos del mundo" o los "VLA" son actualmente la dirección más vanguardista y consensuada, entonces Pete Florence es, sin duda, uno de los pioneros en este camino. Que una persona así rechace abiertamente la etiqueta de "modelo del mundo" es verdaderamente impactante.
Y ahora, el impacto se ha duplicado. Recientemente, la empresa de inteligencia corporeizada (embodied AI) fundada por Pete Florence, Generalist AI, completó una nueva ronda de financiación por un total de 4000 millones de dólares (aproximadamente 2700 millones de RMB), con una valoración de 20.000 millones de dólares (aproximadamente 135.500 millones de RMB). Los inversores de esta ronda incluyen NVentures de NVIDIA, el destacado ángel inversionista Nat Friedman y Daniel Gross, que gestionan conjuntamente NFDG, la oficina familiar de Jeff Bezos, Bezos Expeditions, así como el cofundador de Xiaomi, Lin Bin, el fundador de Zoom, Eric Yuan, y la científica más representativa en el campo de los modelos del mundo, Li Feifei.
El "objetivo" es más importante que la "etiqueta"
¿Por qué Pete Florence, siendo uno de los principales arquitectos de los modelos del mundo, rechaza tan vehementemente la etiqueta de "modelo del mundo"? ¿Por qué Li Feifei, como la académica más representativa en este campo, apoya con dinero real a un "hereje" tan públicamente heterodoxo? Quizás la historia deba comenzar en 2019.
En ese entonces, Pete Florence estaba cursando su doctorado en Ciencias de la Computación en el MIT, enfocándose principalmente en áreas como manipulación robótica, visión por computadora y procesamiento del lenguaje natural. Desde esta perspectiva, Pete Florence es "pura sangre": su área de investigación es ortodoxa y su formación académica también es ortodoxa, no es un "aventurero" que necesite depender de la "excentricidad" para conseguir recursos. El problema es que el MIT le asignó un tutor llamado Russ Tedrake.
¿Quién es Russ Tedrake? En primer lugar, sin duda es una eminencia académica. En 2019, era profesor de Ingeniería Eléctrica y Ciencias de la Computación en el MIT y director del Centro de Robótica del Laboratorio de Ciencias de la Computación e Inteligencia Artificial. Cada año, para el famoso DARPA Robotics Challenge, también dirigía al equipo del MIT. Fuera de la universidad, también era vicepresidente del Centro de Investigación en Robótica del Toyota Research Institute. Se puede decir que Russ Tedrake es uno de los académicos más destacados en el campo de la robótica, con recursos suficientes para ayudar al joven Pete Florence a cumplir sus sueños académicos.
Sin embargo, en la autopercepción de Russ Tedrake, lo que le fascina no es el código de programación, sino la "física". En una autobiografía, Russ Tedrake recuerda que su incursión en la informática comenzó cuando, mientras investigaba sobre "robots bípedos", vio "ricas características dinámicas" que despertaron su gran interés en el "control de la dinámica de fluidos complejos". Por lo tanto, a diferencia de otros investigadores que comienzan estudiando cómo hacer que un robot recoja una manzana o haga la cama, sus primeros temas de investigación fueron cómo controlar "aeronaves en pérdida o aeronaves de aleteo" y cómo "atravesar obstáculos densos a alta velocidad".
Este trasfondo hace que Russ Tedrake otorgue gran importancia a "comprender el mundo físico". La página web del MIT describe así las características académicas de Russ Tedrake: "La investigación de este profesor se centra en encontrar soluciones de control elegantes para sistemas dinámicos interesantes (subactuados, estocásticos y/o difíciles de modelar), y en poder construir estos sistemas para su validación experimental. Se enfoca especialmente en la conexión entre la mecánica (particularmente la mecánica no suave) y la teoría del aprendizaje automático/optimización, para lograr diseños de control robustos para sistemas mecánicos complejos."
Influenciado por este entorno, Pete Florence también se convirtió en un "físico" dentro de las ciencias de la computación. Por ejemplo, su logro académico más representativo durante el doctorado fue un artículo titulado "Self-Supervised Correspondence in Visual-Motor Policy Learning". Este artículo propone que encontraron un método que, a través del aprendizaje por imitación, permite que un robot complete tareas de manipulación desafiantes con solo 50 demostraciones, además de generalizar a diferentes categorías de objetos y adaptarse a configuraciones de objetos deformables. Este artículo recibió el Premio al Mejor Artículo 2020 de la IEEE (Instituto de Ingenieros Eléctricos y Electrónicos) en el área de Robótica y Automatización.
Por supuesto, pertenecer a una "corriente" no es lo importante; lo crucial es que, bajo esta influencia, Pete Florence desarrolló una forma de pensamiento distinta. Muchos investigadores se acostumbran a las tecnologías existentes, luego experimentan para descubrir sus posibilidades y finalmente determinan sus aplicaciones prácticas. En cambio, Pete Florence cree que el orden correcto debería ser "primero establecer un objetivo concreto" y luego diseñar la ruta tecnológica.
Tras unirse al equipo de Google DeepMind, Pete Florence desarrolló su trabajo precisamente en esta dirección. Su primera obra representativa fue la arquitectura de modelo robótico de primera generación, Transporter Network, lanzada por Google en 2021. En el artículo que presentaba el modelo, Pete Florence señalaba que organizar objetos debería ser una habilidad muy básica, pero para un robot, completar esta acción implica un "razonamiento perceptivo de alto y bajo nivel", que requiere considerar sucesivamente dónde colocar el libro, en qué orden apilarlo, asegurándose al mismo tiempo de que los bordes de los libros queden alineados para formar una pila ordenada.
Transporter Network se creó precisamente con el objetivo de "hacer que acciones simples sean simples", permitiendo que los robots realicen de manera genérica diversas manipulaciones basadas en la visión, con un entrenamiento más rápido y una dependencia menor del entorno de entrenamiento.
El lanzamiento de la arquitectura VLA junto al equipo de DeepMind en 2023 fue también una consecuencia "natural" de esta línea de pensamiento. En ese artículo que inició el auge actual de los modelos del mundo, los autores expresaron su esperanza de que la arquitectura VLA pudiera "mejorar significativamente la capacidad de generalización a nuevos objetos, interpretar instrucciones no presentes en los datos de entrenamiento del robot (por ejemplo, colocar un objeto en un número o icono específico), y realizar razonamientos básicos basados en instrucciones del usuario (por ejemplo, recoger el objeto más pequeño o más grande, o el objeto más cercano a otro)".
Volviendo a la pregunta inicial: ¿Por qué Pete Florence, siendo uno de los principales arquitectos de los modelos del mundo, rechaza tan vehementemente la etiqueta de "modelo del mundo"? La respuesta también es esta: Pete Florence cree que el "objetivo" es más importante que la "etiqueta".
En su opinión, el entusiasmo actual por los modelos del mundo es, en realidad, "impulsado por ideas". Por ejemplo, una parte considerable del entusiasmo puede atribuirse a la excitación del mercado de capitales al encontrar disenso en una tendencia candente. Además, si se quiere realmente impulsar la entrada de robots en nuestro trabajo y vida diaria para crear productividad, construir un "modelo del mundo" claramente no es un objetivo. El verdadero objetivo debería ser que los robots puedan completar con una tasa de éxito y velocidad extremadamente altas todo tipo de tareas nunca antes vistas, sin necesidad de ningún dato específico de la tarea.
Y esta es también la razón por la que Pete Florence decidió dejar Google DeepMind y emprender de forma independiente. En la conferencia GTC de NVIDIA de 2025, Pete Florence apareció por primera vez ante el público como cofundador y CEO de Generalist AI. Dijo: "Estamos decididos a crear robots capaces de hacer cualquier cosa... Imaginen cómo sería si el coste marginal del trabajo físico se redujera a cero."
Una tasa de éxito del 99%
Además de su "heterodoxia" en cuanto a filosofía tecnológica, el camino emprendedor de Pete Florence también parece poco convencional.
En teoría, un emprendedor con tal currículum sería acosado por los capitalistas de riesgo (VC) en el contexto actual. Ejemplos como Yann LeCun, Ilya Sutskever y Mira Murati son prueba de ello: sus empresas completaron rondas semilla de más de 10.000 millones de dólares justo después de su registro (o incluso antes). Sin embargo, Generalist AI de Pete Florence, en su fase inicial, solo aceptó inversiones de un puñado de instituciones como NVIDIA, la oficina familiar de Bezos y NFDG. Si no hubiera sido por el departamento de capital de riesgo de NVIDIA, NVentures, que organizó una "mesa redonda de empresas en cartera" en la GTC 2025, nadie sabría que ya había dejado su trabajo para emprender.
¿Por qué sucedió esto? La respuesta más probable es la elección activa de Pete Florence. Como se mencionó anteriormente, Pete Florence se unió al equipo de Google DeepMind justo después de graduarse, trabajando desde 2019 hasta 2025 sin ninguna otra experiencia laboral intermedia. Es decir, Generalist AI es su primera experiencia emprendedora en la vida, y es completamente necesario ser extremadamente cuidadoso.
De hecho, en su primera aparición pública como emprendedor en la GTC 2025 de NVIDIA, Pete Florence mostró claramente su "cautela". Aparte de decir que estaban construyendo "robots", no reveló ninguna dirección comercial concreta, afirmando directamente que "actualmente seguimos en modo sigiloso".
No fue hasta noviembre de 2025 que la gente vio por primera vez el negocio concreto de Generalist AI. En noviembre de 2025, Generalist AI lanzó su primer modelo de inteligencia corporeizada, GEN-0. En la presentación oficial, Generalist AI indicó que GEN-0 combinaba las ventajas de los modelos de visión y los modelos de lenguaje, logrando simultáneamente ir más allá: Gen-0 es capaz de capturar capacidades de reflejo a nivel humano y el sentido común físico.
En términos simples, puede mejorar continuamente sus capacidades a medida que aumenta la escala del modelo y los datos de entrenamiento, superando los cuellos de botella de los modelos pequeños anteriores; puede pensar y actuar simultáneamente como un humano, reaccionando de forma rápida y natural en entornos físicos reales; se adapta naturalmente a diferentes tipos de robots sin necesidad de modificaciones adicionales; lo más importante, se basa en grandes volúmenes de datos de operación real, dejando de estar limitado por la escasez de datos, y permite ajustar flexiblemente la composición de los datos de entrenamiento. Numerosos medios tecnológicos señalaron que GEN-0 demuestra que las "leyes de escalamiento" matemáticas que impulsan a modelos de lenguaje grandes como ChatGPT también son aplicables al movimiento físico.
Sin embargo, GEN-0 no era perfecto. Por ejemplo, GEN-0 tampoco resolvió el problema de los conjuntos de datos que afecta al campo de la inteligencia corporeizada. Por lo tanto, en abril de 2026, Generalist AI evolucionó rápidamente a una nueva versión: GEN-1.
(La "mano mecánica", Fuente: Redes sociales de Generalist AI)
Para abordar el problema de los datos, Generalist AI desarrolló un dispositivo portátil para capturar movimientos minúsculos e información visual mientras los humanos realizan tareas manuales. Generalist AI afirmó que, durante el desarrollo de GEN-1, recolectaron más de 500.000 horas de "datos de interacción física a nivel de petabytes (PB)" utilizando estas manos mecánicas, para entrenar su modelo físico. Después de un entrenamiento suficiente, Generalist AI indicó que GEN-1 lograba una tasa de éxito del 99% en tareas mecánicas repetitivas pero precisas como doblar cajas de cartón, empaquetar teléfonos y realizar mantenimiento a robots aspiradores, con una velocidad aproximadamente tres veces mayor que la del modelo anterior GEN-0, y necesitando solo alrededor de una hora para alcanzar este objetivo.
Así, Generalist AI anunció con orgullo que el modelo físico de GEN-1 se estaba acercando al punto de inflexión similar al de GPT-3, comenzando a "alcanzar el nivel requerido para su despliegue en entornos comerciales prácticos" en algunas tareas, y que "podemos anticipar que cada nueva generación de modelos traerá una serie de nuevas tareas cada vez más complejas, todas las cuales podrán ser dominadas".
En el blog oficial, Pete Florence señaló que el proceso de desarrollo de GEN-1 era la mejor interpretación de su filosofía tecnológica personal: primero, estableció un objetivo racional, a saber, que los robots pudieran completar con una tasa de éxito y velocidad extremadamente altas todo tipo de tareas nunca antes vistas, sin necesidad de ningún dato específico de la tarea. Luego, basándose en este objetivo, diseñó una ruta de solución que permitía el uso de una pequeña cantidad de datos robóticos para tareas específicas (denominados X), logrando un alto nivel de ejecución en esa tarea, y luego reduciendo continuamente X mientras mejoraba el rendimiento.
Llegados a este punto, también encontramos respuesta a la pregunta planteada anteriormente. Realmente ya no importa si el producto desarrollado por Generalist AI se llama o no "modelo del mundo". Siempre que se observe la industria de la inteligencia corporeizada y se crea que los robots puedan entrar a gran escala en la producción real, entonces Generalist AI es, sin duda, una opción en la que vale la pena invertir. Y, efectivamente, esta ronda de financiación de Generalist AI se concretó rápidamente en los dos meses posteriores al lanzamiento de GEN-1.
Según los informes, los antiguos inversores NVIDIA, la oficina familiar de Bezos (Bezos Expeditions) y NFDG decidieron reinvertir, e incluso incrementar su participación. Además, los nuevos inversores incluyen al cofundador de Xiaomi, Lin Bin, al fundador de Zoom, Eric Yuan, a la científica china Li Feifei, así como a los inversores institucionales Radical Ventures, 8VC, Union Square Ventures, Hanabi Capital y Norwest.
En otras palabras, en junio de 2026, Pete Florence ya no necesita demostrar nada. Como mínimo, todas las grandes promesas que hizo en el pasado —como cuando, recién emprendiendo en 2025, dijo en un podcast: "Un robot generalista no es uno que solo rasgue la superficie en todo, sino que debe ser lo suficientemente profesional en tareas reales como para ser útil"— están en camino de "cumplirse una por una".
Este artículo proviene del WeChat público "投中网" (Touzhongwang), autor: Pu Fan







