Del Código a la Cognición: Una Guía de Diez Mil Palabras sobre la Evolución del Cerebro Robótico

marsbitPublicado a 2026-06-07Actualizado a 2026-06-07

Resumen

Desde el código clásico hasta los modelos que simulan la realidad: así ha evolucionado la inteligencia de los robots. Durante décadas, dependieron de software programado manualmente (percepción, planificación, control) para tareas específicas pero rígidas. La llegada del *deep learning* y el aprendizaje por refuerzo mejoró la percepción y el control, aunque con escasa capacidad de generalización. La aparición de los grandes modelos de lenguaje (LLM) marcó un punto de inflexión, actuando como "compiladores de lenguaje natural" que traducen órdenes en planes de acción ejecutables por sistemas como ROS. Sin embargo, el avance definitivo llegó con los **Modelos Visión-Lenguaje-Acción (VLA)**, que fusionan la percepción visual, la comprensión del lenguaje y la generación de movimientos en una sola red neuronal, permitiendo una adaptación mucho mayor. Los robots más avanzados actualmente utilizan una **arquitectura de doble cerebro**: un sistema lento (S2) para el razonamiento de alto nivel y uno rápido (S1) para el control motor reactivo, a veces con un tercer nivel reflejo (S0) para el equilibrio. Todo el procesamiento crítico se ejecuta localmente en el robot por motivos de seguridad y latencia. El siguiente gran salto son los **Modelos del Mundo**. Estas redes no predicen la siguiente acción, sino las consecuencias físicas de las acciones posibles, permitiendo al robot "imaginar" y evaluar futuros antes de actuar. Esto mejora drásticamente la recuperación ante errores, la pl...

Autor: Matt White, Director de Tecnología Global de IA de Linux Foundation

Compilado por: Felix, PANews

Wang Xingxing (CEO de Unitree) con Matt White

Hace unas semanas, en Shanghai, un amigo con el que viajaba (inteligente, que suele estar al día de las noticias y observa las cosas, pero no conoce mucho la robótica) hizo durante la cena la pregunta que llevaba esperando todo el viaje.

"Esos perros robóticos que vemos por todas partes, los robots humanoides que hacen artes marciales en el escenario de demostración de la oficina de Unitree, los brazos robóticos que vimos doblando ropa. ¿Cómo lo hacen? ¿Son impulsados por grandes modelos de lenguaje (LLM)? ¿Cómo funciona esto exactamente? ¿Hay algún modelo de lenguaje controlando sus movimientos?"

Es una buena pregunta y, para ser sincero: en cierto modo sí, pero la historia real es mucho más interesante. Los robots que ves en las redes sociales no son un ChatGPT con una armadura metálica. Ejecutan una pila tecnológica (múltiples capas de IA trabajando en conjunto). Esta pila ha cambiado más en los últimos tres años que en los treinta anteriores. Los modelos de lenguaje son parte de ella. También lo son los modelos visuales, los modelos de movimiento, los árboles de comportamiento, los bucles de control clásicos y una familia emergente de sistemas llamados "modelos del mundo". Y estos últimos son quizás los más importantes de todos.

Este es un artículo largo. Comenzaremos desde el principio, luego pasaremos por cada cambio importante, y finalmente llegaremos a donde estamos ahora: robots que no solo reaccionan al mundo, sino que también pueden imaginarlo.

I: La Era Pre-LLM: Cuando los robots eran solo software

Durante décadas, construir un robot significó escribir mucho código, y casi todo ese código no requería aprendizaje.

Los robots industriales clásicos eran torres de módulos cuidadosamente diseñados. Piensa en esos brazos robóticos naranjas de los años 90 que soldaban los chasis de Toyota, o el BigDog de Boston Dynamics a principios de los 2000.

Percepción: Filtrar las imágenes de la cámara, detectar bordes, usar coincidencia geométrica para identificar la posición de una pieza.
Estimación del estado: Combinar codificadores de ruedas, giroscopios y acelerómetros (fusión de sensores) para determinar la posición y velocidad del robot.
Planificación: Dada una pose objetivo, usar algoritmos como A* o RRT para calcular una ruta libre de colisiones en un mapa conocido.
Control: En el nivel más bajo, los controladores PID ajustan el par del motor cientos o miles de veces por segundo para seguir esa ruta.

Estas capas solían ser escritas por diferentes personas en diferentes laboratorios y unidas con un cuidado exquisito. Los comportamientos (por ejemplo, "si la taza es roja, agárrala; de lo contrario, espera") se codificaban como máquinas de estados o árboles de comportamiento: diagramas de flujo que el robot seguía paso a paso.

Las ventajas de este enfoque son obvias. Es predecible, cumple con los estándares de seguridad. Por eso tu coche tiene un ABS eficaz.

Las desventajas también son obvias. Un robot así solo es tan inteligente como el escenario que el ingeniero previó. Ponlo en una fábrica nueva, con una iluminación diferente o una taza de otro color, y se vendrá abajo. Su capacidad de generalización es casi nula.

II: El aprendizaje automático se infiltra sigilosamente

En la década de 2010, el aprendizaje profundo comenzó a abordar la capa de percepción. Las redes neuronales convolucionales (CNN) que superaron a los humanos en tareas de clasificación de imágenes de ImageNet podían reentrenarse para detectar puntos de agarre en objetos, segmentar muebles en una habitación o reconocer posturas humanas. De repente, la capa superior de "percepción" en la pila no necesitaba ser diseñada a mano; podías entrenarla.

Luego, el aprendizaje se extendió a la capa de "control". Investigadores de Berkeley, DeepMind y OpenAI demostraron que el aprendizaje por refuerzo (hacer que un agente robótico intente millones de veces en un simulador y refuerce lo que funciona) podía producir zancadas sorprendentemente hábiles, manipulación de objetos con la mano (el cubo de Rubik de OpenAI en 2019 fue un hito), y estrategias de locomoción que se adaptaban a diferentes terrenos.

Una línea de investigación paralela fue el aprendizaje por imitación, a menudo llamado clonación de comportamiento: grabar cientos de intentos de un humano controlando remotamente un robot para una tarea, luego entrenar una red neuronal para predecir qué acción tomaría el humano basándose en lo que el robot observa.

La clave de todo esto: cada política aprendida era demasiado estrecha. Entrena una red para recoger un bloque rojo, y no sabrá qué hacer con una taza amarilla. Entrénala para caminar en hierba, y se caerá en un piso de baldosas. La generalización seguía siendo el santo grial.

Es importante mencionar que en esta época emergió una pieza de infraestructura que aún sostiene casi todo: ROS, el Sistema Operativo para Robots (lanzado por primera vez en noviembre de 2007). ROS no es un sistema operativo en el sentido de Windows o Linux, sino un marco de middleware, una tubería genérica para robots. Permite que "nodos de cámara", "nodos de navegación", "nodos de control de brazo" y otros docenas de nodos publiquen y se suscriban a mensajes a través de un bus compartido.

La versión actual, ROS2, se ejecuta en el fondo de la gran mayoría de robots de investigación y comerciales en el mundo, desde laboratorios en Stanford hasta startups chinas de humanoides. Cuando la gente habla del "sistema operativo" de un robot, casi siempre se refiere a ROS2 más los paquetes de software de percepción, planificación y control que se ejecutan encima.

ROS2: No es un sistema operativo, es la tubería común que hace que el software robótico independiente se comunique.

III: LLMs Llegan a la Robótica

Y luego llegó ChatGPT.

De repente, existía esto: un LLM. Podía leer instrucciones simples en inglés, razonar en múltiples pasos, escribir código y llamar funciones. Los roboticistas se dieron cuenta casi de inmediato: esto era la pieza faltante que habían estado intentando resolver durante años. La parte más difícil de hacer que un robot hiciera algo útil en una casa u oficina, a menudo no era el control del motor, sino la interfaz: ¿cómo le dice la persona al robot qué hacer, y cómo descompone el robot ese objetivo en acciones atómicas que ya sabe ejecutar?

La primera ola de trabajo aplicando LLMs a robots los trataba como un compilador de lenguaje natural sobre ROS. El patrón era:

El usuario dice en inglés: "Trae la taza de café de la encimera a mi mesa."
El LLM genera un plan basado en una lista de habilidades atómicas disponibles para el robot: puede ser una secuencia de llamadas a funciones, una máquina de estados, o un árbol de comportamiento escrito en XML.
Los nodos ROS2 ejecutan el plan paso a paso. Si un paso falla, se le informa al LLM para que replanifique.

SayCan de Google en 2022 fue una versión muy limpia de esta idea: el LLM propone habilidades, un modelo de "afordamiento" separado evalúa la probabilidad de éxito actual de cada habilidad, el robot elige la combinación con la puntuación conjunta más alta. Marcos abiertos como ROS-LLM, ROSGPT y ROSA (impulsados principalmente por Huawei Research Labs) popularizaron este patrón.

Fue un salto significativo. De repente, podías decirle a un robot "limpia la mesa, pon los reciclables en el cubo azul" e intentaría algo razonable. Pero nota: todavía había un problema aquí. El modelo de lenguaje estaba todavía en la capa de planificación. Las órdenes de movimiento reales aún las generaban controladores cuidadosamente diseñados o entrenados específicamente. El modelo de lenguaje era solo un programador inteligente. No conducía.

IV: Modelos Visual-Lenguaje-Acción (VLA), Cuando el Cerebro Conduce

El robot Keenon XMAN-R1 tomando medicamentos de un estante en una farmacia automatizada de Galbot en Beijing. Por solo 100,000 dólares.

El siguiente salto fue más difícil y más importante. Los investigadores plantearon una pregunta más ambiciosa: ¿y si el modelo no solo pudiera planificar, sino generar directamente las acciones? ¿Qué tal si alimentas directamente una imagen de la cámara y una instrucción en lenguaje natural en una red neuronal, y obtienes el movimiento articular para el próximo milisegundo?

Eso es un Modelo Visual-Lenguaje-Acción (VLA). Ahora es el paradigma dominante en humanoides y cuadrúpedos.

El primer VLA ampliamente conocido fue RT-2 de Google DeepMind en 2023. La elegancia fue esta: toma un gran modelo de lenguaje visual (entrenado para describir imágenes y responder preguntas) y continúa entrenándolo con datos de demostración de robots, pero tratando las acciones del robot como otro tipo de token a predecir. La misma red neuronal que podría generar "un gato sentado en una alfombra" ahora podría generar una secuencia de tokens que codifican "mueve la pata derecha 3 cm hacia adelante, cierra la garra, levanta 5 cm". El razonamiento y la acción ocurren en el mismo modelo.

Luego, a mediados de 2024, un equipo liderado por Stanford lanzó OpenVLA, un modelo VLA de código abierto de 7 mil millones de parámetros, entrenado en el conjunto de datos Open X-Embodiment, que reúne más de un millón de episodios de entrenamiento de 21 laboratorios diferentes en 22 cuerpos robóticos distintos. Fue la primera vez que alguien fuera de Google podía descargar un modelo genérico de robot y comenzar a modificarlo. Cambió el campo de la noche a la mañana.

Hoy, los VLA líderes son pocos pero crecen rápidamente:

π0 y π0.5 de Physical Intelligence: Excelente adaptación de tareas.
NVIDIA Isaac GR00T N1.7: Pesos abiertos, licencia comercial, diseñado para humanoides, el modelo en el que la mayoría de las empresas de hardware chinas están haciendo fine-tuning con sus propios datos actualmente.
Helix de Figure AI y el más reciente Helix-02: Propietario, pero arquitectónicamente importante.
Genie Envisioner de AgiBot: Plataforma basada en modelo del mundo chino.
SmolVLA, NORA, ACoT-VLA, CogACT: Una explosión de VLA académicos explorando diferentes direcciones de diseño.

Cómo funciona un VLA (sin matemáticas)

Piensa en un VLA como fusionar tres flujos de entrada en un flujo de salida.

Primer flujo: Visión. Una cámara RGB (a veces un sensor de profundidad o LiDAR), a veces sensores táctiles en las yemas de los dedos, procesados por un codificador visual (normalmente un modelo Transformer como DINOv2 o SigLIP) que comprime cada imagen en unos cientos de "tokens visuales", resumiendo lo que el robot ve.

Segundo flujo: Lenguaje. Tu instrucción ("pásame el destornillador") se tokeniza como en ChatGPT.

Estos dos flujos se concatenan y alimentan un "tronco" Transformer (normalmente un modelo de lenguaje pequeño y de código abierto como Qwen3 o Llama). Este tronco hace el razonamiento, combinando lo que ve con lo que se le pregunta.

Tercer flujo: Acción, sale por el otro lado. Aquí es donde divergen los diseños arquitectónicos:

Tokens de acción discretos: El modelo genera tokens que se decodifican directamente en ángulos articulares o posiciones del efector final, como ChatGPT genera palabras. Sencillo, pero puede ser espasmódico a alta frecuencia.
Cabezales de acción por difusión o emparejamiento de flujos (flow-matching): Una mini-red separada toma la salida del tronco y la desruidifica en una trayectoria suave de posiciones articulares, como un modelo de difusión de imágenes, pero para movimiento. Así lo hace π0, produciendo movimientos más suaves y naturales.
Fragmentación (chunking) de acciones: En lugar de predecir la siguiente instrucción única, predice el siguiente medio segundo de instrucciones a la vez, alisando los espasmos.

En un modelo VLA: Dos flujos de entrada, órdenes de movimiento de salida. Razonamiento y acción fusionados en una red.

Este es el cambio arquitectónico crucial: el razonamiento y la acción ya no están separados. Enseñarle a una red neuronal a reconocer una taza también le enseña cómo agarrarla. Es este acoplamiento lo que permite a los VLA generalizar donde sus predecesores no podían.

V: Estrategia de Dos Cerebros: Cómo Trabajan Juntos los LLM y los VLA

Hay un detalle que rara vez se explica claramente en el marketing. Los humanoides de mejor rendimiento hoy no ejecutan un sistema VLA único; ejecutan dos modelos a diferentes velocidades, comunicándose entre sí. A veces se llama arquitectura de dos sistemas o Sistema 1 / Sistema 2, tomado del marco psicológico de Daniel Kahneman que postula que los humanos tienen un cerebro rápido e intuitivo y uno lento y deliberativo.

Helix de Figure AI hizo clásico este diseño, y ahora se copia (y varía) en casi todas partes. Es especialmente importante que el GR00T N1.7 de NVIDIA adopte este diseño, al igual que la mayoría de los humanoides chinos. Se ve así:

Sistema 2 (S2): El cerebro lento y pensante. Un modelo visual-lenguaje de ~7 mil millones de parámetros, que corre a unos 7-9 Hz (es decir, 7-9 veces por segundo). Su trabajo es observar la escena, analizar la instrucción, hacer razonamiento de múltiples pasos (p. ej., "el tazón está detrás de la caja de cereales; necesito mover la caja primero") y emitir intenciones de alto nivel, normalmente un conjunto de vectores internos compactos, no palabras en sí mismas.
Sistema 1 (S1): El cerebro de reacción rápida. Una política visomotora mucho más pequeña (~80 millones de parámetros) que corre a 200 Hz. Toma el vector de intención de S2 más los datos de sensores más recientes y emite órdenes articulares continuas. No "piensa" en ningún sentido real, solo reacciona.

Recientemente, Helix-02 de Figure agregó un Sistema 0. Va por debajo del sistema de dos cerebros, es una capa refleja, no una tercera capa cognitiva. Es una red de 10 millones de parámetros que corre a 1 kHz, encargada del equilibrio de bajo nivel y la coordinación corporal, reemplazando más de 100,000 líneas de código C++ escrito a mano para control de movimiento. Puedes pensar en S0 como una médula espinal aprendida: no razona ni planifica, solo mantiene el cuerpo erguido y coordinado mientras los cerebros de arriba piensan.

Arquitectura de doble cerebro de un humanoide moderno: El Sistema 2 piensa despacio, el Sistema 1 reacciona rápido – y debajo hay un Sistema 0 reflejo para equilibrio, contacto táctil y coordinación corporal total

Esta división surge de las limitaciones de la física. Si emites órdenes de movimiento solo cada 200 milisegundos (la velocidad a la que corre un VLA grande), el robot se movería como si estuviera bajo el agua. Las órdenes de movimiento deben actualizarse más rápido que la oscilación natural de las articulaciones que controlan, lo que significa cientos o miles de actualizaciones por segundo. Ningún modelo Transformer de 7B puede correr tan rápido en un robot con batería.

Así que la cognición se divide: el modelo grande y lento piensa; el modelo pequeño y rápido actúa. No se comunican en inglés, sino en vectores latentes aprendidos: el lento emite objetivos abstractos, y el rápido sabe cómo interpretarlos.

VI: Nube, Computación de Borde y Dónde Va el "Cerebro"

¿Dónde se realiza toda esta computación?

Hoy, existe un consenso fuerte, casi ideológico, entre los equipos de robótica de que los bucles de control críticos para la seguridad deben ejecutarse localmente. Dos razones:

Latencia. El tiempo de ida y vuelta por WiFi o celular, en el mejor de los casos, es de 30-80 ms. Las órdenes de acción necesitan actualizaciones cada 1-5 ms. Ese ciclo de red simplemente no funciona.

Fiabilidad. Los robots operan en fábricas, almacenes, cocinas, hospitales. La red puede caerse en cualquier momento. Si un robot se detiene cada vez que se cae el Wi-Fi, es un peligro.

Así que la división moderna es aproximadamente así:

A bordo (local), en un módulo como NVIDIA Jetson Thor o AGX Thor (~2,000 TFLOPS, 128 GB de RAM, 40–130 W de consumo):

Todo S0/S1: Equilibrio, locomoción, control fino de movimientos.
El VLA en sí (Sistema 2), cada vez más cuantizado a FP8 o FP4 para encajar. Los modelos de 2B a 7B ahora pueden ejecutarse en el dispositivo.
Percepción, fusión de sensores, y cualquier monitoreo de seguridad que cubra todo lo demás.

Nube o servidor remoto (si existe):

Interfaz conversacional ("Oye robot, ¿qué debo cocinar para cenar?"): Puede tolerar latencia.
Aprendizaje de flota: Miles de robots envían datos de teleoperación al servidor para agregarlos a la siguiente versión del modelo.
Planificación a largo plazo a gran escala que podría usar modelos de última generación.
Paneles de control y monitoreo del operador.

También hay una capa intermedia creciente: servidores de borde local en la fábrica o almacén que se comunican con un clúster de robots a través de la red local con latencia de un solo dígito de milisegundos. LLMs más grandes pueden vivir aquí, haciendo planificación de alto nivel que un robot individual no necesita hacer por sí mismo.

La ola china de humanoides se construye sobre este supuesto: Unitree, AgiBot, Xiaopeng IRON, Fourier, EngineAI. Sus robots tienen computación a bordo (normalmente Jetson, a veces chips domésticos como Huawei Ascend), y usan la nube para aprendizaje de flota e interfaz conversacional, no para bucles de control.

Dónde vive realmente el cerebro del robot: Los bucles críticos para la seguridad corren localmente, la nube es para cosas que pueden esperar.

VII: Por Qué los Modelos de Código Abierto Son el Secreto a Voces

Si solo vieras las demostraciones, pensarías que el campo está dominado por un puñado de empresas estadounidenses bien financiadas. La realidad es mucho más compleja. El ritmo de progreso en IA física está impulsado en gran medida por pesos de modelo de código abierto que cualquiera puede descargar y ajustar.

Esta lista es corta pero significativa:

OpenVLA (Stanford): El primer modelo genérico de robot de 7B de código abierto.
NVIDIA Isaac GR00T (N1, N1.5, N1.7): Pesos de código abierto próximos, licencia comercial próxima, entrenado con decenas de miles de horas de video en primera persona humana. GR00T N1.7 salió en marzo de 2026, y cualquiera con un humanoide podrá usar gratis su arquitectura de doble sistema.
π0 de Physical Intelligence: Pesos lanzados para investigación.
NVIDIA Cosmos: Modelo base del mundo abierto.
AgiBot World: Conjunto de datos de código abierto masivo de una startup de Shanghai con demostraciones de teleoperación de humanoides.
LeRobot de Hugging Face: Una biblioteca abierta que se ha convertido en el punto de encuentro para todas las plataformas anteriores.
mimic-video de Mimic robotics: Un modelo de video-acción de código abierto que es 10 veces más eficiente en muestras que los VLA tradicionales.

Importa por dos razones. Primero, las startups de robótica no tienen que gastar decenas de millones para preentrenar un modelo base: pueden tomar GR00T o π0 y hacerle fine-tuning con los datos de su propio robot. Así es como lo hacen Unitree, EngineAI, Booster, Galbot y docenas de empresas chinas más pequeñas. Por eso una empresa con solo unos cientos de empleados puede sacar un humanoide que camina, habla y dobla ropa: están sobre los hombros de una pila de código abierto.

Segundo, los modelos de código abierto son la única forma realista de abordar la seguridad. Un modelo completamente cerrado que corre dentro de un robot en una línea de fábrica, sin visibilidad externa de su razonamiento, es una pesadilla regulatoria. Los modelos abiertos permiten a auditores, investigadores y operadores inspeccionar realmente para qué se entrenó al robot.

VIII: Qué Problemas Todavía No Están Resueltos

Si has visto suficientes videos de demostración de robots, también has visto suficientes videos de fallos. La generación actual de robots LLM+VLA es impresionante, pero tiene limitaciones claras. Esto es lo que falla:

Recuperación a mitad de tarea. Los VLA manejan cambios inesperados mejor que cualquier tecnología anterior. Pero cuando las cosas realmente salen mal (agarre fallido, objeto que rueda, alguien entra en el espacio de trabajo), volver a encarrilarse sigue siendo una debilidad. El robot repite ciegamente la acción fallida.
Eficiencia de muestras. Entrenar un VLA desde cero requiere decenas de miles de horas de datos de teleoperación. Un humano aprende a usar una herramienta nueva en minutos. Esta brecha de eficiencia es enorme.
Generalización entre entidades. Un modelo entrenado en un brazo Franka en un laboratorio de Stanford no se transfiere perfectamente a un humanoide Unitree en un almacén de Shenzhen. La física es diferente.
Tareas a largo plazo. Cualquier tarea que requiera más de 30-60 segundos de comportamiento coherente con múltiples subobjetivos tiende a desviarse. "Hazme el desayuno" sigue siendo imposible.
Sentido común físico. Los VLA se entrenan por imitación, no por comprensión. No entienden realmente que el agua se derrama si vuelcas una taza. Solo han visto ejemplos y predicen lo que sigue a partir del emparejamiento de patrones.
Razonamiento espacial. Aunque son multimodales, son sorprendentemente débiles en tareas como "rodear un obstáculo en lugar de atravesarlo" o "apilar estas cosas sin que se caigan".

Esta última serie de debilidades es lo que está haciendo que el campo apueste por un tipo de modelo completamente diferente.

IX: Modelos del Mundo

Imagina esto: ¿y si en lugar de entrenar a un robot para predecir acciones, lo entrenas para predecir las consecuencias de las acciones?

Un Modelo del Mundo es una red neuronal que, dado el estado actual del mundo (normalmente un video o una secuencia de fotogramas) y una acción propuesta, predice cómo se verá el mundo a continuación. En términos simples, piensa en ello como un predictor de video aprendido con un volante. Le das el último segundo de imágenes de la cámara y le dices "el robot moverá el brazo 10 cm hacia adelante", y genera un video realista del siguiente segundo.

¿Por qué importa?

Porque una vez que tienes un modelo del mundo, un robot puede pensar antes de actuar. Puede imaginar tres o cuatro acciones candidatas diferentes, predecir el resultado de cada una, puntuarlas y elegir la mejor. Todo antes de que se mueva ningún motor. Así es como funcionan los motores de ajedrez: no memorizan movimientos, simulan futuros. Nunca antes habíamos tenido esto para robots físicos porque nunca antes habíamos tenido un modelo lo suficientemente preciso del desordenado mundo real.

Los modelos del mundo permiten a los robots simular múltiples futuros posibles, puntuarlos y elegir el mejor antes de que se mueva ningún motor.

¿Cómo son los modelos del mundo de 2026?

Los modelos del mundo de vanguardia actuales son diversos pero evolucionan rápidamente. Aquí algunos:

NVIDIA Cosmos: Una familia de modelos base del mundo abierto, incluidos Cosmos Predict 2.5 (modelo generativo), Cosmos Transfer 2.5 (modelo de simulación controlable), Cosmos Reason 2 (razonador visual-lenguaje para robots) y el más reciente Cosmos Policy. Cosmos Policy va más allá, haciendo fine-tuning del modelo del mundo para emitir directamente acciones para el control. Cosmos se entrena con decenas de miles de horas de GPU de datos de video (Cosmos Predict 2.5 es el modelo del mundo de la familia).
DeepMind Genie 3: Un modelo del mundo interactivo que genera entornos completamente navegables a partir de indicaciones de texto, a 24 fps, y se mantiene estable durante minutos. Originalmente diseñado para entornos de juego.
Meta V-JEPA 2: Preentrenado con más de un millón de horas de video de la web, luego condicionado con solo 62 horas de video de robot. Logra un 80% de éxito de agarre y colocación sin ajuste específico en brazos robóticos reales en diferentes laboratorios. El enfoque "JEPA" es arquitectónicamente diferente a los demás.
DeepMind Dreamer 4: Aprendió a recolectar diamantes en Minecraft (una tarea de 20,000 pasos) usando solo datos fuera de línea, sin interacción con el entorno. Demuestra que el aprendizaje por refuerzo real es posible en mundos simulados.
Genie Envisioner de AgiBot: Plataforma unificada de modelo del mundo de China, entrenada con más de 3000 horas de video de operación de humanoides del mundo real. Puede generar tanto trayectorias desplegadas predichas como trayectorias de acción ejecutables. AgiBot usa Cosmos Predict 2 de NVIDIA como red troncal y hace fine-tuning con sus propios datos. Este es exactamente el patrón "pila de código abierto + datos propios" descrito antes.
Modelo del mundo de Toyota Research Institute basado en Cosmos: Usado para aumento de datos de teleoperación y navegación.

Los seis modelos del mundo más importantes de 2025-2026, cada uno con una idea diferente de cómo una máquina debería aprender física.

X: Arquitecturas Alternativas, Porque el Campo No Está Decidido

No hay un estándar único para construir modelos del mundo. La batalla arquitectónica es actualmente una de las discusiones más interesantes en IA, y afecta directamente lo que los robots podrán hacer en el futuro. Hay que prestar atención a estos tres bandos:

Difusión de video a nivel de píxel (escuela Cosmos/Sora): Usa modelos de difusión para predecir los píxeles reales de los fotogramas futuros. Ventaja: actúa como generador de datos sintéticos, puede representar demostraciones de robot completamente nuevas que nunca ocurrieron. Desventaja: costoso, a veces viola la física, y predecir píxeles que nunca verás es un desperdicio.

Arquitectura de Predicción de Incrustación Conjunta (JEPA) (escuela LeCun): No predice píxeles; predice la representación abstracta del siguiente fotograma. Desecha la textura, conserva solo la esencia semántica de lo que hay en la escena. Ventaja: eficiente, se enfoca en lo que importa para la acción. Desventaja: más difícil de usar. V-JEPA, V-JEPA 2 y nuevos híbridos JEPA-VLA exploran este espacio.

Modelos del Mundo de Acción Latente (escuela Genie/Dreamer): Aprenden a comprimir videos enteros en un "lenguaje de acción" latente que captura la estructura del comportamiento, luego entrenan el modelo del mundo para predecir el siguiente estado latente dado la siguiente acción latente. Ventaja: permite entrenar con video de la web sin acciones, luego agregar un poco de datos de robot real. Desventaja: las acciones latentes no son interpretables por humanos, lo que complica el análisis de seguridad.

Difusión de píxeles, JEPA y acción latente: el mismo objetivo, formas radicalmente diferentes de construir un modelo del mundo.

XI: Cómo Se Vería Realmente un Robot Basado en Modelo del Mundo

Si avanzas unos años, la arquitectura de un humanoide de vanguardia podría verse así:

Un VLA con un modelo del mundo encima. Cuando el robot encuentra una situación nueva, ejecuta algo como esto:

El VLA propone algunos candidatos para la siguiente acción (sigue siendo la política).
El modelo del mundo toma cada acción candidata y simula 1-3 segundos de video hipotético.
Un evaluador de valor puntúa según el resultado imaginado: ¿se agarró la taza? ¿Algo se cayó? ¿Alguien resultó herido?
El robot elige la acción con la puntuación más alta, y solo ejecuta su primera parte.
Los datos reales del sensor retroalimentan; se repite el ciclo.

Esto es control predictivo por modelo, una técnica usada durante años para estabilizar cohetes y cuadricópteros, pero reemplazando ecuaciones físicas derivadas a mano con un modelo del mundo aprendido. Lo escalable es que el modelo del mundo se preentrena con millones de horas de video, no porque alguien escribió las ecuaciones de Navier-Stokes para una cocina.

Los beneficios se acumulan:

Mejora en la recuperación. Si un agarre se desliza, el modelo del mundo puede imaginar múltiples trayectorias de corrección y elegir la más prometedora.
Mayor generalización. Un modelo del mundo entrenado en video de la web ha experimentado "física" varios órdenes de magnitud más que cualquier conjunto de datos de teleoperación de robots.
Planificación a largo plazo manejable. Planifica en la imaginación, no en la realidad.
Brecha sim2real más pequeña. En lugar de entrenar en un simulador que construiste (p. ej., Isaac Sim, motor de física Newton) y esperar que la capacitación se transfiera, ahora puedes entrenar en un simulador que aprendió a coincidir con video real. Por lo tanto, la brecha es menor.
Explosión de datos sintéticos. Un modelo del mundo puede generar millones de trayectorias de robot diferentes, en diferentes iluminaciones, materiales y configuraciones de objetos, casi gratis. Resuelve uno de los mayores cuellos de botella del campo.

También tiene una ventaja de seguridad importante. Un robot que puede simular las consecuencias de sus acciones puede rechazar realizar una operación peligrosa: no porque una regla escrita lo impida, sino porque prevé a alguien lastimado en el futuro.

Dos formas de moverse: El robot VLA reacciona a lo que ve; el robot con modelo del mundo piensa antes de moverse.

XII: Cosas Más Que Deberías Saber

Los datos son el verdadero núcleo del problema: Toda la innovación arquitectónica del mundo no sirve si no puedes alimentar al modelo. Actualmente, la teleoperación (humanos usando equipo VR para manipular remotamente un robot como un títere) es el principal cuello de botella de ingeniería. La ventaja competitiva de una empresa de robótica depende cada vez más de su canalización de recolección de datos, no del modelo en sí. AgiBot tiene almacenes llenos de operadores. La ley de escalado de destreza del GR00T N1.7 de NVIDIA muestra que más video en primera persona humana mejora directamente y predeciblemente la destreza del robot. Esta es también una parte donde China tiene ventaja estructural: costos laborales más bajos para la recolección de datos, entornos de implementación más permisivos y coordinación estatal activa de la cadena de suministro.

La simulación es un universo paralelo. Isaac Sim de NVIDIA, el nuevo motor de física Newton de código abierto (la versión 1.0 saldrá oficialmente en abril de 2026) y la plataforma Omniverse permiten a las empresas entrenar robots en millones de simulaciones paralelas sin desplegarlos en el mundo real. La mayoría de lo que parece "inteligencia robótica" se cultiva primero en simulación y luego se transfiere al hardware.

La economía comienza a tener sentido. Unitree entregó alrededor de 5,500 humanoides en 2025 y planea 10,000-20,000 en 2026. El precio promedio ha bajado de $85,000 a $25,000 en dos años. El R1 de Unitree cuesta $5,900. El Noetix Bumi saldrá al mercado a $1,400. El hardware de los humanoides se está acercando al precio de la electrónica de consumo, mientras que la IA en su interior sigue estando por detrás de las demostraciones. Esa brecha se cerrará, y cuando lo haga, el volumen cambiará drásticamente la industria.

Los modos de fallo se ven extraños. Cuando los robots basados en LLM fallan, a menudo lo hacen de formas que los robots tradicionales no podrían: hacer las cosas mal con confianza, percibir funciones "alucinadas", caer en bucles de conversación con su propio planificador. La comunidad robótica tradicional es bastante escéptica, con razón, insistiendo en que los sistemas de aprendizaje deben estar encerrados en jaulas de seguridad y restricciones de comportamiento. Los robots más confiables desplegados actualmente son híbridos: un cerebro VLA colocado dentro de una jaula de seguridad diseñada a mano.

La narrativa del "momento ChatGPT" es una metáfora útil pero engañosa: Jensen Huang le ha estado diciendo a todo el mundo que el momento ChatGPT de los robots ya está aquí. Lo dice porque NVIDIA vende palas y picos. La versión más honesta es: actualmente estamos aproximadamente en la era GPT-2 de la IA física. Es poderoso, puede sorprenderte; no es lo suficientemente poderoso para desplegarse sin supervisión. Itera rápidamente, pero no ha alcanzado un punto de inflexión de adopción viral, sino una trayectoria de ascenso lenta y constante.

Conclusión

La evolución de los cuadrúpedos de Unitree (de derecha a izquierda)

En la demostración que vi en la oficina de Unitree, cinco humanoides G1 realizaban artes marciales coreografiadas, con controladores de estilo VLA a bordo haciendo ajustes finos y operadores remotos asegurando que todo saliera bien. Fundamentalmente, no era completamente autónomo. Pero toda la pila: percepción, planificación, control de movimiento, está siendo reemplazada por redes neuronales. En dos años, el mismo robot podría hacer la misma rutina sin coreografía, porque habrá imaginado el movimiento completo por adelantado y elegido la mejor versión.

Todo el desarrollo descrito en este artículo, desde controladores escritos a mano, hasta percepción por aprendizaje automático, planificadores LLM, VLA, arquitecturas de doble sistema y finalmente modelos del mundo, es en realidad el lento movimiento de dónde reside la inteligencia robótica. Comenzó en la mente del ingeniero, luego se convirtió en código escrito a mano, luego se movió a la capa de percepción, al planificador, a la política. Y ahora finalmente se está moviendo hacia un modelo que aprende el mundo mismo.

Cada transición ha hecho que los robots sean más generales, más adaptables, más útiles. Si la transición al modelo del mundo funciona, realmente les dará un poder: suficiente para que la pregunta ya no sea "¿qué pueden hacer los robots?" sino "¿qué deberíamos hacer que hagan?"

Lectura relacionada: Un análisis de más de 30 empresas de robots humanoides: ¿Quién ganará en 2026?

Preguntas relacionadas

Q¿Cuáles son los componentes principales del sistema técnico de los robots actuales, y cómo ha evolucionado esta arquitectura desde la era pre-LLM hasta los Modelos de Visión-Lenguaje-Acción (VLA)?

ALa pila técnica actual de los robots combina múltiples capas de IA, incluyendo Modelos de Lenguaje Grande (LLM), modelos de visión, modelos de acción, árboles de comportamiento, circuitos de control clásicos y una nueva familia de sistemas llamada 'Modelos del Mundo'. Esta evolución comenzó con robots clásicos basados en código escrito a mano (pre-LLM), donde la percepción, estimación de estado, planificación y control eran módulos diseñados manualmente, con poca capacidad de generalización. Luego, el aprendizaje automático, como las CNN y el aprendizaje por refuerzo, comenzó a abordar la capa de percepción y control. Con la llegada de ChatGPT, los LLM se integraron como planificadores sobre sistemas como ROS, interpretando instrucciones en lenguaje natural. La siguiente gran evolución fue la aparición de los Modelos de Visión-Lenguaje-Acción (VLA), como el RT-2 de Google DeepMind y OpenVLA, que fusionan el razonamiento y la acción en una sola red neuronal, permitiendo mayor generalización y adaptabilidad.

Q¿Qué es el diseño de 'sistema doble' (System 1 / System 2) utilizado en robots humanoides avanzados como el Helix de Figure AI, y por qué es necesario este enfoque?

AEl diseño de sistema doble, inspirado en el marco psicológico de Daniel Kahneman, divide el 'cerebro' del robot en dos partes que operan a diferentes velocidades. El **System 2 (S2)**, o 'cerebro lento', es un gran modelo visual-lenguaje (ej. de 7B parámetros) que funciona a unos 7–9 Hz. Su trabajo es observar la escena, analizar la instrucción, realizar un razonamiento de múltiples pasos y generar intenciones de alto nivel. El **System 1 (S1)**, o 'cerebro rápido', es un modelo de control visomotor mucho más pequeño (ej. 80M parámetros) que funciona a 200 Hz. Toma las intenciones del S2 junto con los datos sensoriales más recientes y genera comandos de movimiento continuo. Esta separación es necesaria por las limitaciones físicas: ningún modelo grande de Transformer puede funcionar lo suficientemente rápido en un robot alimentado por batería para actualizar los comandos de movimiento a la velocidad requerida (cientos de veces por segundo). La arquitectura permite una cognición compleja y lenta combinada con reacciones motoras rápidas y fluidas.

Q¿Cómo han influido los modelos de código abierto en el desarrollo y accesibilidad de la IA física para robots, y cita algunos ejemplos clave mencionados en el artículo?

ALos modelos de código abierto han sido cruciales para acelerar el desarrollo y democratizar el acceso a la IA física. Permiten que las startups y laboratorios no tengan que gastar millones en preentrenar modelos desde cero; en su lugar, pueden tomar modelos base de código abierto y refinarlos con sus propios datos. Esto explica cómo empresas más pequeñas pueden desarrollar robots humanoides avanzados. Algunos ejemplos clave mencionados son: 1) **OpenVLA** de Stanford (primer modelo de robot generalista de 7B parámetros de código abierto). 2) **NVIDIA Isaac GR00T N1.7** (pesos abiertos próximamente, arquitectura de sistema doble). 3) **π0** de Physical Intelligence (pesos liberados para investigación). 4) **NVIDIA Cosmos** (modelos base de mundo abierto). 5) **LeRobot** de Hugging Face (biblioteca abierta que aglutina estas plataformas). Además, los modelos abiertos facilitan la auditoría de seguridad, permitiendo inspeccionar la lógica de razonamiento del robot.

Q¿Qué son los 'Modelos del Mundo' (World Models) en robótica y cómo prometen superar las limitaciones actuales de los robots basados en VLA?

ALos Modelos del Mundo (World Models) son redes neuronales que, en lugar de predecir directamente una acción, predicen las consecuencias de las acciones en el mundo. Dado un estado actual (como una secuencia de video) y una acción propuesta, el modelo genera una predicción de cómo se vería el mundo a continuación. Esto es crucial porque permite al robot 'pensar antes de actuar'. Puede simular mentalmente múltiples cursos de acción, evaluar sus resultados previstos y elegir el mejor antes de ejecutar ningún movimiento. Esto aborda limitaciones clave de los VLA, como: mejorar la **recuperación ante errores** (el robot puede simular correcciones), aumentar la **generalización** (entrenado con vastas cantidades de video de internet), permitir **planificación a largo plazo** (planificar en la imaginación), reducir la **brecha simulación-realidad** y generar **datos sintéticos** masivamente para entrenamiento. Modelos como NVIDIA Cosmos Predict, DeepMind Genie y Meta V-JEPA 2 son ejemplos de este enfoque prometedor.

QSegún el artículo, ¿cuál es el estado actual y los retos pendientes para la implementación comercial generalizada de robots inteligentes, especialmente en términos de costo, datos y seguridad?

AEl estado actual es prometedor pero aún no es un 'momento ChatGPT' generalizado; el artículo lo compara con la era GPT-2. Los costos del hardware están cayendo drásticamente (ej. robots humanoides de ~$85,000 a ~$25,000), acercándose a niveles de electrónica de consumo, pero el software de IA aún no está a la par. Los principales retos pendientes son: 1) **Problemas de datos**: La adquisición de datos de teleoperación (humanos controlando robots) es un cuello de botella clave. La ventaja competitiva de una empresa depende cada vez más de su tubería de recolección de datos. 2) **Limitaciones técnicas**: Los robots aún luchan con la recuperación ante interrupciones, eficiencia de muestras, generalización entre cuerpos físicos diferentes, tareas de larga duración y comprensión del sentido común físico. 3) **Seguridad**: Los modos de fallo de los robots basados en LLM/VLA pueden ser extraños (alucinaciones, acciones erróneas seguras). La solución actual más confiable es un diseño híbrido donde el cerebro VLA está encerrado dentro de 'jaulas de seguridad' de código diseñado a mano. La implementación comercial generalizada requerirá superar estos retos, con un progreso constante más que una explosión repentina.

Lecturas Relacionadas

Zcash sufre un colapso histórico mientras miles de millones desaparecen de su valor de mercado

El mercado de criptomonedas se vio sacudido por una caída dramática en el precio de Zcash, que perdió más de la mitad de su valor en 24 horas, borrando miles de millones de su capitalización de mercado. El colapso parece estar vinculado al miedo generado por una vulnerabilidad recientemente revelada en la infraestructura de privacidad de la red. Un investigador de seguridad identificó un error que permitía generar ZEC falsos, aunque ya ha sido parcheado. La principal preocupación es que el diseño de privacidad de Zcash hace imposible verificar si se acuñaron monedas falsas antes de la solución, lo que ha generado incertidumbre y pánico entre los traders. El equipo subraya que su fortaleza radica en la investigación de seguridad de primer nivel, que permitió descubrir y corregir este fallo. Para restaurar la confianza, ahora se está explorando una actualización de red que permita verificar la integridad del suministro total de ZEC.

bitcoinistHace 19 min(s)

Zcash sufre un colapso histórico mientras miles de millones desaparecen de su valor de mercado

bitcoinistHace 19 min(s)

¿Ha fracasado la narrativa del BTC como 'oro digital'?

**Resumen en español europeo:** El autor abordaja la pregunta del titular ("¿Ha fracasado la narrativa del Bitcoin como 'oro digital'?") analizando tres aspectos clave, aclarando que no son consejos de inversión sino un marco de pensamiento. **1. Cómo ver Bitcoin como activo:** Sigue considerándolo una nueva clase de activo, superior al oro a largo plazo por su oferta limitada y programada (21 millones), su extrema facilidad de transferencia y su total auditabilidad en la cadena de bloques. Compara su actual tasa de adopción global (~3-4%) con etapas tempranas de tecnologías disruptivas como Internet o el comercio electrónico, sugiriendo un gran potencial de crecimiento acompañado de una alta volatilidad. **2. Cómo entender la caída actual (de ~$126k en oct. 2025 a ~$61k en feb. 2026):** La atribuye a una venta cíclica consensuada tras el máximo histórico post-halving, un patrón recurrente. Un factor nuevo es el efecto de los ETF aprobados en EE.UU. en 2024: facilitaron la entrada de capital institucional, pero también permitieron que holders antiguos con costes muy bajos realizaran beneficios, iniciando un "gran traspaso" histórico desde early adopters hacia instituciones. Destaca que, si bien la caída (~50%) es fuerte, las correcciones históricas sucesivas han ido reduciendo su magnitud (de -93% en 2011 a -50% ahora), señal de un activo que madura. **3. Perspectiva a largo plazo:** El marco simple es comparar su capitalización de mercado (~$1.4 billones a $70k) con la del oro físico (~$20 billones). Si la narrativa de "oro digital" se materializa parcialmente (ej., alcanzando el 30-50% de la capitalización del oro), el espacio alcista sigue siendo significativo. Sin embargo, advierte que la volatilidad es extrema y el proceso de traspaso puede no haber terminado. El riesgo real no es que Bitcoin llegue a cero (probabilidad que considera baja), sino una mala gestión de la cartera (sobre-exposición, apalancamiento) y la falta de comprensión profunda del activo, que puede llevar a vender en pánico durante correcciones severas. Concluye con una analogía histórica (Amazon cayó un 95% en 2000 para luego subir 42x) para subrayar que la lógica a largo plazo de Bitcoin permanece, pero la clave es sobrevivir a la volatilidad mediante una gestión prudente. La pregunta final invita a la reflexión: la actual divergencia (oro subiendo, Bitcoin cayendo) puede indicar un traspaso en curso en su evolución de activo especulativo a activo de asignación, y la respuesta revela la fe subyacente de cada uno en esta clase de activo.

marsbitHace 44 min(s)

$¿Ha fracasado la narrativa del BTC como 'oro digital'?$

marsbitHace 44 min(s)

¿Ha fracasado la narrativa del BTC como 'oro digital'?

El autor analiza si la narrativa del Bitcoin como "oro digital" ha fracasado, presentando tres puntos clave. **Primero, sobre Bitcoin como activo:** Lo considera una nueva clase de activo superior al oro a largo plazo, destacando su oferta limitada (21 millones), su facilidad de transferencia y su transparencia verificable. Rechaza la idea de que sea solo para usos ilícitos, señalando su creciente regulación y una penetración global del 3-4%, comparable a etapas tempranas de internet o el comercio electrónico, lo que implica gran potencial y volatilidad. **Segundo, sobre la caída actual:** La vincula al ciclo histórico de cuatro años tras el "halving". La aprobación de los ETF en EEUU en 2024 atrajo capital institucional, pero también desencadenó una gran "rotación" de tenencias, donde poseedores tempranos (con costos muy bajos) realizan beneficios vendiendo a nuevos actores institucionales. Aunque la caída actual ronda el 50%, nota que las correcciones históricas (93%, 85%, 84%, 77%) se han moderado, señal de un mercado en maduración. **Tercero, la perspectiva a largo plazo:** Si Bitcoin alcanzara incluso la mitad de la capitalización de mercado del oro (~20 billones de dólares), su valor tendría un gran espacio para crecer desde los ~1,4 billones actuales. Sin embargo, advierte que la volatilidad sigue siendo extrema y el proceso de rotación podría no haber terminado. El mayor riesgo no es que Bitcoin llegue a cero, sino una mala gestión del riesgo personal: usar dinero inadecuado, apalancarse o no comprender el activo, lo que puede forzar una salida anticipada incluso si la tendencia a largo plazo es alcista. Concluye con una analogía: Amazon cayó un 95% en 2000 antes de subir 42x. La lógica a largo plazo de Bitcoin no ha cambiado, pero sobrevivir a la volatilidad es clave. La pregunta final: ¿La reciente divergencia (oro +60%, Bitcoin -50%) significa el fracaso de la narrativa o simplemente una etapa de transición y consolidación? La respuesta depende de la fe en los fundamentos del activo.

链捕手Hace 54 min(s)

$¿Ha fracasado la narrativa del BTC como 'oro digital'?$

链捕手Hace 54 min(s)

La burbuja de la IA se está pinchando

En los últimos días, la volatilidad del mercado ha avivado el debate sobre la "burbuja de la IA". Figuras como Ray Dalio advierten sobre niveles de burbuja "relativamente altos", mientras que Jensen Huang de NVIDIA ve una oportunidad enorme, con la demanda de potencia de cálculo apenas comenzando. Ambos tienen razón. La industria de la IA presenta inevitablemente una burbuja, un fenómeno común al surgir una fuerza productiva disruptiva, similar a la burbuja de las puntocom. Aunque aquella crisis evaporó billones, sentó la infraestructura física (fibra óptica, redes) que luego permitió el auge de gigantes como Amazon, Netflix o la nube. Se subestimó su impacto a largo plazo. Hoy, la inversión es masiva: se prevé que los principales proveedores de nube gasten 690.000 millones de dólares en 2026 en infraestructura física (enfriamiento, energía, redes), muy por encima de los ingresos actuales de las empresas de IA pura. Sin embargo, los costes se han desplomado: el precio por millón de tokens ha caído más de un 99.7% desde 2023. Según la "Paradoja de Jevons", esta eficiencia no reduce el consumo, sino que lo dispara al desbloquear nuevas aplicaciones (agentes autónomos, RAG, multimodalidad). Empresas de todos los sectores (finanzas, salud, manufactura) ya adoptan la "IA+", enfocándose en su implementación, no en si usarla. La burbuja se está desinflando, eliminando start-ups sin sustento, lo que purifica el mercado. El valor migrará gradualmente de la infraestructura (CapEx) a las aplicaciones que optimicen operaciones (OpEx). Aunque las valoraciones son elevadas, un crecimiento sólido de los ingresos podría digerirlas con el tiempo. Estamos en un punto de inflexión. Tras el inevitable ajuste, la infraestructura y los algoritmos optimizados, ahora baratos, impulsarán una nueva era en la que la IA integrará y potenciará todas las industrias. El ruido de la burbuja pasará; el avance de la fuerza productiva subyacente permanece.

链捕手Hace 1 hora(s)

链捕手Hace 1 hora(s)

La burbuja de la IA se está desinflando

El burbuja de la IA está estallando, pero esto es parte del proceso natural de una nueva tecnología disruptiva. Aunque existen paralelismos con la burbuja puntocom del 2000, donde se produjo una corrección severa, la infraestructura física construida durante ese período allanó el camino para gigantes posteriores. Actualmente, las grandes tecnológicas están invirtiendo masivamente en infraestructura para la IA, mientras que los ingresos de las empresas de IA pura son mucho menores, lo que sugiere una asimetría. Sin embargo, un factor clave es el drástico descenso de más del 99.7% en el coste de la inferencia de IA, lo que, paradójicamente, ha impulsado un aumento exponencial en su uso empresarial (Paradoja de Jevons). Las empresas ahora implementan agentes de IA para tareas complejas. El mercado se está depurando, eliminando empresas con solo ideas y sin propuestas de valor sólidas. El valor se está desplazando gradualmente de los proveedores de infraestructura (CapEx) hacia las aplicaciones que optimizan operaciones (OpEx). A pesar del ajuste en los mercados de capitales, la adopción de la IA en sectores como la fabricación, las finanzas, la medicina y el derecho es profunda e irreversible. La corrección actual elimina la especulación, pero la tendencia subyacente es clara: al igual que Internet, la IA se integrará en todas las industrias, impulsando una nueva era de productividad.

marsbitHace 1 hora(s)

marsbitHace 1 hora(s)

Trading

Spot

Futuros

Artículos destacados

Qué es GROK AI

Grok AI: Revolucionando la Tecnología Conversacional en la Era Web3 Introducción En el paisaje de la inteligencia artificial en rápida evolución, Grok AI se destaca como un proyecto notable que une los dominios de la tecnología avanzada y la interacción con el usuario. Desarrollado por xAI, una empresa liderada por el renombrado emprendedor Elon Musk, Grok AI busca redefinir cómo interactuamos con la inteligencia artificial. A medida que el movimiento Web3 continúa floreciendo, Grok AI tiene como objetivo aprovechar el poder de la IA conversacional para responder a consultas complejas, proporcionando a los usuarios una experiencia que no solo es informativa, sino también entretenida. ¿Qué es Grok AI? Grok AI es un sofisticado chatbot de IA conversacional diseñado para interactuar con los usuarios de manera dinámica. A diferencia de muchos sistemas de IA tradicionales, Grok AI abraza una gama más amplia de consultas, incluidas aquellas que normalmente se consideran inapropiadas o fuera de las respuestas estándar. Los objetivos centrales del proyecto incluyen: Razonamiento Fiable: Grok AI enfatiza el razonamiento de sentido común para proporcionar respuestas lógicas basadas en la comprensión contextual. Supervisión Escalable: La integración de asistencia de herramientas asegura que las interacciones de los usuarios sean tanto monitoreadas como optimizadas para la calidad. Verificación Formal: La seguridad es primordial; Grok AI incorpora métodos de verificación formal para mejorar la fiabilidad de sus resultados. Comprensión de Largo Contexto: El modelo de IA sobresale en retener y recordar un extenso historial de conversaciones, facilitando discusiones significativas y contextualizadas. Robustez Adversarial: Al centrarse en mejorar sus defensas contra entradas manipuladas o maliciosas, Grok AI busca mantener la integridad de las interacciones de los usuarios. En esencia, Grok AI no es solo un dispositivo de recuperación de información; es un compañero conversacional inmersivo que fomenta un diálogo dinámico. Creador de Grok AI La mente detrás de Grok AI no es otra que Elon Musk, una persona sinónimo de innovación en varios campos, incluidos el automotriz, los viajes espaciales y la tecnología. Bajo el paraguas de xAI, una empresa centrada en avanzar la tecnología de IA de maneras beneficiosas, la visión de Musk busca remodelar la comprensión de las interacciones de IA. El liderazgo y la ética fundacional están profundamente influenciados por el compromiso de Musk de empujar los límites tecnológicos. Inversores de Grok AI Si bien los detalles específicos sobre los inversores que respaldan Grok AI son limitados, se reconoce públicamente que xAI, el incubador del proyecto, está fundado y apoyado principalmente por el propio Elon Musk. Las empresas y participaciones anteriores de Musk proporcionan un respaldo robusto, reforzando aún más la credibilidad y el potencial de crecimiento de Grok AI. Sin embargo, hasta ahora, la información sobre fundaciones de inversión adicionales u organizaciones que apoyan a Grok AI no está fácilmente accesible, marcando un área para una posible exploración futura. ¿Cómo Funciona Grok AI? La mecánica operativa de Grok AI es tan innovadora como su marco conceptual. El proyecto integra varias tecnologías de vanguardia que facilitan sus funcionalidades únicas: Infraestructura Robusta: Grok AI está construido utilizando Kubernetes para la orquestación de contenedores, Rust para rendimiento y seguridad, y JAX para computación numérica de alto rendimiento. Este trío asegura que el chatbot opere de manera eficiente, escale efectivamente y sirva a los usuarios de manera oportuna. Acceso a Conocimiento en Tiempo Real: Una de las características distintivas de Grok AI es su capacidad para acceder a datos en tiempo real a través de la plataforma X—anteriormente conocida como Twitter. Esta capacidad otorga a la IA acceso a la información más reciente, permitiéndole proporcionar respuestas y recomendaciones oportunas que otros modelos de IA podrían pasar por alto. Dos Modos de Interacción: Grok AI ofrece a los usuarios la opción entre “Modo Divertido” y “Modo Regular”. El Modo Divertido permite un estilo de interacción más lúdico y humorístico, mientras que el Modo Regular se centra en ofrecer respuestas precisas y exactas. Esta versatilidad asegura una experiencia personalizada que se adapta a diversas preferencias de los usuarios. En esencia, Grok AI une rendimiento con compromiso, creando una experiencia que es tanto enriquecedora como entretenida. Cronología de Grok AI El viaje de Grok AI está marcado por hitos clave que reflejan sus etapas de desarrollo y despliegue: Desarrollo Inicial: La fase fundamental de Grok AI tuvo lugar durante aproximadamente dos meses, durante los cuales se llevó a cabo el entrenamiento y ajuste inicial del modelo. Lanzamiento Beta de Grok-2: En un avance significativo, se anunció la beta de Grok-2. Este lanzamiento introdujo dos versiones del chatbot—Grok-2 y Grok-2 mini—cada una equipada con capacidades para chatear, programar y razonar. Acceso Público: Tras su desarrollo beta, Grok AI se volvió disponible para los usuarios de la plataforma X. Aquellos con cuentas verificadas por un número de teléfono y activas durante al menos siete días pueden acceder a una versión limitada, haciendo la tecnología disponible para una audiencia más amplia. Esta cronología encapsula el crecimiento sistemático de Grok AI desde su inicio hasta el compromiso público, enfatizando su compromiso con la mejora continua y la interacción con los usuarios. Características Clave de Grok AI Grok AI abarca varias características clave que contribuyen a su identidad innovadora: Integración de Conocimiento en Tiempo Real: El acceso a información actual y relevante diferencia a Grok AI de muchos modelos estáticos, permitiendo una experiencia de usuario atractiva y precisa. Estilos de Interacción Versátiles: Al ofrecer modos de interacción distintos, Grok AI se adapta a diversas preferencias de los usuarios, invitando a la creatividad y la personalización en la conversación con la IA. Avanzada Infraestructura Tecnológica: La utilización de Kubernetes, Rust y JAX proporciona al proyecto un marco sólido para garantizar fiabilidad y rendimiento óptimo. Consideración de Discurso Ético: La inclusión de una función generadora de imágenes muestra el espíritu innovador del proyecto. Sin embargo, también plantea consideraciones éticas en torno a los derechos de autor y la representación respetuosa de figuras reconocibles—una discusión en curso dentro de la comunidad de IA. Conclusión Como una entidad pionera en el ámbito de la IA conversacional, Grok AI encapsula el potencial para experiencias transformadoras de usuario en la era digital. Desarrollado por xAI y guiado por el enfoque visionario de Elon Musk, Grok AI integra conocimiento en tiempo real con capacidades avanzadas de interacción. Se esfuerza por empujar los límites de lo que la inteligencia artificial puede lograr mientras mantiene un enfoque en consideraciones éticas y la seguridad del usuario. Grok AI no solo encarna el avance tecnológico, sino que también representa un nuevo paradigma de conversaciones en el paisaje Web3, prometiendo involucrar a los usuarios con tanto conocimiento hábil como interacción lúdica. A medida que el proyecto continúa evolucionando, se erige como un testimonio de lo que la intersección de la tecnología, la creatividad y la interacción similar a la humana puede lograr.

541 Vistas totalesPublicado en 2024.12.26Actualizado en 2024.12.26

Qué es ERC AI

Euruka Tech: Una Visión General de $erc ai y sus Ambiciones en Web3 Introducción En el panorama en rápida evolución de la tecnología blockchain y las aplicaciones descentralizadas, nuevos proyectos emergen con frecuencia, cada uno con objetivos y metodologías únicas. Uno de estos proyectos es Euruka Tech, que opera en el amplio dominio de las criptomonedas y Web3. El enfoque principal de Euruka Tech, particularmente su token $erc ai, es presentar soluciones innovadoras diseñadas para aprovechar las crecientes capacidades de la tecnología descentralizada. Este artículo tiene como objetivo proporcionar una visión general completa de Euruka Tech, una exploración de sus objetivos, funcionalidad, la identidad de su creador, posibles inversores y su importancia dentro del contexto más amplio de Web3. ¿Qué es Euruka Tech, $erc ai? Euruka Tech se caracteriza como un proyecto que aprovecha las herramientas y funcionalidades ofrecidas por el entorno Web3, centrándose en integrar la inteligencia artificial dentro de sus operaciones. Aunque los detalles específicos sobre el marco del proyecto son algo elusivos, está diseñado para mejorar la participación del usuario y automatizar procesos en el espacio cripto. El proyecto tiene como objetivo crear un ecosistema descentralizado que no solo facilite transacciones, sino que también incorpore funcionalidades predictivas a través de la inteligencia artificial, de ahí la designación de su token, $erc ai. La meta es proporcionar una plataforma intuitiva que facilite interacciones más inteligentes y un procesamiento de transacciones eficiente dentro de la creciente esfera de Web3. ¿Quién es el Creador de Euruka Tech, $erc ai? En la actualidad, la información sobre el creador o el equipo fundador detrás de Euruka Tech sigue sin especificarse y es algo opaca. Esta ausencia de datos genera preocupaciones, ya que el conocimiento del trasfondo del equipo es a menudo esencial para establecer credibilidad dentro del sector blockchain. Por lo tanto, hemos categorizado esta información como desconocida hasta que se disponga de detalles concretos en el dominio público. ¿Quiénes son los Inversores de Euruka Tech, $erc ai? De manera similar, la identificación de inversores u organizaciones de respaldo para el proyecto Euruka Tech no se proporciona fácilmente a través de la investigación disponible. Un aspecto crucial para los posibles interesados o usuarios que consideren involucrarse con Euruka Tech es la garantía que proviene de asociaciones financieras establecidas o respaldo de firmas de inversión reputadas. Sin divulgaciones sobre afiliaciones de inversión, es difícil llegar a conclusiones completas sobre la seguridad financiera o la longevidad del proyecto. De acuerdo con la información encontrada, esta sección también se encuentra en estado de desconocido. ¿Cómo Funciona Euruka Tech, $erc ai? A pesar de la falta de especificaciones técnicas detalladas para Euruka Tech, es esencial considerar sus ambiciones innovadoras. El proyecto busca aprovechar la potencia computacional de la inteligencia artificial para automatizar y mejorar la experiencia del usuario dentro del entorno de las criptomonedas. Al integrar la IA con la tecnología blockchain, Euruka Tech aspira a proporcionar características como operaciones automatizadas, evaluaciones de riesgos e interfaces de usuario personalizadas. La esencia innovadora de Euruka Tech radica en su objetivo de crear una conexión fluida entre los usuarios y las vastas posibilidades que presentan las redes descentralizadas. A través de la utilización de algoritmos de aprendizaje automático e IA, busca minimizar los desafíos que enfrentan los usuarios primerizos y agilizar las experiencias transaccionales dentro del marco de Web3. Esta simbiosis entre IA y blockchain subraya la importancia del token $erc ai, que actúa como un puente entre las interfaces de usuario tradicionales y las capacidades avanzadas de las tecnologías descentralizadas. Cronología de Euruka Tech, $erc ai Desafortunadamente, como resultado de la información limitada disponible sobre Euruka Tech, no podemos presentar una cronología detallada de los principales desarrollos o hitos en el viaje del proyecto. Esta cronología, que suele ser invaluable para trazar la evolución de un proyecto y comprender su trayectoria de crecimiento, no está actualmente disponible. A medida que la información sobre eventos notables, asociaciones o adiciones funcionales se haga evidente, las actualizaciones seguramente mejorarán la visibilidad de Euruka Tech en la esfera cripto. Aclaración sobre Otros Proyectos “Eureka” Es importante señalar que múltiples proyectos y empresas comparten una nomenclatura similar con “Eureka”. La investigación ha identificado iniciativas como un agente de IA de NVIDIA Research, que se centra en enseñar a los robots tareas complejas utilizando métodos generativos, así como Eureka Labs y Eureka AI, que mejoran la experiencia del usuario en educación y análisis de servicio al cliente, respectivamente. Sin embargo, estos proyectos son distintos de Euruka Tech y no deben confundirse con sus objetivos o funcionalidades. Conclusión Euruka Tech, junto con su token $erc ai, representa un jugador prometedor pero actualmente oscuro dentro del paisaje de Web3. Si bien los detalles sobre su creador e inversores siguen sin revelarse, la ambición central de combinar inteligencia artificial con tecnología blockchain se erige como un punto focal de interés. Los enfoques únicos del proyecto para fomentar la participación del usuario a través de la automatización avanzada podrían distinguirlo a medida que el ecosistema Web3 progresa. A medida que el mercado de criptomonedas continúa evolucionando, los interesados deben mantener un ojo atento a los avances en torno a Euruka Tech, ya que el desarrollo de innovaciones documentadas, asociaciones o una hoja de ruta definida podría presentar oportunidades significativas en el futuro cercano. Tal como están las cosas, esperamos más información sustancial que podría desvelar el potencial de Euruka Tech y su posición en el competitivo paisaje cripto.

574 Vistas totalesPublicado en 2025.01.02Actualizado en 2025.01.02

Qué es DUOLINGO AI

DUOLINGO AI: Integrando el Aprendizaje de Idiomas con la Innovación de Web3 y AI En una era donde la tecnología remodela la educación, la integración de la inteligencia artificial (IA) y las redes blockchain anuncia una nueva frontera para el aprendizaje de idiomas. Presentamos DUOLINGO AI y su criptomoneda asociada, $DUOLINGO AI. Este proyecto aspira a fusionar la capacidad educativa de las principales plataformas de aprendizaje de idiomas con los beneficios de la tecnología descentralizada Web3. Este artículo profundiza en los aspectos clave de DUOLINGO AI, explorando sus objetivos, marco tecnológico, desarrollo histórico y potencial futuro, manteniendo la claridad entre el recurso educativo original y esta iniciativa independiente de criptomoneda. Visión General de DUOLINGO AI En su esencia, DUOLINGO AI busca establecer un entorno descentralizado donde los aprendices puedan ganar recompensas criptográficas por alcanzar hitos educativos en la competencia lingüística. Al aplicar contratos inteligentes, el proyecto pretende automatizar los procesos de verificación de habilidades y asignación de tokens, adhiriéndose a los principios de Web3 que enfatizan la transparencia y la propiedad del usuario. El modelo se aparta de los enfoques tradicionales para la adquisición de idiomas al apoyarse en una estructura de gobernanza impulsada por la comunidad, permitiendo a los poseedores de tokens sugerir mejoras al contenido del curso y a la distribución de recompensas. Algunos de los objetivos notables de DUOLINGO AI incluyen: Aprendizaje Gamificado: El proyecto integra logros en blockchain y tokens no fungibles (NFTs) para representar niveles de competencia lingüística, fomentando la motivación a través de recompensas digitales atractivas. Creación de Contenido Descentralizada: Abre caminos para que educadores y entusiastas de los idiomas contribuyan con sus cursos, facilitando un modelo de reparto de ingresos que beneficia a todos los contribuyentes. Personalización Potenciada por IA: Al emplear modelos avanzados de aprendizaje automático, DUOLINGO AI personaliza las lecciones para adaptarse al progreso de aprendizaje individual, similar a las características adaptativas encontradas en plataformas establecidas. Creadores del Proyecto y Gobernanza A partir de abril de 2025, el equipo detrás de $DUOLINGO AI permanece seudónimo, una práctica frecuente en el paisaje descentralizado de criptomonedas. Esta anonimidad está destinada a promover el crecimiento colectivo y la participación de las partes interesadas en lugar de centrarse en desarrolladores individuales. El contrato inteligente desplegado en la blockchain de Solana señala la dirección de la billetera del desarrollador, lo que significa el compromiso con la transparencia en las transacciones a pesar de que la identidad de los creadores sea desconocida. Según su hoja de ruta, DUOLINGO AI tiene como objetivo evolucionar hacia una Organización Autónoma Descentralizada (DAO). Esta estructura de gobernanza permite a los poseedores de tokens votar sobre cuestiones críticas como implementaciones de características y asignaciones de tesorería. Este modelo se alinea con la ética de empoderamiento comunitario que se encuentra en varias aplicaciones descentralizadas, enfatizando la importancia de la toma de decisiones colectiva. Inversores y Alianzas Estratégicas Actualmente, no hay inversores institucionales o capitalistas de riesgo identificables públicamente vinculados a $DUOLINGO AI. En cambio, la liquidez del proyecto proviene principalmente de intercambios descentralizados (DEXs), marcando un contraste marcado con las estrategias de financiación de las empresas tradicionales de tecnología educativa. Este modelo de base indica un enfoque impulsado por la comunidad, reflejando el compromiso del proyecto con la descentralización. En su libro blanco, DUOLINGO AI menciona la formación de colaboraciones con “plataformas de educación blockchain” no especificadas, destinadas a enriquecer su oferta de cursos. Aunque aún no se han divulgado asociaciones específicas, estos esfuerzos colaborativos sugieren una estrategia para combinar la innovación blockchain con iniciativas educativas, ampliando el acceso y la participación de los usuarios en diversas vías de aprendizaje. Arquitectura Tecnológica Integración de IA DUOLINGO AI incorpora dos componentes principales impulsados por IA para mejorar su oferta educativa: Motor de Aprendizaje Adaptativo: Este sofisticado motor aprende de las interacciones del usuario, similar a los modelos propietarios de las principales plataformas educativas. Ajusta dinámicamente la dificultad de las lecciones para abordar desafíos específicos del aprendiz, reforzando áreas débiles a través de ejercicios específicos. Agentes Conversacionales: Al emplear chatbots impulsados por GPT-4, DUOLINGO AI proporciona una plataforma para que los usuarios participen en conversaciones simuladas, fomentando una experiencia de aprendizaje de idiomas más interactiva y práctica. Infraestructura Blockchain Construido sobre la blockchain de Solana, $DUOLINGO AI utiliza un marco tecnológico integral que incluye: Contratos Inteligentes de Verificación de Habilidades: Esta característica otorga automáticamente tokens a los usuarios que superan con éxito las pruebas de competencia, reforzando la estructura de incentivos para resultados de aprendizaje genuinos. Insignias NFT: Estos tokens digitales significan varios hitos que los aprendices logran, como completar una sección de su curso o dominar habilidades específicas, permitiéndoles intercambiar o exhibir sus logros digitalmente. Gobernanza DAO: Los miembros de la comunidad que poseen tokens pueden participar en la gobernanza votando sobre propuestas clave, facilitando una cultura participativa que fomenta la innovación en la oferta de cursos y características de la plataforma. Línea de Tiempo Histórica 2022–2023: Conceptualización Los cimientos de DUOLINGO AI comienzan con la creación de un libro blanco, destacando la sinergia entre los avances de IA en el aprendizaje de idiomas y el potencial descentralizado de la tecnología blockchain. 2024: Lanzamiento Beta Un lanzamiento beta limitado introduce ofertas en idiomas populares, recompensando a los primeros usuarios con incentivos en tokens como parte de la estrategia de participación comunitaria del proyecto. 2025: Transición a DAO En abril, se produce un lanzamiento completo de la mainnet con la circulación de tokens, lo que provoca discusiones comunitarias sobre posibles expansiones a idiomas asiáticos y otros desarrollos de cursos. Desafíos y Direcciones Futuras Obstáculos Técnicos A pesar de sus ambiciosos objetivos, DUOLINGO AI enfrenta desafíos significativos. La escalabilidad sigue siendo una preocupación constante, particularmente en el equilibrio de los costos asociados con el procesamiento de IA y el mantenimiento de una red descentralizada y receptiva. Además, garantizar la creación y moderación de contenido de calidad en medio de una oferta descentralizada plantea complejidades en el mantenimiento de estándares educativos. Oportunidades Estratégicas Mirando hacia adelante, DUOLINGO AI tiene el potencial de aprovechar asociaciones de micro-certificación con instituciones académicas, proporcionando validaciones de habilidades lingüísticas verificadas por blockchain. Además, la expansión entre cadenas podría permitir al proyecto acceder a bases de usuarios más amplias y a ecosistemas blockchain adicionales, mejorando su interoperabilidad y alcance. Conclusión DUOLINGO AI representa una fusión innovadora de inteligencia artificial y tecnología blockchain, presentando una alternativa centrada en la comunidad a los sistemas tradicionales de aprendizaje de idiomas. Aunque su desarrollo seudónimo y su modelo económico emergente traen ciertos riesgos, el compromiso del proyecto con el aprendizaje gamificado, la educación personalizada y la gobernanza descentralizada ilumina un camino hacia adelante para la tecnología educativa en el ámbito de Web3. A medida que la IA continúa avanzando y el ecosistema blockchain evoluciona, iniciativas como DUOLINGO AI podrían redefinir cómo los usuarios se relacionan con la educación lingüística, empoderando a las comunidades y recompensando la participación a través de mecanismos de aprendizaje innovadores.

559 Vistas totalesPublicado en 2025.04.11Actualizado en 2025.04.11

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de AI (AI).

Del Código a la Cognición: Una Guía de Diez Mil Palabras sobre la Evolución del Cerebro Robótico

Resumen

I: La Era Pre-LLM: Cuando los robots eran solo software

II: El aprendizaje automático se infiltra sigilosamente

III: LLMs Llegan a la Robótica

IV: Modelos Visual-Lenguaje-Acción (VLA), Cuando el Cerebro Conduce

V: Estrategia de Dos Cerebros: Cómo Trabajan Juntos los LLM y los VLA

VI: Nube, Computación de Borde y Dónde Va el "Cerebro"

VII: Por Qué los Modelos de Código Abierto Son el Secreto a Voces

VIII: Qué Problemas Todavía No Están Resueltos

IX: Modelos del Mundo

X: Arquitecturas Alternativas, Porque el Campo No Está Decidido

XI: Cómo Se Vería Realmente un Robot Basado en Modelo del Mundo

XII: Cosas Más Que Deberías Saber

Conclusión

Preguntas relacionadas

Lecturas Relacionadas

Zcash sufre un colapso histórico mientras miles de millones desaparecen de su valor de mercado

¿Ha fracasado la narrativa del BTC como 'oro digital'?

¿Ha fracasado la narrativa del BTC como 'oro digital'?

La burbuja de la IA se está pinchando

La burbuja de la IA se está desinflando

Trading

Artículos destacados

Qué es GROK AI

Qué es ERC AI

Qué es DUOLINGO AI

Discusiones

Categorías populares

Etiquetas Populares