Así es, la IA sigue acelerando a toda velocidad.
En 2016, el aprendizaje profundo, tras apenas un año de explosión, casi se estancó. En 2026, los grandes modelos, tras cuatro años de explosión, todavía no han tocado techo.
En el lugar de la Conferencia Zhiyuan 2026, Luz Cónica Inteligente pudo ver que todo, desde los modelos y el software/hardware hasta los productos, se esfuerza por permitir que la IA pase del mundo digital al mundo físico.
Por un lado, la Ley de Escalado (Scaling Law) funciona de manera estable, impulsando que los grandes modelos de lenguaje y los modelos multimodales sigan desarrollándose, y la industria de la IA ha entrado en una etapa de persecución de modelos del mundo. Sin embargo, actualmente existen problemas pendientes como la ruta tecnológica y los datos, que requerirán al menos 3-5 años más de exploración.
Por otro lado, los avances en Agent están acelerando la implementación de la IA en escenarios del mundo real. A medida que los Agent alcanzan una etapa utilizable, la industria está impulsando su aplicación en escenarios como la medicina, las reuniones, etc. Para que los Agent pasen de ser utilizables a ser realmente buenos, la colaboración entre software y hardware también se ha vuelto clave. En el stand de la Conferencia Zhiyuan, los fabricantes de chips ocuparon "la mitad del espacio". Casi todos los principales chips de IA nacionales estaban presentes.
"Nos encontramos en un nuevo punto crítico de la historia. La inteligencia artificial ya no es solo una herramienta para transformar ciertas industrias, sino que se está convirtiendo en una fuerza fundamental que está reestructurando el mundo. El AI Coding, los agentes autónomos y la auto-evolución de los modelos están abriendo las posibilidades de la IA, de crear IA. Los modelos del mundo, la inteligencia encarnada y la robótica están extendiendo la inteligencia desde el mundo digital al físico", dijo Wang Zhongyuan, director del Instituto de Investigación Zhiyuan.
En esta ola de reestructuración de fuerzas fundamentales, ¿qué está sucediendo realmente?
El primer día de la Conferencia Zhiyuan, los invitados presentes dieron esta respuesta: la IA está pasando de "saber conversar" a "saber trabajar". La Ley de Escalado continúa, los modelos del mundo, cuya dirección tecnológica aún no converge, se convierten en el centro de atención de la próxima etapa, y los agentes inteligentes ya han comenzado a pasar de ser utilizables a ser buenos, aunque aún quedan muchos problemas por optimizar.
La IA no solo no ha llegado al límite tecnológico
sino que ha aprendido a autoevolucionarse
En el último año, a medida que se agotaban los datos de texto de Internet de alta calidad, en la industria flotaba un sentimiento de pesimismo de que "la Ley de Escalado (Scaling Law) está a punto de tocar techo".
En múltiples foros de la Conferencia Zhiyuan, se mencionó con frecuencia "si el dividendo de la Ley de Escalado se está reduciendo", y varios invitados negaron esta afirmación.
"Sigo creyendo firmemente que el escalado está lejos de llegar a su fin", dijo Wang He, fundador y CTO de Galaxy General. "Mirando hacia atrás hoy, la Ley de Escalado no ha fallado, solo se ha vuelto más diversa."
En una serie de grandes modelos de lenguaje recién lanzados, el escalado sigue funcionando. Analizando el Fable 5 publicado recientemente por Anthropic, Luo Fuli de Xiaomi señaló que este modelo en sí mismo es el producto del avance científico del escalado. Es el resultado de combinar el escalado en tres dimensiones: el tamaño de los parámetros del modelo, los datos sintéticos y el aprendizaje por refuerzo.
"Sospechamos que el propio tamaño de los parámetros de Fable 5 debería ser varias veces mayor que el del modelo de código abierto más grande actual, además de haber invertido una gran potencia computacional en Test-Time Scanning (escalado en tiempo de inferencia) o aprendizaje por refuerzo. Además, los datos sintéticos generados por humanos y Agent han llevado la escala de datos a un nuevo nivel", dijo Luo Fuli.
En el campo multimodal, la mejora del rendimiento del modelo impulsada por el escalado también es igualmente significativa. Zhu Jun, fundador y científico jefe de Shengsu Technology, indicó que la calidad de los datos, el tamaño del modelo y el entrenamiento a gran escala mejoran el modelo. Sobre la base de la mejora de las capacidades del modelo base, la comprensión del modelo de las leyes físicas y las escenas 3D también será más eficiente.
Mientras el escalado sigue siendo efectivo, con la maduración gradual del AI Coding y la aceleración de la implementación de Agent, la tendencia de autoevolución de la IA se hace evidente, pasando de escribir código a completar por sí misma la actualización de productos.
"La base del extenso mundo digital humano está constituida por código. El progreso sustancial del AI Coding y su conversión en corriente principal significa que todas las cosas en el mundo digital podrían ser gradualmente asumidas por la IA", dijo Wang Zhongyuan.
Tanto en China como en el extranjero, utilizar la IA para completar actualizaciones de productos se ha convertido en algo común.
"Si el modelo determina la capacidad del agente inteligente, entonces el Harness determina el límite superior de esa capacidad", dijo Li Jingqiu. "Su dificultad radica en la necesidad de aclarar, verificar y retroalimentar mejor los problemas sobre la base del modelo."
Por ejemplo, si solo se confía en el modelo para entender un problema, inevitablemente tendrá limitaciones. Lo que el Harness necesita hacer es perfeccionar y enriquecer la simple instrucción de una frase del usuario, para que el modelo pueda comprender mejor la necesidad. Aquí, el Harness necesita desplegar su capacidad de comprensión de la intención y, después de recibir la tarea, diseñar el flujo de tareas siguiente y luego planificar la ejecución del modelo. Este proceso puede requerir la combinación de intervención y corrección humana, además de realizar una verificación antes de completar la tarea.
Modelos del mundo
El próximo campo de batalla clave de los grandes modelos
Avanzando hacia el exterior a lo largo de los límites del mundo digital, los modelos del mundo se han convertido en el próximo campo de batalla clave de los grandes modelos.
"Actualmente, todavía no hay ningún modelo del mundo que realmente haga sentir especialmente impresionado, resolviendo todo tipo de problemas del mundo físico real", dijo Wang Zhongyuan.
Para los modelos del mundo que se encuentran en una etapa inicial de desarrollo, la industria aún no ha llegado a un consenso completo sobre las técnicas dirigidas a ellos. Además, en una situación donde la ruta tecnológica aún no converge, hay una serie de problemas pendientes por resolver. Tomando los datos como ejemplo, Wang Zhongyuan puso el caso de si se necesitan datos de video, datos de simulación o datos del mundo físico real, y que aún no se ha encontrado un camino metodológico.
Tomando a Galaxy General como ejemplo, Wang He presentó en el lugar su aplicación de datos sintéticos.
"Antes de que surgiera el paradigma WAM (World Action Model, o Modelo de Acción del Mundo), dentro del paradigma VLA, primero utilizamos datos sintéticos para realizar muchos intentos en relación con la tarea de agarre", dijo Wang He. "Utilizamos mil millones de cuadros de datos de simulación para demostrar: siempre que escalemos los datos a este nivel, podemos lograr completamente el zero-shot (aprendizaje de cero ejemplos). En el mundo real, dame cualquier objeto y podré agarrarlo."
Sobre la situación de desarrollo de los modelos del mundo, el Instituto de Investigación Zhiyuan predice que "se necesitarán al menos varios años más", y que los próximos tres a cinco años serán una etapa de evolución e iteración continua de los modelos del mundo.
En los últimos años, han aparecido en la industria múltiples modelos del mundo con diferentes rutas tecnológicas, cada uno con su propio desarrollo.
Tomando los modelos del mundo multimodales como ejemplo, Zhu Jun señaló que los modelos de video y los modelos del mundo están estrechamente relacionados, porque los modelos del mundo necesitan poseer las tres capacidades de ver y comprender el estado, predecir y actuar. Entre los datos de entrenamiento accesibles actualmente, los más relacionados con los modelos del mundo son los datos de video.
En una situación donde se diversifican varios tipos de rutas tecnológicas y la industria aún no ha formado un consenso, el Instituto de Investigación Zhiyuan clasifica los modelos del mundo en cuatro categorías:
La primera categoría son los modelos del mundo centrados en el lenguaje, que mapean otras modalidades y capacidades al espacio lingüístico, incluyendo grandes modelos de lenguaje, VLM, VLA, etc.
La segunda categoría son los modelos del mundo centrados en píxeles. La generación de video es esencialmente predecir el siguiente fotograma, pero los modelos de generación de video no equivalen a modelos del mundo; están relacionados con ellos. El World Action Model (WAM), que podría ser muy popular este año, evoluciona centrado en píxeles.
La tercera categoría son los modelos del mundo centrados en la estructura tridimensional, incluyendo la reconstrucción 3D, que es simplemente el mundo tridimensional.
La cuarta categoría son los modelos del mundo con eje en la representación visual.
Actualmente, el Instituto de Investigación Zhiyuan está explorando una "quinta" ruta: la fusión de lo centrado en el lenguaje y lo centrado en la representación visual, es decir, la representación del espacio latente, que equivale a comprimir información como texto, imágenes, etc., en un espacio vectorial para representar varios estados del mundo físico real.
"En el futuro, el modelado unificado del espacio latente no será solo el espacio visual, sino el espacio latente multimodal completo, que muy probablemente sea el próximo camino posible para los verdaderos modelos del mundo", dijo Wang Zhongyuan.
El Instituto de Investigación Zhiyuan presentó en la conferencia el modelo del mundo en desarrollo: Wu Jie · Physis-v0.1. Se centra en el modelado del espacio físico para lograr la predicción del siguiente estado físico. Su posicionamiento es el primer modelo base del mundo universal global, destacando cuatro capacidades clave: "correctitud física, trazabilidad causal de acciones, consistencia temporal larga y generalización universal".
Actualmente, este modelo aún se encuentra en etapa de entrenamiento. En la segunda mitad del año, Zhiyuan continuará compartiendo avances y, una vez completado el entrenamiento, abrirá el código del modelo.
De "utilizable" a "excelente"
Los agentes inteligentes aún tienen más obstáculos que superar
En el lado de los modelos, el progreso de los modelos del mundo impulsa la realización de la IA física; en el lado de los productos, Agent (agente inteligente) se convierte en el producto clave para que la IA entre en la vida del público general.
Desde 2025, denominado "el año inicial de los agentes inteligentes", ya han aparecido algunos productos Agent impresionantes, mostrando signos de explosión, pero la inmensa popularidad de las "langostas" este año aún resultó inesperada.
Comparado con el año pasado, cuando los agentes inteligentes aún estaban en estado de ejecución, los de este año obviamente se han vuelto más proactivos y más hábiles para hacer cosas, pueden ayudar a los usuarios a ejecutar de manera proactiva tareas más complejas.
En la Conferencia Zhiyuan de este año, el Instituto de Investigación Zhiyuan también lanzó cuatro agentes inteligentes orientados a verticales: BAAI Cardiac Agent, el primer agente de asistencia al diagnóstico para resonancia magnética cardíaca a nivel mundial, que fusiona capacidades multimodales y conocimiento profesional médico para asistir en la toma de decisiones; AREX, agente de investigación autónoma aplicado al campo científico; SoulAgent, agente que ayuda a los usuarios a escuchar reuniones en tiempo real y captar los puntos clave; y un agente de descubrimiento de riesgos orientado a la obtención de proteínas nocivas.
Entre ellos, tomando como ejemplo el agente que escucha reuniones, Luz Cónica Inteligente probó su capacidad para resumir contenidos de diferentes reuniones. SoulAgent realmente hizo un resumen simple del contenido de la reunión. Aunque no fue tan completo como un acta, los puntos de vista centrales fueron correctos. Es adecuado para situaciones donde los horarios de los subforos se superponen.
Sin embargo, actualmente los agentes inteligentes aún tienen muchos problemas técnicos que necesitan ser optimizados. An Yang, Profesor Distinguido y Presidente de la Universidad Tecnológica de Nanyang, mencionó que para mantener la mejora continua de las capacidades de los agentes inteligentes, lo más importante en este momento sigue siendo la parte relacionada con la ingeniería de contexto, como la Memoria, la orquestación, etc.
En el foro sobre agentes inteligentes, Harness (traducido literalmente como arnés, se refiere a todo un marco o entorno de ingeniería construido alrededor del agente inteligente), que recibió poca atención el año pasado pero es muy popular este año, se convirtió en una de las palabras clave de alta frecuencia mencionadas en el lugar.
"Si el modelo determina la capacidad del agente inteligente, entonces el Harness determina el límite superior de esa capacidad", dijo Li Jingqiu. "Su dificultad radica en la necesidad de aclarar, verificar y retroalimentar mejor los problemas sobre la base del modelo."
Por ejemplo, si solo se confía en el modelo para entender un problema, inevitablemente tendrá limitaciones. Lo que el Harness necesita hacer es perfeccionar y enriquecer la simple instrucción de una frase del usuario, para que el modelo pueda comprender mejor la necesidad. Aquí, el Harness necesita desplegar su capacidad de comprensión de la intención y, después de recibir la tarea, diseñar el flujo de tareas siguiente y luego planificar la ejecución del modelo. Este proceso puede requerir la combinación de intervención y corrección humana, además de realizar una verificación antes de completar la tarea.
En resumen, al igual que un asistente real, cada detalle de estos pasos requiere que el producto perfeccione el Harness para mejorar aún más el efecto de ejecución del Agent.
Actualmente, Agent aún se encuentra en una etapa inicial de desarrollo. Es previsible que el espacio de mejora de esta industria sea grande. Tanto la mejora de la capacidad del modelo como la consolidación de los detalles de ingeniería contribuirán a fortalecer aún más la capacidad de trabajo del Agent.
Este artículo proviene del WeChat Official Account: Luz Cónica Inteligente, autor: enfocado en tecnología de vanguardia.










