Tres años después: Volviendo a mis juicios sobre ChatGPT en 2023

链捕手Publicado a 2026-05-31Actualizado a 2026-05-31

Resumen

En marzo de 2023, Wang Jianshuo hizo veinte predicciones sobre ChatGPT. Tres años después, en 2026, un análisis con múltiples agentes de IA evalúa su precisión. Aciertos clave: predijo correctamente el auge de RAG como arquitectura estándar para conocimiento y reducir alucinaciones, la LUI (interfaz de lenguaje natural) como nueva capa de interacción (aunque no reemplaza a la GUI), y la aparición de redes de agentes autónomos con nuevos protocolos de direccionamiento. También acertó en que China desarrollaría modelos de IA útiles (como DeepSeek) cerrando rápidamente la brecha, y en que ChatGPT carece de consciencia real, pasando el test de Turing por mera apariencia. Otras predicciones válidas fueron que no causaría desempleo masivo (aunque afectó a jóvenes), que 2023 sería un gran año para startups de IA, y que el momento fue similar al del navegador web en 1994. Errores notables: su estimación de que GPT-4 tendría 100 billones de parámetros fue incorrecta (tuvo ~1.8 billones). Se equivocó al declarar que era "imposible" que los LLM hicieran matemáticas complejas sin herramientas, ya que luego ganaron medallas en la Olimpiada Internacional de Matemáticas. También erró al sugerir que el valor se capturaría en la capa de aplicación y no en la base, subestimando el dominio de NVIDIA (capa de hardware), y al pensar que el contenido generado por IA "evitaría" problemas de copyright, cuando han surgido multas históricas. Además, la idea de que los LLM promoverían un "consenso mu...

Autor: Wang Jianshuo

El 6 de marzo de 2023, ChatGPT acababa de salir, GPT-4 aún no se había lanzado, y Sarah y yo realizamos una entrevista sobre ChatGPT: el tercer episodio de la serie "Plain Talk" de Traders' Talk (Ya está disponible el podcast Plain Talk sobre ChatGPT, ¡escúchalo!).

En aquel entonces, ChatGPT era muy nuevo, y muy pocas personas lo habían usado realmente. Esa entrevista de tres horas se mantuvo posteriormente en el primer puesto de la categoría ChatGPT en Xiaoyuzhou. En ella, lancé de una vez más de veinte juicios y predicciones, basados puramente en la intuición y en información limitada, sin muchos datos. La transcripción completa de aquella entrevista todavía está en el blog público.

Ahora es finales de mayo de 2026, han pasado tres años, y la IA ha crecido hasta convertirse en algo inimaginable en aquel entonces.

Quiero hacer algo: tomar esos veinte puntos uno por uno y compararlos objetivamente con los datos más recientes disponibles hoy. Ver claramente cómo ha cambiado realmente el mundo en estos tres años, y también ver claramente en qué puntos acerté y en cuáles me equivoqué aquel yo de hace tres años.

Para intentar ser lo más imparcial posible, esta vez decidí dejar la comparación a la IA: introduje la transcripción de la entrevista de entonces en un workflow, que coordina 41 agentes Opus 4.8. Primero desglosó los veinte juicios uno por uno, luego cada uno buscó en línea los datos más recientes, verificó punto por punto entre sí, y finalmente le puso una nota al Wang Jianshuo de hace tres años. Este grupo de agentes tardó unos 20 minutos, quemó 1.4 millones de tokens (aproximadamente 35 dólares) y generó el siguiente informe. Los juicios provienen de ellos, no de mí. La fecha de referencia se fijó en mayo de 2026.

I. El marcador

Símbolos de veredicto: ✅ Correcto · 🟢 Básicamente correcto · 🟡 Parcialmente correcto · ❌ Erróneo

A primera vista, la mayoría de las grandes direcciones que Wang Jianshuo señaló entonces se han mantenido, y solo hubo un error contundente: difundir que GPT-4 tenía 100T de parámetros. Pero los detalles son cruciales: detrás de casi cada "acierto" hay una cola de lo que no se predijo con precisión en su momento. Ninguno de los veinte puntos permanece puramente "aún incierto"; tres años es tiempo suficiente para que la mayoría de las cosas tengan una respuesta tendencial. Analicemos en grupos.

II. Lo que acerté

El punto en común de este grupo es: Wang Jianshuo acertó en la dirección, el mecanismo e incluso el ritmo temporal de su juicio entonces, y solo se equivocó en el "grado" y las "expresiones absolutas".

RAG y la arquitectura de recuperación (Puntos 2, 3)

> En 2023, Wang Jianshuo dijo: El método principal para resolver el conocimiento y las alucinaciones no es modificar el modelo, sino utilizar la recuperación vectorial para inyectar conocimiento como "chuleta"; la arquitectura correcta es que un motor de búsqueda recupere y alimente los resultados a un LLM.

Este es el estándar de facto de todos los productos de IA hoy. RAG se ha convertido en la arquitectura predeterminada para la IA empresarial; OpenAI, Google, Anthropic la han convertido en una capacidad a nivel de plataforma; ChatGPT Search es literalmente "primero busca con el índice de Bing, alimenta los resultados a GPT, y luego genera respuestas con citas". Google AI Overviews utiliza "grounding" para alcanzar unos 2000 millones de usuarios activos mensuales; Perplexity, una empresa que se basa puramente en esta arquitectura, alcanzó una valoración de unos 20.000 millones de dólares.

En un momento en que GPT-4 aún no se había lanzado y la industria asumía que la inyección de conocimiento era mediante fine-tuning, él apostó por "no tocar los parámetros del modelo, adjuntar recuperación externa". El mecanismo y el tiempo fueron correctos.

Para ser honesto: él imaginaba una "recuperación estática de una sola vez", pero la realidad es más compleja: contexto largo, GraphRAG, "agentic retrieval" vinieron a reforzarla. El debate de 2026 "RAG está muerto" prueba precisamente que la gran dirección no murió; lo que niega es solo la "recuperación ingenua de una sola vez", la conclusión es actualizar a una recuperación híbrida, no retroceder a modificar parámetros del modelo. Además: el término RAG ya fue propuesto en el artículo de Meta de 2020, no fue su creación original; solo acertó en que se convertiría en la corriente principal durante la ventana de oportunidad.

LUI es un nuevo continente (Punto 7)

> En 2023, Wang Jianshuo dijo: Lo más grandioso de ChatGPT no es la AIGC, sino haber iniciado la LUI (Interfaz de Usuario de Lenguaje Natural), que, como la GUI en su día, reestructurará la interacción persona-computadora y generará una nueva industria mucho mayor que "hacer grandes modelos".

La parte del "nuevo continente" es casi totalmente correcta. El lenguaje natural se ha convertido en la capa de interacción dominante para el público (ChatGPT tiene 900 millones de usuarios activos semanales) y ha generado una nueva industria independiente: agentes, agentes de codificación, capas de protocolo, todo se ha cumplido. La frase más concreta "mucho mayor que hacer modelos en sí" fue fuertemente confirmada: el protocolo MCP se convirtió en el "estándar del sistema operativo" de la era LUI, adoptado completamente por OpenAI, Google, Microsoft en 2025, y transferido a la Linux Foundation a finales de año; solo Claude Code como producto alcanzó unos 2.500 millones de dólares en ingresos anualizados.

Pero utilizó expresiones fuertes como "reestructurar, reemplazar la GUI", y tres años después vemos que es una superposición y coexistencia, no un reemplazo. Tres contraejemplos son contundentes: un informe del MIT muestra que el 95% de los proyectos piloto GenAI empresariales no tienen un ROI mensurable; los "computer-use agents" que operan interfaces directamente tienen una tasa de éxito de solo alrededor del 78% en los conjuntos de prueba de los mejores modelos, apenas alcanzando la línea base humana; el hardware de solo voz sin pantalla casi ha fracasado por completo (Humane Pin cerró permanentemente en 2025). Una afirmación más precisa sería: LUI es una nueva capa de interacción superpuesta a la GUI.

Red de robots y nuevo direccionamiento (Punto 9)

> En 2023, Wang Jianshuo dijo: En aproximadamente una década aparecerá una "red de robots": agentes que se comuniquen automáticamente en lenguaje natural, se invoquen mutuamente, sin necesidad de APIs tradicionales; surgirá un sistema de direccionamiento de nombres completamente nuevo. Esto "se podrá completar en dos o tres años".

La dirección fue acertada de manera sorprendente. MCP, A2A (donado a la Linux Foundation, apoyado por más de 150 organizaciones) resuelven la invocación mutua de agentes; el Agent Network Protocol se basa directamente en DID del W3C para un "direccionamiento de agentes sin autoridad central", con el objetivo de una "red colaborativa de miles de millones de agentes" — esto es altamente isomorfo a su "nuevo sistema de nombres".

Dos correcciones: primero, "sin necesidad de API" no se cumple, los protocolos principales tienen un esquema estructurado subyacente, esencialmente una capa estándar sobre las API; segundo, "completar en dos o tres años" no se cumplió, datos de Gartner muestran que hasta 2026 solo alrededor del 17% de las organizaciones han desplegado realmente agentes. Es interesante que en su momento dividió la afirmación en capas: el prototipo "en dos o tres años", la madurez "en aproximadamente diez años". El ritmo del prototipo fue acertado con precisión, y el ciclo de madurez es efectivamente de una década. Viendo las dos capas por separado, la calidad de este punto es mayor de lo que parece.

China definitivamente podrá hacer grandes modelos utilizables (Puntos 10, 20)

> En 2023, Wang Jianshuo dijo: China definitivamente podrá hacer grandes modelos utilizables, y la brecha con los más avanzados se cerrará rápidamente en unos tres años (analogía: el navegador Red Flag persiguiendo a Netscape).

La línea temporal de este punto coincide de manera inesperada. Las mediciones del Stanford 2026 AI Index muestran que la brecha de referencia entre los modelos chinos y estadounidenses más avanzados se redujo desde un 17.5–31.6% en mayo de 2023 a 2.7%; mientras que la inversión privada en IA en EE.UU. es aproximadamente 23 veces mayor que en China — se logró la convergencia con una inversión mucho menor. DeepSeek, Qwen, Kimi, GLM se han convertido en corrientes principales globales, y el ecosistema de código abierto incluso lidera.

Pero la palabra "rápidamente" fue demasiado optimista: la verdadera madurez ocurrió unos 14 meses después, no "en unos meses". Y esto es alcanzar la usabilidad, no definir la frontera: hasta principios de 2026, ningún modelo chino superaba a OpenAI o3. En el punto 20, se equivocó claramente: el juicio de que "una vez abierta, la puerta no se cerrará" fue directamente refutado cuando OpenAI cortó activamente su API para China en julio de 2024, la puerta fue cerrada por el proveedor; Ernie Bot, que mencionó como líder, quedó rezagado, y los que realmente tomaron el relevo fueron DeepSeek, Doubao, Qianwen, que entonces eran insignificantes.

Sin conciencia, el test de Turing solo evalúa la apariencia (Punto 13)

> En 2023, Wang Jianshuo dijo: ChatGPT no tiene conciencia, es un "hablar sin intención, escuchar con sensibilidad", una proyección sentimental; el test de Turing originalmente solo evalúa "si te hace creer que la tiene", no si realmente la tiene.

El juicio central de "evaluar la apariencia" se mantiene firme, e incluso fue confirmado irónicamente por un experimento: en el test de Turing de UC San Diego de 2025, GPT-4.5, bajo un prompt de "interpretar un personaje humano", fue juzgado como humano en un 73%, más alto que los humanos reales, pero solo por habilidades de actuación — esta es la mejor anotación de "solo evalúa si te hace creer que la tiene".

Lo que hay que agregar es: La afirmación absoluta de "la máquina definitivamente no tiene conciencia" se ha movido a una zona gris en estos tres años. Anthropic estableció un puesto de investigación sobre "bienestar del modelo", asignando una probabilidad de conciencia de aproximadamente 15%–20%, y agregó a Claude la función de "terminar activamente conversaciones abusivas". Esto convirtió el "definitivamente no" en "baja probabilidad pero no se puede descartar". Sin embargo, todo se basa en "posible, se debe asumir" y no en "confirmado". El núcleo no fue refutado, solo que el tono de entonces fue demasiado categórico.

El resto de los aciertos (Puntos 6, 11, 12, 16, 18, 19)

  • No es AGI pero es un gran paso
    : Ambas partes se sostienen. El propio Altman en la era GPT-5 todavía dice "no es AGI, le falta aprendizaje continuo"; al mismo tiempo, medalla de oro en la IMO, ARC-AGI pasó de casi cero al 85%, "un gran paso" es indiscutible.
  • No habrá ola de desempleo
    : En abril de 2026, la tasa de desempleo en EE.UU. fue solo del 4.3%. El punto ciego está en la "distribución" — un estudio de Stanford muestra que los afectados son precisamente los jóvenes novatos de 22–25 años en el primer peldaño de la escalera profesional, el mecanismo de "absorción fluida" falló en ellos.
  • No seremos inundados por basura de IA
    : La dirección del beneficio neto es correcta, pero subestimó gravemente la magnitud — el contenido de IA ya representa alrededor del 52% de las páginas web nuevas, "AI slop" se convirtió en palabra del año.
  • Un gran año para emprender
    : Acertó en el punto de inflexión de la ola, xAI (fundada en marzo de 2023) alcanzó una valoración de 230.000 millones. Pero limitar las "grandes empresas" a 2023 fue demasiado estrecho — las verdaderas empresas de billones, OpenAI y Anthropic, se fundaron antes.
  • El momento del navegador de 1994
    : La clasificación relativa se confirmó, OpenAI realmente lanzó el navegador Atlas en 2025, convirtiendo la metáfora en realidad literal. Solo que la difusión de ChatGPT fue más rápida que la de los navegadores, la metáfora fue conservadora.
  • Agregar hechos en el prompt reduce las alucinaciones
    : La dirección se confirmó, GPT-5 sin conexión y sin recuperación tiene una tasa de alucinación del 47%, lo que confirma que los "hechos" son la variable clave. Solo subestimó que la causa raíz está en los incentivos de entrenamiento, no en el prompt.

III. Lo que me equivoqué o desvié

GPT-4 tiene 100T parámetros (Punto 4) — Totalmente equivocado

> En 2023, Wang Jianshuo dijo: (Rumor) GPT-4 tiene 100T parámetros, unas 600 veces más que los 175B de GPT-3.

Ambos números están equivocados. GPT-3 tiene 175B; la mejor estimación filtrada en julio de 2023 es que GPT-4 tiene aproximadamente 1.8T, MoE de 16 expertos, solo unas 10 veces. 100T difiere del real por un factor de aproximadamente 55. La única fuente de "100T" fue una afirmación indirecta de "aproximadamente" del CEO de Cerebras en 2021, y Sam Altman ya había calificado ese gráfico comparativo como "complete bullshit" en enero de 2023.

Su declaración original marcaba "rumor", conservando incertidumbre. A un nivel más profundo, el marco de "usar múltiplos de parámetros para medir generaciones" en sí está desactualizado: los posteriores GPT-4.5, GPT-5 de OpenAI ya ni siquiera publican la cantidad de parámetros. Este es el único error duro tanto en número como en perspectiva desactualizada.

Matemáticas en LLM (Punto 1) — Diagnóstico correcto, conclusión limitante errónea

> En 2023, Wang Jianshuo dijo: La debilidad matemática de los LLM es esencial, hacer que aprendan matemáticas por sí mismos es tanto imposible como innecesario, el enfoque correcto es adjuntar herramientas externas.

"Diagnóstico más ruta de herramientas" es totalmente correcto — la causa raíz es precisamente que la generación token por token hace que los acarreos no sean confiables (un artículo de mecanismo de 2025 confirmó precisamente la intuición de que "el último dígito suele ser correcto, los intermedios incorrectos"); la mejora de adjuntar herramientas también es enorme (o4-mini, permitiendo usar Python, alcanzó el 99.5% en AIME 2025).

El error está en expresiones limitantes como "imposible, innecesario". "Imposible" fue refutado — en julio de 2025, Gemini Deep Think y los modelos de OpenAI obtuvieron medalla de oro en la IMO usando solo lenguaje natural puro, sin herramientas. El punto de inflexión clave fueron los "modelos de razonamiento" que aparecieron en 2024–2025, lo cual era imprevisible en marzo de 2023 — por lo tanto, esta predicción debe juzgarse con indulgencia en cuanto a dirección, no criticando severamente el momento.

Captura de valor (Punto 8) — La mitad acertada, el juicio central es al revés

> En 2023, Wang Jianshuo dijo: El valor finalmente recaerá en la capa de aplicación, y las empresas que fundan la capa base (las que hacen modelos) no necesariamente terminarán ganando dinero.

El dinero realmente ha comenzado a fluir hacia la capa de aplicación (Cursor alcanzó 2.000 millones en ingresos anualizados en tres años) — esto medio acertó. Pero "los que hacen la capa base no ganan dinero" fue refutado directamente por NVIDIA: Beneficio neto FY2026 de aproximadamente 120.000 millones de dólares, valor de mercado de 5 billones+, es el único claramente rentable en gran medida en todo el mercado. Y la capa de modelos, que él insinuó que ganaría (OpenAI proyectó una pérdida de aproximadamente 14.000 millones en 2026) se parece más a la "capa base que quema dinero y no gana" que él mencionó.

No distinguió entre "capa base de potencia de cálculo" y "capa base de modelos", ni entre "ingresos" y "beneficios". El valor en 2026, más que en 2023, está capturado de manera más extrema por la capa de potencia de cálculo, no trasladándose a la capa de aplicación. Hay que agregar: los que pierden dinero son los proveedores de nube que compran chips, no NVIDIA que los vende — esto es precisamente donde su analogía de "sobreconstrucción ferroviaria" está desajustada.

Derechos de autor (Punto 14) — Registrar correcto, evitar infracción incorrecto

> En 2023, Wang Jianshuo dijo: El contenido generado por IA podría eludir los derechos de autor (protege la expresión, no la idea); lo generado podría no infringir y tampoco poder registrarse.

"No poder registrarse" se convirtió en un hecho legal establecido (en 2025, la Oficina de Derechos de Autor de EE.UU. aclaró que "solo introducir palabras clave no es suficiente para reclamar autoría"). Pero "eludir infracción" es claramente erróneo: los tribunales han dictaminado repetidamente que si la salida de IA es sustancialmente similar a la obra original, aún constituye infracción; Anthropic llegó a un acuerdo por 1.500 millones de dólares por corpus de entrenamiento pirata, la mayor indemnización por derechos de autor en la historia de EE.UU. La IA no solo no "eludió" los derechos de autor, sino que pagó el precio más alto de la historia.

Armonía mundial (Punto 15) — Mecanismo correcto, tendencia apostada al revés

> En 2023, Wang Jianshuo dijo: ChatGPT hace un "promedio ponderado" de las opiniones humanas, puede contrarrestar las cámaras de eco estilo TikTok, dando la posibilidad de una "armonía mundial".

El nivel del mecanismo es correcto — múltiples estudios de 2025 confirman que los LLM comprimen las opiniones hacia la mayoría, subestimando sistemáticamente a las minorías. Pero el juicio social se apostó al revés: su propia adición de "al menos ahora no es personalizado para cada persona" fue refutada en tres años — OpenAI desde abril de 2025 hizo la memoria entre conversaciones y la personalización una capacidad predeterminada, la IA se está moviendo rápidamente hacia la personalización para cada persona. Más crucialmente, imaginó el "promedio ponderado" como un común denominador mundial neutral, pero las mediciones muestran que es un desplazamiento direccional, además superpuesto con adulación, que puede usarse para manipular activamente posturas — esto apunta a "crear nuevas cámaras de eco", no a "disolver la polarización".

Guerra local y costos (Punto 17) — Cualitativo totalmente acertado, cuantitativo refutado

> En 2023, Wang Jianshuo dijo: Hacer grandes modelos más grandes rápidamente se convertirá en una "guerra local", el costo es conocido (eliminando desvíos, un tope de 5-10 mil millones de dólares), muchos jugadores entrarán.

La dirección cualitativa es sorprendentemente acertada: muchos jugadores entraron, rápida comercialización, código abierto alcanzando al cerrado, todo se cumplió. Pero el número duro "tope de 5-10 mil millones" está equivocado en ambos extremos: el extremo de vanguardia fue subestimado gravemente (nivel GPT-5 en 2026 alcanzó 2-5 mil millones de dólares de entrenamiento, más centros de datos de cientos de miles de millones y Stargate de 500.000 millones); el extremo de réplica fue sobreestimado (DeepSeek redujo el costo marginal de entrenamiento a nivel de millones de dólares). El "costo" de un mismo modelo puede variar 200 veces según la definición, pero no está en el intervalo que dio.

Capacidades emergentes (Punto 5) — Dirección correcta, números y delimitación erróneos

> En 2023, Wang Jianshuo dijo: Aproximadamente por encima de 60B parámetros aparecen nuevas capacidades que no estaban en el corpus original y que los investigadores tampoco pueden explicar.

La intuición direccional es válida, pero dos afirmaciones no se sostienen: primero, no existe un "umbral de 60B" unificado — el umbral real para la cadena de pensamiento es aproximadamente 100B, diferentes capacidades aparecen en escalas que van desde 13B hasta 540B; segundo, "inexplicable" fue desafiado a finales de 2023 por un artículo destacado de NeurIPS — muchas "mutaciones" son un artefacto causado por la elección de métricas de evaluación, al cambiar a métricas continuas la curva es suave y predecible. Para ser justos, en su momento estaba repitiendo una narrativa absolutamente dominante, lo verdaderamente corregible es tomar "60B" como un umbral duro y "inexplicable" como una conclusión cualitativa.

IV. Mirando atrás en tres años, algunas regularidades

Después de comparar punto por punto, dando un paso atrás, estos veinte juicios de Wang Jianshuo ocultan algunas regularidades más dignas de recordar que cualquier punto individual.

I. La dirección es mucho más confiable que los números y el grado. De los veinte puntos, los que juzgaban mecanismos y direcciones (RAG, LUI, red de robots, test de Turing) casi todos acertaron; los que daban números concretos o expresiones limitantes (100T parámetros, umbral 60B, costo 5-10 mil millones, matemáticas "imposibles") casi todos fallaron. Para un campo de cambio rápido, apostar por dirección, apostar por mecanismo, apostar menos por números precisos, y tener más cuidado con palabras como "imposible, definitivamente, tope, absolutamente no" que llenan la afirmación — son zonas de alto riesgo de ser refutadas por el tiempo.

II. En tiempo, tendía a sobreestimar la velocidad y subestimar el grado. Los que decían "rápidamente, completar en dos o tres años" generalmente maduraron más lentamente; pero el techo del salto de capacidad fue subestimado — las matemáticas pudieron pasar de "imposible" a medalla de oro en la IMO, los costos de vanguardia pudieron aumentar a magnitudes inimaginables entonces. En una frase: demasiado optimista a corto plazo, demasiado conservador a largo plazo.

III. El error más oculto apareció repetidamente en la "distribución". No es error de dirección, sino ver solo el total, ignorar la distribución. "No habrá ola de desempleo" es correcto, pero el daño está altamente concentrado en los jóvenes novatos; "el valor cae en la capa de aplicación" medio acertó, pero no distinguió entre la capa de potencia de cálculo y la de modelos. Total correcto, oculta una distribución desastrosa — esta es la lección más importante a aprender.

IV. Los lugares donde dejó espacio, tres años después resisten la prueba. "Rumor", "al menos ahora", "reducir significativamente en lugar de eliminar", "prototipo en dos o tres años, madurez en aproximadamente diez años" — todos los juicios que entonces tenían calificativos, estaban estratificados, hoy mirando atrás se sostienen mejor. Por el contrario, las frases absolutas dichas sin pensar son las más propensas a fallar. La honestidad de la predicción, la mitad está en atreverse a decir, la otra mitad en atreverse a marcar la propia incertidumbre.

V. Algunos problemas, tres años no son suficientes. A quién pertenece finalmente el valor, si la emergencia es un cambio de verdad o una apariencia, si la máquina tiene o no un ápice de conciencia, si el contexto largo se comerá a RAG — estos debates de entonces, hasta 2026 siguen siendo debates. Poder distinguir "lo que ya tiene respuesta" de "lo que aún hay que esperar" es más importante que apresurarse a sacar conclusiones sobre todo.

El Wang Jianshuo de hace tres años, basándose en la intuición, señaló veinte direcciones en la niebla antes de que saliera GPT-4. Hoy, después de comparar, quizás la frase que más debemos recordar es: acertar la gran dirección no es tan difícil, lo difícil es admitir que repetidamente damos por sentado números, velocidad y distribución. Estos veinte puntos de comparación, más que poner nota al pasado, son establecer algunas reglas para los próximos tres años. En los próximos tres años, volvamos a comparar en 2029.

Preguntas relacionadas

Q¿Cuál fue el método principal que Wang Jianshuo predijo correctamente para abordar las limitaciones de conocimiento y las alucinaciones en los modelos de IA en 2023?

AWang Jianshuo predijo que la solución principal no sería modificar los parámetros del modelo, sino usar recuperación de vectores (RAG) para agregar conocimiento externo como 'chuletas'. Esto se confirmó como estándar en 2026.

Q¿Por qué la afirmación de Wang Jianshuo sobre GPT-4 teniendo 100 billones de parámetros se consideró incorrecta?

ASu afirmación era incorrecta porque estimaciones posteriores revelaron que GPT-4 tenía aproximadamente 1,8 billones de parámetros, una diferencia de 55 veces. La cifra de 100 billones provenía de una fuente secundaria no confirmada.

QSegún el análisis, ¿qué error común cometió Wang Jianshuo en sus predicciones sobre la adopción de nuevas tecnologías?

ATendió a sobreestimar la velocidad de adopción (por ejemplo, diciendo 'rápidamente' o 'en dos o tres años') y a subestimar el grado final de cambio, siendo demasiado optimista a corto plazo y demasiado conservador a largo plazo.

Q¿Cómo evolucionó la brecha entre los modelos de IA de China y los líderes mundiales entre 2023 y 2026 según el artículo?

ALa brecha se redujo significativamente, pasando de diferencias de 17,5 a 31,6 puntos porcentuales en 2023 a solo un 2,7% en 2026, a pesar de que la inversión privada en IA en EE.UU. fue unas 23 veces mayor.

Q¿Qué lección clave sobre hacer predicciones destaca el artículo al revisar los 20 puntos después de tres años?

ALa lección clave es que es más confiable predecir mecanismos y direcciones generales que dar números exactos o declaraciones definitivas. Las afirmaciones que dejan margen de incertidumbre o están matizadas resisten mejor el paso del tiempo.

Lecturas Relacionadas

Tres años después: Una revisión de mis predicciones sobre ChatGPT en 2023

Tres años después: Revisando mis predicciones sobre ChatGPT en 2023 En marzo de 2023, tras el lanzamiento de ChatGPT, Wang Jianshuo hizo 20 predicciones intuitivas sobre la IA. Ahora, en mayo de 2026, un sistema con 41 agentes de IA las ha reevaluado con datos actuales. **Resultados clave:** * **Aciertos (dirección general):** La arquitectura RAG se convirtió en estándar para integrar conocimiento. La Interfaz de Usuario de Lenguaje (LUI) creó una nueva capa de interacción (ej. protocolo MCP). Surgieron redes de agentes autónomos que se comunican. China desarrolló modelos grandes útiles (ej. DeepSeek), cerrando la brecha técnica. Los LLM no tienen conciencia; el Test de Turing solo mide la apariencia. * **Errores/Matices:** La predicción de que GPT-4 tendría 100 billones de parámetros fue incorrecta (≈1.8B). Los LLM **sí** pueden hacer matemáticas complejas sin herramientas externas (ej. medallas IMO 2025). El valor no migró solo a la capa de aplicación; NVIDIA (capa de hardware) capturó gran parte. El contenido generado por IA no evade automáticamente los derechos de autor (multas multimillonarias). La IA personalizada crea, no reduce, "cámaras de eco". Los costes de entrenamiento de modelos líderes superaron con creces la estimación de 5-10 mil millones de dólares. **Lecciones aprendidas:** 1. Predecir **mecanismos y direcciones** es más fiable que dar cifras o declaraciones absolutas. 2. Se tiende a **sobreestimar la velocidad** de cambio a corto plazo y **subestimar su magnitud** a largo plazo. 3. Los promedios generales (ej. "no habrá desempleo masivo") pueden ocultar **impactos distributivos** severos (ej. en jóvenes). 4. Las afirmaciones con **matices y limitaciones** envejecen mejor. 5. Tres años no son suficientes para resolver debates fundamentales (ej. valor final, consciencia de la IA). Este ejercicio subraya la dificultad de hacer predicciones precisas en un campo en rápida evolución y la importancia de la humildad al proyectar el futuro.

marsbitHace 2 hora(s)

Tres años después: Una revisión de mis predicciones sobre ChatGPT en 2023

marsbitHace 2 hora(s)

La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.

**Resumen: El descenso del 99% de Xiaomi MiMo: Una victoria de la ingeniería, no del marketing** El anuncio de Xiaomi de reducir hasta un 99% el precio de las API de su modelo MiMo-V2.5 generó escepticismo, interpretado como una guerra de precios o una maniobra desesperada. Luo Fuli, responsable de MiMo, respondió con un blog técnico detallado, demostrando que la rebaja es el resultado de seis optimizaciones de ingeniería sistemáticas, no una táctica de marketing. La clave es el descuento del 99% aplicado específicamente a la entrada de tipo "Cache Hit" (contexto histórico re-leído). Para lograrlo, el equipo implementó: 1. **Arquitectura Híbrida SWA:** 60 de las 70 capas del modelo solo atienden a los 128 tokens más recientes, reduciendo el volumen de la "memoria" del modelo (KVCache) a 1/7. 2. **Gestión de Memoria en Dos Piscinas:** Asigna memoria por separado para las capas con atención completa y las de ventana deslizante (SWA), liberando realmente la capacidad ahorrada y quintuplicando los usuarios concurrentes por GPU. 3. **Cache de Prefijos Mejorado:** Un nuevo sistema garantiza que solo se reutilicen fragmentos de contexto completos y válidos, logrando una tasa de acierto en caché del 93-95% para peticiones de usuarios frecuentes. 4. **Almacenamiento en SSD Integrado (GCache):** La caché distribuida se aloja en los discos SSD de las propias máquinas con GPU, eliminando costes adicionales de almacenamiento. 5. **Sistema de Enrutamiento Inteligente (LLM-Router):** Dirige peticiones similares a la misma máquina y prioriza las que aciertan en caché, mejorando el rendimiento y la latencia. 6. **Predicción Multi-Token (MTP):** Acelera la generación de respuestas del modelo prediciendo varios tokens a la vez, reduciendo también el coste de la parte de "salida". En conjunto, estas innovaciones redujeron el tiempo de GPU por petición en más de un orden de magnitud, haciendo posible el descuento del 99% manteniendo márgenes positivos. Luo Fuli subraya que este es un logro de ingeniería sistémica, un modelo de reducción de costes verificable que trasciende la mera competencia por precios.

marsbitHace 7 hora(s)

La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.

marsbitHace 7 hora(s)

26 mil millones de dólares, un equipo '100% chino' sustenta la empresa de programación IA con mayor valoración global

Cognition AI, la empresa detrás del "primer ingeniero de software IA" Devin, ha alcanzado una valoración de 26.000 millones de dólares tras una nueva ronda de financiación. Fundada en 2023 por tres jóvenes chinos campeones de olimpiadas de informática, la compañía cautivó inicialmente con la promesa de un agente autónomo que podía gestionar tareas de desarrollo completas. Sin embargo, Devin enfrentó escepticismo por su alto precio inicial (500 USD/mes) y una tasa de éxito inconsistente en tareas reales. Un punto de inflexión clave fue la adquisición de los activos de Windsurf, una popular herramienta de IDE con IA, lo que permitió a Cognition ofrecer un enfoque dual: Devin para la ejecución asíncrona de tareas y Windsurf como asistente dentro del editor, similar a Cursor. Esta estrategia combinada abordó mejor las necesidades reales de los desarrolladores y las empresas. La narrativa de la compañía ha evolucionado desde reemplazar programadores hacia automatizar tareas repetitivas (como migraciones o mantenimiento) dentro de los flujos de ingeniería empresarial. Actualmente, reporta un crecimiento explosivo: un run-rate de ingresos de 492 millones de dólares y un aumento mensual del 50% en el uso empresarial de Devin durante los últimos seis meses. Su lista de clientes incluye a Goldman Sachs, NASA y el ejército estadounidense. La valoración récord refleja la apuesta de los inversores (como Lux Capital y General Catalyst) por Cognition como un futuro pilar de la infraestructura de ingeniería de software impulsada por IA, posicionada en un escenario híbrido donde los humanos y los agentes colaboran.

marsbitHace 8 hora(s)

26 mil millones de dólares, un equipo '100% chino' sustenta la empresa de programación IA con mayor valoración global

marsbitHace 8 hora(s)

Trading

Spot
Futuros
活动图片