Los ocho padres del Transformer, ¿dónde están ahora?

marsbitPublicado a 2026-06-28Actualizado a 2026-06-28

Resumen

Ocho investigadores de Google Brain revolucionaron la IA en 2017 con el artículo “Attention Is All You Need”, presentando la arquitectura Transformer. Nueve años después, los ocho autores originales han dejado Google, trazando caminos divergentes en la industria. Noam Shazeer, cofundador de Character.AI y clave en el mecanismo de atención, regresó brevemente a Google DeepMind antes de unirse recientemente a OpenAI. Ashish Vaswani, co-diseñador del modelo, fundó Essential AI, aunque hay rumores de que su equipo podría integrarse en Nvidia. Niki Parmar, después de cofundar Adept AI y Essential AI, ahora trabaja en Anthropic. Jakob Uszkoreit, quien propuso la idea central, fundó Inceptive, aplicando la IA al diseño de moléculas de ARN. Llion Jones, tras una larga carrera en Google, cofundó Sakana AI en Tokio, explorando modelos colaborativos inspirados en la naturaleza. Aidan N. Gomez, el más joven del grupo, fundó Cohere, centrada en soluciones empresariales de IA. Łukasz Kaiser, con un trasfondo teórico, es investigador clave en OpenAI, contribuyendo a modelos como GPT-4 y o1. Illia Polosukhin, co-diseñador del Transformer, es cofundador del protocolo blockchain NEAR. A pesar de sus trayectorias distintas —desde biotecnología y blockchain hasta laboratorios de IA—, comparten una creencia: Transformer no es el punto final. Siguen explorando activamente la próxima arquitectura que supere claramente al actual pilar de la IA moderna.

Editado por | Panda

Hace unos días, Google perdió a dos de sus figuras clave.

El 18 de junio, Noam Shazeer, uno de los coautores del artículo del Transformer, anunció en X su salida para unirse a OpenAI. Dos días después, John Jumper, ganador del Premio Nobel de Química 2024 y director del equipo de AlphaFold, también anunció su salida de Google DeepMind, con destino a Anthropic.

La llegada consecutiva de estas dos noticias tuvo un gran impacto en el mercado de capitales: las acciones de Alphabet, matriz de Google, se desplomaron más de un 7%, borrando más de 300.000 millones de dólares de su valor de mercado. Varias firmas analíticas atribuyeron esta venta masiva a la «fuga de talento». Gil Luria, analista de D.A. Davidson, afirmó sin rodeos que la partida de Shazeer a OpenAI y la de Jumper a Anthropic, una tras otra, hicieron que el mercado empezara a preocuparse de que Google estuviera perdiendo la guerra por el talento en IA.

La salida de Shazeer es especialmente interesante: ya es la segunda vez que deja Google.

En 2021, descontento con la negativa de la empresa a publicar el chatbot que había desarrollado, se marchó para fundar Character.AI; en agosto de 2024, Google gastó unos 2.700 millones de dólares en adquirir una licencia de tecnología de Character.AI, invitándolo así a regresar a DeepMind como vicepresidente de ingeniería del proyecto Gemini, co-liderándolo junto a Jeff Dean. Menos de dos años después, se marchó de nuevo, esta vez a su archienemigo OpenAI.

Con ello, los ocho coautores del artículo publicado hace nueve años, «Attention Is All You Need», han abandonado Google por completo.

El usuario de X Tyler Maran hizo una imagen que reúne sus destinos actuales, la cual se ha compartido masivamente en las redes sociales.

Sin embargo, esta imagen podría quedar obsoleta pronto. En los últimos dos días, circulan rumores en el mercado de que NVIDIA está absorbiendo silenciosamente al equipo central de Essential AI, incluido Ashish Vaswani, coautor del artículo del Transformer y cofundador y CEO de Essential AI. Al cierre de esta edición, ni NVIDIA ni Essential AI han hecho una declaración oficial al respecto.

Aprovechando esta oportunidad, hagamos un repaso completo de la trayectoria de estos ocho individuos, conocidos como los «padres del Transformer», durante los últimos nueve años, y de sus destinos reales actuales.

Es importante aclarar que el orden de los autores en el artículo «Attention Is All You Need» es aleatorio. En la nota al pie del artículo se indica claramente: Todos los autores contribuyeron por igual. El orden aleatorio de los nombres, por lo que no existe un «primer autor» o «autor de correspondencia». Este artículo presentará a estas ocho personas siguiendo el orden de firma original del artículo.

«El origen de todo»: Ocho inconformistas de Google

Para entender sus destinos actuales, debemos retroceder a 2017. En aquel entonces, la corriente principal en el campo de la traducción automática eran las redes neuronales recurrentes (RNN). Los modelos debían procesar las frases palabra por palabra, en secuencia, como hacer cola para cruzar una calle de un solo sentido, sin poder realizar cálculos en paralelo, lo que hacía el entrenamiento lento y costoso.

Ocho personas de Google Brain decidieron probar una idea casi temeraria: deshacerse por completo de la estructura recurrente, manteniendo solo el mecanismo de atención, permitiendo al modelo ver la frase completa de una vez y decidir por sí mismo en qué palabra centrarse. La frase del título «Attention Is All You Need», que parafrasea la canción de The Beatles «All You Need Is Love», se convirtió posteriormente en un formato imitado en muchos títulos de artículos.

El apartado de contribuciones de autor del artículo registra brevemente lo que hizo cada uno:

Jakob Uszkoreit propuso primero reemplazar la estructura recurrente con atención auto-referencial y lideró la validación temprana de esta idea.

Ashish Vaswani diseñó e implementó el modelo Transformer original junto con Illia Polosukhin, participando en casi todos los aspectos del proyecto.

Noam Shazeer propuso el mecanismo de atención de producto escalado, el mecanismo de atención de múltiples cabezas y el método de representación posicional sin parámetros, siendo otra persona que participó en prácticamente cada detalle.

Niki Parmar diseñó, implementó y depuró innumerables variantes del modelo tanto en el código base original como en el posterior framework tensor2tensor.

Llion Jones también probó un gran número de nuevas variantes del modelo y se encargó del código base original, la optimización de eficiencia en inferencia y la visualización.

Łukasz Kaiser y Aidan N. Gomez pasaron innumerables días y noches construyendo los módulos de tensor2tensor, reemplazando el código base inicial y mejorando significativamente los resultados experimentales y la eficiencia de investigación.

Esta explicación también revela indirectamente un detalle: aunque el orden de los autores es aleatorio, es evidente que Uszkoreit, Vaswani, Polosukhin y Shazeer asumieron roles más centrales en el nivel arquitectónico, mientras que Parmar, Jones, Kaiser y Gomez llevaron gran parte del peso en la implementación de ingeniería y la construcción de sistemas. Esta diferencia de carácter y especialización es, precisamente, una primera anotación temprana de las divergencias que surgieron más tarde en sus respectivas trayectorias.

El nombre «Transformer» también tiene su anécdota. A Uszkoreit le gustaba cómo sonaba la palabra, por lo que el equipo se autodenominó «Team Transformer». La portada de los primeros documentos de diseño mostraba incluso seis personajes de la serie animada de Transformers.

Desde su publicación, el artículo ha sido citado más de 260.000 veces, siendo uno de los artículos más citados del siglo XXI.

Ashish Vaswani

Vaswani nació en 1986 en la India. En 2002 obtuvo su licenciatura en Ciencias de la Computación en el BIT Mesra de la India, y luego se trasladó a Estados Unidos para realizar su doctorado en la Universidad del Sur de California (USC) bajo la dirección de David Chiang, enfocándose en traducción automática estadística y modelado del lenguaje con redes neuronales. Tras completar su doctorado, trabajó como científico informático en el Instituto de Ciencias de la Información de la USC durante dos años. Se unió oficialmente a Google Brain como científico investigador en 2016, donde permaneció hasta 2021.

Según la descripción de contribuciones del artículo, Vaswani diseñó e implementó el modelo Transformer original junto con Illia Polosukhin, siendo una de las figuras centrales que «participó en casi todos los aspectos del proyecto».

Tras dejar Google, Vaswani cofundó Adept AI en 2021 junto con Niki Parmar, David Luan (ex vicepresidente de ingeniería de OpenAI) y otros, asumiendo el rol de Científico Jefe. El objetivo era crear «modelos de acción» capaces de operar autónomamente en cualquier software.

Adept llegó a recaudar más de 400 millones de dólares, con una valoración aproximada de 1.000 millones, pero el producto tardaba en materializarse y surgieron discrepancias internas. Vaswani y Parmar optaron por retirarse temprano; su período como Científico Jefe en Adept finalizó en noviembre de 2022.

A principios de 2023, Vaswani se asoció nuevamente con Parmar para cofundar Essential AI, asumiendo el rol de CEO. La empresa recibió inversión estratégica de Google, NVIDIA y AMD: una ronda semilla de 8,3 millones de dólares liderada por Thrive Capital, una ronda Serie A de 56,5 millones a finales de 2023 liderada por March Capital, con participación de Google, NVIDIA, AMD, KB Investment, Franklin Templeton y otros. A principios de 2026, la empresa completó una ronda Serie B de 175 millones de dólares liderada por Lightspeed Venture Partners, con participación de Thrive Capital, alcanzando una valoración de 1.000 millones de dólares y convirtiéndose oficialmente en unicornio.

A finales de 2025, la empresa lanzó su primera serie de modelos de código abierto, Rnj-1 (nombrada en honor al matemático indio Ramanujan).

Sin embargo, en los últimos dos días, el viento cambió. Según informes, NVIDIA está reclutando al equipo central de Essential AI, incluyendo al propio Vaswani, quien en el futuro participaría en el desarrollo del modelo de código abierto de NVIDIA, Nemotron.

Fuentes afirman que la razón es bastante práctica: Essential AI está encontrando dificultades en su financiación, y atraer a Vaswani y su equipo del campo de la competencia de NVIDIA, AMD (AMD fue uno de los primeros inversores estratégicos de Essential AI, y la empresa dependió durante mucho tiempo de las GPU de AMD), es en sí mismo un buen negocio. Varios investigadores de Essential AI (incluidos Alok Tripathy y Saurabh Srivastava) ya han actualizado sus perfiles de LinkedIn para mostrar que se han unido a NVIDIA. No obstante, hasta ahora, ni NVIDIA ni Essential AI han confirmado oficialmente estos rumores.

Noam Shazeer

Shazeer nació en 1976 en Filadelfia y es judío ortodoxo. Su padre, Dov Shazeer, es ingeniero y antiguo profesor de matemáticas, y su hermana fue ordenada rabina por el Hebrew College. Mostró un talento excepcional desde joven; en 1994, como miembro del equipo estadounidense en la Olimpiada Internacional de Matemáticas, obtuvo una medalla de oro perfecta. Posteriormente estudió matemáticas y ciencias de la computación en la Universidad de Duke, siendo becario Angier B. Duke Memorial y obteniendo premios en la competición matemática Putnam.

En el año 2000, Shazeer se unió a Google. Su primer gran éxito fue arreglar la función de corrección ortográfica de la Búsqueda de Google.

Según la descripción de contribuciones del artículo del Transformer, propuso el mecanismo de atención de producto escalado, el mecanismo de atención de múltiples cabezas y el método de representación posicional sin parámetros, siendo, además de Vaswani y Polosukhin, alguien que «participó en casi todos los detalles».

Después de coescribir el artículo del Transformer en 2017, junto con su colega Daniel De Freitas creó el chatbot Meena, pero Google optó por no lanzarlo públicamente por precaución. Ambos decidieron dejar la empresa en 2021 para fundar Character.AI, recaudando en su momento más de 150 millones de dólares de inversores como a16z, y creando una popular aplicación de chat de rol.

En agosto de 2024, la historia dio un giro: Google llegó a un acuerdo de licencia con Character.AI, por un monto que según informes alcanzó los 2.700 millones de dólares. Shazeer y De Freitas regresaron a Google DeepMind con un pequeño grupo de colegas. Fue nombrado vicepresidente de ingeniería, co-liderando el proyecto Gemini junto con Jeff Dean y Oriol Vinyals. Como poseía aproximadamente del 30% al 40% de las acciones de Character.AI, se estima que esta transacción le permitió una desinversión personal de entre 750 y 1.000 millones de dólares. En 2026, fue elegido miembro de la Academia Nacional de Ingeniería de EE.UU., y su currículum parecía estar en su apogeo.

Pero solo unos meses después, una vez más optó por marcharse, esta vez con destino a OpenAI, donde según informes dirigirá una línea llamada «investigación de arquitectura», coincidiendo con el período en que OpenAI está reclutando activamente para impulsar su OPV (la empresa presentó de forma confidencial el formulario S-1 ante la SEC el 8 de junio, con rumores de una valoración de 852.000 millones de dólares).

Sam Altman, CEO de OpenAI, hizo una declaración pública poco habitual: «Desde el primer día de OpenAI, ha sido una de las personas con las que más quería colaborar», y agregó que esta contratación «ha estado gestándose durante diez años enteros».

Para Google, esto fue un «reintegro fallido» de alto costo: la persona que invitaron de vuelta hace dos años por 2.700 millones de dólares ahora se une a su principal competidor, siendo una de las causas directas de la fuerte caída de las acciones de Google esta semana.

Niki Parmar

Parmar nació en Pune, India. Estudió su licenciatura en el Pune Institute of Computer Technology, especializándose en Tecnologías de la Información. Durante sus estudios, se interesó por la inteligencia artificial y el aprendizaje automático a través de los cursos en línea de Andrew Ng y Peter Norvig. Posteriormente se trasladó a Estados Unidos para obtener una maestría en Ciencias de la Computación en la Universidad del Sur de California (USC), donde investigó problemas de ciencias sociales utilizando métodos de aprendizaje automático bajo la tutela del profesor Morteza Dehghani.

En 2015, Parmar se unió a Google Research como ingeniera de software, y en 2017 se trasladó a Google Brain como ingeniera de software de investigación. Según se informa, era la investigadora más joven y la única sin doctorado en el equipo de Google Brain en ese momento.

Según la descripción de contribuciones del artículo, diseñó, implementó y depuró innumerables variantes del modelo tanto en el código base original como en el posterior framework tensor2tensor. Después de la publicación del artículo, continuó expandiendo el Transformer más allá del lenguaje, participando en investigaciones para extender el mecanismo de atención auto-referencial a la generación de imágenes y la visión por computadora.

En 2021, Parmar dejó Google y cofundó Adept AI junto con Ashish Vaswani, David Luan y otros, asumiendo el cargo de CTO. Al igual que Vaswani, dejó Adept temprano. A principios de 2023, volvió a asociarse con Vaswani para cofundar Essential AI.

Sin embargo, no llegó a presenciar la posterior ronda de financiación Serie B y el estatus de unicornio de Essential AI. A finales de 2024, Parmar dejó silenciosamente Essential AI y se unió a Anthropic, anunciándolo públicamente en febrero de 2025. Escribió en X: «Hoy es un día tan bueno como cualquier otro para compartir: me uní a Anthropic en diciembre pasado».

Posteriormente participó en el desarrollo de Claude 3.7 Sonnet, uno de los lanzamientos de modelos más importantes en la historia de Anthropic. Actualmente es Miembro del Equipo Técnico (Member of Technical Staff) en Anthropic, centrándose en la investigación de capacidades de vanguardia y en el trabajo relacionado con el aprendizaje por refuerzo.

Dos coautoras que fueron inseparables, compañeras en dos empresas conjuntas, finalmente tomaron caminos completamente diferentes: Parmar se retiró discretamente más de un año antes, integrándose silenciosamente en un laboratorio líder; mientras que Vaswani optó por seguir impulsando Essential AI hasta que esta semana fue recogido por la mano extendida de un competidor.

Jakob Uszkoreit

Uszkoreit nació en una familia de lingüistas. Su padre, Hans Uszkoreit, es un reconocido lingüista computacional. Cuando su hijo propuso la hipótesis de que «solo el mecanismo de atención era suficiente», incluso su propio padre era escéptico. Uszkoreit obtuvo su doctorado en la Universidad Técnica de Berlín y luego alcanzó el nivel de «Científico Distinguido» (Distinguished Scientist) en Google Brain.

Según la descripción de contribuciones del artículo, fue Uszkoreit quien propuso primero reemplazar las redes neuronales recurrentes con el mecanismo de atención auto-referencial y lideró la validación temprana de esta idea. La semilla de esta hipótesis ya estaba presente en un artículo que coescribió en 2016 con Ankur Parikh, Oscar Täckström y Dipanjan Das sobre el «modelo de atención descomponible».

El nombre «Transformer» también se decidió porque a él le gustaba cómo sonaba la palabra; el equipo se autodenominaba «Team Transformer», y la portada de los primeros documentos de diseño mostraba seis personajes de la serie animada de Transformers.

A finales de 2020, AlphaFold2 de DeepMind demostró que los modelos tipo Transformer podían resolver problemas del nivel del «Santo Grial de la biología», como el plegamiento de proteínas. Él también se dio cuenta cada vez más de que lo que le faltaba al aprendizaje profundo para realmente cambiar la biología no eran los algoritmos, sino los datos. «Casi se convirtió en una obligación moral», recordó más tarde.

Así, en 2021 cofundó Inceptive junto con Rhiju Das, profesor de bioquímica en la Universidad de Stanford y desarrollador del conocido juego de diseño de RNA, Eterna. La sede de la empresa está en Berkeley, pero el equipo de investigación permanece en Berlín (él mismo vive allí), y los empleados están distribuidos en Zúrich, Londres, Vancouver y varias ciudades de la costa este de EE.UU. El enfoque central de la empresa es invertir el proceso experimental: en lugar de tener datos primero y luego entrenar un modelo, generan a gran escala datos experimentales de RNA completamente nuevos utilizando robots y trabajo manual, para luego alimentar al modelo.

Inceptive ha recaudado aproximadamente 120 millones de dólares de inversores como NVIDIA, a16z, Obvious Ventures y Section 32. El avance más reciente ocurrió este mes: a principios de junio, Alnylam Pharmaceuticals, pionera en terapias de interferencia de RNA, firmó una colaboración estratégica con Inceptive para acelerar el diseño de candidatos a fármacos siRNA utilizando los modelos base de Inceptive, con un pago inicial de 30 millones de dólares. Se informa que el valor potencial total de la colaboración podría alcanzar los 2.000 millones de dólares. Uszkoreit declaró: «La mayoría del diseño de fármacos sigue dependiendo del ensayo y error: probar miles de moléculas, apostando a que una funcione. El punto de partida de Inceptive es diferente: la vida sigue reglas extremadamente complejas, y solo la IA puede aprenderlas».

De los ocho autores, es el único que cambió completamente de rumbo hacia la biotecnología, lo que confirma precisamente la profecía que dejó aquel artículo hace años: el potencial del mecanismo de atención va mucho más allá de la traducción automática.

Llion Jones

Jones es galés, se graduó de la Universidad de Birmingham y se unió a Google como ingeniero de software en 2011, donde permaneció más de una década. Es una de las pocas personas entre los ocho autores que no tiene un doctorado, encontrando su camino puramente a través de la intuición en ingeniería.

Según la descripción de contribuciones del artículo, probó un gran número de nuevas variantes del modelo y se encargó del código base original, la optimización de la eficiencia en inferencia y el trabajo de visualización.

Posteriormente recordó el momento decisivo: «Habíamos empezado a intentar eliminar ciertas partes del modelo solo para ver cuánto peor se volvía. Sorprendentemente, en realidad mejoraba». Ese fue el primer momento en que se validó la hipótesis de que «la estructura recurrente era en realidad superflua».

En 2023, Jones y David Ha, también ex empleado de Google, cofundaron Sakana AI en Tokio. «Sakana» significa «pez» en japonés. Ha asume el cargo de CEO, Jones el de CTO, y el otro cofundador, Ren Ito, el de COO.

Jones reside actualmente en Tokio y se autodescribe en redes sociales como «investigador de IA galés residente en Tokio». El enfoque de investigación de esta empresa tiene un marcado carácter contracorriente: en lugar de simplemente acumular potencia computacional y parámetros, se inspira en la lógica de la evolución natural, haciendo que un grupo de modelos más pequeños colaboren como un banco de peces. Los logros representativos de la empresa incluyen la «Máquina de Pensamiento Continuo» (Continuous Thought Machine) y el proyecto «AI Scientist» capaz de realizar investigaciones de extremo a extremo de forma autónoma. Recientemente, la empresa lanzó el modelo de vanguardia Sakana Fugu.

Sakana AI ha recaudado un total de 379 millones de dólares, incluyendo una ronda Serie B completada en marzo de 2026, con Mitsubishi Electric también entre sus inversores. En marzo de 2026, la empresa también obtuvo un acuerdo de colaboración plurianual con Mitsubishi UFJ Financial Group (MUFG). Este último planea utilizar la tecnología de Sakana para transformar sus sistemas bancarios. Según informes, esta colaboración podría permitir que la empresa, valorada en unos 1.500 millones de dólares, sea rentable en un año.

Jones ha expresado en varias ocasiones su escepticismo hacia el mero «escalado» (scaling). En marzo de 2026, durante un evento interno del sector bancario, dijo que la investigación en IA enfrenta una realidad incómoda: la gran afluencia de inversión y talento debería teóricamente generar más avances, pero el efecto real puede ser el contrario: los inversores presionan por resultados, la competencia presiona por ser los primeros, y el espacio para que los investigadores «exploren libremente» en realidad se reduce. Mencionó que Sakana mantiene internamente una pequeña parte de libertad de investigación «sin KPIs», porque el próximo gran avance seguramente provendrá de este tipo de inversión a largo plazo sin consecuencias inmediatas, que es precisamente la forma en que se gestó el Transformer en las oficinas de Google Brain en su día.

También dijo una frase que se ha citado repetidamente: para que una nueva arquitectura reemplace realmente al Transformer, no basta con ser «mejor», debe ser «claramente, indudablemente mejor».

Aidan N. Gomez

Gomez es el más joven de los ocho autores. El año en que se publicó el artículo, era solo un pasante universitario de 20 años en Google Brain, estudiando una doble licenciatura en Informática y Matemáticas en la Universidad de Toronto.

Según la descripción de contribuciones del artículo, él y Łukasz Kaiser pasaron innumerables días y noches construyendo los módulos del framework tensor2tensor, reemplazando el código base inicial y mejorando significativamente los resultados experimentales y la eficiencia de investigación. «En ese momento solo quería entender cómo funcionaba realmente el mecanismo de atención», recordó más tarde, «nunca imaginé que se convertiría en 'la arquitectura de todo'». Después del artículo, fue a la Universidad de Oxford a hacer su doctorado, interrumpió sus estudios para emprender y finalmente obtuvo su doctorado en 2024; se podría decir que completó su título mientras emprendía.

En 2019, Gomez cofundó Cohere junto con Ivan Zhang y Nick Frosst, posicionando la empresa como proveedora de servicios de IA empresarial, evitando deliberadamente la costosa carrera de los chatbots de consumo y centrándose en la privacidad de datos, despliegue localizado y capacidades multilingües. Sus clientes son principalmente grandes empresas y gobiernos. En 2023, Gomez fue incluido en la lista de las 100 personas más influyentes en IA de la revista Time, y junto con sus otros dos cofundadores encabezó la lista de pioneros de tendencias en IA de la revista Maclean's ese mismo año. En abril de 2025, fue seleccionado para formar parte de la junta directiva de la empresa de vehículos eléctricos Rivian.

Este enfoque relativamente «menos llamativo» ha permitido a la empresa generar buenos datos financieros: hasta mediados de 2026, Cohere tiene unos ingresos anuales recurrentes (ARR) de más de 200 millones de dólares, habiendo crecido 6 veces en el último año, con un margen bruto del 70%. Ha recaudado cerca de 1.700 millones de dólares en total, con una valoración de unos 7.000 millones. En agosto de 2025, la empresa contrató a François Chadwick, quien participó en la OPV de Uber, como su primer CFO. También se ha abierto una ventana para que los empleados vendan acciones en el mercado secundario. Gomez ha dicho en varias ocasiones que la OPV «está cerca», pero hasta ahora la empresa no ha presentado su prospecto ante los reguladores.

En los últimos años, Gomez se ha convertido cada vez más en un portavoz de la IA en términos geopolíticos. Esta misma semana, escribió un artículo en la revista Fortune instando a los países a enfrentar el problema de la «soberanía digital». El artículo menciona directamente el reciente endurecimiento del acceso a los modelos de Anthropic, advierte que los países no pueden «alquilar» su futuro a unas pocas grandes tecnológicas centralizadas, y propone construir un ecosistema verdaderamente diverso donde los países puedan depender de diferentes proveedores de IA, manteniendo al mismo tiempo sus propios valores, idiomas y sistemas legales.

También ha expresado públicamente que las preocupaciones externas sobre los riesgos existenciales tipo «apocalipsis de la IA» están exageradas. Su mayor preocupación real es la desinformación amplificada de forma automatizada en las redes sociales. Hoy en día, Gomez habla no solo de los modelos en sí, sino de quién tiene el derecho de decidir qué tipo de IA usa el mundo.

Łukasz Kaiser

Kaiser es polaco. Su formación académica inicial fue en ciencias de la computación teórica: lógica, teoría de autómatas, teoría de modelos algorítmicos y teoría de juegos. Obtuvo una doble maestría en Matemáticas y Ciencias de la Computación en la Universidad de Wrocław, completó su doctorado en la Universidad RWTH de Aquisgrán, Alemania, y posteriormente tuvo una plaza permanente en el Centro Nacional para la Investigación Científica (CNRS) y la Universidad de París VII, centrándose en investigación pura en lógica y teoría de autómatas. Más tarde se pasó a la aplicación, trabajando en Google Brain durante casi ocho años. Durante ese tiempo también fue coautor de TensorFlow y publicó trabajos tempranos con Samy Bengio sobre «si la memoria activa puede reemplazar a la atención» y con Ilya Sutskever sobre «algoritmos de aprendizaje para GPU neuronales».

Según la descripción de contribuciones del artículo, él y Aidan N. Gomez pasaron innumerables días y noches construyendo el framework tensor2tensor, mejorando significativamente los resultados experimentales y la eficiencia de investigación.

De los ocho autores, es el único que no emprendió, permaneciendo siempre en grandes laboratorios dedicado a la investigación pura.

Se unió a OpenAI en 2021, antes del lanzamiento de ChatGPT. En OpenAI, participó en el desarrollo de Codex (que posteriormente se convirtió en la base tecnológica de GitHub Copilot) y del benchmark de programación HumanEval asociado. También participó en la investigación del conjunto de datos de problemas matemáticos GSM8K, trabajo que mostró tempranamente que «dejar que el modelo piense un poco más durante el razonamiento, muestreando más veces» podía mejorar significativamente la precisión; este fue el germen del posterior paradigma de los modelos de razonamiento.

También es autor firmante del informe técnico de GPT-4, y posteriormente se convirtió en contribuyente central del primer modelo de razonamiento de OpenAI, o1 (lanzado en septiembre de 2024), considerado un rol a nivel de «líder de investigación», continuando luego con o3 y nuevos paradigmas de razonamiento, hasta la serie GPT-5 actual.

Recientemente, en el MAD Podcast de Matt Turck, mencionó que se ha demostrado matemáticamente que el Transformer puede resolver cualquier problema, siempre que se permita al modelo generar suficientes pasos intermedios de razonamiento. En cierto modo, esta es una anotación tardía y más precisa de aquel artículo de hace nueve años.

Illia Polosukhin

Polosukhin es de Járkov, Ucrania. Estudió matemáticas aplicadas en su licenciatura y fue campeón en la Competición Internacional Universitaria de Programación (ICPC). Según recuerda, a los diez años, tras ver «The Matrix», desarrolló un interés casi obsesivo por la inteligencia artificial. En 2014 se unió a Google, participando en trabajos de investigación relacionados con TensorFlow, así como en investigación sobre comprensión lectora automatizada y sistemas de preguntas y respuestas.

Según la descripción de contribuciones del artículo, diseñó e implementó el modelo Transformer original junto con Ashish Vaswani, siendo responsable principalmente de validar la efectividad de esta arquitectura en tareas de traducción automática.

Tras la publicación del artículo, dejó Google en 2017 y cofundó una empresa de IA inicialmente llamada NEAR.AI junto con Alexander Skidanov. Pero pronto se dieron cuenta de que la infraestructura descentralizada podía ser más interesante que los modelos, por lo que la empresa se transformó en el proyecto blockchain NEAR Protocol alrededor de 2018.

NEAR utiliza una tecnología de fragmentación llamada Nightshade y proporciona una red de capa 2 compatible con Ethereum a través de Aurora. Su red principal se lanzó oficialmente en 2020 y hasta la fecha ha recaudado más de 530 millones de dólares de inversores como a16z, Coinbase, Tiger Global, Hashed, Dragonfly Capital, entre otros.

Actualmente, Polosukhin intenta reunir sus dos identidades iniciales: en marzo de 2026, dijo a los medios que «los futuros usuarios de blockchain serán agentes de IA, no humanos», y posicionó a NEAR como la «capa de liquidación» de la economía de agentes. En abril del mismo año, hizo un llamamiento público para establecer un marco regulatorio más sólido para abordar los agentes autónomos de IA; considera que las instituciones y sistemas existentes no están preparados para manejar las cuestiones de responsabilidad y riesgo sistémico que plantean estos sistemas, e insta a establecer mecanismos de rendición de cuentas más claros y supervisión tipo «human-in-the-loop».

Actualmente reside en Portugal. En el mundo, probablemente solo haya una persona que pueda combinar simultáneamente las identidades de «autor de un artículo fundacional sobre LLM» y «director de una empresa blockchain valorada en miles de millones de dólares»: él.

Ocho caminos, exploración continua

En marzo de 2024, en la conferencia GTC de NVIDIA, siete de los ocho autores (Niki Parmar estuvo ausente por motivos personales) aparecieron juntos por primera vez como grupo, siendo entrevistados por Jensen Huang.

Huang dijo: «Todo lo que disfrutamos hoy puede rastrearse hasta ese momento.»

Al final de la conversación, les regaló a cada uno una placa conmemorativa firmada de la supercomputadora DGX-1 de NVIDIA, grabada con las palabras «Ustedes transformaron el mundo». En noviembre del mismo año, la Fundación NEC C&C de Japón otorgó el Premio C&C a este grupo de ocho personas, el «Equipo Transformer». Compartieron el escenario con tres ingenieros veteranos que investigaron la tecnología de transmisión para cables submarinos transoceánicos. Dos tipos de constructores de infraestructura fundamental en campos completamente diferentes, reunidos en un mismo premio.

Nueve años después, estas ocho trayectorias vitales se han dispersado a lugares que probablemente ya no se crucen: el sector de servicios empresariales en Silicon Valley, el laboratorio de algoritmos evolutivos en Tokio, la empresa de biología molecular en Berlín, el protocolo blockchain en Portugal, y los laboratorios líderes en IA que esta misma semana siguen reorganizándose.

Pero si se juntan las palabras que han pronunciado a lo largo de los años, se descubre un juicio común que aparece repetidamente: nadie cree realmente que el Transformer sea el final.

Aidan N. Gomez dice que el mundo necesita algo mejor que el Transformer; Llion Jones dice que la próxima arquitectura debe ser «claramente, indudablemente mejor» para reemplazarlo; Łukasz Kaiser sigue usando lenguaje matemático para intentar aclarar hasta dónde puede llevar a la humanidad esta arquitectura nacida hace nueve años.

Quizás este sea el legado más duradero que dejó aquel artículo: sus ocho autores están dispersos por el mundo, pero ninguno ha dejado de buscar la siguiente respuesta.

Enlaces de referencia

https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

https://x.com/TylerMaran/status/2067772926695522454

https://www.nvidia.com/zh-tw/on-demand/session/gtc24-s63046/

Este artículo proviene de la cuenta oficial de WeChat «机器之心» (ID:almosthuman2014), autor: 关注AI的

Preguntas relacionadas

Q¿Quiénes son los ocho autores del artículo 'Attention Is All You Need' y por qué se les considera tan importantes?

ALos ocho autores son Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser e Illia Polosukhin. Se les considera fundamentales porque, mientras trabajaban en Google Brain en 2017, inventaron la arquitectura Transformer, que es la base de todos los modelos de IA generativa modernos como GPT, Gemini o Claude, revolucionando el campo del procesamiento del lenguaje natural y más allá.

Q¿Qué motivó a Noam Shazeer a dejar Google por segunda vez en 2026 y cuál fue su destino?

ANoam Shazeer dejó Google DeepMind por segunda vez en junio de 2026 para unirse a OpenAI. Anteriormente, había dejado Google en 2021 para cofundar Character.AI, y fue "recomprado" en 2024 cuando Google adquirió una licencia de esa empresa. Su salida a un competidor directo como OpenAI fue uno de los factores que contribuyó a una caída significativa en el valor de las acciones de Alphabet (matriz de Google) en ese momento.

Q¿Qué camino profesional único tomó Jakob Uszkoreit después de co-crear el Transformer?

AJakob Uszkoreit tomó un camino único al alejarse por completo del campo central de la IA de lenguaje. En 2021, cofundó Inceptive, una empresa de biotecnología que utiliza principios de IA y aprendizaje automático (inspirados en la arquitectura Transformer) para el diseño de moléculas de ARN y el descubrimiento de fármacos, aplicando así la IA a problemas fundamentales en biología y medicina.

QSegún el artículo, ¿cuál es la perspectiva común entre los autores sobre el futuro del Transformer?

ALa perspectiva común entre los autores, expresada por varios de ellos como Aidan N. Gomez y Llion Jones, es que nadie cree que el Transformer sea la arquitectura definitiva. Coinciden en que el mundo necesitará algo mejor, y que para que una nueva arquitectura lo reemplace, debe ser 'claramente, indudablemente mejor'. A pesar de su éxito, todos continúan explorando y buscando el próximo avance fundamental.

Q¿Qué empresa fundó Illia Polosukhin y cómo combina ese proyecto con su pasado en IA?

AIllia Polosukhin cofundó NEAR Protocol, una plataforma blockchain de capa 1. Ahora está combinando sus dos áreas de experiencia al posicionar a NEAR como la 'capa de liquidación' para una futura economía de agentes de IA. Su visión es que los usuarios principales de las blockchains en el futuro serán agentes de IA autónomos, no los humanos, fusionando así el mundo de la IA con la infraestructura Web3 descentralizada.

Lecturas Relacionadas

Reequilibrio de poder entre Apple y los «Micron»: Desglosando la factura de beneficios detrás del iPhone

El artículo analiza la redistribución de poder y beneficios en la cadena de suministro del iPhone, centrándose en el aumento del coste de la memoria. Históricamente, proveedores como Micron obtenían una porción mínima de los beneficios, a menudo inferior al 3%, mientras que Apple se quedaba con alrededor del 25%. Sin embargo, la demanda explosiva de memoria para servidores de IA y HBM ha invertido esta dinámica, provocando escasez y aumentos de precio sin precedentes en los chips para consumo. Esto ha llevado a Apple a subir los precios de sus productos, un movimiento criticado públicamente. El CEO Tim Cook calificó la situación como un evento único en 40 años, opinión respaldada por Elon Musk. El artículo concluye que los fabricantes de memoria, antes presionados por los grandes clientes, ahora disfrutan de una posición de fuerza, lo que ha llevado a Apple a considerar fuentes alternativas como el fabricante chino CXMT.

Odaily星球日报Hace 36 min(s)

Reequilibrio de poder entre Apple y los «Micron»: Desglosando la factura de beneficios detrás del iPhone

Odaily星球日报Hace 36 min(s)

¿Pueden las ballenas de BTC salvar al Bitcoin tras las salidas de 4.060 millones de dólares de los ETF?

La demanda institucional de Bitcoin muestra signos de debilitamiento, con salidas netas de los ETF en EE.UU. durante siete días consecutivos, totalizando aproximadamente -4.060 millones de dólares en el mes y reduciendo los activos totales a 72.820 millones. Esta retirada reduce una fuente clave de compra que antes absorbía oferta en correcciones. Sin embargo, los grandes tenedores (ballenas) han respondido con un aumento significativo de volumen de transacciones al caer el precio por debajo de los 60.000 dólares, sugiriendo acumulación. No obstante, los tenedores a largo plazo muestran signos de capitulación, con pérdidas realizadas, lo que podría agotar la oferta en venta a futuro. En resumen, las salidas de ETF debilitan el soporte institucional, pero la acumulación de ballenas puede aliviar la presión a corto plazo. La recuperación sostenida dependerá de que se fortalezca la demanda spot más amplia, ya que la capitulación de tenedores a largo plazo podría sentar las bases para una recuperación gradual.

ambcryptoHace 39 min(s)

¿Pueden las ballenas de BTC salvar al Bitcoin tras las salidas de 4.060 millones de dólares de los ETF?

ambcryptoHace 39 min(s)

Diálogo con el fundador de 42 Macro: La "rana hervida a fuego lento" de la Fed y la economía en K

Fuente: "Anthony Pompliano" Organizado por: Felix, PANews En el podcast "Anthony Pompliano", Darius Dale, fundador de 42 Macro, analizó la política monetaria de la Fed, la economía en forma de K y la inflación. Calificó al nuevo presidente de la Fed, Kevin Warsh, como un "halcón con apariencia de paloma", quien posiblemente endurezca la política monetaria en los próximos trimestres para luego poder relajarla. Dale destacó que las expectativas de inflación no predicen resultados futuros; los verdaderos impulsores son factores monetarios y políticos, como el gasto deficitario y la monetización de deuda. Señaló que la Fed no alcanzará su objetivo del 2% de inflación y que su estrategia es una "cocción lenta" (financial repression) para evitar problemas de estabilidad. Sobre la economía en forma de K, explicó que mientras las familias en la parte superior poseen unos 12 billones de dólares en efectivo y consumen intensamente, las de la parte inferior enfrentan tasas de morosidad récord en créditos. Advirtió que quienes no inviertan en activos quedarán rezagados debido al "efecto Cantillón", que transfiere riqueza a los primeros receptores del dinero nuevo. Respecto al mercado bursátil, mencionó que los inversores están trasladando capital de las "siete grandes" tecnológicas hacia empresas más amplias de IA, pero alertó sobre el riesgo de burbuja en los gastos de capital. Finalmente, compartió su experiencia personal sobre la división económica y social, subrayando que todas las personas, independientemente de su origen, buscan dignidad y seguridad para sus familias.

marsbitHace 1 hora(s)

Diálogo con el fundador de 42 Macro: La "rana hervida a fuego lento" de la Fed y la economía en K

marsbitHace 1 hora(s)

Respuesta nacional al cálculo espacial: usar fotones es más eficiente, Musk y Huang Renxun dan demasiadas vueltas

La carrera por la computación espacial se ha convertido en una verdadera competencia de armamentos tecnológicos. Figuras como Elon Musk y Jensen Huang han destacado el potencial de la inteligencia artificial y la computación en órbita. Sin embargo, los desafíos en el espacio son extremos: radiación cósmica, disipación de calor en el vacío y limitaciones energéticas severas. Aquí es donde la computación fotónica, que utiliza fotones en lugar de electrones, emerge como una solución prometedora. Sus ventajas son clave para el entorno espacial: es inherentemente resistente a la radiación, genera muy poco calor y consume menos energía. Esto permite empaquetar más potencia de cálculo en un satélite con el mismo peso y recursos, superando las limitaciones de los chips electrónicos tradicionales. Aunque la tecnología fotónica para IA, especialmente en tareas de inferencia, aún debe superar retos de integración y estabilidad mecánica para los lanzamientos espaciales, su trayectoria es distinta. No depende de la miniaturización extrema de los transistores, sino de escalar el uso de propiedades de la luz como la longitud de onda. En una carrera donde la computación electrónica se acerca a límites físicos, la vía "óptica" podría ser la carta decisiva para desplegar de forma eficiente y sostenible la capacidad de cálculo en el espacio.

marsbitHace 2 hora(s)

Respuesta nacional al cálculo espacial: usar fotones es más eficiente, Musk y Huang Renxun dan demasiadas vueltas

marsbitHace 2 hora(s)

Ballena institucional vende en corto $4.92M en ZEC – ¿Puede Zcash recuperarse hasta los $520?

La ballena de Zcash, Garrett Bullish, reafirmó su postura bajista al abrir una nueva venta en corto apalancada de 2x por valor de 4,92 millones de dólares a un precio de 417,80 dólares por ZEC. Esta acción se produce tras dos operaciones exitosas previas que generaron 11,66 millones de dólares en beneficios, consolidando su reputación por cronometrar correcciones del mercado. Sin embargo, los datos de derivados muestran una imagen mixta: el indicador de 90 días Futures Taker CVD señala que los compradores siguen absorbiendo activamente la liquidez en el mercado. Desde el punto de vista técnico, ZEC cotiza por debajo de su canal alcista roto, con 520 dólares como la principal resistencia y 335,50 dólares como soporte significativo. Los indicadores como el Estocástico RSI se encuentran en niveles de sobreventa, sugiriendo un posible agotamiento de la presión vendedora, aunque el Parabolic SAR sigue por debajo del precio, indicando que la tendencia general aún favorece a los compradores. En resumen, aunque el gran movimiento bajista de la ballena refuerza el sentimiento negativo, la actividad de los compradores en derivados y las señales técnicas de sobreventa plantean la posibilidad de un rebote. La clave para un cambio de tendencia será que ZEC logre recuperar el canal roto y superar la resistencia de 520 dólares; de lo contrario, podría caer hacia el soporte de 335,50 dólares.

ambcryptoHace 2 hora(s)

Ballena institucional vende en corto $4.92M en ZEC – ¿Puede Zcash recuperarse hasta los $520?

ambcryptoHace 2 hora(s)

Trading

Spot

Los ocho padres del Transformer, ¿dónde están ahora?

Resumen

«El origen de todo»: Ocho inconformistas de Google

Ocho caminos, exploración continua

Preguntas relacionadas

Lecturas Relacionadas

Reequilibrio de poder entre Apple y los «Micron»: Desglosando la factura de beneficios detrás del iPhone

¿Pueden las ballenas de BTC salvar al Bitcoin tras las salidas de 4.060 millones de dólares de los ETF?

Diálogo con el fundador de 42 Macro: La "rana hervida a fuego lento" de la Fed y la economía en K

Respuesta nacional al cálculo espacial: usar fotones es más eficiente, Musk y Huang Renxun dan demasiadas vueltas

Ballena institucional vende en corto $4.92M en ZEC – ¿Puede Zcash recuperarse hasta los $520?

Trading

Categorías populares

Etiquetas Populares