Восемь отцов Transformer: где они сегодня?

marsbitОпубликовано 2026-06-28Обновлено 2026-06-28

Введение

В статье рассказывается о восьми соавторах знаменитой статьи 2017 года «Attention Is All You Need», в которой был представлен архитектурный блок Transformer, ставший основой для современных больших языковых моделей. Все они изначально работали в Google, но с тех пор покинули компанию и разошлись по разным направлениям. Теперь их пути разошлись: Ашиш Вашвани основал Essential AI, а Нуам Шазер ушел в OpenAI. Ники Пармар присоединилась к Anthropic. Якоб Ушкорэит основал биотех-компанию Inceptive, а Ллион Джонс стал соучредителем Sakana AI в Токио. Эйдан Н. Гомес руководит Cohere, компанией, ориентированной на корпоративные решения. Лукаш Кайзер продолжает фундаментальные исследования в OpenAI, а Илья Полосухин перешел в блокчейн, основав NEAR Protocol. Статья подчеркивает, что, несмотря на огромное влияние Transformer, его создатели не считают эту архитектуру конечной точкой развития ИИ и продолжают искать новые, более эффективные решения в своих разнообразных областях.

Редактор|Panda

Несколько дней назад Google потеряла двух ключевых сотрудников подряд.

18 июня один из соавторов статьи о Transformer Ноам Шазер (Noam Shazeer) объявил в X об уходе и присоединении к OpenAI. Через два дней руководитель команды AlphaFold, лауреат Нобелевской премии по химии 2024 года Джон Джампер (John Jumper) также объявил об уходе из Google DeepMind и переходе в Anthropic.

Эти две новости подряд вызвали большую реакцию на рынке капитала: акции материнской компании Google Alphabet в какой-то момент упали более чем на 7%, рыночная стоимость сократилась более чем на 300 миллиардов долларов. Многие аналитические агентства объяснили эту распродажу «утечкой талантов». Аналитик D.A. Davidson Гил Лурья (Gil Luria) прямо заявил, что переход Шазера в OpenAI, а Джампера в Anthropic и их последовательный уход заставили рынок начать беспокоиться о том, что Google проигрывает в битве за таланты в сфере ИИ.

Уход Шазера особенно интересен — это уже второй его уход из Google.

В 2021 году, недовольный нежеланием компании публично выпустить разработанный им чат-бот, он ушёл и основал Character.AI; в августе 2024 года Google потратил около 2,7 миллиарда долларов на лицензирование технологий Character.AI, тем самым вернув его в DeepMind на должность вице-президента по инжинирингу проекта Gemini, где он совместно с Джеффом Дином (Jeff Dean) руководил этим проектом. Менее чем через два года он снова ушёл, на этот раз к главному конкуренту — OpenAI.

Таким образом, все восемь соавторов той статьи «Attention Is All You Need», опубликованной девять лет назад, покинули Google.

Пользователь X Тайлер Маран (Tyler Maran) создал диаграмму, на которой показаны их текущие места работы, и эта диаграмма быстро распространилась в социальных сетях.

Однако эта диаграмма, вероятно, скоро устареет. За последние два дня на рынке появились слухи о том, что NVIDIA тихо нанимает ключевых сотрудников Essential AI, включая одного из авторов статьи о Transformer, сооснователя и CEO Essential AI Ашиша Вашвани (Ashish Vaswani). На момент публикации ни NVIDIA, ни Essential AI официально не прокомментировали эту информацию.

Воспользовавшись этой возможностью, давайте полностью проанализируем карьерный путь этих восьми человек, называемых «отцами Transformer», за последние девять лет и их текущие места работы.

Следует отметить, что порядок авторов в статье «Attention Is All You Need» был случайным. В сноске статьи чётко указано: все авторы внесли равный вклад, порядок указан случайно, поэтому не существует так называемого «первого автора» или «автора-корреспондента». В этой статье мы представим этих восьмерых в соответствии с исходным порядком в статье.

«Прародитель всего»: восемь нетрадиционных сотрудников Google

Чтобы понять их сегодняшний выбор, нужно вернуться в 2017 год. Тогда в машинном переводе доминировали рекуррентные нейронные сети (RNN), которые обрабатывали предложения последовательно, слово за словом, как очередь на однополосной дороге, не позволяя выполнять параллельные вычисления, что делало обучение медленным и дорогим.

Восемь сотрудников Google Brain решили испытать почти радикальную идею: полностью отказаться от рекуррентной структуры, оставив только механизм внимания (attention mechanism), чтобы модель могла видеть всё предложение целиком и самостоятельно определять, на какие слова обращать больше внимания. Фраза в заголовке статьи «Attention Is All You Need», являющаяся отсылкой к песне The Beatles «All You Need Is Love», впоследствии также стала формой, которую часто копировали в заголовках других статей.

Примечание о вкладе авторов в статье кратко описывает, что конкретно сделал каждый:

Якоб Ушкорейт (Jakob Uszkoreit) первым предложил заменить рекуррентные структуры на self-attention и руководил ранней проверкой этой идеи;

Ашиш Вашвани (Ashish Vaswani) вместе с Ильёй Полосухиным (Illia Polosukhin) спроектировал и реализовал первоначальную модель Transformer, участвуя практически на каждом этапе проекта;

Ноам Шазер (Noam Shazeer) предложил масштабированное скалярное произведение внимания (scaled dot-product attention), механизм много голов внимания (multi-head attention) и параметрическое представление позиций, также активно участвуя во всех деталях;

Ники Пармар (Niki Parmar) в исходном коде и последующем фреймворке tensor2tensor спроектировала, реализовала и отладила бесчисленное количество вариантов моделей;

Ллион Джонс (Llion Jones) также протестировал множество новых вариантов моделей и отвечал за исходный код, оптимизацию эффективности логического вывода и визуализацию;

Лукаш Кайзер (Łukasz Kaiser) и Эйдан Н. Гомес (Aidan N. Gomez) потратили бесчисленные дни и ночи на создание различных модулей фреймворка tensor2tensor, заменив ранний код, что значительно улучшило результаты экспериментов и эффективность исследований.

Это описание также косвенно раскрывает одну деталь: хотя порядок авторов в статье был случайным, Ушкорейт, Вашвани, Полосухин и Шазер, очевидно, взяли на себя более центральные роли на архитектурном уровне, в то время как Пармар, Джонс, Кайзер и Гомес взяли на себя основную тяжесть инженерной реализации и построения системы — это как раз и стало ранним указанием на различия в характере и специализации, когда позже каждый из восьмерых выбрал свой путь.

Само название «Transformer» также имеет свою историю. Ушкорейту нравилось звучание этого слова, поэтому команда внутри стала называть себя «Team Transformer», а на обложках ранних дизайн-документов были изображены шесть персонажей из мультсериала «Трансформеры».

С момента публикации статья набрала более 260 000 цитирований и является одной из самых цитируемых статей XXI века.

Ашиш Вашвани (Ashish Vaswani)

Вашвани родился в 1986 году в Индии. В 2002 году он получил степень бакалавра компьютерных наук в Индийском технологическом институте Била (BIT Mesra), затем уехал в США, где в Университете Южной Калифорнии под руководством Дэвида Чианга (David Chiang) получил докторскую степень, исследуя статистический машинный перевод и нейросетевые языковые модели. После защиты докторской он два года работал компьютерным учёным в Институте информационных наук Университета Южной Калифорнии, а в 2016 году официально присоединился к Google Brain в качестве научного сотрудника, где проработал до 2021 года.

Согласно описанию вклада авторов статьи, Вашвани вместе с Ильёй Полосухиным спроектировал и реализовал первоначальную модель Transformer и был одним из ключевых участников, «участвовавших практически на каждом этапе проекта».

Покинув Google, Вашвани в 2021 году совместно с Ники Пармар, бывшим вице-президентом по инжинирингу OpenAI Дэвидом Луаном (David Luan) и другими основал Adept AI, заняв должность главного научного сотрудника с целью создания «моделей действий», способных автономно выполнять операции в любом программном обеспечении.

Adept привлёк более 400 миллионов долларов инвестиций при оценке около 1 миллиарда долларов, но продукт долгое время не выходил на рынок, и внутри команды возникли разногласия. Вашвани и Пармар рано вышли из проекта — его срок пребывания на посту главного научного сотрудника в Adept закончился в ноябре 2022 года.

В начале 2023 года Вашвани снова объединился с Пармар, чтобы совместно основать Essential AI, где он занял пост CEO. Компания получила стратегические инвестиции от Google, NVIDIA и AMD: начальный раунд в 8,3 миллиона долларов возглавил Thrive Capital, раунд А в 56,5 миллиона долларов в конце 2023 года возглавил March Capital, с участием Google, NVIDIA, AMD, KB Investment, Franklin Templeton и других. В начале 2026 года компания завершила раунд B финансирования на 175 миллионов долларов под руководством Lightspeed Venture Partners при участии Thrive Capital, оценка превысила 1 миллиард долларов, официально став единорогом.

В конце 2025 года компания выпустила свою первую серию открытых моделей Rnj-1 (названную в честь индийского математика Рамануджана).

Однако всего за последние пару дней ситуация изменилась. По сообщениям, NVIDIA нанимает ключевых сотрудников Essential AI, включая самого Вашвани, который в будущем будет участвовать в разработке открытой модели NVIDIA Nemotron.

По словам осведомлённых источников, причина довольно прозаична: финансирование Essential AI сталкивается с трудностями, а переманивание Вашвани и его команды из лагеря конкурента NVIDIA — AMD (AMD давно является одним из ранних стратегических инвесторов Essential AI, и компания долгое время зависела от GPU AMD) — само по себе выгодная сделка. Несколько исследователей Essential AI (включая Алока Трипати (Alok Tripathy) и Саурабха Шривастава (Saurabh Srivastava)) уже обновили свои профили в LinkedIn, указав, что присоединились к NVIDIA. Однако на данный момент ни NVIDIA, ни Essential AI официально не подтвердили эту информацию.

Ноам Шазер (Noam Shazeer)

Шазер родился в 1976 году в Филадельфии, является ортодоксальным иудеем; его отец Дов Шазер (Dov Shazeer) — инженер, бывший учитель математики, а его сестре была присвоена степень раввина в Hebrew College. В юности он проявил незаурядные способности: в 1994 году, будучи членом сборной США, он завоевал золотую медаль с идеальным результатом на Международной математической олимпиаде, затем поступил в Университет Дьюка, где изучал математику и информатику, был стипендиатом Angier B. Duke Memorial Scholarship и выиграл премию на математическом конкурсе Putnam.

В 2000 году Шазер присоединился к Google, его ранней известной работой стало исправление функции исправления орфографии в Google Search.

Согласно описанию вклада авторов статьи о Transformer, он предложил масштабированное скалярное произведение внимания, механизм много голов внимания и параметрическое представление позиций и был, наряду с Вашвани и Полосухиным, человеком, который «участвовал практически в каждой детали».

После соавторства статьи о Transformer в 2017 году он вместе с коллегой Даниэлем Де Фрейтасом (Daniel De Freitas) создал чат-бота Meena, но Google не стал выпускать его публично из соображений осторожности. В 2021 году они оба уволились и основали Character.AI, привлёк более 150 миллионов долларов от a16z и других организаций, создав популярное приложение для ролевых чатов.

В августе 2024 года произошёл поворот: Google заключил с Character.AI лицензионное соглашение на сумму, которая, по сообщениям, достигла 2,7 миллиарда долларов. Шазер и Де Фрейтас с небольшой группой коллег вернулись в Google DeepMind, он был назначен вице-президентом по инжинирингу и совместно с Джеффом Дином (Jeff Dean) и Ориолем Виньялсом (Oriol Vinyals) руководил проектом Gemini. Поскольку он лично владел примерно 30-40% акций Character.AI, эта сделка, по оценкам, принесла ему личную выручку в размере от 750 миллионов до 1 миллиарда долларов. В 2026 году он был избран членом Национальной инженерной академии США, и его карьера казалась на пике.

Но всего через несколько месяцев он снова решил уйти, на этот раз в OpenAI, где, по сообщениям, будет отвечать за направление под названием «архитектурные исследования», как раз в период, когда OpenAI наращивает штат перед выходом на IPO (компания тайно подала документы S-1 в Комиссию по ценным бумагам и биржам США 8 июня, а её предполагаемая оценка, по слухам, достигает 852 миллиардов долларов).

CEO OpenAI Сэм Альтман (Sam Altman) редко высказывался публично: «С первого дня основания OpenAI он был одним из людей, с которыми я больше всего хотел работать», — сказал он, добавив, что этот наём «вызревал целых десять лет».

Для Google это дорогостоящая «неудавшаяся обратная покупка»: человек, которого два года назад вернули за 2,7 миллиарда долларов, теперь перешёл к главному конкуренту, что стало одной из прямых причин резкого падения акций Google на этой неделе.

Ники Пармар (Niki Parmar)

Пармар родилась в Пуне, Индия. Бакалавриат она окончила в Институте компьютерных технологий Пуны (Pune Institute of Computer Technology), специализируясь на информационных технологиях. Во время учёбы она заинтересовалась искусственным интеллектом и машинным обучением через онлайн-курсы Эндрю Ына (Andrew Ng) и Питера Норвига (Peter Norvig), затем уехала в США, где получила степень магистра компьютерных наук в Университете Южной Калифорнии, занимаясь под руководством профессора Мортезы Дехгани (Morteza Dehghani) применением методов машинного обучения для изучения социальных наук.

В 2015 году Пармар присоединилась к Google Research в качестве инженера-программиста, в 2017 году перешла в Google Brain на должность инженера-исследователя — по сообщениям, она была самой молодой и единственным сотрудником в команде Google Brain без докторской степени.

Согласно описанию вклада авторов, в исходном коде и последующем фреймворке tensor2tensor она спроектировала, реализовала и отладила бесчисленное количество вариантов моделей. После публикации статьи она продолжила продвигать Transformer за пределы лингвистики, участвуя в исследованиях по расширению механизма self-attention на генерацию изображений и компьютерное зрение.

В 2021 году Пармар покинула Google и вместе с Ашишем Вашвани, Дэвидом Луаном и другими основала Adept AI, заняв должность технического директора. Она, как и Вашвани, рано вышла из Adept, а в начале 2023 года снова вместе с Вашвани основала Essential AI, продолжив работу в качестве сооснователя.

Однако она не дождалась последующего раунда B финансирования и статуса единорога Essential AI. В конце 2024 года Пармар тихо покинула Essential AI и присоединилась к Anthropic, публично объявив об этом в феврале 2025 года. В X она написала: «Сегодня такой же хороший день, как и любой другой, чтобы поделиться: я присоединилась к Anthropic в декабре прошлого года».

Впоследствии она участвовала в разработке Claude 3.7 Sonnet — одного из самых важных выпусков моделей в истории Anthropic. В настоящее время она является членом технического персонала (Member of Technical Staff) в Anthropic, сосредоточившись на исследованиях передовых возможностей и работе в области обучения с подкреплением.

Два бывших неразлучных соавтора, дважды совместно основавших компании, в итоге пришли к двум совершенно разным судьбам: Пармар более чем за год до этого тихо ушла, спокойно влившись в ведущую лабораторию; а Вашвани продолжил продвигать Essential AI вперёд, пока на этой неделе его не приняли конкуренты.

Якоб Ушкорейт (Jakob Uszkoreit)

Ушкорейт родился в семье лингвистов. Его отец Ханс Ушкорейт (Hans Uszkoreit) — известный специалист по компьютерной лингвистике. Когда сын выдвинул гипотезу, что «достаточно одного только механизма внимания», даже сам отец сомневался в этом. Ушкорейт получил докторскую степень в Берлинском техническом университете, а позже в Google Brain достиг уровня «выдающегося учёного» (Distinguished Scientist).

Согласно описанию вклада авторов, именно Ушкорейт первым предложил заменить рекуррентные нейронные сети механизмом self-attention и руководил ранней проверкой этой идеи — семя этой гипотезы было посеяно ещё в его статье 2016 года «A Decomposable Attention Model», написанной совместно с Анкуром Парихом (Ankur Parikh), Оскаром Тэкстрёмом (Oscar Täckström) и Дипаньяном Дасом (Dipanjan Das).

Название «Transformer» также было принято потому, что ему нравилось его звучание; внутри команда называла себя «Team Transformer», а на обложках ранних дизайн-документов были изображены шесть персонажей из мультсериала «Трансформеры».

В конце 2020 года AlphaFold2 от DeepMind доказал, что модели типа Transformer могут решать такие проблемы уровня «Святого Грааля биологии», как сворачивание белков. Он также всё яснее осознавал, что глубинному обучению не хватает для реального изменения биологии не алгоритмов, а данных. «Это стало почти моральным обязательством», — вспоминал он позже.

Поэтому в 2021 году он совместно с профессором биохимии Стэнфордского университета, создателем известной игры по дизайну РНК Eterna Риджу Дасом (Rhiju Das) основал Inceptive, со штаб-квартирой в Беркли и исследовательской группой, оставшейся в Берлине — он сам живёт в Берлине, сотрудники также находятся в Цюрихе, Лондоне, Ванкувере и нескольких городах на восточном побережье США. Основная идея компании — ставить эксперименты наоборот: не сначала данные, а потом обучение модели, а с помощью роботов и людей массово генерировать новые экспериментальные данные по РНК, которые затем используются для обучения модели.

Inceptive привлёк около 120 миллионов долларов от NVIDIA, a16z, Obvious Ventures, Section 32 и других организаций. Последние новости появились в этом месяце: в начале июня пионер терапии РНК-интерференции, фармацевтическая компания Alnylam, подписала стратегическое партнёрство с Inceptive, чтобы использовать базовую модель Inceptive для ускорения дизайна кандидатов в siRNA-препараты, с первоначальным платежом в 30 миллионов долларов; по сообщениям, общая потенциальная сумма сделки может достигать около 2 миллиардов долларов. Ушкорейт в заявлении сказал: «Большинство дизайнов лекарств всё ещё основаны на методе проб и ошибок — тестируются тысячи молекул в надежде, что одна из них сработает. Inceptive подходит к этому иначе: жизнь подчиняется невероятно сложным законам, и только ИИ может их освоить».

Из восьми авторов он единственный, кто полностью переключился на биотехнологии, и это как раз подтверждает пророчество, оставленное той статьёй: потенциал механизма внимания далеко выходит за рамки машинного перевода.

Ллион Джонс (Llion Jones)

Джонс — валлиец, окончил Бирмингемский университет, в 2011 году присоединился к Google в качестве инженера-программиста, проработал там более десяти лет и является одним из немногих среди восьми авторов, у кого нет докторской степени и кто нашёл путь чисто инженерной интуицией.

Согласно описанию вклада авторов, он протестировал множество новых вариантов моделей и отвечал за исходный код, оптимизацию эффективности логического вывода и визуализацию.

Позже он вспоминал тот решающий момент: «Мы только начали пробовать просто отбрасывать некоторые части модели, чтобы посмотреть, насколько ухудшится результат. К удивлению, он стал лучше». Это был первый момент, когда гипотеза о том, что «рекуррентная структура на самом деле излишня», была подтверждена.

В 2023 году Джонс вместе с Дэвидом Ха (David Ha), также бывшим сотрудником Google, основал в Токио Sakana AI. «Sakana» на японском означает «рыба». Ха стал CEO, Джонс — CTO, другой сооснователь компании Рэн Ито (Ren Ito) занял пост COO.

Джонс сейчас постоянно живёт в Токио, в социальных сетях называя себя «валлийским исследователем ИИ, живущим в Токио». Исследовательское направление этой компании носит ярко выраженный анти-мейнстримовый характер: вместо того чтобы бездумно наращивать вычислительные мощности и параметры, стоит заимствовать логику естественной эволюции, позволяя группе более мелких моделей сотрудничать, как косяк рыб; к представительным исследовательским результатам компании относятся Continuous Thought Machine (машина непрерывного мышления) и проект «AI Scientist», способный проводить сквозные исследования от начала до конца. Недавно компания выпустила передовую по производительности модель Sakana Fugu.

Sakana AI привлёк в общей сложности 379 миллионов долларов финансирования, включая раунд B, завершённый в марте 2026 года; Mitsubishi Electric также является одним из его инвесторов. В марте 2026 года компания также заключила многолетнее партнёрское соглашение с Mitsubishi UFJ Financial Group (MUFG). Последняя планирует использовать технологии Sakana для модернизации банковских систем; по сообщениям, это партнёрство может позволить компании с оценкой около 1,5 миллиарда долларов стать прибыльной в течение года.

Джонс сам в разных случаях высказывал сомнения относительно простого «масштабирования» (scaling). В марте 2026 года на внутреннем мероприятии в банковской сфере он сказал, что текущие исследования ИИ сталкиваются с неудобной реальностью: большие инвестиции и приток талантов должны теоретически стимулировать больше прорывов, но фактический эффект может быть противоположным: инвесторы подталкивают к результатам, конкуренция подталкивает к первенству в выпуске, а пространство для «свободного исследования» у учёных, наоборот, сокращается. Он упомянул, что внутри Sakana сохранилась небольшая часть исследований «без KPI», потому что следующий прорыв обязательно произойдёт благодаря таким долгосрочным вложениям без оглядки на последствия — именно так Transformer был рождён в том офисе Google Brain.

Он также сказал фразу, которую часто цитируют: чтобы новая архитектура действительно заменила Transformer, недостаточно быть «лучше», она должна быть «явно, бесспорно лучше».

Эйдан Н. Гомес (Aidan N. Gomez)

Гомес — самый молодой из восьми авторов. В год публикации статьи он был всего лишь 20-летним стажёром в Google Brain, изучавшим двойную специализацию по информатике и математике в Университете Торонто.

Согласно описанию вклада авторов, он и Лукаш Кайзер потратили бесчисленные дни и ночи на создание различных модулей фреймворка tensor2tensor, заменив ранний код, что значительно улучшило результаты экспериментов и эффективность исследований. «Я тогда просто хотел понять, как на самом деле работает механизм внимания, — вспоминал он позже. — Совсем не ожидал, что он станет «архитектурой всего»». После статьи он поступил в докторантуру Оксфордского университета, прервал учёбу для предпринимательства и официально получил докторскую степень только в 2024 году — можно сказать, что он получил степень параллельно с предпринимательством.

В 2019 году Гомес вместе с Иваном Чжаном (Ivan Zhang) и Ником Фростом (Nick Frosst) основал Cohere, позиционируя компанию как поставщика корпоративных услуг ИИ, сознательно избегая затратной гонки потребительских чат-ботов, делая упор на конфиденциальность данных, локальное развёртывание и многоязычные возможности; клиентами в основном являются крупные предприятия и правительства разных стран. В 2023 году Гомес вошёл в список 100 самых влиятельных людей в области ИИ по версии журнала Time, он и два сооснователя также заняли первое место в рейтинге пионеров тенденций ИИ по версии журнала Maclean's за тот год; в апреле 2025 года он был избран в совет директоров компании по производству электромобилей Rivian.

Этот относительно «несексуальный» подход позволил компании показать неплохие финансовые результаты: по состоянию на середину 2026 года ежегодный регулярный доход Cohere превысил 200 миллионов долларов, за последний год вырос в 6 раз, валовая прибыль составляет около 70%, общий объём привлечённых инвестиций приближается к 1,7 миллиарда долларов, оценка — около 7 миллиардов долларов; в августе 2025 года компания пригласила на должность первого финансового директора Франсуа Чедвика (Francois Chadwick), участвовавшего в IPO Uber, также уже открывалось окно для продажи акций сотрудниками на вторичном рынке; сам Гомес неоднократно заявлял, что IPO «скоро», но на данный момент компания ещё не подала проспект эмиссии регулирующим органам.

В последние годы Гомес всё больше становится своего рода спикером по ИИ в геополитическом смысле. Как раз на этой неделе он написал статью для журнала Fortune, призывая страны正视 проблему «цифрового суверенитета». В статье прямо упоминается недавнее ужесточение доступа к моделям Anthropic, предупреждая, что страны не могут «арендовать» своё будущее у нескольких централизованных технологических гигантов, и предлагая создать действительно разнообразную экосистему, где страны могут полагаться на разных поставщиков ИИ, сохраняя при этом свои собственные ценности, языки и правовые системы.

Он также публично заявлял, что опасения внешнего мира по поводу «апокалиптических» экзистенциальных рисков ИИ преувеличены, и его больше беспокоит реальный риск автоматического усиления дезинформации в социальных сетях. Сегодня Гомес говорит уже не только о самих моделях, но и о том, кто имеет право решать, какой ИИ будет использовать весь мир.

Лукаш Кайзер (Łukasz Kaiser)

Кайзер — поляк, его первоначальное академическое образование было в области теоретической информатики: логики, теории автоматов, алгоритмической теории моделей и теории игр. Он получил двойную степень магистра по математике и информатике в Университете Вроцлава, затем защитил докторскую диссертацию в Рейнско-Вестфальском техническом университете Ахена в Германии, после чего получил постоянную должность во французском Национальном центре научных исследований (CNRS) и Парижском университете Дидро, специализируясь на чисто теоретических исследованиях логики и теории автоматов. Позже он переключился на прикладные области, проработав почти восемь лет в Google Brain, где также был соавтором TensorFlow и сотрудничал с Сэми Бенджио (Samy Bengio) над ранней статьёй «Can Active Memory Replace Attention?», а с Ильёй Суцкевером (Ilya Sutskever) — над статьёй о «Neural GPUs Learn Algorithms».

Согласно описанию вклада авторов, он и Эйдан Н. Гомес потратили бесчисленные дни и ночи на создание фреймворка tensor2tensor, значительно улучшив результаты экспериментов и эффективность исследований.

Из восьми авторов он единственный, кто не пошёл в предпринимательство, а остался в крупной лаборатории, занимаясь чистыми исследованиями.

В 2021 году он присоединился к OpenAI, тогда ChatGPT ещё не был выпущен. В OpenAI он участвовал в разработке Codex (ставшего впоследствии технической основой GitHub Copilot) и сопутствующего теста HumanEval для программирования, а также в исследовании набора данных математических задач GSM8K; эта работа рано продемонстрировала, что «если позволить модели подумать подольше и произвести больше сэмплов во время логического вывода», можно значительно повысить точность — это был зародыш более поздней парадигмы моделей рассуждений (reasoning models).

Он также является одним из подписавших технический отчёт GPT-4, позже стал одним из ключевых участников создания первой модели рассуждений OpenAI o1 (выпущена в сентябре 2024 года), считается фигурой уровня «руководителя исследований», и эта работа продолжилась вплоть до o3 и более новых парадигм рассуждений, вплоть до сегодняшней серии GPT-5.

Недавно в подкасте MAD Podcast под руководством Мэтта Турка (Matt Turck) он сказал, что математически доказано, что Transformer может решить любую проблему, если позволить модели сгенерировать достаточное количество промежуточных шагов рассуждений. В некотором смысле, это запоздалое, более точное пояснение к той статье девятилетней давности.

Илья Полосухин (Illia Polosukhin)

Полосухин родом из Харькова, Украина, изучал прикладную математику в бакалавриате, также был чемпионом Международной студенческой олимпиады по программированию (ICPC). По его собственным воспоминаниям, после просмотра «Матрицы» в десятилетнем возрасте у него появился почти навязчивый интерес к искусственному интеллекту. В 2014 году он присоединился к Google, участвовал в исследованиях, связанных с TensorFlow, также занимался исследованиями в области машинного чтения и понимания и систем вопросов и ответов.

Согласно описанию вклада авторов, он вместе с Ашишем Вашвани спроектировал и реализовал первоначальную модель Transformer; его часть работы в основном заключалась в проверке эффективности этой архитектуры для задач машинного перевода.

После публикации статьи в 2017 году он покинул Google и вместе с Александром Скидановым (Alexander Skidanov) основал компанию по искусственному интеллекту, первоначально называвшуюся NEAR.AI. Но вскоре они обнаружили, что создание децентрализованной инфраструктуры может быть интереснее, чем создание моделей, поэтому примерно в 2018 году компания превратилась в блокчейн-проект NEAR Protocol.

NEAR использует технологию шардинга под названием Nightshade и через Aurora предоставляет совместимый с Ethereum сетевой уровень 2; основная сеть была официально запущена в 2020 году, на сегодняшний день привлекла более 530 миллионов долларов инвестиций от a16z, Coinbase, Tiger Global Management, Hashed, Dragonfly Capital и других организаций.

Сейчас Полосухин пытается снова объединить свои две первоначальные идентичности: в марте 2026 года он сказал СМИ, что «будущими пользователями блокчейна будут агенты ИИ, а не люди», и позиционирует NEAR как «расчётный слой» для экономики агентов. В апреле того же года он публично призвал к созданию более совершенной нормативной базы для работы с автономными агентами ИИ; он считает, что существующие институты и системы ещё не готовы справиться с проблемами ответственности и системными рисками, которые несут такие системы, и призвал к созданию более чётких механизмов подотчётности и надзора с участием человека («human-in-the-loop»).

В настоящее время он постоянно проживает в Португалии. Среди людей, способных одновременно совмещать две идентичности — «автора основополагающей статьи по LLM» и «руководителя блокчейн-компании с капитализацией в десятки миллиардов долларов», — во всём мире, пожалуй, только он один.

Восемь путей, поиск продолжается

В марте 2024 года на конференции NVIDIA GTC семеро из восьми авторов (Ники Пармар отсутствовала по уважительной причине) впервые выступили вместе как группа, дав интервью Дженсену Хуану (Jensen Huang).

Хуан сказал: «Всё, чем мы наслаждаемся сегодня, можно проследить до того момента».

В конце беседы он подарил каждому памятную плиту от NVIDIA DGX-1 с подписью «Вы изменили мир (You transformed the world)». В ноябре того же года Японский фонд NEC C&C присудил C&C Award этой команде из восьми человек «Команда Transformer», на одной сцене с ними награду получали три старших инженера, исследовавшие технологии передачи по трансатлантическим подводным оптоволоконным кабелям. Создатели инфраструктуры из двух совершенно разных областей были удостоены одной и той же награды.

Прошло девять лет, и эти восемь жизненных траекторий разошлись в места, где они, вероятно, больше никогда не пересекутся: корпоративный сектор Кремниевой долины, токийская лаборатория эволюционных алгоритмов, берлинская компания молекулярной биологии, португальский блокчейн-протокол и ведущие лаборатории ИИ, которые на этой неделе всё ещё перетасовывают состав.

Но если собрать вместе то, что они говорили за эти годы, можно заметить, что одно общее суждение повторяется снова и снова: никто на самом деле не верит, что Transformer станет конечной точкой.

Эйдан Н. Гомес говорит, что миру нужно нечто лучшее, чем Transformer; Ллион Джонс говорит, что следующая архитектура должна быть «явно, бесспорно лучше», чтобы заменить его; а Лукаш Кайзер всё ещё пытается с помощью математического языка объяснить, насколько далеко эта архитектура, созданная девять лет назад, сможет увести человечество.

Возможно, это и есть самое продолжительное наследие, оставленное той статьёй: её восемь авторов разбросаны по миру, но ни один из них не перестал искать следующий ответ.

Ссылки

https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

https://x.com/TylerMaran/status/2067772926695522454

https://www.nvidia.com/zh-tw/on-demand/session/gtc24-s63046/

Эта статья из официального аккаунта WeChat «Машинное сердце» (ID:almosthuman2014), автор: Фокус на ИИ.

Связанные с этим вопросы

QКто является всеми восьмью соавторами революционной статьи 2017 года "Attention Is All You Need" и где они сейчас работают?

AСоавторами статьи являются Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser и Illia Polosukhin. На момент публикации статьи все они работали в Google. Сейчас (по состоянию на 2026 год в статье) все они покинули Google: Vaswani (бывший CEO Essential AI, вероятно, переходит в Nvidia), Shazeer (OpenAI), Parmar (Anthropic), Uszkoreit (Inceptive, биотех), Jones (Sakana AI, Токио), Gomez (Cohere), Kaiser (OpenAI), Polosukhin (NEAR Protocol, блокчейн).

QКакую ключевую техническую идею предложили авторы Transformer вместо существовавших на тот момент подходов?

AАвторы предложили полностью отказаться от рекуррентных нейронных сетей (RNN) и сверточных сетей (CNN) для последовательных задач. Вместо этого они выдвинули идею, что "внимания (attention) достаточно" — механизм внимания, особенно самовнимания (self-attention), позволяет модели одновременно обрабатывать все слова во входной последовательности, определяя связи между ними, независимо от их позиции. Это обеспечило высокую параллелизацию вычислений и стало основой архитектуры.

QПочему недавний уход Ноама Шазера из Google DeepMind в OpenAI считается таким значимым событием для индустрии?

AУход Noam Shazeer значим по нескольким причинам: 1) Это уже второй его уход из Google, причем в 2024 году Google потратил около $2.7 млрд на лицензирование его стартапа Character.AI, чтобы вернуть его в DeepMind для руководства Gemini. 2) Он является одним из ключевых архитекторов Transformer (предложил механизм масштабированного скалярного произведения и много голов внимания). 3) Его переход в OpenAI, главного конкурента Google, был публично одобрен CEO OpenAI Сэмом Олтманом и интерпретирован рынком как признак того, что Google проигрывает в борьбе за AI-таланты, что вызвало падение акций Alphabet.

QКакой из соавторов Transformer основал компанию, полностью сменившую область применения с ИИ на биотехнологии, и какова ее миссия?

AЭто Jakob Uszkoreit. В 2021 году он вместе с профессором Rhiju Das основал компанию Inceptive, которая применяет принципы, подобные Transformer, в области биологии и дизайна молекул. Миссия компании — изменить процесс разработки лекарств: вместо проб и ошибок с тысячами молекул, использовать ИИ для генерации и обучения на данных о новых молекулах РНК, чтобы целенаправленно создавать терапевтические средства. В июне 2026 года Inceptive заключила многомиллиардное партнерство с фармацевтической компанией Alnylam.

QКаковы, согласно статье, общие взгляды соавторов на будущее архитектуры Transformer и ее возможную замену?

AНесмотря на то, что Transformer стал доминирующей архитектурой, сами его создатели не считают его конечной точкой развития. Например, Llion Jones заявил, что для замены Transformer новая архитектура должна быть "явно, неоспоримо лучше". Aidan N. Gomez говорит, что миру нужно что-то лучше Transformer. Łukasz Kaiser, работая над моделями рассуждений в OpenAI, исследует пределы Transformer с математической точки зрения. Общий консенсус среди них заключается в том, что поиск следующего прорыва продолжается, и никто не остановился в исследованиях.

Похожее

Перебалансировка власти между Apple и «Micron»: Разбираем счёт прибыли за iPhone

Анализируется изменение баланса сил между Apple и производителями памяти, такими как Micron, на примере структуры прибыли iPhone. Пост в соцсетях от @BluthCapital критикует Apple за недавнее повышение цен на iPhone, которое компания объясняет ростом затрат на память, в то время как сама Apple получает с каждого устройства огромную прибыль. По оценкам, из прибыли от одного iPhone Apple забирает около 25%, в то время как производители памяти, такие как Micron, — менее 3%. Анализ финансовых отчетов Apple показывает, что компания стабильно получает высокую чистую прибыль (24-36% с устройства), захватывая около 75% общей прибыли рынка смартфонов. Роль стоимости памяти в себестоимости iPhone значительно выросла: с примерно 1.6-2.3% в эпоху iPhone X (2017) до 12-15% для iPhone 17 (2026). Гендиректор Apple Тим Кук назвал нынешний рост цен на память беспрецедентным за 40 лет, что привело к повышению цен на линейку продуктов Apple и падению акций. Основная причина — взрывной спрос на память со стороны индустрии искусственного интеллекта и дата-центров. Производители памяти, такие как Micron, SK Hynix и Samsung, переориентируют производство на более прибыльные продукты для AI (например, HBM), создавая дефицит на рынке потребительской памяти. Это позволило им укрепить свои позиции в переговорах с такими гигантами, как Apple, которые ранее диктовали низкие цены. В этой ситуации сообщается, что Apple изучает возможность закупки чипов памяти у китайской компании CXMT.

Odaily星球日报1 ч. назад

Перебалансировка власти между Apple и «Micron»: Разбираем счёт прибыли за iPhone

Odaily星球日报1 ч. назад

Могут ли киты BTC спасти Биткоин после оттока средств из ETF на 4,06 миллиарда долларов?

Институциональный спрос на биткоин демонстрирует признаки ослабления: американские биткоин-ETF фиксируют отток средств седьмой день подряд, общий объем которого за месяц достиг примерно $4,06 млрд. Это снижает ключевой источник структурного спроса, который ранее поддерживал рынок. Однако активность крупных держателей (китов) указывает на растущее убеждение: при падении цены ниже $60 000 наблюдался значительный всплеск крупных транзакций, что говорит о накоплении. В то же время долгосрочные держатели начинают фиксировать убытки, о чем свидетельствует отрицательный показатель SOPR, что может сигнализировать о фазе капитуляции. Таким образом, несмотря на ослабление институциональной поддержки со стороны ETF, накопление китами может смягчить давление продаж, но для устойчивого восстановления рынку необходима более широкая поддержка со стороны спотового спроса.

ambcrypto1 ч. назад

Могут ли киты BTC спасти Биткоин после оттока средств из ETF на 4,06 миллиарда долларов?

ambcrypto1 ч. назад

Диалог с основателем 42 Macro: «Медленное кипячение лягушки» от ФРС и K-образная экономика

Источник: Anthony Pompliano. В интервью подкасту основатель и CEO исследовательской компании 42 Macro Дариус Дейл обсудил политику ФРС и состояние экономики США. Дейл охарактеризовал нового главу ФРС Кевина Уорша как «голубя в ястребином обличии», который верит в дефляционный потенциал ИИ, но вынужден занимать жесткую риторику. По его мнению, в ближайшие 2-3 квартала ФРС потребуется ужесточить политику или сигнализировать об этом, чтобы впоследствии получить пространство для смягчения. Эксперт утверждает, что текущие инфляционные драйверы — рост денежной массы, дефицит бюджета, монетизация долга — несовместимы с целью по инфляции в 2%. По его словам, ФРС фактически отказалась от этой цели, но должна поддерживать нарратив для контроля над рынками. Дейл сравнил текущую ситуацию с «медленным кипячением» (финансовым подавлением), где задача ФРС — «сварить лягушку», не дав ей выпрыгнуть. Особое внимание уделено «K-образной экономике». Верхушка (владельцы активов) накопила триллионы долларов ликвидности с начала пандемии, что позволяет им тратить, несмотря на низкую норму сбережений. Низы же сталкиваются с рекордными уровнями просрочек по кредитам, сравнимыми с кризисом 2008 года, на фоне высокой стоимости жизни. Это порождает социальное неравенство и политическую напряженность. Дейл подчеркивает важность участия в инвестициях, чтобы не отстать от создаваемого наверху богатства и избежать негативных последствий «эффекта Кантильона» (неравномерного распределения новых денег). Он также отмечает сдвиг на рынке акций: инвесторы начинают распределять средства за пределы «великолепной семерки» в поисках возможностей в более широком пуле компаний, связанных с ИИ. В заключение эксперт делится личным наблюдением, что люди на «дне» экономики, независимо от происхождения, хотят одного — достойно содержать свои семьи, и критикует стигматизацию бедных слоев населения.

marsbit1 ч. назад

Диалог с основателем 42 Macro: «Медленное кипячение лягушки» от ФРС и K-образная экономика

marsbit1 ч. назад

Космические вычисления: китайский ответ — фотонные технологии эффективнее, Маск и Хуанг пошли не тем путем

Гонка за космическими вычислениями превратилась в настоящую гонку вооружений. Такие гиганты, как Маск и Нвидиа, продвигают идею размещения ИИ и вычислительных мощностей на спутниках, но традиционные электронные чипы сталкиваются в космосе с серьёзными проблемами: радиация, отвод тепла и высокое энергопотребление. Фотонные вычисления предлагают принципиально иное решение. Поскольку фотоны не имеют заряда, они невосприимчивы к воздействию высокоэнергетических частиц. Вычисления, выполняемые с помощью света в волноводах, практически не генерируют тепло, что критически важно в вакууме, где нет конвекции. Кроме того, статическое энергопотребление фотонных чипов близко к нулю, что идеально соответствует ограниченным энергоресурсам спутников. Эти преимущества — устойчивость к радиации, низкое тепловыделение и энергоэффективность — позволяют фотонным системам обеспечивать большую вычислительную мощность при одинаковой массе полезной нагрузки по сравнению с электронными аналогами. В то время как электронные чипы упираются в физические ограничения миниатюризации, фотонные развиваются за счёт масштабирования архитектуры и использования свойств света, таких как длина волны и поляризация. Хотя фотонные вычисления для ИИ, особенно для задач вывода, всё ещё сталкиваются с проблемами, такими как разделение памяти и вычислений, а также сложности масштабирования, новые подходы, например, фотонные вычисления в памяти, предлагают пути решения. Для развёртывания в космосе также необходимо решить инженерные задачи, связанные с устойчивостью к вибрациям при запуске и системной интеграцией на орбите. «Фотонно-ориентированные» вычисления и коммуникации могут стать ключевым фактором в космической гонке за вычислительными мощностями, предлагая альтернативный путь в обход физических ограничений традиционной электроники и определяя будущий потенциал орбитальных вычислительных созвездий.

marsbit3 ч. назад

Космические вычисления: китайский ответ — фотонные технологии эффективнее, Маск и Хуанг пошли не тем путем

marsbit3 ч. назад

Крупный кит открыл короткую позицию на $4,92 млн в ZEC – Сможет ли Zcash вернуться к $520?

Крупный инвестор Гарретт Буллиш открыл новый короткую позицию с плечом 2x на сумму 4,92 млн долларов по ZEC по цене 417,80 долларов, подтвердив свой медвежий настрой. Несмотря на это, данные по деривативам показывают сохраняющееся доминирование покупателей на рынке фьючерсов. Технический анализ указывает, что ZEC торгуется ниже сломанного восходящего канала, с ближайшим ключевым сопротивлением на уровне 520 долларов и поддержкой около 335,50 долларов. Осциллятор Stochastic RSI находится в глубокой зоне перепроданности, что может сигнализировать об исчерпании продаж, однако индикатор Parabolic SAR всё ещё указывает на преобладание нисходящего тренда. Исход противостояния между активными покупателями на срочном рынке и крупной медвежьей позицией кита определит, сможет ли Zcash преодолеть сопротивление и начать восстановление, или же цена протестирует более низкие уровни поддержки.

ambcrypto3 ч. назад

Крупный кит открыл короткую позицию на $4,92 млн в ZEC – Сможет ли Zcash вернуться к $520?

ambcrypto3 ч. назад

Торговля

Спот

Восемь отцов Transformer: где они сегодня?

Введение

«Прародитель всего»: восемь нетрадиционных сотрудников Google

Восемь путей, поиск продолжается

Связанные с этим вопросы

Похожее

Перебалансировка власти между Apple и «Micron»: Разбираем счёт прибыли за iPhone

Могут ли киты BTC спасти Биткоин после оттока средств из ETF на 4,06 миллиарда долларов?

Диалог с основателем 42 Macro: «Медленное кипячение лягушки» от ФРС и K-образная экономика

Космические вычисления: китайский ответ — фотонные технологии эффективнее, Маск и Хуанг пошли не тем путем

Крупный кит открыл короткую позицию на $4,92 млн в ZEC – Сможет ли Zcash вернуться к $520?

Торговля

Популярные категории

Популярные теги