Si nous remontons le temps jusqu'en 2020, la plupart des professionnels de l'IA débattaient encore de la puissance réelle de GPT-3.
À cette époque, l'IA générative n'était pas encore au centre de l'attention mondiale, ChatGPT n'allait apparaître que deux ans plus tard, et les grands modèles n'avaient pas encore déclenché la frénésie d'investissement qui balaie aujourd'hui la planète. Et pourtant, cette même année, une chercheuse en IA de premier plan chez Google a été confrontée à un conflit intense avec l'entreprise suite à un article non publié, ce qui a finalement conduit à son départ.
À l'époque, beaucoup pensaient qu'il s'agissait simplement d'une autre controverse dans la Silicon Valley concernant la gestion d'entreprise, la publication académique et la culture d'entreprise ; mais aujourd'hui, en y regardant de plus près, on s'aperçoit que les mises en garde contenues dans cet article se sont presque toutes matérialisées dans le monde réel.
Et la chercheuse licenciée n'était autre que l'une des figures les plus influentes dans le domaine de l'éthique de l'IA – Timnit Gebru.
Un "licenciement" qui a secoué le monde de l'IA
En décembre 2020, Timnit Gebru a annoncé sur les réseaux sociaux qu'elle avait été licenciée par Google.
La nouvelle a rapidement fait l'effet d'une bombe dans le milieu de la recherche en IA. Car Gebru n'était pas une chercheuse ordinaire, mais la co-responsable de l'équipe Ethical AI de Google (Équipe d'IA éthique) et l'une des chercheuses renommées dans le domaine de l'équité et des biais algorithmiques en IA à l'échelle mondiale.
Née en Éthiopie, Gebru s'est longtemps intéressée aux préjugés raciaux, au sexisme et aux questions d'équité sociale dans l'IA. Avant de rejoindre Google, elle a mené des recherches à l'université de Stanford. En 2018, un article sur les biais algorithmiques auquel elle a contribué a été considéré par beaucoup comme un tournant majeur dans la recherche sur l'équité en IA. La même année, Google l'a recrutée, mettant en avant l'importance que l'entreprise accordait à l'"IA responsable" (Responsible AI).
Pourtant, seulement deux ans plus tard, leur collaboration a pris fin de manière conflictuelle.
À l'époque, Google a officiellement déclaré que Gebru avait démissionné, mais Gebru elle-même a présenté une version totalement différente : elle a affirmé avoir reçu, pendant ses congés, un e-mail de l'entreprise l'informant que son départ était effectif immédiatement, avec la suppression simultanée de tous ses accès aux systèmes internes et à sa boîte mail.
De son point de vue, il s'agissait d'un licenciement à part entière.
Par la suite, plus de 4000 employés de Google et des professionnels du secteur ont signé une lettre ouverte, remettant en question la gestion de l'entreprise et exigeant la réintégration de Gebru – et tout cela a été déclenché par un simple article académique de 14 pages.
Un article de 14 pages à l'origine de la controverse
Cet article s'intitulait « On the Dangers of Stochastic Parrots » (« Les dangers des perroquets stochastiques »). Ses auteurs étaient Timnit Gebru, Emily Bender, professeure de linguistique à l'université de Washington, et deux autres chercheurs. Il a été cité plus de 14 000 fois à ce jour.
Plus tard, l'expression « perroquet stochastique » est également devenue largement connue. (Lien vers l'article : https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)
L'article soulignait que les grands modèles de langage sont essentiellement basés sur la reproduction de schémas linguistiques selon des règles statistiques : ils peuvent générer des textes fluides, naturels et même logiques, mais ne comprennent pas réellement le sens du langage – comme un perroquet qui a appris à imiter la parole humaine, semblant intelligent, alors que cette imitation est simplement construite sur une quantité colossale de textes issus d'internet. Or, internet lui-même regorge de préjugés, de discriminations et de contenus haineux. Par conséquent, les grands modèles sont susceptibles d'apprendre et d'amplifier ces problèmes dans le contenu qu'ils génèrent.
Il faut se souvenir que nous étions en 2020, l'année où GPT-3 venait juste d'être publié, ChatGPT n'existait pas encore, et la frénésie autour des grands modèles était loin d'être arrivée. Cet article prédisait déjà l'un des problèmes les plus épineux auxquels l'industrie est confrontée aujourd'hui.
Après la soumission de cet article à une conférence majeure sur l'éthique de l'IA, la direction de Google a exigé : soit de retirer l'article, soit de retirer le nom des chercheurs de Google. Gebru a refusé, demandant à l'entreprise d'expliquer les raisons précises et souhaitant engager une discussion plus approfondie.
Simultanément, elle a envoyé un e-mail au ton vif à un groupe interne d'employés de Google.
Dans cet e-mail, Gebru a critiqué le manque d'actions concrètes de Google concernant le recrutement des minorités et la résolution des inégalités internes. Elle a écrit : « Lorsque vous commencez à défendre les personnes marginalisées, votre situation empire. Vous rendez les autres membres de la direction mal à l'aise. » Elle a également déclaré : si l'entreprise ne parvenait pas à expliquer pourquoi retirer l'article, elle choisirait de démissionner en temps voulu.
Les événements ont dépassé ses attentes. Gebru a affirmé que Google a ensuite répondu qu'il ne répondrait pas à ses demandes et a directement accepté sa "démission", supprimant immédiatement tous ses accès.
À l'époque, cet incident s'est rapidement transformé en l'un des sujets les plus controversés dans le domaine mondial de l'IA.
Des opinions jugées radicales à l'époque, devenues réalité aujourd'hui
Ce qui a fait que cet incident continue d'être discuté jusqu'à aujourd'hui, ce n'est pas le licenciement en soi, mais le contenu de l'article – car en y repensant maintenant, presque chacune des inquiétudes soulevées est devenue un problème réel auquel l'industrie de l'IA est confrontée.
(1) Premier avertissement : les modèles "inventeront" des informations
En 2020, GPT-3 venait d'être publié. À cette époque, on s'émerveillait de la capacité du modèle à générer du texte, mais peu de gens discutaient sérieusement de sa fiabilité.
Gebru et Bender ont souligné qu'avec l'augmentation de la taille des modèles, les gens confondraient de plus en plus une expression fluide avec une véritable compréhension. Le modèle semble réfléchir, mais en réalité, il ne fait que prédire le mot suivant le plus probable. Par conséquent, ils finiraient par générer des informations qui semblent plausibles mais sont complètement erronées.
Aujourd'hui, ce problème a un nom que tout le monde connaît : l'hallucination de l'IA (AI Hallucination). Que ce soit ChatGPT, Gemini, Claude ou d'autres modèles avancés, le problème des hallucinations n'est toujours pas complètement résolu.
D'une certaine manière, cet article avait anticipé ce phénomène avant même qu'il ne devienne un terme à la mode dans l'industrie.
(2) Deuxième avertissement : les préjugés ne disparaîtront pas, mais seront amplifiés
L'article soulignait également qu'internet n'est pas une source de données neutre ; les données d'entraînement contiennent naturellement divers préjugés liés à la race, au genre, à la culture et à la région géographique. Les modèles non seulement apprendront ces préjugés, mais pourraient aussi les renforcer à travers les mécanismes d'optimisation.
Plus tard, divers problèmes réels ont confirmé cette inquiétude :
Amazon a tenté d'utiliser l'IA pour trier les CV de candidats, mais le système a automatiquement déclassé les CV contenant des mots-clés comme « women » (femmes).
Les systèmes d'évaluation des risques médicaux utilisés par plusieurs grands hôpitaux américains ont été découverts comme sous-estimant systématiquement les besoins médicaux des patients noirs.
La carte de crédit Apple Card d'Apple a également suscité l'attention des régulateurs parce que les limites de crédit accordées aux femmes étaient bien inférieures à celles des hommes.
Ces exemples montrent que les algorithmes ne réalisent pas automatiquement l'équité ; au contraire, ils peuvent ancrer les inégalités du monde réel de manière encore plus subtile.
(3) Troisième avertissement : la consommation d'énergie de l'IA deviendra un nouveau problème
En 2020, le coût de la puissance de calcul n'attirait pas autant l'attention qu'aujourd'hui, mais cet article commençait déjà à discuter de l'impact environnemental de l'entraînement de très grands modèles. Selon les estimations des chercheurs, les émissions de carbone générées par l'entraînement d'un grand modèle de langage équivalaient à celles de cinq voitures sur tout leur cycle de vie – à l'époque, cette affirmation a été jugée trop pessimiste par beaucoup.
Cependant, avec la course aux armements dans les infrastructures d'IA, le problème est rapidement apparu : selon les données publiques de Google, les émissions de gaz à effet de serre de l'entreprise en 2024 ont augmenté de 48 % par rapport à 2019 ; Microsoft a également connu une augmentation d'environ 29 % sur la même période. Les deux entreprises ont clairement indiqué que les centres de données d'IA et les infrastructures de puissance de calcul en étaient une cause importante.
Ironiquement, ces géants technologiques faisaient encore la promotion de leurs objectifs de neutralité carbone il y a quelques années.
(4) Quatrième avertissement : personne ne sait vraiment ce qu'il y a dans les données d'entraînement
Aux yeux de beaucoup, les données d'entraînement semblent n'être qu'un problème technique. Mais Gebru estimait qu'avec l'augmentation exponentielle du volume de données, un audit complet des données d'entraînement deviendrait presque impossible.
Son point de vue s'est à nouveau vérifié : en 2023, des chercheurs ont découvert que l'ensemble de données LAION-5B, largement utilisé pour entraîner des modèles de génération d'images, contenait une quantité importante d'images d'abus sur enfants. Plusieurs modèles grand public, dont Stable Diffusion, avaient utilisé cet ensemble de données.
Sans surprise, de nombreux développeurs ignoraient l'existence de ces contenus. Autrement dit, même les développeurs des modèles ne savaient pas nécessairement ce que leur modèle « avait ingéré » – et c'est précisément l'un des premiers problèmes soulevés par l'article.
(5) Cinquième avertissement : internet sera de plus en plus dominé par des contenus générés par l'IA
Aux yeux de Google, c'était peut-être la partie la plus sensible de l'article. Gebru et Bender estimaient que le développement des grands modèles finirait par concentrer le pouvoir discursif du langage et de la culture entre les mains d'une poignée de géants technologiques. La raison est simple : l'entraînement de très grands modèles nécessite des ressources financières, de puissance de calcul et de données considérables, et le nombre d'entreprises vraiment capables de participer à cette compétition est très limité.
Avec le temps, les voix dominantes sur internet évolueront vers : des moyennes statistiques entraînées par quelques entreprises, diffusées ensuite dans le monde entier sous couvert d'« assistants neutres ». Parallèlement, les langues et cultures sous-représentées dans les données d'entraînement seront encore plus marginalisées.
Plus grave encore, lorsque les contenus générés par l'IA seront réinjectés sur internet et serviront de données d'entraînement pour la prochaine génération de modèles, le problème s'auto-renforcera – c'est ce que les chercheurs appellent aujourd'hui « l'effondrement du modèle » (Model Collapse).
Une étude de 2024 a ainsi révélé qu'environ 57 % des nouveaux contenus en anglais sur internet étaient déjà générés ou assistés par l'IA ; une étude sur les langues à faibles ressources a montré qu'en raison de données d'entraînement provenant de plus en plus de contenus générés par l'IA, la qualité de traduction de certaines langues avait nettement diminué.
En d'autres termes, cet article n'a pas seulement prédit le phénomène d'« effondrement du modèle », il en a même identifié le mécanisme de formation avant que le concept n'émerge officiellement.
Après son départ de Google, elle a choisi de poursuivre ses recherches
Après les événements, beaucoup ont dépeint Gebru comme une « opposante à l'IA ». En réalité, ce n'est pas le cas. Elle n'a jamais préconisé d'arrêter le développement de l'IA. Du début à la fin, c'est autre chose qu'elle a remis en question :
Qui décide de l'orientation du développement de l'IA ?
Selon elle, les chercheurs et les cadres qui promeuvent le développement des grands modèles partagent souvent des origines similaires, servent des objectifs commerciaux similaires et sont motivés par les mêmes pressions concurrentielles. Dans un tel système d'incitations, lancer plus rapidement des produits, accroître plus vite la base d'utilisateurs et gagner la compétition ont souvent une priorité plus élevée que les questions de sécurité, d'équité et d'éthique.
Et toute personne tentant de ralentir ce processus risque d'être perçue comme un obstacle. Ironiquement, c'est au sein même de Google que Gebru a exprimé cette opinion, et en la licenciant, Google a fourni la démonstration la plus dramatique de cette affirmation.
Plus tristement encore, peu après ces événements, l'autre co-responsable de l'équipe Ethical AI, Margaret Mitchell, a également été licenciée – en l'espace de 90 jours, la fière équipe Ethical AI de Google a été pratiquement démantelée.
Après son départ de Google, Gebru a fondé en 2021 le Distributed AI Research Institute (DAIR). Contrairement aux grandes entreprises technologiques, cette institution vise à mener des recherches en IA en dehors des intérêts commerciaux, avec un objectif très direct : étudier les problèmes que les géants technologiques ne sont pas forcément prêts à affronter. Ces dernières années, le DAIR s'est continuellement penché sur les sources de données, l'équité algorithmique, la diversité linguistique et la concentration du pouvoir dans l'industrie de l'IA.
Avec le développement explosif de l'IA générative, de plus en plus de chercheurs ont commencé à se replonger dans l'article « Les dangers des perroquets stochastiques » : car ils ont découvert que les problèmes considérés autrefois comme des inquiétudes excessives sont aujourd'hui devenus des réalités quotidiennement discutées dans l'industrie.
Peut-être a-t-elle simplement vu les problèmes plus tôt que les autres
Six ans plus tard, concernant la controverse entre Timnit Gebru et Google, le public ne pourra peut-être jamais obtenir une réponse qui fasse consensus pour tout le monde.
Google considère qu'il s'agissait d'un examen académique normal et d'un départ ordinaire ; Gebru estime, quant à elle, avoir été sanctionnée pour avoir insisté sur la publication de ses résultats de recherche. Mais une chose devient de plus en plus difficile à nier :
L'article qui a provoqué son départ de Google n'a pas perdu son sens avec la fin de la controverse.
Au contraire, les problèmes qu'il aborde – hallucinations, préjugés, contamination des données, coût environnemental, effondrement des modèles et concentration du pouvoir – sont désormais des sujets incontournables pour toute l'industrie de l'IA.
Parfois, l'histoire rend son jugement de manière inattendue.
En 2020, beaucoup trouvaient Timnit Gebru trop pessimiste ;
En 2026, les gens commencent à réaliser qu'elle avait peut-être simplement vu les problèmes plus tôt que les autres.
Référence : https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from
Cet article provient du compte WeChat officiel « CSDN », organisé par : Zheng Liyuan








