Si retrocedemos en el tiempo hasta 2020, la mayoría de los profesionales de IA todavía estaban discutiendo cuán poderoso era realmente GPT-3.
En ese momento, la IA generativa aún no era el centro de atención mundial, ChatGPT tardaría dos años más en llegar, y los modelos grandes no habían desencadenado la ola de inversión que arrasa el mundo hoy en día. Pero justo ese año, una investigadora de IA de primer nivel de Google tuvo un conflicto intenso con la empresa por un artículo de investigación aún no publicado y finalmente perdió su trabajo.
En aquel entonces, muchos pensaron que esto era simplemente otra controversia en Silicon Valley sobre gestión laboral, publicación académica y cultura corporativa; pero hoy, al mirar hacia atrás, la gente se da cuenta de que las advertencias en ese artículo se han cumplido casi por completo en el mundo real.
Y la investigadora despedida fue precisamente una de las figuras más influyentes en el campo de la ética de la IA: Timnit Gebru.
Un "despido" que conmovió al mundo de la IA
En diciembre de 2020, Timnit Gebru publicó en sus redes sociales que había sido despedida por Google.
La noticia rápidamente sacudió todo el círculo de investigación de IA. Porque Gebru en ese momento no era una investigadora común, sino la codirectora del equipo de IA Ética de Google (Ethical AI Team) y una de las académicas más reconocidas a nivel mundial en el campo de la equidad en IA y los sesgos algorítmicos.
Nacida en Etiopía, Gebru se ha enfocado durante mucho tiempo en los prejuicios raciales, la discriminación de género y los problemas de equidad social en la IA. Antes de unirse a Google, había realizado investigaciones en la Universidad de Stanford. En 2018, un estudio sobre sesgos algorítmicos en el que participó fue considerado por muchos como un punto de inflexión importante en la investigación de la equidad en IA. Ese mismo año, Google la contrató y mostró con gran fanfarria su compromiso con la "IA responsable" (Responsible AI).
Sin embargo, solo dos años después, ambas partes llegaron a un punto de ruptura.
En ese momento, la versión oficial de Google fue que Gebru había renunciado voluntariamente, pero la propia Gebru dio una versión completamente diferente: afirmó que recibió un correo electrónico de la empresa durante su licencia, informándole que su despido era efectivo inmediatamente, y todos sus permisos de acceso a sistemas internos y al correo electrónico fueron revocados simultáneamente.
En su opinión, se trataba claramente de un despido.
Posteriormente, más de 4.000 empleados de Google y profesionales del sector firmaron una carta abierta, cuestionando el manejo de la empresa y exigiendo la reinstalación de Gebru —y todo esto fue desencadenado por un artículo académico de solo 14 páginas.
Un artículo de 14 páginas que desató la controversia
Este artículo, titulado "On the Dangers of Stochastic Parrots" ("Sobre los peligros de los loros estocásticos"), fue escrito por Timnit Gebru, la profesora de lingüística de la Universidad de Washington Emily Bender y otros dos investigadores, y actualmente ha sido citado más de 14.000 veces.
Posteriormente, el nombre "loros estocásticos" también se popularizó. (Enlace al artículo: https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)
El artículo señalaba que los grandes modelos de lenguaje son esencialmente una reproducción de patrones lingüísticos basada en regularidades estadísticas: pueden generar texto fluido, natural e incluso lógico, pero en realidad no comprenden el significado del lenguaje— como un loro que aprende a imitar el habla humana, aparentemente inteligente, pero cuya imitación se basa únicamente en una enorme cantidad de textos de Internet. E Internet en sí está lleno de prejuicios, discriminación y contenido de odio. Por lo tanto, es muy probable que los grandes modelos aprendan estos problemas y los amplifiquen al generar contenido.
Cabe recordar que eso fue en 2020, cuando GPT-3 acababa de ser lanzado, ChatGPT aún no existía, y la fiebre por los modelos grandes estaba lejos de comenzar. Este artículo ya había predicho uno de los problemas más difíciles que enfrenta hoy la industria.
Después de que el artículo fue presentado a una importante conferencia sobre ética en IA, la gerencia de Google exigió: retirar el artículo o eliminar los nombres de los investigadores de Google. Gebru se negó y pidió a la empresa que explicara las razones específicas, con la esperanza de poder discutir el tema más a fondo.
Al mismo tiempo, también envió un correo electrónico con un lenguaje fuerte a un grupo interno de empleados de Google.
En el correo, Gebru criticó a Google por su falta de acciones concretas en la promoción de contrataciones de grupos minoritarios y en la resolución de desigualdades internas. Escribió: "Cuando comienzas a alzar la voz por los grupos marginados, tu situación empeora cada vez más. Harás que otros líderes se sientan incómodos". También dijo: si la empresa no podía explicar por qué quería retirar el artículo, ella elegiría renunciar en el momento apropiado.
Los acontecimientos superaron sus expectativas. Gebru declaró que Google luego respondió que no cumpliría con sus demandas y directamente aceptó su "renuncia", cancelando de inmediato todos sus permisos de acceso.
En ese momento, el incidente rápidamente se convirtió en uno de los temas más controvertidos en el campo global de la IA.
Las opiniones que parecían radicales entonces, hoy son realidad
Lo que ha mantenido este incidente en discusión hasta hoy no es el despido en sí, sino el contenido de ese artículo —porque ahora, al mirar hacia atrás, casi todas las preocupaciones planteadas se han convertido en problemas reales que la industria de la IA enfrenta actualmente.
(1) Primera advertencia: Los modelos "dirán tonterías"
En 2020, GPT-3 acababa de ser lanzado. En ese momento, la gente se maravillaba de la capacidad del modelo para generar texto, pero pocos discutían seriamente su confiabilidad.
Gebru y Bender señalaron: a medida que los modelos aumentan de escala, la gente confundirá cada vez más la expresión fluida con una comprensión real. El modelo parece estar pensando, pero en realidad solo está prediciendo la siguiente palabra más probable. Por lo tanto, tarde o temprano generarán información que parece razonable pero es completamente errónea.
Hoy, este problema tiene un nombre que todos conocen: Alucinación de la IA (AI Hallucination). Ya sea ChatGPT, Gemini, Claude u otros modelos avanzados, el problema de las alucinaciones aún no se ha resuelto por completo.
En cierto sentido, este artículo predijo con precisión el problema antes de que "alucinación" se convirtiera en un término de moda en la industria.
(2) Segunda advertencia: Los prejuicios no desaparecerán, se amplificarán
El artículo también señaló que Internet en sí no es una fuente de datos neutral; los datos de entrenamiento contienen naturalmente diversos prejuicios raciales, de género, culturales y geográficos. Los modelos no solo aprenderán estos prejuicios, sino que pueden reforzarlos aún más debido a los mecanismos de optimización.
Posteriormente, varios problemas reales confirmaron esta preocupación:
Amazon intentó usar IA para filtrar currículums, y el sistema automáticamente reducía la puntuación de currículums que contenían palabras clave como "women" (mujeres).
Se descubrió que los sistemas de evaluación de riesgo médico utilizados por varios grandes hospitales en EE. UU. subestimaban constantemente las necesidades médicas de los pacientes negros.
La tarjeta de crédito Apple Card también atrajo la atención de los reguladores porque las mujeres recibían límites de crédito mucho más bajos que los hombres.
Estos casos demuestran que los algoritmos no logran automáticamente la equidad; al contrario, pueden solidificar las desigualdades del mundo real de formas más ocultas.
(3) Tercera advertencia: El consumo energético de la IA se convertirá en un nuevo problema
En 2020, el costo de la potencia de cálculo no recibía la atención que tiene hoy, pero ese artículo ya comenzaba a discutir el impacto ambiental del entrenamiento de modelos muy grandes. Según los cálculos de los investigadores, las emisiones de carbono generadas al entrenar un gran modelo de lenguaje equivalen a las emisiones de todo el ciclo de vida de cinco automóviles— en ese momento, esta afirmación fue considerada por muchos como demasiado pesimista.
Sin embargo, a medida que la construcción de infraestructura de IA entró en una carrera armamentista, el problema rápidamente se hizo evidente: según datos públicos de Google, las emisiones de gases de efecto invernadero de la empresa en 2024 aumentaron un 48% en comparación con 2019; Microsoft también creció aproximadamente un 29% en el mismo período. Ambas compañías señalaron claramente que los centros de datos de IA y la infraestructura de cómputo son una causa importante.
Irónicamente, estas grandes tecnológicas promovían con gran fanfarria sus objetivos de carbono neutral hace unos años.
(4) Cuarta advertencia: Nadie sabe realmente qué hay en los datos de entrenamiento
Para muchos, los datos de entrenamiento parecen ser solo un problema de ingeniería. Pero Gebru creía que, a medida que la escala de datos crece, auditar completamente los datos de entrenamiento se volverá casi imposible.
Su opinión se cumplió nuevamente: en 2023, los investigadores descubrieron que en el conjunto de datos LAION-5B, ampliamente utilizado para entrenar modelos de generación de imágenes, había una gran cantidad de imágenes de abuso infantil, y varios modelos principales, incluido Stable Diffusion, habían usado este conjunto de datos.
Como era de esperar, muchos desarrolladores no sabían previamente de la existencia de este contenido. Es decir, incluso los propios desarrolladores de modelos no necesariamente saben qué es lo que el modelo "ha ingerido"—y este es precisamente uno de los problemas que el artículo planteó desde el principio.
(5) Quinta advertencia: Internet será gradualmente ocupado por contenido de IA
Para Google, esta podría haber sido la parte más sensible de todo el artículo. Gebru y Bender argumentaron que el desarrollo de los grandes modelos eventualmente concentraría el discurso sobre lenguaje y cultura en unas pocas grandes empresas tecnológicas. La razón es simple: entrenar modelos muy grandes requiere enormes cantidades de dinero, potencia de cálculo y recursos de datos, y las empresas realmente capaces de competir se pueden contar con los dedos de una mano.
Con el tiempo, las voces principales en Internet evolucionarán gradualmente hacia: un promedio estadístico entrenado por unas pocas empresas, que luego se difunde al mundo entero bajo la apariencia de "asistentes neutrales". Al mismo tiempo, los idiomas y culturas que están poco representados en los datos de entrenamiento serán aún más marginados.
Lo más grave es que cuando el contenido generado por IA vuelve a ingresar a Internet y se convierte en datos de entrenamiento para la siguiente ronda, el problema se reforzará continuamente a sí mismo—esto es precisamente lo que los investigadores ahora llaman: "Colapso del modelo (Model Collapse)".
Un estudio de 2024 encontró que aproximadamente el 57% del nuevo contenido en Internet en inglés ya es generado o asistido por IA; mientras que investigaciones sobre idiomas con pocos recursos descubrieron que, debido a que cada vez más datos de entrenamiento provienen de contenido generado por IA, la calidad de la traducción en algunos idiomas ya ha mostrado un deterioro notable.
En otras palabras, este artículo no solo predijo el fenómeno del "colapso del modelo", sino que incluso señaló su mecanismo de formación antes de que este concepto apareciera formalmente.
Después de dejar Google, ella eligió continuar investigando
Después del incidente, muchas personas luego describieron a Gebru como una "opositora a la IA". En realidad, no es así; ella nunca defendió detener el desarrollo de la IA. Desde el principio, cuestionó otra cosa:
¿Quién está decidiendo la dirección del desarrollo de la IA?
En su opinión, los investigadores y la gerencia que impulsan el desarrollo de grandes modelos suelen tener antecedentes similares, sirven a objetivos comerciales similares y están impulsados por las mismas presiones competitivas. Bajo tales incentivos, lanzar productos más rápido, expandir la base de usuarios más rápido y ganar la competencia del mercado más rápido, a menudo tiene una prioridad más alta que la seguridad, la equidad y los problemas éticos.
Y todos los que intentan ralentizar este proceso pueden ser vistos como obstáculos. Irónicamente, Gebru planteó este punto dentro de Google, y Google, al despedirla, también le dio a este punto la anotación más dramática en la realidad.
Lo que es aún más lamentable es que poco después del incidente, la otra codirectora del equipo de IA Ética, Margaret Mitchell, también fue despedida—en solo 90 días, el equipo de IA Ética de Google, del que alguna vez se enorgullecía, básicamente fue desmantelado.
Después de dejar Google, en 2021 Gebru fundó el Instituto de Investigación de IA Distribuida (DAIR, Distributed AI Research Institute). A diferencia de las grandes empresas tecnológicas, esta institución busca realizar investigación en IA fuera de los intereses comerciales, con un objetivo muy directo: investigar los problemas que las grandes empresas tecnológicas podrían no estar dispuestas a enfrentar. En los últimos años, DAIR se ha enfocado continuamente en temas como el origen de los datos, la equidad algorítmica, la diversidad lingüística y la concentración de poder en la industria de la IA.
Y con el desarrollo explosivo de la IA generativa, cada vez más investigadores también han comenzado a prestar atención nuevamente a ese artículo "Sobre los peligros de los loros estocásticos": porque han descubierto que los problemas considerados preocupaciones excesivas en ese artículo se han convertido hoy en una realidad discutida a diario por la industria.
Quizás, ella simplemente vio los problemas antes que los demás
Han pasado seis años, y sobre las controversias entre Timnit Gebru y Google, es posible que el mundo nunca obtenga una respuesta con la que todos estén de acuerdo.
Google cree que fue un evento normal de revisión académica y renuncia; Gebru cree que fue reprimida por insistir en publicar los resultados de su investigación. Pero hay algo que es cada vez más difícil de negar:
Ese artículo que la llevó a abandonar Google no perdió significado con el fin de la controversia.
Por el contrario, los problemas que discute—alucinaciones, prejuicios, contaminación de datos, costos ambientales, colapso del modelo y concentración de poder—se han convertido hoy en temas ineludibles para toda la industria de la IA.
A veces, la historia da su evaluación de una manera inesperada.
En 2020, mucha gente pensó que Timnit Gebru era demasiado pesimista;
En 2026, la gente comienza a darse cuenta de que quizás ella simplemente vio los problemas antes que los demás.
Enlace de referencia: https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from
Este artículo proviene del cuenta oficial de WeChat "CSDN", organizado por: Zheng Liyuan








