Ces jeunes des petites villes qui étiquettent les grands modèles d'IA

marsbitPublié le 2026-04-07Dernière mise à jour le 2026-04-07

Résumé

À Datong, dans la province du Shanxi, des milliers de jeunes étiquettent des données pour nourrir les modèles d'IA. Ces "ouvriers du clic" travaillent dans d'immenses centres, effectuant un travail fastidieux de labellisation d'images (cadrage 2D/3D) pour l'entraînement des intelligences artificielles. Le travail, autrefois bien rémunéré, a vu ses tarifs chuter drastiquement, passant de 0,10 ¥ à 0,03-0,04 ¥ par cadre. La pression est intense : surveillance stricte, cadence élevée et taux d'erreur autorisé très faible (95-99% de précision requis). Certains gagnent à peine 30 ¥ pour une journée de travail. L'industrie s'étend également à l'annotation subjective (RLHF), où des employés, souvent sous-payés, doivent évaluer les réponses de l'IA sur leur "empathie" ou leur "chaleur", quantifiant des émotions humaines complexes. Même les diplômés d'universités prestigieuses (master requis) sont désormais attirés par ce travail, pour finalement se retrouver piégés dans des tâches aliénantes sans réelle progression. Le marché de l'annotation de données est en pleine croissance (prévu à 1171 milliards ¥ d'ici 2030), mais la richesse générée ne profite pas aux travailleurs de base, pris dans une structure en pyramide de sous-traitance qui les prive de la juste valeur de leur travail. Pire encore, l'IA qu'ils ont contribué à construire commence maintenant à les remplacer. Des entreprises comme Li Auto utilisent désormais des modèles capables d'automatiser en quelques heures un trava...

Datong, dans le Shanxi, cette ville autrefois soutenue à moitié par le charbon, a secoué sa poussière de charbon et échangé sa pioche contre une autre plus tranchante, frappant lourdement vers une mine invisible.

Dans les bureaux du centre international Jinmao de Pingcheng, il n'y a plus de puits d'ascenseur, plus de camions de transport de charbon. À la place, des milliers de postes de travail informatique sont étroitement alignés. La base de services de données massives Shanghai Runxun Yunzhong Shenggu occupe plusieurs étages entiers, où des milliers de jeunes employés, portant des écouteurs, fixent l'écran, cliquent, font glisser, sélectionnent.

Selon les données officielles, jusqu'en novembre 2025, la ville de Datong avait mis en service 745 000 serveurs, attiré 69 entreprises d'annotation de données d'appel, créé plus de 30 000 emplois locaux et généré un chiffre d'affaires de 750 millions de yuans. Dans cette mine numérique, 94 % des travailleurs sont de nationalité locale.

Pas seulement Datong. Parmi les premières bases d'annotation de données désignées par l'Administration nationale des données, des comtés de l'ouest et du centre de la Chine comme Yonghe dans le Shanxi, Bijie dans le Guizhou et Mengzi dans le Yunnan figurent en bonne place. Dans la base d'annotation de données du comté de Yonghe, 80 % des employés sont des femmes. La plupart sont des mères rurales ou des jeunes retournés au pays qui ne trouvent pas de travail approprié.

Il y a cent ans, les usines textiles de Manchester, en Angleterre, étaient remplies de paysans sans terre. Aujourd'hui, devant les écrans d'ordinateur de ces comtés reculés, sont assis des jeunes qui ne trouvent pas leur place dans l'économie réelle.

Ils effectuent un travail à la pièce extrêmement futuriste mais aussi extrêmement primitif, produisant la nourriture de données essentielle aux grands modèles d'intelligence artificielle pour les géants de l'IA de Pékin, Shenzhen et Silicon Valley.

Personne ne trouve cela problématique.

Nouvelle chaîne de montage sur le plateau de Loess

L'essence de l'annotation de données est d'apprendre à la machine à reconnaître le monde.

La conduite autonome doit reconnaître les feux de signalisation et les piétons, les grands modèles doivent distinguer un chat d'un chien. La machine elle-même n'a pas de bon sens, les humains doivent d'abord dessiner un cadre sur l'image, lui dire « C'est un piéton », et ce n'est qu'après avoir avalé des dizaines de millions d'images qu'elle pourra apprendre à les reconnaître par elle-même.

Ce travail ne nécessite pas de diplôme élevé, seulement de la patience et un index capable de cliquer sans cesse.

À l'âge d'or de 2017, un simple cadre 2D pouvait rapporter plus de dix centimes, certaines entreprises offrant même jusqu'à cinquante centimes. Les annotateurs rapides, travaillant une dizaine d'heures par jour, pouvaient gagner cinq à six cents yuans. Dans un comté, c'était absolument un travail bien payé et respectable.

Mais avec l'évolution des grands modèles, le côté cruel de cette chaîne de montage commence à apparaître.

En 2023, le prix unitaire de l'annotation d'images simples a chuté à 3-4 centimes, une baisse de plus de 90 %. Même pour les images de nuages de points 3D plus difficiles, ces images constituées de points denses où les bords ne sont visibles qu'après un zoom important, l'annotateur doit tracer dans l'espace tridimensionnel un cadre tridimensionnel contenant la longueur, la largeur, la hauteur et l'angle de déviation, pour envelopper parfaitement le véhicule ou le piéton, et un cadre 3D aussi complexe ne rapporte que cinq centimes.

La conséquence directe de l'effondrement des prix unitaires est l'augmentation drastique de l'intensité du travail. Pour s'accrocher désespérément à un salaire de base de deux à trois mille yuans par mois, les annotateurs doivent constamment, sans cesse, augmenter leur vitesse.

Ce n'est en rien un travail de col blanc facile. Dans de nombreuses bases d'annotation, la gestion est étouffante, il est interdit de répondre au téléphone pendant le travail, les téléphones doivent être rangés dans des casiers. Le système enregistre avec précision la trajectoire de la souris et le temps d'arrêt de chaque employé, si l'arrêt dépasse trois minutes, l'avertissement en arrière-plan arrive comme un coup de fouet.

Ce qui est encore plus frustrant, c'est le taux de tolérance d'erreur. La ligne de passage de l'industrie est généralement supérieure à 95 %, certaines entreprises exigeant même 98 %-99 %. Cela signifie que si vous tracez 100 cadres et que seulement 2 sont erronés, l'image entière sera renvoyée pour correction.

Les images dynamiques sont liées par trames, les véhicules changeant de voie sont masqués, l'annotateur doit les retrouver un par un par déduction ; dans les nuages de points 3D, tout objet dépassant 10 points doit être encadré. Pour un projet de stationnement complexe, une ligne trop longue, une annotation manquante, la qualité trouvera toujours des défauts. Une image renvoyée quatre ou cinq fois pour correction est monnaie courante. Au final, après une heure de travail, on ne gagne que quelques centimes.

Une annotatrice du Hunan a affiché sur les réseaux sociaux son bulletin de paie : après une journée de travail, elle a tracé plus de 700 cadres, à quatre centimes pièce, pour un revenu total de 30,2 yuans.

C'est un tableau extrêmement déchirant.

D'un côté, les magnats de la technologie glamour lors des conférences, parlant de la façon dont l'AGI va libérer l'humanité ; de l'autre, dans les comtés du plateau de Loess et des montagnes du sud-ouest, des jeunes qui fixent l'écran huit à dix heures par jour, traçant mécaniquement des cadres, des milliers, des dizaines de milliers, même en rêvant la nuit, leurs doigts dessinant dans les airs des lignes de voie.

Quelqu'un a dit un jour que l'apparence de l'intelligence artificielle est une voiture de luxe qui passe en trombe, mais si vous ouvrez la portière, vous verrez cent personnes à l'intérieur, pédalant furieusement sur des vélos.

Personne ne trouve cela problématique.

Ouvriers à la pièce apprenant à la machine « comment aimer »

Une fois le goulot d'étranglement de la reconnaissance d'images franchi, les grands modèles ont connu une évolution plus profonde, ils doivent apprendre à penser, parler comme des humains, et même faire preuve d'« empathie ».

Ceci a donné naissance à l'étape la plus cruciale et la plus coûteuse de l'entraînement des grands modèles – le RLHF (Apprentissage par Renforcement à partir de Retours Humains).

En termes simples, il s'agit de faire évaluer par de vraies personnes les réponses générées par l'IA, lui indiquant quelle réponse est meilleure, plus conforme aux valeurs et préférences émotionnelles humaines.

La raison pour laquelle ChatGPT semble « humain » est qu'il y a d'innombrables annotateurs RLHF derrière lui qui lui donnent des cours.

Sur les plateformes de crowdsourcing, ce type de tâche d'annotation est souvent tarifé explicitement : frais unitaires de 3 à 7 yuans. L'annotateur doit attribuer une note émotionnelle extrêmement subjective aux réponses de l'IA, juger si cette réponse est « chaleureuse », si elle « fait preuve d'empathie », si elle « prend en compte les émotions de l'utilisateur ».

Un travailleur de base gagnant deux à trois mille yuans par mois, luttant dans la réalité, n'ayant même pas le temps de s'occuper de ses propres émotions, doit pourtant jouer dans le système le rôle de mentor émotionnel et d'arbitre des valeurs de l'IA.

Ils doivent briser de force des émotions humaines extrêmement complexes et subtiles comme la chaleur, l'empathie, et les quantifier en scores glacés de 1 à 5. Si leur notation ne correspond pas à la réponse standard définie par le système, elle sera jugée comme n'atteignant pas le taux de précision requis, et leur salaire à la pièce déjà maigre sera déduit.

C'est un vidage cognitif. Les émotions, la morale et la compassion complexes et subtiles des humains sont traînées de force dans l'entonnoir de l'algorithme. Dans la quantification froide et les échelles standardisées, elles sont pressées jusqu'à la dernière once de chaleur. Alors que vous vous émerveillez que la bête cybernétique à l'écran ait appris à écrire des poèmes, composer de la musique, s'enquérir de votre santé, et même revêtir une peau sensible et mélancolique ; à l'extérieur de l'écran, ce groupe d'humains autrefois vivants régresse, dans le jugement mécanique jour après jour, en machines à noter sans émotion.

C'est l'aspect le plus caché de toute la chaîne industrielle, qui n'apparaît jamais dans les nouvelles de financement ou les livres blancs techniques.

Personne ne trouve cela problématique.

Master 985 et jeunes des petites villes

Le travail de base de tracé de cadre est en train d'être écrasé par le train de roulement de l'IA, cette chaîne de montage cybernétique commence à s'étendre vers le haut, à dévorer un travail intellectuel de plus haut niveau.

L'appétit des grands modèles a changé. Il n'est plus satisfait de mâcher des connaissances simples, il a besoin de dévorer l'expertise humaine et la logique avancée.

Sur les grandes plateformes de recrutement, un type particulier de travail à temps partiel commence à clignoter fréquemment, comme « Annotation de raisonnement logique pour grands modèles », « Formateur en humanités IA ». Le seuil pour ce travail à temps partiel est extrêmement élevé, exigeant souvent « un master 985/211 ou un diplôme supérieur », dans des domaines spécialisés comme le droit, la médecine, la philosophie, la littérature.

De nombreux étudiants diplômés d'universités prestigieuses sont attirés et affluent vers ces groupes externalisés des grandes entreprises. Mais ils découvrent rapidement que ce n'est en rien une gymnastique intellectuelle facile, mais un supplice mental.

Avant de pouvoir accepter officiellement des commandes, ils doivent lire des fichiers de dimensions de notation et de normes d'évaluation longs de dizaines de pages, effectuer deux à trois tours d'essais. Une fois le standard atteint, lors de l'annotation officielle, si le taux de précision est inférieur à la moyenne, ils perdent leur qualification et sont expulsés du groupe.

Ce qui est le plus étouffant, c'est que ces normes ne sont pas du tout fixes. Face à des questions et réponses similaires, utiliser la même manière de penser pour noter peut donner des résultats totalement opposés. C'est comme faire un examen sans fin et sans réponse standard. Impossible d'améliorer le taux de précision par ses propres efforts ou son apprentissage, on ne peut que tourner en rond, consommer sa force mentale et physique.

C'est la nouvelle exploitation de l'ère des grands modèles – le pliage des classes.

La connaissance, cet escalier d'or autrefois considéré comme brisant les barrières et permettant l'ascension, est désormais réduite à un fourrage numérique plus complexe à mâcher, offert à l'algorithme. Face au pouvoir absolu de l'algorithme et du système, le master 985 de la tour d'ivoire et le jeune de la petite ville du plateau de Loess connaissent la convergence la plus étrange.

Ils tombent ensemble dans cette mine cybernétique sans fond, privés de leur aura, leurs différences nivelées, tous transformés en engrenages bon marché et remplaçables à tout moment sur le tapis roulant.

C'est la même chose à l'étranger. En 2024, Apple a purement et simplement supprimé une équipe de 121 personnes d'annotation vocale IA à San Diego. Ces employés étaient responsables de l'amélioration des capacités de traitement multilingue de Siri, ils pensaient autrefois être à la périphérie des activités principales de la grande entreprise, mais sont soudainement tombés dans l'abîme du chômage.

Aux yeux des géants de la technologie, qu'il s'agisse de la femme traçant des cadres dans un comté ou du formateur en logique diplômé d'une université prestigieuse, ils sont essentiellement des « consommables » remplaçables à tout moment.

Personne ne trouve cela problématique.

La tour de Babel de billions, maçonnée avec la sueur de quelques centimes

Selon les données publiées par l'Académie chinoise des technologies de l'information et des communications, en 2023, le marché chinois de l'annotation de données a atteint 6,08 milliards de yuans, avec une prévision de 20 à 30 milliards de yuans pour 2025. Selon les prévisions, d'ici 2030, le chiffre d'affaires mondial du marché de l'annotation et des services de données s'envolera jusqu'à 117,1 milliards de yuans.

Derrière ces chiffres, se cache la frénésie d'évaluation des géants de la technologie comme OpenAI, Microsoft, ByteDance, atteignant des milliers de milliards, voire des billions de dollars.

Mais cette richesse extravagante ne s'écoule pas vers ceux qui « nourrissent » réellement l'IA.

L'industrie chinoise de l'annotation de données présente une structure typique de sous-traitance en pyramide inversée. Au sommet, se trouvent les géants de la technologie qui détiennent fermement les algorithmes clés ; au deuxième niveau, les grands fournisseurs de services de données ; au troisième niveau, les bases d'annotation de données et les petites et moyennes entreprises de sous-traitance réparties dans tout le pays ; tout en bas, se trouvent les annotateurs à la pièce, les « pieds boueux ».

Chaque niveau de sous-traitance prélève sa part. Lorsque le prix unitaire versé par la grande entreprise est de cinquante centimes, après avoir été prélevé couche après couche, ce qui arrive dans la main de l'annotateur du comté peut être inférieur à cinq centimes.

L'ancien ministre grec des Finances Yanis Varoufakis, dans son livre « Technoféodalisme », avance une opinion extrêmement percutante : les géants de la technologie d'aujourd'hui ne sont plus des capitalistes au sens traditionnel, mais des « seigneurs du cloud » (Cloudalists).

Ils ne possèdent pas des usines et des machines, mais des algorithmes, des plateformes, de la puissance de calcul, ce sont les territoires numériques de l'ère cybernétique. Dans ce nouveau système féodal, les utilisateurs ne sont pas des consommateurs, mais des serfs numériques, chacun de nos likes, commentaires, consultations sur les réseaux sociaux offre gratuitement des données aux seigneurs du cloud.

Et ces annotateurs de données répartis sur les marchés de niche sont les serfs numériques les plus bas dans ce système. Ils doivent non seulement produire des données, mais aussi nettoyer, classer, noter les données brutes massives, les transformant en nourriture de haute qualité digestible par les grands modèles.

C'est un mouvement d'enclosure cognitif caché. Tout comme le mouvement d'enclosure anglais du XIXe siècle a chassé les paysans vers les usines textiles, la vague actuelle de l'IA chasse les jeunes qui ne trouvent pas leur place dans l'économie réelle vers les écrans.

L'IA n'a pas aplanit les fossés entre les classes, mais a plutôt établi un « tapis roulant de données et de sueur » allant des comtés de l'ouest et du centre de la Chine directement au siège des géants de la technologie de Pékin, Shanghai, Guangzhou, Shenzhen. Le récit de la révolution technologique est toujours grandiose et magnifique, mais sa couleur de fond est toujours la consommation à grande échelle d'une main-d'œuvre bon marché.

Personne ne trouve cela problématique.

Un demain sans besoin d'humains

La fin la plus cruelle arrive, de plus en plus vite.

Avec l'amélioration des capacités des grands modèles, ces tâches d'annotation qui nécessitaient autrefois un labeur jour et nuit de la part des humains sont en train d'être reprises par l'IA elle-même.

En avril 2023, Li Xiang, fondateur de Li Auto, a révélé sur un forum des données : par le passé, Li Auto devait faire environ 10 millions d'images d'étalonnage manuel pour la conduite autonome par an, le coût de la sous-traitance approchait les cent millions. Mais lorsqu'ils ont utilisé un grand modèle pour l'annotation automatique, ce qui prenait un an auparavant pouvait être fait essentiellement en 3 heures.

L'efficacité est 1000 fois supérieure à celle de l'homme, et cela remonte déjà à 2023. En mars dernier, Li Auto a également publié un nouveau moteur d'annotation automatique MindVLA-o1.

Dans l'industrie, une autodérision très réaliste circule : « Autant d'intelligence, autant de main-d'œuvre. » Mais maintenant, les investissements des grandes entreprises dans l'externalisation de l'annotation de données ont chuté de 40 % à 50 %.

Ces jeunes des petites villes qui se sont assis devant l'ordinateur d'innombrables jours et nuits, les yeux rougis, ont nourri de leurs propres mains une bête géante. Et maintenant, cette bête se retourne et leur brise leur bol de riz.

À la nuit tombée, les bâtiments de bureaux du district de Pingcheng à Datong sont toujours d'un blanc éclatant. Les jeunes en équipes de relève échangent silencieusement leurs corps fatigués dans l'ascenseur. Dans cet espace plié, rigidement confiné par d'innombrables cadres polygonaux, personne ne se soucie de savoir comment l'architecture Transformer de l'autre côté de l'océan a réalisé une avancée épique, personne ne comprend le rugissement de la puissance de calcul derrière les centaines de milliards de paramètres.

Leur regard est soudé à la barre de progression rouge et verte en arrière-plan qui représente la « ligne de passage », calculant si les chiffres à la pièce de quelques centimes, quelques dizaines de centimes, pourront former une vie décente à la fin du mois.

D'un côté, les sonneries de cloche du NASDAQ et les articles à n'en plus finir des médias technologiques, les géants lèvent leur verre pour célébrer l'avènement de l'AGI ; de l'autre, ces serfs numériques qui ont nourri l'IA bouchée après bouchée de leur chair et de leur sang, ne peuvent que dans un sommeil douloureux, attendre tremblants que la bête qu'ils ont eux-mêmes élevée, un matin apparemment ordinaire, renvoie négligemment leur bol de riz.

Personne ne trouve cela problématique.

Questions liées

QQuel est le rôle principal des jeunes des petites villes mentionnés dans l'article dans le développement de l'IA ?

AIls effectuent un travail de base d'annotation de données, comme dessiner des cadres sur des images ou évaluer des réponses d'IA, pour "nourrir" et entraîner les grands modèles d'intelligence artificielle.

QComment la situation économique et les conditions de travail des annotateurs de données ont-elles évolué entre 2017 et 2023 ?

AEn 2017, le travail était bien rémunéré (jusqu'à 500-600 yuans par jour). En 2023, le prix à la tâche a chuté de plus de 90% (un cadre simple ne vaut que 3-4 fen), forçant les annotateurs à augmenter intensément leur rendement pour un salaire mensuel de base de 2000-3000 yuans, sous une surveillance stricte et des taux d'erreur très faibles.

QQu'est-ce que le RLHF et quel est son paradoxe pour les travailleurs qui le mettent en œuvre ?

ALe RLHF (Apprentissage par Renforcement avec Retour Humain) est un processus où des humains notent les réponses de l'IA pour lui apprendre des valeurs et une empathie humaines. Le paradoxe est que des travailleurs sous-payés, luttant eux-mêmes dans la vie, doivent enseigner la chaleur et l'empathie à l'IA, tout en étant transformés en machines à noter sans émotion.

QQuelle est la structure typique de l'industrie de l'annotation de données en Chine et comment affecte-t-elle la rémunération des travailleurs ?

AC'est une structure pyramidale de sous-traitance : les géants technologiques (sommet) -> grands fournisseurs de services -> bases d'annotation -> annotateurs à la tâche (base). Chaque niveau prélève sa part, si bien qu'un prix de 0,5 yuan venant du géant technologique peut ne laisser que 0,05 yuan ou moins à l'annotateur.

QQuel est le futur prévu pour ces emplois d'annotation de données face aux progrès de l'IA ?

AL'avenir est sombre. Les grands modèles d'IA deviennent capables d'effectuer leur propre annotation, bien plus rapidement et à moindre coût (ex: 1000x plus rapide). Cela entraîne une chute drastique (40-50%) des investissements dans la sous-traitance humaine, menaçant directement les emplois de ces "serfs numériques" qui ont pourtant nourri l'IA.

Lectures associées

Adieu Cook, Bienvenue à Ternus : La Rupture et le Redémarrage de l'Empire de 4 000 Milliards de Dollars d'Apple

Tim Cook a officiellement annoncé sa démission en tant que PDG d'Apple, après quinze années à diriger l'entreprise, durant lesquelles sa valorisation est passée de 350 milliards à près de 4 000 milliards de dollars. Il sera remplacé en septembre par John Ternus, 50 ans, un ingénieur issu de la maison, dont la nomination était anticipée. Ternus, dont la carrière chez Apple a été centrée sur le hardware, incarne un virage stratégique vers le renforcement technique. Cette transition s'accompagne d'une réorganisation interne, avec Johny Srouji, responsable des puces Apple Silicon, promu à la tête du hardware. Le défi immédiat de Ternus sera de combler le retard d'Apple en intelligence artificielle, un point faible hérité de l'ère Cook. Malgré des efforts, notamment le recrutement de John Giannandrea en 2018, les projets AI, comme les améliorations de Siri, ont été retardés et fragmentés, conduisant même à un partenariat stratégique avec Google. Apple se trouve à un point d'inflexion : son modèle éprouvé d'écosystème fermé (hardware + OS) est contesté par l'émergence de l'Intelligence Artificielle Générale (AGI/ASI). Son immense parc d'appareils est un atout de distribution, mais aussi une possible contrainte pour une transformation radicale. La prochaine WWDC sera un test crucial pour Ternus, qui devra présenter une stratégie AI convaincante et concise. La question centrale de son mandat sera de redéfinir la raison d'être d'Apple à l'ère de l'IA : non plus simplement vendre des appareils, mais offrir une intelligence de classe mondiale.

marsbitIl y a 28 mins

Adieu Cook, Bienvenue à Ternus : La Rupture et le Redémarrage de l'Empire de 4 000 Milliards de Dollars d'Apple

marsbitIl y a 28 mins

Trading

Spot
Futures
活动图片