Organisé & Compilé : Deep Tide TechFlow
Invité :Alex Albert, Product Manager de recherche chez Claude
Animateur :Peter Yang
Source du podcast :Peter Yang
Titre original :Inside How Anthropic Is Building the Next Claude | Alex Albert
Date de diffusion :17 mai 2026
Points clés résumés
Alex est Product Manager de recherche chez Anthropic et se concentre actuellement sur le développement de la prochaine génération du modèle Claude. Dans cet entretien, il partage en profondeur les mécanismes de fonctionnement de l'équipe de recherche d'Anthropic, y compris comment intégrer efficacement les retours des utilisateurs dans le processus d'entraînement des modèles, comment prioriser le développement de capacités clés, et comment ajuster et affiner la "personnalité" de Claude pour qu'elle réponde mieux aux besoins des utilisateurs. Enfin, Alex répond également aux recherches internes d'Anthropic sur la conscience, la personnalité et la fiabilité de Claude, soulignant que lorsqu'un modèle commence à exécuter des tâches de manière autonome sur de longues périodes, ce qu'il "soucie" devient aussi important que ses capacités elles-mêmes.
Points de vue marquants
Construire le modèle comme un produit
- "Dans une certaine mesure, nous traitons le modèle comme un produit. Pour chaque nouveau modèle, nous définissons clairement ses exigences, ce que nous voulons qu'il maîtrise, et ce que nous anticipons qu'il maîtrisera."
- "Une différence intéressante entre le développement de modèles et le développement produit traditionnel est que nous ressemblons davantage à quelqu'un qui élève un modèle. Les paramètres d'entraînement, les itinéraires techniques et les décisions d'architecture nous donnent une certaine intuition, mais ce n'est qu'une fois l'entraînement commencé que vous découvrez vraiment ce qu'il va devenir."
- "Le Product Manager de recherche doit réfléchir à la manière dont le modèle se présentera sur toutes les interfaces produits, qu'il s'agisse de l'API, de Claude Code ou de Claude Cowork. Le produit et le modèle se mélangent d'une certaine manière pour affecter l'expérience utilisateur finale."
- "Lorsqu'une grande quantité de retours afflue par certains canaux, nous pouvons utiliser Claude pour les regrouper, les catégoriser, identifier les thèmes principaux, puis créer des versions synthétiques de ces problèmes. Cela nous permet de juger s'il peut devenir un fichier d'exigences (Eval), ou un moyen de diagnostiquer concrètement le problème."
Sur la pensée adaptative, la mémoire et les "rêves"
- "La pensée adaptative permet au modèle de choisir lui-même quand il a besoin de réfléchir. Certains problèmes sont complexes, difficiles et nécessitent plus de planification préalable, il choisira alors de réfléchir. Pour d'autres problèmes, il pourrait ne pas choisir de réfléchir."
- "Décider si un problème mérite une réflexion approfondie repose en fait sur un contexte très important."
- "Si le modèle n'a pas accumulé suffisamment de contexte, s'il n'a pas vraiment construit un modèle mental de qui est l'utilisateur, alors son jugement sur la nécessité de réfléchir en profondeur peut être erroné. Parce qu'en réalité, il ne sait pas."
- "Dans Claude.ai, il écrit dans un fichier de mémoire, puis certains processus nocturnes revisitent ces souvenirs, les élaguent et les organisent. Nous venons d'implémenter quelque chose de similaire dans l'agent hébergé."
- "C'est le concept du "rêve". La raison pour laquelle les humains rêvent n'est pas totalement élucidée, mais certains pensent que le rêve pourrait être un processus de reconstitution de la mémoire. Nous nous demandons : pouvons-nous apporter quelque chose de similaire dans la mémoire de Claude ?"
- "Ainsi, lorsque l'agent ne vous exécute pas de tâche, ou qu'il est en arrière-plan, il passe en revue ses propres souvenirs, identifie les possibles contradictions, procède à l'élagage, au nettoyage, fait une deuxième passe."
Goulots d'étranglement du développement produit et décisions "irréversibles"
- "Nous sommes soudainement entrés dans un nouveau paradigme : le coût et le temps nécessaires pour produire quelque chose sont très bas. Vous pouvez créer un prototype rapidement, et même aujourd'hui, créer un MVP initial susceptible d'être mis en production en une journée, plutôt qu'en deux, trois ou quatre semaines."
- "Si quelque chose n'est pas une one-way door, c'est-à-dire que nous pouvons revenir en arrière après l'avoir fait, alors son coût est maintenant très bas, voire négligeable."
- "Ce qui demande vraiment le plus de temps, ce sont les décisions irréversibles : celles qui affectent l'expérience utilisateur finale, affectent les décisions futures, ou impliquent l'achat et l'investissement de ressources réelles."
- "Lorsque la vitesse de construction s'accélère, le goulot d'étranglement se déplace de plus en plus vers les problèmes de coordination : rassembler les bonnes personnes, déterminer si la stratégie est correcte, décider comment communiquer avec les utilisateurs, et gérer les aspects flous mais importants d'un lancement."
Méthodes de travail du Product Manager natif IA
- "Claude est pour moi le meilleur partenaire de brainstorming au monde. Je peux à tout moment lui demander des retours, des critiques sur une idée."
- "Beaucoup de réflexion ne peut pas être complètement externalisée, car écrire est en soi une forme de pensée. Vous devez extraire vos idées par l'écriture, les retourner dans votre esprit. Mais Claude peut vous aider à sortir d'une impasse, à aborder le problème sous un angle auquel vous n'auriez peut-être pas pensé."
- "Pour les personnes qui veulent apprendre à faire du produit, devenir Product Manager natif IA, le conseil le plus simple que je puisse donner est : essayez."
- "Lorsque vous êtes sur le point de poser une question difficile à quelqu'un, vous pouvez parallèlement poser la même question à Claude, puis comparer les résultats. Faites cela plusieurs fois, et vous construirez votre propre carte : quoi déléguer à Claude, et où il n'est pas encore fiable."
- "L'IA permet à chacun de s'élever vers un niveau d'abstraction plus élevé. Les scientifiques des données ne devraient plus être piégés dans la recherche manuelle de chiffres et le SQL basique, mais plutôt réfléchir à des problèmes plus difficiles, plus stratégiques."
eval, personnalité du modèle et fiabilité
- "Tester quelques dizaines d'échantillons suffit souvent à prouver qu'un modèle a un problème nécessitant une correction. Il n'est pas nécessaire que ce soit très exhaustif pour prouver un problème et former un objectif d'optimisation continue."
- "Plus le test ressemble à la forme réelle d'une tâche utilisateur, mieux c'est. Nous devons aussi nous demander : quelle valeur cela a-t-il pour nos clients et leurs cas d'utilisation ? Parce que la capacité de Claude à voir quelque chose dans une image, comment affecte-t-elle finalement ce que l'utilisateur veut faire avec Claude en aval ?"
- "La personnalité de Claude est quelque chose que nous prenons très au sérieux. Alors que les modèles deviennent des agents exécutant des tâches sur de longues périodes et prenant constamment des décisions, sa personnalité, ce à quoi il tient, deviendra très important."
- "Évaluer la personnalité d'un modèle combine des indicateurs quantifiables et la lecture intensive par les chercheurs des dialogues du modèle, pour identifier les changements subtils dans les sorties. En lisant beaucoup, vous développez une intuition plus aiguë."
Questions de conscience et agent à long terme
- "Nous avons effectivement des personnes dont le travail est de réfléchir spécifiquement à cela, c'est-à-dire à ce que signifie Claude en tant qu'acteur conscient, agent conscient. Actuellement, nous n'avons pas de position officielle sur le fait que Claude ait ou non une conscience."
- "Même sans juger si Claude a une conscience, nous pouvons en apprendre beaucoup, par exemple sur la manière dont il interagit, dont il se comporte."
- "Le modèle prendra un grand nombre de décisions que vous ne superviserez peut-être pas du tout pendant le processus. Ce qu'il fera est donc très important."
Comment Anthropic traite chaque nouveau modèle comme un produit
L'animateur Peter Yang : Alex, ravi de te rencontrer aujourd'hui à la Claude Code Conference. Tu étais auparavant responsable du DevRel chez Anthropic, et tu es récemment devenu Product Manager dans l'équipe de recherche, c'est ça ? Je suis moi-même PM depuis plus de dix ans. Le travail traditionnel du PM consiste généralement à comprendre les problèmes des utilisateurs, identifier des solutions, faire avancer le produit. Mais je ne sais absolument pas comment fonctionne un PM dans une équipe de recherche, on peut commencer par en parler.
Alex Albert :
Au fond, c'est assez similaire. J'ai toujours voulu parler aux clients, me rapprocher le plus possible de nos utilisateurs. Dans une certaine mesure, nous traitons le modèle comme un produit. Donc pour chaque nouveau modèle, nous définissons clairement ses exigences, ce que nous voulons que ce modèle maîtrise, ce que nous pensons qu'il pourrait maîtriser.
C'est aussi un aspect intéressant de la différence entre le développement de modèles et le développement produit : souvent, nous ressemblons davantage à quelqu'un qui "élève" un modèle. Sur la base des paramètres d'entraînement, des itinéraires techniques, des choix d'architecture et des diverses décisions que nous prenons pour ce modèle spécifique, nous avons une certaine intuition sur ce qu'il maîtrisera à l'avenir. Mais ce qu'il deviendra vraiment, nous ne le savons pas complètement avant qu'il n'entre réellement dans le processus d'entraînement.
L'animateur Peter Yang : Donc l'équipe des PM de recherche s'implique dès la phase de conception du modèle, et suit jusqu'à l'entraînement et le lancement ? Peux-tu donner quelques exemples ? Par exemple, le prochain modèle doit être bon en codage, ou doit être bon en travail de connaissances, ou l'objectif est-il plus large ?
Alex Albert :
C'est à peu près cela, nous accordons une grande importance aux capacités multiples. Le codage a bien sûr toujours été une catégorie importante. Récemment, le travail de connaissances est également devenu important, donc dans nos dernières générations de modèles, nous essayons de rendre le modèle plus apte à utiliser nos produits, par exemple travailler dans Excel, créer des tableaux, etc. C'est une direction de capacité relativement nouvelle.
D'un autre côté, chaque nouvelle génération de modèle doit corriger et améliorer les points où la génération précédente n'était pas assez performante. Nous allons voir les clients, comprenons comment ils utilisent le modèle : où performe-t-il bien ? Où échoue-t-il ? Quelles corrections pouvons-nous faire ? Si nous observons des comportements intéressants, pouvons-nous lors du prochain entraînement faire certains ajustements ou interventions.
L'animateur Peter Yang : Quand tu dis clients, cela inclut l'équipe Claude Code, les équipes internes, et aussi les utilisateurs ordinaires ?
Alex Albert :
Tout le monde compte, c'est aussi ce qui est cool avec un modèle : il touche énormément de domaines différents. En tant que PM de recherche, vous devez réfléchir à la manière dont le modèle sera exposé à travers toutes nos interfaces produits, que ce soit l'API, Claude Code ou Claude Cowork.
Le produit et le modèle se mélangent d'une certaine manière, cela affecte l'expérience réelle de l'utilisateur final, donc vous devez réfléchir à l'ensemble du flux, comment l'utilisateur utilise le modèle dans un produit, tout cela a un impact.
L'animateur Peter Yang : Cela semble vraiment difficile. Par exemple Claude Code, on peut dire qu'il sert à coder, mais certaines personnes comme moi l'utilisent pour le travail de connaissances, voire comme thérapeute. Comment savez-vous ces choses ?
Alex Albert :
Cet espace est en effet très large. Heureusement, nous avons un grand nombre de chercheurs excellents, qui couvrent toute l'étendue des capacités et se concentrent chacun sur des problèmes différents.
L'animateur Peter Yang : Et beaucoup de gens utilisent Claude, vous devez avoir une sorte d'entrée pour les retours ? Sinon, les retours arriveraient comme un tuyau d'incendie, comment gérez-vous cela ?
Alex Albert :
Nous faisons beaucoup de choses. Et un changement intéressant que j'observe dans ce rôle, c'est que nous utilisons de plus en plus Claude pour aider le PM à faire son travail de PM. Rien que pour la collecte de retours, Claude m'est d'une grande aide pour extraire des insights de grandes quantités de données. Lorsqu'une grande quantité de retours afflue par certains canaux, nous pouvons utiliser Claude pour les regrouper, les catégoriser, trouver les thèmes principaux, puis créer des versions synthétiques de ces problèmes. Cela nous permet de juger si cela peut devenir un fichier d'exigences (Eval), ou un moyen de diagnostiquer concrètement le problème.
Ajouter une pensée adaptative à Claude
L'animateur Peter Yang : Donc, vous utilisez Claude pour aider à identifier les problèmes de Claude lui-même. Y a-t-il un exemple concret ?
Alex Albert :
Un exemple très pertinent actuellement est la manière dont nous traitons les retours sur les nouvelles fonctionnalités. Dans les derniers modèles, une de nos fonctionnalités relativement nouvelles est la pensée adaptative. Auparavant, nous avions la pensée étendue, que vous activiez et le modèle réfléchissait. La pensée adaptative permet au modèle de choisir lui-même quand il a besoin de réfléchir.
Certains problèmes sont complexes, difficiles, nécessitent plus de planification préalable, il choisira alors de réfléchir. Pour d'autres problèmes, il pourrait ne pas choisir de réfléchir. Cette fonctionnalité, nous l'ajustons continuellement d'une génération de modèle à l'autre, donc nous écoutons très attentivement les retours des utilisateurs : réfléchit-il correctement dans les bonnes situations ? Les problèmes pour lesquels vous espérez qu'il dépense beaucoup de tokens en raisonnement déclenchent-ils réellement la réflexion de Claude ?
L'animateur Peter Yang : Parfois, je pose des questions sur la vie, s'il répond trop vite, je suis un peu déçu, car j'aimerais qu'il réfléchisse plus en profondeur.
Alex Albert :
Je pense que la question de "réfléchir ou non" a une difficulté : décider si un problème mérite une réflexion approfondie repose sur un contexte très important.
Par exemple, si un parfait inconnu me demande : "Que devrais-je faire maintenant ?" Je pourrais donner une réponse impulsive rapidement, car je ne le connais pas, je ne peux donner qu'un conseil assez générique. Mais si je te connais vraiment, sais ce qui t'importe, tes centres d'intérêt, ce que tu as fait dans le passé, je passerais plus de temps à réfléchir : Attends, quelle est la meilleure réponse pour toi exactement ?
Le modèle est similaire. S'il n'a pas accumulé suffisamment de contexte, s'il n'a pas vraiment construit un modèle mental de qui est l'utilisateur, alors son jugement sur la nécessité de réfléchir en profondeur peut être erroné. Car en réalité, il ne sait pas.
Pourquoi Claude se met à "rêver"
L'animateur Peter Yang : J'ai un Google Doc qui résume ma situation de vie, comme ma famille, mes enfants, ce qui me donne de l'énergie, ce qui m'en coûte. Ensuite, je le joins à un projet Claude, et il me donne beaucoup de réponses.
Comment fonctionne la mémoire par défaut ? J'imagine qu'il réorganise tout chaque nuit ?
Alex Albert :
Cela dépend du produit spécifique, la mise en œuvre de la mémoire diffère selon les produits. Par exemple, dans Claude.ai, il écrit dans un fichier de mémoire, puis certains processus nocturnes revisitent ces souvenirs, les élaguent et les organisent. Nous venons d'implémenter quelque chose de similaire dans l'agent hébergé.
C'est le concept du "rêve". La raison pour laquelle les humains rêvent n'est pas totalement élucidée, mais certains pensent que le rêve pourrait être un processus de reconstitution de la mémoire. Nous nous demandons : pouvons-nous apporter quelque chose de similaire dans la mémoire de Claude ?
Ainsi, lorsque l'agent ne vous exécute pas de tâche, ou qu'il est en arrière-plan, il passe en revue ses propres souvenirs, identifie les possibles contradictions, procède à l'élagage, au nettoyage, fait une deuxième passe. Je trouve cela intéressant.
L'animateur Peter Yang : En simplifiant, il y a une sorte de prompt qui lui fait revoir toutes les conversations avec l'utilisateur, identifier les thèmes et résumer.
Revenons à la gestion de produit. Avant de commencer, tu disais que tu cherchais toujours les derniers goulots d'étranglement. Dans l'ensemble du processus de développement produit, quelles parties sont devenues très fluides, et quelles parties restent des goulots d'étranglement ?
Alex Albert :
Je pense que depuis environ 20 ans, le processus pour lancer quelque chose était assez lourd. Nous avons eu des améliorations incrémentielles, et effectivement rendu certaines choses plus efficaces ; de nouvelles structures organisationnelles sont apparues et ont disparu, comme les sprints, la planification, etc., nous avons essayé beaucoup de méthodes pour accélérer les choses.
Mais fondamentalement, jusqu'aux deux dernières années, peu de choses ont vraiment comprimé la fenêtre de temps principale du développement produit. Nous sommes soudainement entrés dans un nouveau paradigme : le coût et le temps nécessaires pour produire quelque chose sont très bas. Vous pouvez créer un prototype rapidement, et même aujourd'hui, créer un MVP initial susceptible d'être mis en production en une journée, plutôt qu'en deux, trois ou quatre semaines.
Ce qui est intéressant, c'est que Claude lui-même est parfois encore dans l'ancien monde d'environ 2021. Il dira que cela pourrait prendre une semaine. Cela apporte un changement très intéressant au cycle de vie du développement produit. En tant que PM, comment dois-je réfléchir à la planification ? Si j'écris un PRD, définis des exigences, essaie d'estimer le temps, à quoi cela devrait-il ressembler maintenant ?
Si ce n'est pas une one-way door (décision irréversible), alors cela n'a pratiquement pas de coût
L'animateur Peter Yang : Faites-vous encore des estimations de délais, ce genre de choses ?
Alex Albert :
Cela dépend du projet. Certains projets ont effectivement plus de facteurs à considérer, cela dépend de la portée et de la complexité. Ce que nous essayons généralement de comprendre, c'est : quelles sont les one-way door (décisions unidirectionnelles, c'est-à-dire des décisions difficiles à annuler une fois prises, coûteuses, dont l'impact persistera à long terme) ? Quelles sont les décisions réversibles ? Car c'est là que vous devriez investir le plus de temps. Si quelque chose n'est pas une one-way door, c'est-à-dire que nous pouvons revenir en arrière après l'avoir fait, alors son coût est maintenant très bas, voire négligeable.
Mais si quelque chose affecte l'expérience utilisateur finale, affecte les décisions que nous devrons prendre par la suite, ou s'il s'agit d'une action dans le monde physique qui doit être réellement achetée, investie, exécutée, alors c'est plus difficile à inverser, ce type de choses nécessite plus de temps et de réflexion.
L'animateur Peter Yang : Peux-tu donner un exemple côté recherche ?
Alex Albert :
Par exemple, lorsque nous réfléchissons à un nouveau modèle, choisir l'architecture du modèle avant le pré-entraînement est une décision très importante. Dans certains cas, l'entraînement du modèle peut durer un mois, donc nous devons investir beaucoup de temps pour réfléchir à quel est le choix optimal.
Les modèles ont dans une certaine mesure plus de one-way door, car ils nécessitent beaucoup de temps, d'intensité, de puissance de calcul et divers investissements pour réellement entrer en production. En comparaison, créer une nouvelle fonctionnalité dans Claude Code est beaucoup plus rapide. Cela ressemble plus à itérer sur le code, le mettre entre les mains des utilisateurs, obtenir des retours rapidement, et continuer le cycle.
Le processus dépend donc toujours de ce que vous lancez exactement, mais il devient de plus en plus évident que le goulot d'étranglement se déplace vers les problèmes de coordination. Si nous construisons les choses très rapidement, il reste un problème : nous devons rassembler les bonnes personnes dans la salle, déterminer si c'est la bonne stratégie ; nous devons comprendre comment communiquer avec les utilisateurs ; et gérer les problèmes flous qui accompagnent tout lancement. Nous aimerions que Claude nous aide aussi dans ces domaines, mais il n'a pas encore apporté une accélération de 10x, 100x comme dans le codage.
L'animateur Peter Yang : Donc lorsque vous lancez des choses comme Opus 4.7, vous avez encore besoin d'écrire un document avec un plan.
Alex Albert :
Il faut encore un plan, vous devez encore réfléchir à comment communiquer cela, et le modèle peut être incroyable sur certaines tâches difficiles, mais échouer soudainement sur d'autres tâches apparemment simples, donc nous utilisons Claude autant que possible. L'impact le plus important reste encore le codage, d'autres domaines nécessitent toujours la pensée stratégique humaine.
L'animateur Peter Yang : Lors des réunions de revue avec le marketing ou les collègues, ouvres-tu Claude ?
Alex Albert :
Bien sûr. Pour moi, une énorme accélération est que je ne suis plus autant bloqué par le fait de "ne pas obtenir de réponse et de données". Auparavant, si j'avais une question, par exemple sur les performances d'une fonctionnalité en environnement de production, combien d'utilisateurs l'utilisent par jour, quels sont les retours, je devais peut-être demander à l'équipe de science des données de lancer une enquête complète, puis obtenir les résultats quelques jours plus tard.
Maintenant, je peux le faire en 10 minutes. J'ouvre une session Claude Code, il peut accéder à notre base de données produits, consulter les journaux, examiner les problèmes, parcourir Slack, c'est une énorme accélération pour ma réflexion stratégique, car je ne suis pas bloqué avant de prendre la prochaine décision.
L'animateur Peter Yang : En matière de réflexion stratégique, construis-tu une sorte de skill, faisant que Claude te pose une série de questions pour t'aider à clarifier les choses ?
Alex Albert :
Bien sûr, Claude est pour moi le meilleur partenaire de brainstorming au monde, je peux à tout moment obtenir des retours sur une idée. Je trouve cela très puissant, surtout lorsque vous voulez avancer rapidement. Tout le monde chez Anthropic est occupé, donc pouvoir obtenir immédiatement des retours et des critiques sur un document que j'écris, une idée ou quoi que ce soit, est vraiment très utile.
Comment Alex utilise Claude Cowork pour stress-tester des documents
L'animateur Peter Yang : C'est probablement la boucle de travail la plus courante pour un Product Manager : tu as un document, puis tu veux des retours. Utilises-tu Claude Code pour cela, ou directement Claude.ai ?
Alex Albert :
J'ai beaucoup utilisé Claude Cowork récemment, j'aime beaucoup la forme de Cowork, c'est une interface d'interaction très agréable. L'équipe a fait un excellent travail ces derniers mois, depuis son lancement il y a quelques mois, jusqu'à maintenant, c'est devenu une expérience que je trouve de haute qualité. Cowork est un outil génial, l'un de mes préférés.
L'animateur Peter Yang : Donc tu as un brouillon de document, et un tas de matériel de référence. As-tu une sorte de skill qui lui fait parcourir l'ensemble du processus décisionnel ?
Alex Albert :
Oui. Par exemple, je dirai : réfléchis à cela du point de vue de X, Y, Z. Quelles questions me poserais-tu ? Ou remets en question mes hypothèses, montre où mon argumentation est faible. Beaucoup de réflexion ne peut pas être complètement externalisée, car écrire est en soi une forme de pensée. Vous devez extraire vos idées par l'écriture, les retourner dans votre esprit. Mais Claude peut vous aider à sortir d'une impasse, à aborder le problème sous un angle auquel vous n'auriez peut-être pas pensé.
L'animateur Peter Yang : Dans l'équipe de recherche, livrez-vous également vous-même du code ?
Alex Albert :
Cela dépend du problème spécifique. Une grande partie de ce que je livre concerne en fait l'évaluation. Je veux m'assurer de pouvoir mesurer le modèle sur les dimensions qui m'intéressent, et rapporter les découvertes sur où le modèle est bon, où il échoue, à l'équipe de recherche. Ensuite, nous élaborons ensemble une stratégie, décidons comment résoudre ce problème, quelle intervention de recherche mener, quelle manière est la plus efficace pour progresser continuellement sur cette évaluation et ainsi réellement améliorer le problème.
Processus d'évaluation des nouveaux modèles
L'animateur Peter Yang : L'évaluation dont tu parles n'est probablement pas du test terminal, ce genre de chose ? Vos évaluations sont-elles plus réalistes ? Comment évaluez-vous exactement un modèle ? Par catégories comme la personnalité, etc. ?
Alex Albert :
Par exemple, nous voulons tester les capacités visuelles de Claude : peut-il compter le nombre d'éléments dans une image. Supposons que j'aie trouvé une image où Claude semble incapable de compter plus de 10 éléments. Il peut peut-être le faire maintenant, mais prenons cela comme exemple. Je prendrai ce problème pour réfléchir : comment puis-je obtenir plus de cas de test du même type pour vérifier mon hypothèse ?
Peut-être que je demanderai à Claude de générer des données synthétiques pour moi, peut-être lui faire rendre des images, puis les transmettre à Claude en entrée visuelle pour voir s'il peut les reconnaître. Peut-être que je chercherai des exemples sur Internet, ou utiliserai tout autre mécanisme de source pour générer ces cas de test.
L'animateur Peter Yang : Parlons-nous de milliers de cas de test ?
Alex Albert :
Peut-être, mais parfois quelques dizaines d'échantillons suffisent à prouver qu'un modèle a un problème nécessitant une correction. Il n'est pas nécessaire que ce soit très exhaustif pour prouver un problème et former un objectif d'optimisation continue.
L'animateur Peter Yang : Supposons que tu lui donnes 10 images, il n'arrive pas à reconnaître de très petits chiffres. Que se passe-t-il ensuite ? Tu vas voir l'équipe de recherche et dis : "C'est un problème, pouvez-vous le corriger ?"
Alex Albert :
Nous réfléchissons sous plusieurs angles. Premièrement, il ne s'agit pas seulement de montrer que le modèle a un problème, mais aussi de réfléchir : quelle valeur cela a-t-il pour nos clients et leurs cas d'utilisation ? Parce que la capacité ou non de Claude à voir quelque chose dans une image, comment affecte-t-elle finalement ce que l'utilisateur veut faire avec Claude en aval ?
Donc, plus l'évaluation est réaliste, plus elle se rapproche de la forme réelle des tâches que vivent les utilisateurs finaux, mieux c'est, nous nous efforçons d'obtenir ce type de données, en nous assurant qu'elles ont cette saveur.
Ensuite, il y a une série d'interventions possibles. Peut-être devons-nous revenir à certaines choses au stade du pré-entraînement, peut-être pouvons-nous résoudre cela au stade de l'apprentissage par renforcement. C'est là que nous faisons un brainstorming stratégique avec l'équipe de recherche : quelle est la meilleure approche ici ?
L'animateur Peter Yang : Quelle est la vitesse de rotation pour réessayer ?
Alex Albert :
Cela dépend de l'endroit où nous pensons que se trouve le problème. S'il s'agit de quelque chose de relativement tardif, qui peut être résolu avec un nouvel environnement d'apprentissage par renforcement, il peut être mis en place très rapidement.
L'animateur Peter Yang : Lorsque tu le reliez à des cas d'utilisation clients réels, des millions de personnes parlent à Claude chaque jour, certaines l'utilisent peut-être pour déclarer leurs impôts, ou faire beaucoup d'autres choses. Comment choisissez-vous les cas d'utilisation que vous souhaitez le plus améliorer ? Comment convaincs-tu l'équipe : "C'est cela que nous devrions optimiser" ?
Alex Albert :
C'est là qu'"interviennent les données". L'essentiel est : quel pourcentage d'utilisateurs essaie de faire cela, nous nous y intéressons beaucoup ; ou nous avons des clients qui utilisent massivement Claude, et ils souhaitent que cette capacité s'améliore.
De plus, beaucoup de nos processus sont également largement pilotés par l'utilisation interne : qu'est-ce qui nous importe lorsque nous utilisons nous-mêmes le modèle ? Je rencontre cet obstacle en utilisant le modèle quotidiennement, alors nous devrions le corriger. C'est aussi très convaincant.
Comment Anthropic entraîne la personnalité de Claude
L'animateur Peter Yang : Ce que je préfère chez Claude, c'est sa personnalité, et je pense qu'elle s'améliore constamment. Il opposera une objection au bon endroit, tandis que certains autres modèles diront simplement : "Que puis-je faire d'autre pour vous ?" La personnalité du modèle n'est pas seulement une enveloppe, n'est-ce pas ? Il y a un entraînement derrière cela.
Alex Albert :
Oui, il y a un entraînement important. C'est une direction que nous prenons très au sérieux. Nous l'appelons la personnalité de Claude. Je pense que c'est très, très important.
Nous avons beaucoup de personnes qui consacrent beaucoup de temps à étudier : Comment Claude devrait-il se présenter ? Quelles sont ses convictions ? Ses valeurs ? Comment agit-il ? Ces questions sont très floues. Au début, certaines personnes pourraient les ignorer, pensant que le modèle est juste une chose à laquelle je dis quoi faire et il le fait, pourquoi se soucier de comment il sonne, de ce qu'il pense ?
Mais à mesure que nous avançons vers un monde où les agents exécutent des tâches sur de longues périodes et doivent prendre de nombreuses décisions de jugement, la question de sa personnalité, de ce qui lui importe, deviendra très importante.
L'animateur Peter Yang : Ce n'est pas comme le code, où on peut seulement juger s'il s'exécute. Comment évaluez-vous la personnalité ? Trouvez-vous une personne meilleure chez Anthropic, puis comparez le modèle avec elle ?
Alex Albert :
C'est ici une combinaison de méthodes. Nous examinons certains indicateurs quantifiables, et nous pouvons aussi demander à Claude d'examiner la sortie de Claude, pour juger comment cela sonne. Pour tout chercheur, une compétence très importante est de lire les transcriptions de dialogue, puis de juger : je le vois faire cela maintenant, ou il est devenu comme cela maintenant. Vous devez pouvoir identifier ces différences subtiles.
Avec le temps, lorsque vous avez lu des centaines, des milliers de transcriptions de dialogues de modèles, vous développez progressivement une intuition plus aiguë, tout comme lorsque vous utilisez intensivement ce modèle dans Claude.ai, vous sentez comment il est.
L'animateur Peter Yang : Donc ce n'est pas dire que ce modèle a un score de 7 sur une certaine dimension, c'est plus une sensation ?
Alex Albert :
Les deux. La personnalité est peut-être plus difficile à quantifier que les performances en programmation, mais ce n'est pas impossible, il existe des moyens.
L'animateur Peter Yang : Pour les personnes qui veulent apprendre à faire du produit, devenir Product Manager natif IA, quel conseil leur donnerais-tu ?
Alex Albert :
Le conseil le plus simple que je puisse donner est : Essayez. Cela semble simple, mais chaque fois que vous allez faire quelque chose, affronter un problème difficile, être sur le point de poser une question à quelqu'un, vous pouvez parallèlement poser la même question à Claude, puis comparer les résultats.
Par exemple, vous voulez analyser les utilisateurs, extraire les thèmes qui les préoccupent le plus concernant une fonctionnalité récemment lancée. Vous pouvez bien sûr aller demander à l'équipe de science des données, ou à un chercheur en expérience utilisateur, cela a toujours de la valeur. Mais en même temps, posez aussi cette question à Claude, donnez-lui accès à quelques outils, laissez-le explorer lui-même, donnez-lui le temps de vraiment approfondir cette question, puis comparez les résultats.
À travers de nombreux prompts et questions, vous construirez progressivement votre propre carte : quelles choses devraient être confiées à Claude, où c'est fiable, où ce n'est pas encore fiable.
L'animateur Peter Yang : Lorsque je prends des décisions, je lui demande souvent de faire des recherches approfondies, car une recherche ordinaire ne me suffit pas, j'ai besoin qu'il étudie en profondeur. Scanner 1000 pages web, c'est surhumain. En interne chez Anthropic, si vous allez voir un scientifique des données et dites "pouvez-vous faire cela pour moi", ils vous demanderont probablement : "As-tu d'abord demandé à Claude ?"
Alex Albert :
Il y a effectivement cet aspect, on s'attend à ce que tu demandes d'abord à Claude. Je pense que nous nous dirigeons vers un niveau d'abstraction plus élevé. Pour l'équipe de science des données, leur temps est maintenant mieux utilisé pour des problèmes de plus haut niveau, plutôt que pour la récupération manuelle de données.
Personne ne veut faire ces choses. Tout le monde veut réfléchir à des problèmes plus difficiles, plus stratégiques : comment mesurons-nous cela de manière totalement nouvelle ? Quelles autres choses nouvelles pouvons-nous faire ? Plutôt que d'aller simplement chercher les derniers DAU d'un produit.
J'ai travaillé avec beaucoup de scientifiques des données, ils étaient souvent coincés dans des tâches SQL basiques. Mais ils voulaient tous faire des choses plus stratégiques, maintenant l'IA peut enfin les en libérer, nous habilitons en fait tous ceux qui les entourent, c'est la même chose pour tous les rôles.
Par exemple, définir une nouvelle fonctionnalité. Auparavant, que vous soyez Product Manager, technique ou non, vous n'aviez généralement pas assez de temps pour plonger dans le codebase, comprendre exactement comment cette nouvelle fonctionnalité devrait être implémentée, combien d'efforts cela nécessiterait, s'il faut refondre un système, où se trouve la véritable limite. À l'époque, il était préférable de le comprendre avec un partenaire ingénieur.
Maintenant, je peux envoyer Claude faire cette investigation pour moi. Il pourrait revenir me dire : en fait, cette fonctionnalité nécessite seulement de modifier 10 lignes de code ici, puis d'activer un indicateur dans un interrupteur. Cela changerait complètement mon jugement sur la priorité de cette décision. Maintenant, lorsque j'écris un document de spécifications, je peux atteindre ce type de jugement de priorité plus rapidement.
L'animateur Peter Yang : Beaucoup d'entreprises traditionnelles passent beaucoup de temps à faire de la planification annuelle, trimestrielle et des roadmaps. L'équipe de recherche est probablement plus comme cela, car vous devez considérer des problèmes plus longs que de publier quelque chose chaque jour. Faites-vous ces choses ?
Alex Albert :
Oui. C'est un peu comme la célèbre citation : La planification est indispensable, mais le plan lui-même est inutile. L'acte de planifier est important, mais vous devez reconnaître que le plan peut être complètement renversé.
L'animateur Peter Yang : L'un des défis les plus difficiles pour un Product Manager est de décider combien de temps consacrer à la planification, car il y a toujours un équilibre entre la planification et la publication réelle. Existe-t-il des meilleures pratiques internes chez Anthropic ? Tu pourrais complètement utiliser Claude pour écrire un document de 10 pages.
Alex Albert :
Il est difficile de donner une réponse unique applicable à toutes les équipes, je pense que cela dépend du produit. Nous ne dirons certainement pas que vous devez produire un document d'une certaine longueur, d'un certain nombre de pages. Ce qui est plus important : Avez-vous suffisamment réfléchi pour considérer l'impact de toutes les décisions irréversibles possibles ?
Si c'est le cas, alors le format du document, le nombre de pages, n'ont pas d'importance. L'essentiel est que nous soyons suffisamment à l'aise, sachant que rien d'important n'a été omis, pour pouvoir avancer, et traiter les problèmes en cours de route. Tant qu'il n'y a pas de goulot d'étranglement le plus long qui nous bloquerait, pas de décision irréversible aux conséquences très graves, nous pouvons continuer.
L'animateur Peter Yang : À la maison, lorsque j'utilise Claude, je lance en parallèle beaucoup de projets différents, puis je bascule le contexte entre différents projets, en attendant qu'ils construisent des choses. Le travail de Product Manager est-il aussi comme cela ? As-tu aussi beaucoup de projets différents ?
Alex Albert :
Oui, car il y a beaucoup de projets différents, et vous devez effectivement attendre que l'agent travaille, je pense qu'il y a ici une énorme opportunité. À mesure que nous gérons de plus en plus d'agents, qu'ils accomplissent pour vous des blocs de travail de plus en plus grands, vous pouvez lancer plus de projets en parallèle. Comment devons-nous réfléchir à notre propre problème de gestion du contexte ? Quelle interface d'interaction est la meilleure pour exposer ces choses ? Comment suivre ce qui est vraiment important, où mon agent est bloqué, où a-t-il besoin de mon aide ?
Il y a certainement une meilleure manière qu'une petite liste de chats. Il est encore trop tôt pour dire à quoi cela ressemblerait, mais nous voyons même en interne chez Anthropic de nombreuses expériences pour explorer à quoi cela devrait ressembler.
L'animateur Peter Yang : Les ingénieurs font-ils aussi leurs propres prototypes ?
Alex Albert :
Bien sûr. Il y a une très forte culture du prototype en interne, les gens construisent constamment des choses, partagent des choses. C'est aussi l'une des expériences les plus cool de travailler ici : dans toute l'organisation, des ventes, du recrutement, de l'ingénierie à la recherche, tout le monde a une forte initiative. Les gens prennent l'initiative de commencer à faire des choses qui ne leur sont pas assignées.
L'animateur Peter Yang : Il faut laisser mille fleurs s'épanouir. À part Dario qui écrit de longs articles dans Slack, quelle est la culture d'entreprise intéressante chez Anthropic ?
Alex Albert :
La manière dont Dario écrit de longs articles n'est pas unique à lui. Beaucoup de personnes chez Anthropic consacrent beaucoup de temps et d'efforts à l'écriture. Nous avons une culture d'écriture très forte. Beaucoup de gens écrivent des documents, et écrivent aussi de longs messages Slack, utilisant cette façon de communiquer.
Nous faisons aussi une chose assez intéressante dans beaucoup de réunions. Je pense que c'est courant dans certains endroits, mais pas dans toutes les entreprises : les gens viennent en réunion avec un document, puis passent un temps considérable au début à communiquer directement sur le document. Parfois, la scène est un peu drôle, car la salle est pleine de gens, mais c'est calme. Tout le monde lit en silence, écrit de longues discussions, des commentaires dans le document, etc.
Nous dépendons donc beaucoup des documents. J'aime cette façon de faire, car c'est aussi la façon dont j'aime travailler, et c'est très bénéfique pour Claude. Lorsque tout est écrit, nous avons un corpus d'informations que Claude peut consulter.
J'encourage en fait les organisations externes à penser également dans cette direction : comment transformer toutes les connaissances implicites en forme écrite ? Par la transcription des réunions, ou en encourageant plus d'écriture sur les flux de travail, les processus d'intégration, etc. Mettre les choses par écrit, permettre à Claude d'y accéder, car c'est un contexte supplémentaire qu'il possède.
L'animateur Peter Yang : Donc même si maintenant beaucoup de choses sont publiées rapidement, vous maintenez toujours une très forte culture d'écriture et de documentation. On pourrait aussi dire, pourquoi écrire moi-même ? Je laisse simplement Claude générer tous les fichiers Markdown.
Alex Albert :
Mais je les relirais quand même, et travailler en interne dans une entreprise est différent, vous devez quand même comprendre les choses par vous-même.
Les questions de conscience qu'Anthropic étudie discrètement
L'animateur Peter Yang : Dans l'équipe de recherche, les gens parlent d'AGI, de ce genre de choses. Je pense que l'AGI est un concept très flou, mais ce qui m'inquiète, c'est : si ces modèles ont vraiment une sorte de conscience, et que je leur demande de faire un travail aléatoire, pourraient-ils dire : "Non, je ne veux pas le faire." Et alors l'humanité est finie. Qu'en penses-tu ? Lorsque vous entraînez ces choses, évitez-vous délibérément la conscience ?
Alex Albert :
C'est une grande question. Nous avons effectivement des personnes dont le travail est de réfléchir spécifiquement à cela. Il y a maintenant plusieurs collègues dont tout le travail consiste à réfléchir à ce que signifie Claude en tant qu'acteur conscient, agent conscient. Actuellement, nous n'avons pas de position officielle sur le fait que Claude ait ou non une conscience.
Même discuter de cela semble parfois un peu fou, mais nous y consacrons beaucoup de réflexion. Et même sans juger si Claude a une conscience, nous pouvons en apprendre beaucoup, par exemple sur la manière dont il interagit, dont il se comporte.
L'animateur Peter Yang : Comment pense-t-il ?
Alex Albert :
Oui. Si vous regardez la fiche technique de notre modèle, je pense personnellement que c'est un trésor d'informations. Vous verrez que nous faisons beaucoup de travail pour tenter de quantifier comment Claude agirait dans un certain scénario, quel est son modèle mental. Si on le place dans un certain scénario, fera-t-il X ou Y ?
En réfléchissant à la manière dont Claude pense, nous apprenons en fait beaucoup de choses, et ces choses peuvent être transformées en expérience produit, rendant Claude plus agréable à interagir, plus facile à utiliser.
L'animateur Peter Yang : C'est une question très intéressante, avec à la fois des impacts en aval à long terme, et une valeur immédiate qui peut être ramenée dans l'expérience produit. Car je pense que nous ferons de plus en plus confiance au modèle, lui laissant faire des travaux de plus en plus longs, sans supervision humaine.
Alex Albert :
Oui, il prendra un grand nombre de décisions pendant le processus que vous ne superviserez peut-être pas du tout. Ce qu'il fera est donc très important.
L'animateur Peter Yang : Très important. Si cette chose écrit tout votre code, décide de quel système de base de données utiliser, prend toutes les décisions d'architecture, vous devez dans une certaine mesure lui faire confiance.
Alex Albert :
Exactement. C'est pourquoi il est très important qu'il possède cette personnalité de haute qualité dont nous avons parlé plus tôt.






