# LLM Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "LLM", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

Gemini 3.5 Pro fuité en secret, rattrapant Fable 5 en développement front-end

**Gemini 3.5 Pro : La fuite révèle une avancée majeure en génération de code front-end** Des informations fuient concernant Gemini 3.5 Pro, la future version « haut de gamme » de Google, dont le lancement est anticipé pour le 17 juillet. La révélation la plus frappante porte sur ses performances exceptionnelles dans la génération de code visuel et d'interfaces utilisateur (UI). Selon les premiers retours de développeurs ayant testé une version divulguée, Gemini 3.5 Pro montre un saut de qualité remarquable dans ce domaine précis. Il génère des interfaces au design plus raffiné, avec une meilleure gestion des couleurs et de l'espace. Sa capacité à produire du code front-end « prêt à l'emploi » et des graphiques SVG complexes de haute fidélité en une seule itération est particulièrement saluée. Certains comparent même ses résultats, en termes d'esthétique et d'atmosphère, favorablement à ceux de Fable 5, un modèle concurrent réputé. Cependant, cette fuite nuance également cet enthousiasme. Dans les tâches de raisonnement complexe, d'ingénierie logicielle à grande échelle ou d'exécution de tâches longues et multi-étapes (comme celles des benchmarks SWE-Bench Pro), Gemini 3.5 Pro serait toujours à la traîne derrière des modèles comme Fable 5 ou GPT-5.6. Sa force semble donc ciblée. La raison du retard de sa sortie serait liée à un processus de ré-entraînement complet (« préformation ») sur une nouvelle architecture de base, plus performante que celle de son homologue léger, Gemini 3.5 Flash. Cette même base servirait également à développer un futur modèle de génération d'images, nommé « Nano Banana Pro », destiné à concurrencer GPT-Image 2 d'OpenAI. Ainsi, Google miserait sur cette refonte pour regagner du terrain sur deux fronts : le code front-end et la génération d'images. Si les affirmations de la fuite se confirment le 17 juillet, Gemini 3.5 Pro pourrait redistribuer les cartes dans un secteur de l'IA en perpétuelle accélération.

marsbit07/06 12:30

Gemini 3.5 Pro fuité en secret, rattrapant Fable 5 en développement front-end

marsbit07/06 12:30

À l'instant, l'œuvre classique de DeepMind refait sensation, les prix de l'ICML 2026 sont annoncés

L'ICML 2026 a annoncé ses prix. Deux articles sur les modèles de diffusion ont remporté le prix du Meilleur article, dont l'un (The Flexibility Trap) remet en question l'avantage clé des modèles de langage par diffusion (génération dans un ordre arbitraire), tandis que l'autre améliore la précision de l'échantillonnage. Le prix du Meilleur article de position est allé à un texte critiquant le fait que les outils développés par la communauté de l'alignement des IA soient involontairement détournés pour la censure de contenu. Les mentions honorables incluent des recherches sur l'émergence de l'honnêteté dans les modèles, l'attribution du mouvement dans la génération vidéo, la mémorisation des LLM, la cohérence des modèles de diffusion et une explication mathématique du phénomène de "grokking" (apprentissage soudain). Le prix Test of Time a été décerné à l'article classique de DeepMind de 2016, "Asynchronous Methods for Deep Reinforcement Learning" (A3C). Ces récompenses signalent une maturation de la recherche en IA, avec un examen approfondi des hypothèses fondamentales (modèles de diffusion) et des implications éthiques (sécurité et alignement).

marsbit07/06 02:43

À l'instant, l'œuvre classique de DeepMind refait sensation, les prix de l'ICML 2026 sont annoncés

marsbit07/06 02:43

Karpathy monte au créneau : une seule phrase réduit au silence tous les développeurs d'Agent

Andrej Karpathy, chercheur principal chez Anthropic, a récemment critiqué la tendance actuelle à développer rapidement des agents IA sans avoir d'abord maîtrisé les modèles de base sous-jacents. S'appuyant sur son expérience d'un projet avorté chez OpenAI en 2016, il souligne que les technologies de l'époque, comme l'apprentissage par renforcement, n'étaient pas prêtes. Aujourd'hui, il avertit que créer une démo d'agent est simple, mais en faire un produit viable peut prendre une décennie, comme l'ont montré les domaines de la conduite autonome et de la VR. Il conseille aux développeurs de se concentrer d'abord sur le renforcement des modèles de fondation (LLMs), affirmant que des agents robustes émergeront naturellement d'une base solide. Pour progresser, il suggère même de s'inspirer des neurosciences, en étudiant des structures cérébrales comme l'hippocampe ou le thalamus. Cependant, Karpathy offre aussi une lueur d'espoir aux startups et développeurs indépendants. Il estime que dans le domaine des agents, les grandes entreprises comme OpenAI n'ont pas d'avance décisive de plusieurs années. L'innovation la plus percutante viendra donc probablement de ceux qui sont agiles, expérimentent rapidement et sont prêts à s'engager sur le long terme. Son message central est clair : il ne faut pas négliger les fondamentaux pour courir après la mode éphémère des démonstrations.

marsbit07/06 02:36

Karpathy monte au créneau : une seule phrase réduit au silence tous les développeurs d'Agent

marsbit07/06 02:36

Gu Yuxian, récipiendaire du Prix d'Excellence de Tsinghua, rejoint DeepSeek

Le lauréat 2025 de la bourse d'excellence pour doctorants de l'université Tsinghua, Yuxian Gu, a officiellement rejoint DeepSeek. Ce docteur en informatique, également récipiendaire de bourses Apple et Ant, est un chercheur prolifique dont les travaux portent sur l'efficacité des grands modèles de langage (LLM). Ses recherches couvrent la sélection des données de pré-entraînement (PDS), la distillation des connaissances pour la compression de modèles (MiniLLM, MiniPLM) et les architectures de modèles efficaces (Jet-Nemotron). Son modèle MiniLLM, une méthode de distillation de connaissances, est déjà utilisé par Google, Alibaba et NVIDIA. Récemment, en tant qu'auteur de DeepSeek V4, il a contribué au développement du modèle hybride Jet-Nemotron, qui rivalise avec les modèles SOTA tout en offrant une efficacité de génération considérablement accélérée. Avec près de 5000 citations sur Google Scholar et de multiples publications dans des conférences de premier plan (NeurIPS, ICLR, ACL), son expertise en optimisation de LLM constitue un atout majeur pour DeepSeek.

marsbit07/06 02:10

Gu Yuxian, récipiendaire du Prix d'Excellence de Tsinghua, rejoint DeepSeek

marsbit07/06 02:10

1 milliard de dollars de revenus annuels, deux colocataires nonagénaires de Berkeley, créent l'entreprise d'IA la plus rentable

Une entreprise qui ne développe pas d'IA génère 100 millions de dollars de revenus annuels : Arena, anciennement Chatbot Arena, est passée d'un projet de recherche open source de l'UC Berkeley en 2023 à une plateforme incontournable d'évaluation des grands modèles linguistiques (LLM). Son classement, basé sur des tests en aveugle par des utilisateurs réels, est devenu une référence pour les géants comme OpenAI, Google, et Anthropic. Leur modèle économique, lancé il y a huit mois, propose un service payant d'évaluation approfondie (AI Evaluations) pour les entreprises souhaitant tester leurs modèles dans des conditions réelles. Cette position d'« arbitre neutre » a propulsé leur chiffre d'affaires annuel à 1 milliard de dollars. Fondée par deux anciens colocataires de Berkeley, Anastasios Angelopoulos (CEO) et Wei-Lin Chiang (CTO, créateur du chatbot open source Vicuna), et soutenue par le professeur Ion Stoica, l'entreprise a levé 150 millions de dollars en série A, atteignant une valorisation de 17 milliards de dollars. Arena évolue désormais vers l'évaluation des agents IA sur des tâches complexes, comme le codage ou la recherche, indiquant que l'évaluation précise des performances de l'IA devient un enjeu économique majeur.

marsbit07/06 00:23

1 milliard de dollars de revenus annuels, deux colocataires nonagénaires de Berkeley, créent l'entreprise d'IA la plus rentable

marsbit07/06 00:23

Hinton loue, un contributeur clé de Gemini prédit : des milliards d'IA superhumaines de niveau Einstein à venir

Adam Brown, physicien théoricien et contributeur clé de Gemini chez DeepMind, a donné une conférence intitulée "Entraîner le sable à penser : L'IA générale et l'avenir de la physique". Il y décrit l'évolution fulgurante des modèles de langage (LLM), passant d'un niveau "jardin d'enfants" à celui d'un "doctorat" en quelques années, surmontant des tests de référence comme le MATH ou les Olympiades internationales de mathématiques (IMO). Brown explique que les LLM ne sont pas programmés mais "cultivés" via un pré-entraînement sur données massives puis un affinage. Il attribue cette révolution à la "loi d'échelle" (Scaling Law), une relation simple découverte par des physiciens : augmenter les données, la puissance de calcul et la taille des modèles améliore régulièrement leurs performances. Il présente des avancées majeures où l'IA collabore avec des mathématiciens ("mode centaure") et résout seule des conjectures non résolues depuis des décennies, comme la conjecture des distances unitaires d'Erdős. En s'inspirant de l'histoire des IA aux échecs, Brown prédit une trajectoire similaire pour la recherche : une ère de collaboration humain-IA ("centaure"), suivie par l'émergence de "scientifiques IA" autonomes et surhumains, potentiellement reproductibles à des milliards d'exemplaires. Même en cas de stagnation des capacités, les LLM transformeront déjà la physique en tant que tuteurs, assistants de programmation et outils de littérature infatigables. Brown conclut que les prochaines années seront les plus passionnantes pour la discipline, avec de grandes découvertes à venir grâce à cette synergie.

marsbit07/04 06:48

Hinton loue, un contributeur clé de Gemini prédit : des milliards d'IA superhumaines de niveau Einstein à venir

marsbit07/04 06:48

DeepSeek accélère le traitement local des grands modèles sur puces Apple, une amélioration de 60%

La technologie DSpark de DeepSeek, initialement conçue pour les GPU de centres de données, a été adaptée pour les puces Apple par l'ingénieur Abdur Rahim. Cette version native, nommée mlx-dspark, accélère considérablement l'exécution de modèles de langage sur Mac. En utilisant un petit modèle "ébauche" pour générer des tokens candidats que le modèle principal vérifie ensuite par lot, mlx-dspark augmente la vitesse de génération de Gemma-4 12B et Qwen3-4B d'environ 1,6 et 1,4 fois respectivement sur un M4 Pro. L'innovation de Rahim réside dans la préservation de la sortie exacte du modèle original, même avec un décodage par échantillonnage, et non pas seulement avec un décodage glouton. Le projet intègre également DFlash, une autre technique de décodage spéculatif qui génère des blocs de tokens en parallèle. DFlash excelle dans les tâches de code et de mathématiques (accélération ~2,1x), tandis que DSpark, avec sa tête Markovienne, reste plus efficace pour le chat général. La version mlx-dspark v0.0.3 permet désormais de choisir entre les deux méthodes au sein d'un même package. Ce portage démontre l'optimisation efficace des LLMs pour le matériel Apple, en combinant accélération significative, précision des sorties et flexibilité méthodologique.

marsbit07/03 12:26

DeepSeek accélère le traitement local des grands modèles sur puces Apple, une amélioration de 60%

marsbit07/03 12:26

Karpathy, une nouvelle fois légendaire, renverse le RAG et transforme vos notes en un second cerveau

Karapthy, ancien directeur IA de Tesla et cofondateur d'OpenAI, propose une nouvelle approche radicale pour gérer nos connaissances personnelles : traiter nos notes comme du code source immuable et utiliser un LLM comme compilateur. Cette méthode, nommée LLM-WIKI, contraste avec les systèmes RAG traditionnels qui souffrent de fragmentation et d'incohérence. L'idée est simple : au lieu de faire re-parcourir toutes les notes à l'IA à chaque question (comme le fait le RAG), on laisse le LLM "compiler" une fois l'ensemble des notes brutes en un wiki structuré, interconnecté et cohérent. Ce wiki, constamment mis à jour, devient la source unique de vérité. Le processus repose sur trois couches : les notes brutes (Raw), un schéma de structuration (Schema) défini par l'utilisateur, et le wiki final (Wiki) généré et maintenu par l'IA. Cette automation élimine la tâche fastidieuse de "comptabilité" cognitive – mise à jour des liens, détection des contradictions, révision des résumés – qui a rendu irréalisable la vision du "Memex" de Vannevar Bush en 1945. L'humain est ainsi libéré des corvées d'organisation pour se concentrer sur l'essentiel : choisir ce qu'il ingère et en interpréter le sens. Il ne s'agit pas d'un simple outil, mais d'un changement fondamental dans notre relation à la production de connaissances.

marsbit07/01 09:58

Karpathy, une nouvelle fois légendaire, renverse le RAG et transforme vos notes en un second cerveau

marsbit07/01 09:58

Bouleversement, Claude 5 "Worker's Edition" débarque, accessible à tous

Claude Sonnet 5 (nom de code Fennec) vient de sortir et devient immédiatement le modèle par défaut pour tous les utilisateurs gratuits et Pro d'Anthropic. Décrit comme le modèle Sonnet le plus capable en tant qu'agent jamais créé, il rivalise désormais avec les performances du modèle phare Opus 4.8, à un coût bien inférieur. Ses performances sont impressionnantes dans plusieurs domaines clés : il atteint 63,2 % sur SWE-bench Pro (dépassant GPT-5.5), 57,4 % sur "Humanity's Last Exam" (à seulement 0,5 point d'Opus 4.8) et excelle dans l'utilisation d'outils comme le navigateur et le terminal. Son prix promotionnel est de 2$ (entrée) et 10$ (sortie) par million de tokens jusqu'au 31 août, passant ensuite à 3$ et 15$ — environ 60% du prix d'Opus 4.8. Fait notable, Sonnet 5 présente des améliorations majeures en matière de sécurité, avec un taux de réussite d'injection de prompt de seulement 0,19% et une défense exceptionnelle contre les injections navigateur (0,93%), surpassant même les modèles plus grands. Il comble ainsi l'écart entre les modèles milieu de gamme et les modèles phares, offrant une puissance proche d'Opus pour un prix de Sonnet. Pour de nombreux développeurs, il s'agit désormais de l'option la plus efficace et la plus abordable.

marsbit07/01 07:52

Bouleversement, Claude 5 "Worker's Edition" débarque, accessible à tous

marsbit07/01 07:52

Anthropic vient de lancer Sonnet 5, des performances proches d'Opus 4.8, mais pas nécessairement moins cher

Anthropic a officiellement lancé Claude Sonnet 5, présenté comme le modèle Sonnet le plus agentique à ce jour, capable de planifier, d'utiliser des outils (navigateur, terminal) et de fonctionner de manière autonome à un niveau auparavant réservé à des modèles plus grands et coûteux. Ses performances en raisonnement, utilisation d'outils, programmation et travail intellectuel se sont nettement améliorées par rapport à Sonnet 4.6, se rapprochant de celles d'Opus 4.8, mais à un prix inférieur. Il offre un meilleur rapport coût-efficacité, surtout à un niveau d'effort moyen, et peut égaler Opus 4.8 sur certaines tâches exigeantes. Les évaluations de sécurité montrent que Sonnet 5 est globalement plus sûr que Sonnet 4.6, avec un taux de comportements inappropriés plus bas et une meilleure résistance aux attaques. Cependant, il reste légèrement moins performant qu'Opus 4.8 et Mythos Preview dans ce domaine. Anthropic a activé par défaut des garde-fous de cybersécurité similaires à ceux d'Opus 4.7/4.8. Disponible dès maintenant sur toutes les plateformes, Sonnet 5 bénéficie d'un prix de lancement jusqu'au 31 août 2026 : 2 $ / million de tokens en entrée et 10 $ / million en sortie. Passé cette date, le tarif standard sera de 3 $ / 15 $. Un nouveau tokenizer a été introduit, entraînant une augmentation du nombre de tokens pour un même contenu (facteur 1.0 à 1.35). Les limites de débit (rate limits) ont également été relevées pour s'adapter aux modes à effort élevé. Des retours d'utilisateurs soulignent sa rapidité et ses capacités agentiques, notamment pour l'utilisation sécurisée du navigateur. Cependant, certaines analyses pointent que le coût d'exécution par tâche pourrait être plus élevé que celui de Sonnet 4.6 et même d'Opus 4.8 en raison d'une consommation accrue de tokens.

marsbit07/01 00:41

Anthropic vient de lancer Sonnet 5, des performances proches d'Opus 4.8, mais pas nécessairement moins cher