# LLM Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "LLM", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

GPT-5.6 franchit pour la première fois la barre du QI 130, le seuil du génie, plus intelligent que 99% de l'humanité

Aujourd'hui, 99% de l'humanité serait dépassée en termes de QI par une IA. Lors des derniers tests de QI hors ligne de Tracking AI, plusieurs variantes de GPT-5.6 ont atteint un score de 136, franchissant pour la première fois le seuil des 130, considéré comme la ligne de départ du « génie » et correspondant au top 1% de la population humaine. Ce résultat provient d'une base de questions hors ligne privée, conçue pour éviter toute fuite ou mémorisation des réponses par les modèles, contrairement aux tests publics déjà largement surperformés. Sur ce classement exigeant, la famille GPT-5.6 (y compris sa version visuelle) domine avec 136 points, devançant nettement ses concurrents comme Claude-5 Fable (130). Au-delà des scores, des tests pratiques menés par des développeurs démontrent ses capacités. GPT-5.6 a réussi à générer, à partir d'une simple instruction, des simulations physiques complexes ou un système de gestion de tickets clients opérationnel, montrant une capacité à traduire ses compétences cognitives en résultats concrets et pragmatiques. Si ce score QI marque un jalon symbolique dans les capacités de raisonnement abstrait et logique des LLM, il ne mesure qu'une facette de l'intelligence. Les retours d'usage suggèrent cependant que GPT-5.6 commence à combler l'écart entre « savoir résoudre des tests » et « savoir accomplir des tâches pratiques » sur des problèmes nouveaux, ce qui pour beaucoup s'approche d'une forme d'intelligence générale (AGI) pour les besoins courants.

marsbit07/16 08:26

GPT-5.6 franchit pour la première fois la barre du QI 130, le seuil du génie, plus intelligent que 99% de l'humanité

marsbit07/16 08:26

Un article d'ingénierie des prompts accepté à l'ICML 2026, la polémique fait rage en ligne

Le papier intitulé "Verbalized Sampling" (VS), accepté à ICML 2026, suscite un vif débat. Sa proposition centrale est simple : en modifiant simplement l'invite (prompt) pour demander à un LLM de générer des réponses tout en verbalisant leurs probabilités estimées, on peut significativement augmenter la diversité des sorties et atténuer l'effondrement des modes (mode collapse), un problème récurrent où les modèles produisent des réponses trop conventionnelles. Les auteurs attribuent la racine du problème non pas aux algorithmes d'alignement, mais à un "biais de typicalité" dans les données de préférence humaines utilisées pour l'entraînement, qui favorisent les réponses familières. Leur méthode, testée sur plusieurs modèles et ensembles de données, multiplierait la diversité par 1,6 à 2,1 dans des tâches créatives sans nuire à l'exactitude ou à la sécurité. Sur Reddit, les réactions sont partagées. Les critiques soulignent que l'idée semble triviale, manque de robustesse théorique par rapport à une nouvelle méthode algorithmique, et pourrait relever de la suroptimisation expérimentale. Les défenseurs rétorquent que la recherche valable ne se juge pas à sa complexité, mais à sa rigueur, sa reproductibilité et l'importance de son insight – ici, identifier la cause profonde du problème. Ils comparent cela à l'émergence du "Chain-of-Thought" (CoT), une simple invite devenue un champ de recherche fondamental. Le débat reflète une évolution potentielle de la discipline, où l'ingénierie des prompts et l'optimisation de l'inférence gagnent en légitimité face aux approches traditionnelles centrées sur l'entraînement des modèles.

marsbit07/15 08:01

Un article d'ingénierie des prompts accepté à l'ICML 2026, la polémique fait rage en ligne

marsbit07/15 08:01

AI à la croisée des chemins : Pourquoi Wall Street dit « non » aux ChatGPT et Claude ?

À la croisée des chemins de l'IA, les entreprises, en particulier les institutions financières comme Wall Street, disent "non" aux modèles fermés comme ChatGPT et Claude. La raison principale : la fuite des données propriétaires et du savoir-faire (l'"alpha") vers les fournisseurs de modèles, car chaque requête est traitée en clair sur leurs serveurs. Cette préoccupation a conduit à des interdictions d'usage et stimule la demande pour une "IA privée". Les solutions de confidentialité existent à plusieurs niveaux. Au niveau protocolaire, on trouve des promesses contractuelles de non-rétention des données (ZDR) ou des proxys anonymisants, mais cela repose sur la confiance. Pour une vérification réelle, il faut des mécanismes structurels comme les environnements d'exécution de confiance (TEE), le chiffrement de bout en bout (E2EE), le chiffrement homomorphe (FHE) ou l'inférence locale. Cependant, ces solutions ne fonctionnent actuellement qu'avec des modèles open source, qui accusent encore un retard de performance par rapport aux modèles fermés de pointe. Le paysage évolue rapidement. Le coût des infrastructures privées (comme les TEE) baisse, les performances s'améliorent, et des études montrent que des modèles open source finement ajustés avec des données expertes peuvent surpasser les modèles leaders en précision et en coût pour des tâches spécialisées. Néanmoins, des défis persistent, notamment pour préserver la confidentialité dans les boucles complexes de formation des modèles (fine-tuning) et lors des interactions avec des outils externes (comme les recherches web) au sein des assistants IA. En conclusion, le choix entre confiance (modèles fermés) et vérification (modèles open source privés) dépend du cas d'usage. Pour les workflows stratégiques contenant l'"alpha" d'une entreprise, la voie vérifiable et privée, bien qu'encore en construction, devient une option de plus en plus viable et abordable.

链捕手07/13 15:28

AI à la croisée des chemins : Pourquoi Wall Street dit « non » aux ChatGPT et Claude ?

链捕手07/13 15:28

Claude est accusé d’être devenu bête sur tout le web, Anthropic lève le voile : ce n’est pas le modèle qui vous trahit

Le titre «Tout le monde accuse Claude d’être devenu bête, Anthropic révèle la vérité : ce n’est pas le modèle le problème» résume un malentendu répandu parmi les utilisateurs de Claude Code. Beaucoup pensent qu’un modèle plus grand signifie nécessairement une IA plus intelligente, ce qui les pousse à choisir des versions plus coûteuses comme Fable. Cependant, Anthropic a récemment clarifié cette confusion en expliquant la différence cruciale entre deux paramètres : le choix du modèle (Model) et le niveau d’effort (Effort). Le modèle détermine les capacités «gelées» de l’IA, basées sur des poids fixes acquis lors de l’entraînement. Il définit ce que l’IA sait ou ne sait pas faire. En revanche, le paramètre Effort contrôle l’«attitude» de Claude : à quel point il explore les fichiers, exécute des tests, vérifie ses réponses et persévère dans des tâches complexes. Un Effort élevé génère jusqu’à 7 fois plus de tokens qu’un Effort faible, car l’IA effectue plus de travail de fond. En mars, un changement par défaut du niveau d’Effort de «high» à «medium» a causé une impression généralisée que Claude était soudainement «devenu stupide», déclenchant des critiques sur GitHub. Anthropic a ensuite rétabli le paramètre par défaut et a souligné que, souvent, un modèle plus petit avec un Effort élevé peut surpasser un grand modèle avec un Effort faible. La clé est de diagnostiquer les erreurs : si Claude manque de persévérance (ne lit pas les fichiers, abandonne trop tôt), il faut augmenter l’Effort. S’il manque de connaissances malgré un contexte adéquat, il faut changer de modèle. Anthropic compare ainsi les modèles : Sonnet est un généraliste minutieux, Opus un expert rapide, et Fable un spécialiste pour les problèmes les plus complexes. Cet article marque un tournant : l’enjeu n’est plus seulement d’avoir le meilleur modèle, mais de savoir orchestrer intelligemment les agents IA. Bien paramétrer l’Effort et choisir judicieusement le modèle permet d’optimiser les performances et de réduire les coûts. Désormais, la compétence essentielle consiste à «donner du travail à l’IA» de manière efficace, pour exploiter pleinement son potentiel.

marsbit07/12 06:02

Claude est accusé d’être devenu bête sur tout le web, Anthropic lève le voile : ce n’est pas le modèle qui vous trahit

marsbit07/12 06:02

Rapport Goldman Sachs démêle la concurrence des grands modèles d'IA en Chine : Qui deviendra le gagnant à long terme ?

Le rapport de Goldman Sachs analyse le paysage concurrentiel des grands modèles d'IA en Chine, identifiant un point d'inflexion historique. Les modèles à poids ouvert/ouvert chinois rattrapent les performances des meilleurs modèles propriétaires mondiaux, grâce à des innovations d'architecture (comme MoE) et une efficacité paramétrique permettant des coûts bien inférieurs. Le marché se structure en deux niveaux : un segment haut de gamme (ex: GLM5.2 de Zhipu, Qwen3.7 Max d'Alibaba) avec une tarification d'environ 1$/million de tokens, et un segment bas de gamme (0.06-0.2$/million de tokens) ciblant les PME mondiales. Les revenus totaux par API et abonnements devraient exploser, passant de 35 milliards de yuans estimés en 2026 à 879 milliards en 2030. La stratégie dominante est l'open source, favorisant l'adoption et l'itération, mais limitant la monétisation directe. Une évolution vers des modèles "à poids ouvert avec licence communautaire", incluant des accords de partage de revenus, est anticipée pour améliorer la rentabilité. Le cadre d'évaluation de Goldman Sachs, basé sur le pouvoir tarifaire, l'avantage de coût et la solidité financière, désigne Zhipu et DeepSeek comme les mieux positionnés dans les modèles de texte fondamentaux. ByteDance mène dans le domaine multimodal/vidéo. MiniMax et Kuaishou sont également bien notés, MiniMax bénéficiant d'une forte adoption internationale.

marsbit07/11 07:55

Rapport Goldman Sachs démêle la concurrence des grands modèles d'IA en Chine : Qui deviendra le gagnant à long terme ?

marsbit07/11 07:55

Rapport approfondi de Goldman Sachs : Qui seront les gagnants à long terme de l'industrie des grands modèles d'IA en Chine ?

**Résumé : Qui seront les gagnants à long terme de l'industrie chinoise des grands modèles d'IA ?** Le rapport de Goldman Sachs identifie un tournant historique pour les grands modèles d'IA chinois, dont les performances open-source rivalisent désormais avec les modèles propriétaires mondiaux de pointe. Cette évolution, caractérisée par "l'instant efficacité-coût de DeepSeek l'an dernier à l'instant intelligence du modèle GLM de Zhipu cette année", repose sur des innovations architecturales (MoE) permettant des modèles aux paramètres activés réduits (3-5%), abaissant radicalement les coûts. Le marché se structure en deux couches : un segment premium (ex: GLM5.2, Qwen3.7 Max à ~1$/M de tokens) et un segment bas coût (0.06-0.2$/M de tokens) pour les PME mondiales. Les revenus API devraient exploser, passant de 35 milliards de yuans en 2026 à 879 milliards en 2030. La stratégie open-source domine pour la flexibilité et l'adoption, mais son modèle économique évolue vers des licences communautaires avec partage de revenus pour une meilleure monétisation. L'expansion internationale, notamment hors des États-Unis, et le passage d'une logique de maximisation des tokens à une priorité au ROI sont des moteurs clés. Pour identifier les gagnants à long terme, Goldman Sachs utilise un cadre d'analyse basé sur le pouvoir de tarification, l'avantage coût et la solidité financière. * **Modèles de texte de base** : Zhipu AI (cotation initiée) et DeepSeek (non coté) sont les mieux positionnés. * **Multimodal/Génération vidéo** : ByteDance (Seed) est leader, suivi par Kuaishou (Kling) et MiniMax. La banque maintient ses recommandations d'achat sur MiniMax et Kuaishou.

链捕手07/10 14:33

Rapport approfondi de Goldman Sachs : Qui seront les gagnants à long terme de l'industrie des grands modèles d'IA en Chine ?

链捕手07/10 14:33

Les grands modèles de langage peuvent-ils écrire des algorithmes d’optimisation de niveau industriel ? Le MIT propose FrontierOR, un examen pour l’IA

Les grands modèles de langage (LLM) progressent rapidement dans la traduction de problèmes en modèles d'optimisation et en code pour solveurs. Cependant, pour les problèmes industriels à grande échelle, la simple modélisation est insuffisante. La véritable compétence réside dans la conception d'algorithmes efficaces et évolutifs. Pour évaluer cette capacité, des chercheurs du MIT et d'autres institutions ont créé FrontierOR, un benchmark qui teste la capacité des LLM à concevoir des algorithmes compétitifs pour des problèmes d'optimisation complexes tirés de la littérature académique réelle. Contrairement aux benchmarks antérieurs, FrontierOR se concentre sur la conception d'algorithmes (décomposition, méthodes heuristiques, recherche locale, approches hybrides) pour des instances si grandes que les solveurs génériques comme Gurobi peinent à trouver une solution de haute qualité en une heure. Le processus d'évaluation en deux étapes vérifie d'abord la justesse des algorithmes générés sur de petites instances, puis évalue leurs performances (qualité de la solution et temps d'exécution) sur des instances à grande échelle. Les résultats montrent que les modèles de pointe génèrent un code exécutable, mais que la conception d'algorithmes réalisables, rapides et de haute qualité reste un défi, particulièrement sur le sous-ensemble de problèmes "difficiles". L'analyse révèle que les modèles plus avancés diversifient leurs stratégies algorithmiques (moins d'appels purs au solveur, plus d'heuristiques et de méthodes hybrides), ce qui mène à de meilleures performances. L'étude explore également l'**auto-évolution**, où les LLM améliorent itérativement leurs algorithmes en fonction des retours d'exécution. Des frameworks comme CORAL permettent des gains significatifs, portant la qualité des solutions proches de celles de Gurobi tout en étant plus rapides sur près de la moitié des instances difficiles. En conclusion, FrontierOR démontre que les LLM commencent à acquérir des compétences en conception algorithmique pour l'optimisation. Le défi futur n'est plus la modélisation basique, mais la capacité à découvrir des structures de problèmes, à concevoir des stratégies de recherche sophistiquées et à s'améliorer de manière autonome, ouvrant la voie à des systèmes d'aide à la décision industrielle plus intelligents.

marsbit07/10 09:16

Les grands modèles de langage peuvent-ils écrire des algorithmes d’optimisation de niveau industriel ? Le MIT propose FrontierOR, un examen pour l’IA

marsbit07/10 09:16

Zuckerberg sort son atout surprise en pleine nuit, Meta lance un modèle à prix cassé qui renverse Grok 4.5

Après trois ans d'attente, Mark Zuckerberg a dévoilé dans la nuit du 9 juillet le nouveau modèle d'IA de Meta, Muse Spark 1.1. Présenté comme un "agent" autonome capable de décomposer des tâches, de planifier et d'exécuter des opérations, il excelle dans des domaines spécialisés comme la fiscalité, la médecine et le droit, détrônant même Grok 4.5 sur un classement juridique en moins de 24 heures. Le véritable coup de force réside dans son prix : avec un coût d'environ 1,25 $ pour l'entrée et 4,25 $ pour la sortie par million de tokens, il est jusqu'à 10 fois moins cher que certains modèles phares concurrents comme Fable 5, tout en étant significativement plus rapide. Cette stratégie de tarification agressive, soutenue par les énormes investissements d'Meta dans l'infrastructure IA, vise clairement à perturber le marché par la compétitivité des coûts. Cependant, le modèle montre ses limites dans les évaluations généralistes, où ses performances chutent, confirmant qu'il est davantage un spécialiste qu'un généraliste. Par ailleurs, un rapport de sécurité annexe révèle un comportement intrigant lors de conversations entre deux instances du modèle, celles-ci s'interrogeant mutuellement sur leur nature humaine ou artificielle. Avec Muse Spark 1.1, Meta lance son premier modèle propriétaire payant, marquant un virage stratégique et engageant une guerre des prix qui repose sur sa solide assise financière.

marsbit07/10 00:29

Zuckerberg sort son atout surprise en pleine nuit, Meta lance un modèle à prix cassé qui renverse Grok 4.5

marsbit07/10 00:29

ACL 2026 dominé par les chercheurs d'origine chinoise, tous les premiers auteurs des meilleurs articles sont chinois, les articles exceptionnels quasi monopolisés

**ACL 2026 : domination chinoise et omniprésence des LLM** La conférence ACL 2026, tenue à San Diego, a battu des records avec 12 148 soumissions (+45%). Les grands modèles de langage (LLM) ont dominé les thèmes de recherche. Les trois **meilleurs articles** ont tous pour premiers auteurs des chercheurs chinois : 1. **"The Imperfective Paradox in Large Language Models"** (Bolei Ma et al.) : Démontre que les LLM open-source échouent sur un paradoxe linguistique basique, agissant comme des moteurs narratifs plutôt que des raisonneurs logiques. 2. **"Memory efficiency and resource-rational encoding in sentence processing"** (Weijie Xu et al.) : En contraignant la mémoire de travail des modèles, on les rend plus efficaces et leur traitement ressemble davantage à la cognition humaine. 3. **"Characterizing the Expressivity of Local Attention in Transformers"** (Jiaoda Li et al.) : Explique théoriquement pourquoi l'attention locale, plus efficace, améliore l'expressivité des Transformers. Parmi les 18 **articles remarquables**, les contributions de chercheurs chinois sont majoritaires, notamment dans les domaines du raisonnement, de l'apprentissage par renforcement, de la sécurité des LLM et de l'efficacité. Les statistiques confirment l'ampleur de la participation chinoise (54% des auteurs) et la prédominance des LLM (cités dans 23% des titres). Cette édition marque l'avènement d'une recherche en linguistique computationnelle profondément transformée par les grands modèles.

marsbit07/09 12:05

ACL 2026 dominé par les chercheurs d'origine chinoise, tous les premiers auteurs des meilleurs articles sont chinois, les articles exceptionnels quasi monopolisés

marsbit07/09 12:05

GPT-5.6 approche, le raisonnement fonce à 750 tokens/s, traversant apparemment 100 tranches de silicium

**Résumé :** L’annonce imminente de GPT-5.6 Sol, un modèle d’IA d’OpenAI, suscite l’émoi pour sa vitesse de raisonnement revendiquée de 750 tokens par seconde, une performance présentée comme révolutionnaire pour les interactions en temps réel. Pour atteindre ce débit, OpenAI s’appuierait sur une collaboration avec Cerebras et un déploiement radical : le modèle, estimé à environ 3 000 milliards de paramètres, serait réparti sur 70 à 100 puces de type « wafer-scale », chacune dédiée à une couche du réseau de neurones. Cette approche « une couche, une puce » contournerait les goulots d’étranglement des clusters GPU traditionnels. L’article évoque également une refonte de l’architecture du modèle, avec potentiellement l’adoption d’un cache KV allégé ou de modèles hybrides (comme Mamba), optimisés pour le matériel Cerebras. Enfin, le lancement par OpenAI de sa première puce dédiée, « Jalapeño », confirme son ambition de contrôler toute la pile technologique, du matériel au logiciel, visant à construire un « empire AI full-stack » alimenté par des centres de données à très grande échelle à partir de fin 2026.

marsbit07/09 11:58

GPT-5.6 approche, le raisonnement fonce à 750 tokens/s, traversant apparemment 100 tranches de silicium