Le premier modèle de génération à grande échelle utilisant la physique comme primitive de calcul, Un-0, est arrivé. Réduira-t-il la consommation énergétique de l'IA de 1000 fois ?

marsbitPublié le 2026-06-26Dernière mise à jour le 2026-06-26

Résumé

Unconventional AI, fondée par l'ancien responsable IA de Databricks Naveen Rao, a dévoilé Un-0, un modèle génératif d'images innovant utilisant un système physique de "coupled oscillators" (oscillateurs couplés) comme primitif de calcul. L'objectif est de réinventer le calcul pour l'IA en exploitant la dynamique naturelle des systèmes physiques, afin de réduire potentiellement la consommation énergétique de l'inférence IA d'un facteur 1000 par rapport aux systèmes numériques traditionnels basés sur GPU. Le modèle Un-0 fonctionne en entraînant un vaste réseau d'oscillateurs couplés (modélisés par l'équation de Kuramoto) dont les forces de couplage et les fréquences naturelles sont les paramètres appris. Pour générer une image, le système est initialisé aléatoirement, guidé par un label de classe, puis laissé à évoluer selon sa dynamique physique. Un état latent est prélevé à un instant T et converti en pixels par un petit décodeur. Sur ImageNet 64x64, Un-0 atteint un FID de 6.74 avec 322 millions de paramètres, une performance comparable à celle des premiers modèles génératifs traditionnels comme BigGAN, bien qu'en deçà des modèles de pointe actuels. Entraîné avec une nouvelle fonction de perte "Drifting Loss", il démontre la faisabilité d'utiliser un système dynamique physique pour une tâche IA à grande échelle. Ce modèle représente une première étape vers une nouvelle génération de matériel de calcul "non conventionnel" où la physique effectue le calcul, fusionnant calcul...

Au cours des dix dernières années, le calcul numérique centré sur les GPU a dominé le domaine de l'IA. Des grappes plus grandes, une bande passante plus élevée, des GPU plus puissants et des centres de données plus denses semblent être la voie principale vers la prochaine génération d'IA.

Cependant, alors que le nombre de paramètres des modèles atteint les billions, le secteur commence à évoquer fréquemment le terme « consommation énergétique », et une question plus fondamentale se pose : si l'IA continue de se développer selon les modalités actuelles, d'où viendra l'électricité ?

Il est indéniable que la « facture d'électricité » et la consommation énergétique de l'IA évoluent progressivement d'un coût opérationnel à un « goulot d'étranglement structurel » qui limite le développement de toute l'industrie.

Face à cette crise énergétique imminente, l'ancien responsable de l'IA chez Databricks et entrepreneur légendaire de la Silicon Valley, Naveen Rao, avec sa nouvelle startup de technologies de rupture, Unconventional AI, se retrouve sous les projecteurs.

Aujourd'hui, Unconventional AI annonce officiellement le lancement de son premier modèle, Un-0, un modèle de génération d'images piloté par un « système d'oscillateurs couplés analogiques », que l'on peut considérer comme un exemple d'une nouvelle infrastructure de calcul physique. Sur ImageNet 64×64, Un-0 atteint un FID de 6,74, une qualité déjà proche du niveau de certains modèles traditionnels de génération d'images au moment de leur publication initiale.

Naveen Rao le qualifie de « premier modèle de génération à grande échelle construit avec la physique comme primitive de calcul ».

« Cela marque un moment ‘Hello World’ pour les modèles basés sur la physique. Nous utilisons le comportement naturellement évolutif dans le temps d'un système physique pour qu'il effectue le calcul pour nous. Le résultat final est une toute nouvelle façon de construire des ordinateurs, avec la promesse d'une amélioration significative de l'efficacité énergétique. »

Mieux encore, dans une interview avec les médias, Naveen Rao s'est fixé un « petit objectif » encore plus audacieux : à l'avenir, réduire potentiellement la consommation énergétique de l'inférence IA à un millième de celle des systèmes actuels.

Exemple de trajectoire d'évolution temporelle du processus de génération d'Un-0. La couleur de chaque ligne correspond à une case de couleur similaire. La case est annotée avec une catégorie et montre le processus de génération progressive d'une image de cette catégorie au fil du temps.

Un blog officiel a été publié pour présenter Un-0. Examinons-le plus en détail.

Le point de départ d'Un-0 : refaire le calcul de l'IA avec des systèmes physiques

Unconventional AI déclare que son objectif est de construire un nouveau type d'ordinateur qui utilise les lois de la physique pour effectuer des calculs, dans l'espoir que l'IA moderne puisse fonctionner à l'avenir avec une consommation énergétique bien inférieure à celle des machines actuelles, avec pour objectif une réduction d'environ 1000 fois.

Ils se sont donc posé la question suivante : peut-on entraîner un système dynamique physique à générer des images sur des tâches à grande échelle ?

Aujourd'hui, les modèles d'IA les plus puissants sont principalement des réseaux de neurones traditionnels, en particulier ceux basés sur l'architecture Transformer. Mais en dehors de cette voie dominante, de nombreuses recherches tentent depuis longtemps d'exploiter le comportement dynamique des systèmes physiques pour améliorer l'efficacité énergétique, comme le bruit, la variation temporelle, la tension et le courant dans les circuits analogiques. Ces approches n'utilisent pas de calcul numérique traditionnel, mais exploitent le processus d'évolution propre au système physique.

Par exemple, le calcul neuromorphique, les réseaux de Hopfield, le Reservoir Computing, ainsi que des développements plus récents comme les Hamiltonian Networks, les Liquid Networks, les Neural Wave Machines, le Thermodynamic Computing, et les oscillateurs de Kuramoto.

Un-0 est une nouvelle tentative dans ces voies de calcul non conventionnelles. Mais la difficulté centrale est la suivante : pour exploiter ces méthodes de calcul alternatives, les tâches d'IA doivent être efficacement mappées sur le processus dynamique du système physique. Ce qu'Un-0 veut vérifier, c'est si la charge de travail moderne de l'IA peut être exécutée sur une infrastructure physique, et finalement être plus efficace que le matériel d'aujourd'hui.

Le principe de fonctionnement d'Un-0

Selon l'annonce officielle, on peut imaginer deux métronomes tictaquant côte à côte, comme illustré ci-dessous.

Chaque métronome a à tout moment une « phase », c'est-à-dire la position du bras dans son cycle d'oscillation. S'ils sont placés sur la même table, ils s'influencent mutuellement à travers celle-ci. Selon la force de l'interaction, c'est-à-dire la force de couplage, ils peuvent progressivement se synchroniser, ou entrer en synchronisation de phase opposée.

C'est le concept de base d'un oscillateur : chaque oscillateur a sa propre phase et tend à tourner à sa fréquence naturelle, mais est simultanément influencé par ses voisins.

Si on étend cela à des milliers d'oscillateurs, le système devient beaucoup plus intéressant. Un grand nombre d'oscillateurs avec des forces de couplage différentes s'auto-organisent en un certain mode par interaction, comme illustré ci-dessous.

Le moteur de calcul d'Un-0 est un tel ensemble à grande échelle d'oscillateurs, où la force de couplage entre eux est le principal paramètre apprenable du modèle.

Ces oscillateurs couplés sont généralement modélisés comme des « oscillateurs de Kuramoto ».

Concrètement, le mouvement de chaque oscillateur suit une règle simple, et cette règle s'applique de manière continue dans le temps : il tourne à sa fréquence naturelle d'une part, et est décalé par l'attraction de tous les autres oscillateurs d'autre part.

L'équation différentielle ordinaire (EDO) ci-dessous décrit l'évolution dans le temps de ces oscillateurs :

Chaque oscillateur i a une phase

∈[0,2π), où

représente sa fréquence naturelle. La matrice

spécifie la force de couplage, déterminant la force avec laquelle l'oscillateur j attire ou repousse l'oscillateur i vers/depuis un état de synchronisation.

Ce que Un-0 doit apprendre, ce sont précisément la matrice de couplage K et les fréquences naturelles ω, ces paramètres définissant conjointement le système physique lui-même.

La raison du choix des oscillateurs est donnée par Unconventional AI en deux points :

  • La première raison vient du cerveau : Le cerveau présente une activité rythmique et des phénomènes de synchronisation généralisés. Depuis longtemps, on pense que ces phénomènes pourraient participer au calcul, comme lier des caractéristiques dispersées en une perception cohérente, contrôler la communication d'information entre régions cérébrales, organiser la structure temporelle des impulsions neuronales, etc. L'oscillateur couplé est l'un des modèles mathématiques les plus simples pour décrire ce type de comportement, il convient donc naturellement comme unité de base pour des modèles de calcul inspirés des neurones.
  • La seconde raison est plus technique : Un oscillateur peut être implémenté comme une primitive de circuit physique. Unconventional AI pense qu'il est possible de réaliser directement un système d'oscillateurs couplés sur du CMOS ou une autre base physique, laissant le comportement physique du système calculer lui-même l'évolution dynamique.

Le pari derrière Un-0 est le suivant : si les lois de la physique peuvent directement calculer la charge de travail de l'IA, alors l'infrastructure d'exécution future pourrait être très différente des GPU d'aujourd'hui.

L'architecture du modèle Un-0

La génération d'une image par Un-0 se déroule en cinq étapes approximatives :

  • Initialisation aléatoire : Définir la phase de tous les oscillateurs à un angle aléatoire (similaire au bruit aléatoire dans les modèles de diffusion) ;
  • Guidage par catégorie en entrée : Utiliser un ensemble plus petit d'« oscillateurs conditionnels » pour entrer une étiquette de catégorie (comme « volcan », « marguerite »), guidant le groupe principal d'oscillateurs vers une direction spécifique ;
  • Laisser la physique agir naturellement : Relâcher le système, laissant les oscillateurs interagir, évoluer sous l'effet de la dynamique physique, et finalement se stabiliser ;
  • Capturer un instantané : Enregistrer la phase de tous les oscillateurs à un temps spécifique T, formant une grille numérique dans l'espace latent ;
  • Rendu des pixels : Transformer la grille de phases en pixels d'image finaux via un décodeur traditionnel qui représente moins de 13% des paramètres du modèle.

Les oscillateurs couplés évoluent dans le temps sous l'effet des relations de couplage apprises durant l'entraînement. Il existe une matrice de conditionnement de catégorie unidirectionnelle de faible rang entre les oscillateurs conditionnels et le pool principal d'oscillateurs, pour injecter l'information de catégorie. Au point temporel T, un décodeur lit l'état des oscillateurs et génère l'image. En échantillonnant différentes conditions initiales plusieurs fois, on peut générer la distribution d'images correspondante.

Pendant l'entraînement, le modèle apprend principalement trois types de paramètres : comment les oscillateurs sont couplés (la matrice K) ; la fréquence naturelle de chaque oscillateur

; et les poids du décodeur. Globalement, le système d'oscillateurs assume le calcul qui serait normalement effectué par des couches de réseau neuronal traditionnelles.

Unconventional AI explique que cette architecture a été choisie pour donner au système dynamique lui-même le maximum de liberté pour effectuer le calcul.

Dans la propagation avant de l'entraînement, le modèle se contente de définir la matrice de couplage, les fréquences des oscillateurs et les phases initiales, puis laisse le système dynamique évoluer, et enfin lit la variable latente de l'image.

Cela diffère des méthodes de génération dynamique comme les modèles de diffusion ou Flow Matching. Ces derniers guident généralement explicitement l'évolution du système dynamique pendant l'entraînement, tandis que la méthode d'Un-0 ressemble plus à observer uniquement l'échantillon généré final, puis à optimiser rétroactivement l'ensemble du système dynamique via une fonction de perte.

Le coût est qu'elle nécessite une fonction de perte plus complexe, car le signal d'entraînement provient principalement de l'échantillon généré lui-même.

Comment entraîner Un-0 ?

Unconventional AI a entraîné trois modèles de différentes tailles sur CIFAR-10 et ImageNet 64×64, avec les résultats suivants :

Résultats d'entraînement sur CIFAR-10

Résultats d'entraînement sur ImageNet 64×64

D'après les résultats, à mesure que le nombre d'oscillateurs augmente, le score FID du modèle s'améliore continuellement. Le plus grand modèle ImageNet 64×64 utilise 16384 oscillateurs, avec environ 322 millions de paramètres au total, et atteint un FID de 6,74.

En termes de méthode d'entraînement, une nouvelle fonction de perte dite « Drifting Loss » (perte de dérive) a été utilisée, combinée à un extracteur de caractéristiques DINOv2 et un optimiseur AdamW pour un entraînement de bout en bout.

Pour l'évaluation, CIFAR-10 a utilisé 50 000 échantillons générés, comparés aux statistiques de référence de CIFAR-10 à l'aide du paquet et du processus d'évaluation standard ; ImageNet 64×64 a également utilisé 50 000 échantillons générés, et le FID a été calculé via la suite d'évaluation ADM.

En termes de puissance de calcul, tous les modèles CIFAR-10 ont été entraînés sur 1 GPU B200, tandis que tous les modèles ImageNet 64×64 ont été entraînés sur 8 GPU B200. Le plus grand modèle CIFAR-10 a consommé 20 heures-B200 d'entraînement, et le plus grand modèle ImageNet 64×64 a consommé 640 heures-B200 d'entraînement.

Selon les déclarations officielles, le goulot d'étranglement de l'entraînement provient principalement du calcul de la fonction de perte « Drifting Loss », car elle nécessite l'utilisation d'un extracteur de caractéristiques d'images traditionnel et effectue des calculs sur plusieurs vues de caractéristiques.

Quelle est la position d'Un-0 dans le domaine de la génération d'images ?

Pour mieux illustrer les performances d'Un-0, Unconventional AI a placé Un-0 sur la courbe « qualité de génération vs. nombre de paramètres », et l'a comparé avec des modèles traditionnels et non traditionnels.

Correspondance entre le nombre de paramètres et les valeurs FID sur l'ensemble de données CIFAR-10

Correspondance entre le nombre de paramètres et les valeurs FID pour les images de taille 64×64

La conclusion est la suivante : La qualité d'Un-0 est déjà comparable, voire meilleure dans certaines comparaisons, à celle de certains générateurs traditionnels précoces, tels que NCSN, DCGAN-TTUR, WGAN-GP, BigGAN, iDDPM, Consistency Models, TRACT, etc. Mais il reste en retard par rapport aux modèles traditionnels haute performance plus récents, comme EDM et GDD.

Autrement dit, Un-0 n'est pas le modèle de génération d'images le plus puissant actuellement. Il ressemble plus à un point de départ pour une nouvelle approche : ses performances sont déjà proches du niveau de nombreux modèles de génération classiques au moment de leur proposition initiale, mais pour rattraper la pointe de l'approche traditionnelle, des optimisations continues au niveau des algorithmes, de l'architecture et des primitives physiques sont nécessaires.

Dans l'ensemble, Un-0 démontre la faisabilité d'utiliser un système dynamique physique pour la génération d'images à grande échelle dans l'IA moderne. Bien que ses performances en simulation logicielle n'aient pas encore atteint le sommet de l'IA conventionnelle, il ouvre une voie prometteuse vers un « matériel d'IA non conventionnel » avec une efficacité énergétique potentiellement mille fois supérieure à l'avenir......

Et Naveen Rao souligne également que l'émergence d'Un-0 montre que « le calcul n'est pas une invention proprement humaine. » Il existe partout dans la nature et le monde physique. Tous les processus physiques des entités physiques comportent une dimension temporelle, mais les systèmes de calcul d'aujourd'hui n'exploitent pas vraiment cet aspect.

« Ce que nous développons, c'est précisément cette dimension temporelle. »

Et le lien avec l'efficacité énergétique est le suivant : dans les machines à architecture de von Neumann actuelles, la majeure partie de l'énergie est consommée dans le transfert d'informations entre la mémoire et les unités de calcul. Les systèmes dynamiques fusionnent le calcul et la mémoire en une seule et même entité. Plus important encore, les systèmes dynamiques peuvent tolérer le bruit, ce qui ouvre de nouvelles opportunités pour économiser l'énergie de communication.

Un-0 représente le premier pas important vers un changement de paradigme de calcul vers les systèmes dynamiques. « Avec la sortie de ce modèle, nous établissons un lien entre l'intelligence et la dynamique. » Pour le calcul de l'IA, la dynamique est un cadre d'expression naturel. Les réseaux de neurones peuvent également être vus comme des systèmes dynamiques, donc la cartographie entre les deux est plus directe.

« Le cerveau n'a pas d'abstraction comme l'algèbre linéaire, donc d'une certaine manière, nous contournons l'intermédiaire. »

Et sous la publication, de nombreux internautes ont exprimé leur enthousiasme.

« En réalité, cette amélioration de l'efficacité des performances est énorme. Si cette technologie peut être largement adoptée, de nombreuses applications qui fonctionnent localement pourraient devenir réalisables. »

« Si cette technologie pouvait arriver sur le marché, ce serait vraiment une technologie cérébrale extrêmement avancée. »

Liens de référence :

https://x.com/NaveenGRao/status/2070184079199494583

https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/

https://techcrunch.com/2026/06/25/databricks-former-ai-chief-thinks-he-can-cut-ais-power-bill-by-1000x/

Cet article provient du compte WeChat officiel « Machine Heart » (ID : almosthuman2014), auteur : Focus on AI

Questions liées

QQuel est l'objectif principal de l'entreprise Unconventional AI et du modèle Un-0 présentés dans l'article ?

AL'objectif principal de l'entreprise Unconventional AI avec son modèle Un-0 est de construire un nouveau type d'ordinateur qui utilise les lois de la physique pour effectuer des calculs. Ils visent ainsi à réduire considérablement la consommation énergétique des systèmes d'IA modernes, avec pour cible une réduction d'environ 1000 fois par rapport aux machines actuelles.

QSur quel principe physique fondamental repose le système de calcul du modèle Un-0 ?

ALe système de calcul du modèle Un-0 repose sur un système physique de "couple d'oscillateurs" ou "oscillateurs couplés", inspiré des oscillateurs de Kuramoto. Il s'agit d'un vaste réseau d'oscillateurs dont la phase évolue dynamiquement dans le temps en fonction de leurs fréquences naturelles et de la force de couplage (paramètre principal à apprendre) entre eux.

QQuelle est la performance du modèle Un-0 sur le jeu de données ImageNet 64×64, et qu'indique cette performance selon l'article ?

ASur le jeu de données ImageNet 64×64, la plus grande version du modèle Un-0, utilisant 16 384 oscillateurs et environ 322 millions de paramètres, a obtenu un score FID de 6,74. Selon l'article, cette performance montre que la qualité est déjà proche de celle de certains modèles de génération d'images traditionnels au moment de leur première publication. Cela valide la faisabilité d'utiliser un système de dynamique physique pour des tâches d'IA à grande échelle, même s'il ne dépasse pas encore les modèles traditionnels les plus avancés.

QSelon Naveen Rao, quel avantage crucial les systèmes dynamiques (comme Un-0) offrent-ils par rapport à l'architecture de von Neumann traditionnelle en termes d'efficacité énergétique ?

ASelon Naveen Rao, dans l'architecture de von Neumann traditionnelle, la majeure partie de l'énergie est consommée par le transfert d'informations entre la mémoire et l'unité de calcul. Les systèmes dynamiques, quant à eux, fusionnent le calcul et la mémoire dans une même entité physique. De plus, ils peuvent tolérer le bruit, ce qui ouvre de nouvelles opportunités pour économiser l'énergie liée à la communication.

QQuel est le rôle du "décodeur" dans l'architecture du modèle Un-0 pendant la génération d'une image ?

ADans l'architecture du modèle Un-0, le décodeur est un composant traditionnel (représentant moins de 13% des paramètres du modèle). Son rôle est de transformer la grille numérique de phases d'oscillateurs (l'espace latent capturé à un instant T spécifique après l'évolution du système physique) en pixels d'image finale.

Lectures associées

L'essor des stablecoins en Amérique latine n'est pas, par essence, une « victoire de la cryptographie »

L'essor des stablecoins en Amérique latine n'est pas une victoire de la crypto, mais une réponse à un besoin ancien : le besoin de faire parvenir de l'argent à la maison. Historiquement, des systèmes comme les "lettres d'argent" (银信) des immigrants chinois ou les *remesas* ont résolu ce problème par la confiance communautaire et des réseaux informels. Aujourd'hui, des pays comme le Mexique, l'Argentine ou le Venezuela font face à des monnaies locales volatiles, des coûts de transfert élevés et des contrôles de change. Les stablecoins (USDT, USDC) y sont adoptés non comme actifs spéculatifs, mais comme des "dollars numériques" pratiques pour les envois de fonds, les paiements transfrontaliers ou se protéger de l'inflation. Cependant, le véritable défi ne réside pas dans le transfert blockchain lui-même, qui est rapide et peu coûteux, mais dans les "deux extrémités" : l'entrée (où obtenir les stablecoins avec des devises locales) et la sortie (où les convertir en argent utilisable localement, via Pix au Brésil, SPEI au Mexique, ou du cash). Les régulateurs latino-américains, conscients de cette réalité, cherchent moins à interdire qu'à encadrer ces actifs, les traitant comme une nouvelle infrastructure de paiement et de change. Ainsi, l'avenir des stablecoins dans la région dépendra de leur capacité à s'intégrer de manière invisible dans des solutions qui répondent à la question centrale : l'argent est-il arrivé à bon port ?

marsbitIl y a 1 mins

L'essor des stablecoins en Amérique latine n'est pas, par essence, une « victoire de la cryptographie »

marsbitIl y a 1 mins

Le revirement d'Airwallex : Du mépris des stablecoins il y a un an, à un engagement capital flamboyant aujourd'hui

Le géant du paiement transfrontalier Airwallex (空中云汇) a dirigé un tour de financement de série initiale pour Metal, un réseau de règlement pour la finance tokenisée. Cette décision est remarquable car son fondateur, Jack Zhang, était l'un des critiques les plus acérés des stablecoins il y a un an, déclarant qu'ils n'offraient pas d'avantages concrets pour les paiements B2B et les transferts internationaux majeurs. L'article explique ce revirement stratégique. Metal vise à être une couche de règlement blockchain de niveau institutionnel pour la tokenisation d'actifs financiers traditionnels (actions, obligations). Pour Airwallex, cet investissement représente une opportunité d'intégrer ces nouveaux actifs numériques à son réseau de paiement existant. Bien que Zhang maintienne une distinction entre les stablecoins (qu'il considère comme des monnaies fiduciaires tokenisées) et les cryptomonnaies spéculatives, son action démontre une reconnaissance pragmatique de l'évolution du secteur. Le texte souligne que cette adoption s'inscrit dans une tendance plus large : les institutions financières traditionnelles (comme Stripe, Mastercard ou JPMorgan) développent ou acquièrent activement des capacités en matière de stablecoins et de paiements numériques. La conclusion est que, au-delà du débat sur l'utilité immédiate, les stablecoins et les réseaux tokenisés deviennent un champ stratégique incontournable pour l'avenir de la finance, en particulier pour les paiements transfrontaliers, l'inclusion financière et l'efficacité des règlements. Airwallex choisit ainsi de s'impliquer pour sécuriser sa place à cette nouvelle table des paiements.

marsbitIl y a 46 mins

Le revirement d'Airwallex : Du mépris des stablecoins il y a un an, à un engagement capital flamboyant aujourd'hui

marsbitIl y a 46 mins

Trading

Spot
活动图片