a16z : L’avenir de l’IA visuelle n’est pas dans les images, mais dans le code
Au cours des dernières années, l'IA visuelle a été largement évaluée sur sa capacité à générer des pixels réalistes, comme avec les modèles de diffusion produisant des images et vidéos. Cependant, selon a16z, l'avenir ne réside pas seulement dans des rendus visuels, mais dans la génération d'artefacts de code sous-jacents—des fichiers structurés (HTML/CSS, SVG, scripts 3D, etc.) qui peuvent être édités, itérés et intégrés dans des workflows de production.
L'article distingue deux approches : la génération native pixel (adaptée au réalisme et à l'exploration) et la génération native code (qui produit des représentations symboliques). Cette dernière permet un cycle "code → rendu → vérification → modification", où le modèle affine un programme visuel plutôt que de simplement échantillonner de nouvelles images. Cela est crucial pour des domaines comme la conception UI, l'animation et la 3D, où les acteurs ont besoin d'actifs modifiables et réutilisables, et non de simples rendus statiques.
La pile technologique repose sur un modèle de codage, une représentation symbolique et un moteur de rendu. Cette approche est particulièrement prometteuse pour la 3D, où la cohérence structurelle et les contraintes fonctionnelles (ex. : articulations, mouvements) sont essentielles. Des outils comme OmniLottie, VIGA ou Articraft3D illustrent cette tendance.
Si cette vision se concrétise, les futurs outils d'IA visuelle maîtriseront l'ensemble du cycle de production, utilisant les moteurs de rendu comme environnements de feedback. L'objectif n'est plus seulement de créer de belles images, mais de produire des artefacts visuels véritablement exploitables, ouvrant ainsi la voie à une intégration plus profonde de l'IA dans les chaînes de création.
marsbitIl y a 23 mins