Microsoft Open Source la Famille d'IA Vocale de Pointe VibeVoice : Traite 90 Minutes de Dialogue Multi-Locuteurs en une Seule Fois, Rapidement 27K Stars sur GitHub

marsbitPublié le 2026-03-30Dernière mise à jour le 2026-03-30

Résumé

Microsoft a récemment open-sourcé VibeVoice, une famille de modèles vocaux IA de pointe, incluant la reconnaissance vocale (ASR) et la synthèse vocale (TTS). Le projet, sous licence MIT, permet un déploiement local sans frais d’abonnement cloud et a rapidement atteint 27K étoiles sur GitHub. VibeVoice-ASR-7B traite jusqu’à 60 minutes d’audio en une seule fois, avec transcription structurée, identification des locuteurs, horodatage et support multilingue. VibeVoice-TTS-1.5B génère jusqu’à 90 minutes de dialogue naturel avec jusqu’à 4 locuteurs, idéal pour les podcasts ou livres audio. VibeVoice-Realtime-0.5B offre une latence d’environ 300 ms pour des applications temps réel. Le projet intègre des mesures de sécurité comme le filigrane audio. Disponible sur GitHub et Hugging Face, il ouvre des perspectives dans la création de contenu, l’accessibilité et les interfaces vocales.

Microsoft a récemment open sourcé une famille de modèles d'IA vocale de pointe nommée VibeVoice, couvrant des capacités telles que la reconnaissance automatique de la parole (ASR) et la synthèse vocale (TTS). Le projet a rapidement attiré l'attention de la communauté des développeurs grâce à son puissant traitement audio long, sa génération de dialogue naturel multi-locuteurs et ses caractéristiques de faible latence en temps réel, recueillant actuellement environ 27K Stars sur GitHub.

En tant que cadre de recherche open source, VibeVoice utilise la licence MIT, prend en charge le déploiement local, ne nécessite pas de frais d'abonnement cloud, et vise à promouvoir la collaboration et l'innovation dans le domaine de la synthèse vocale. La famille de modèles comprend principalement trois membres clés, chacun avec un accent différent, résolvant ensemble les points douloureux traditionnels de l'IA vocale dans le traitement des longues séquences, la cohérence des locuteurs et la fluidité naturelle.

VibeVoice-ASR-7B : Un outil de transcription structurée de la parole pouvant aller jusqu'à 60 minutes

VibeVoice-ASR-7B est un modèle unifié de transcription de la parole, capable de traiter en une seule fois des fichiers audio jusqu'à 60 minutes, produisant directement des résultats de transcription structurés. La sortie comprend non seulement "qui parle" (identification du locuteur), "quand il parle" (horodatage précis), mais aussi "ce qui est dit" (contenu détaillé), et prend en charge une fonction de mots-clés personnalisés, pouvant efficacement améliorer la précision de reconnaissance des noms propres ou termes techniques. Le modèle prend en charge plus de 50 langues, adapté à des scénarios complexes comme la transcription de longues réunions ou de podcasts.

Les développeurs de la communauté ont déjà créé des outils utiles basés sur ce modèle, comme une méthode de saisie vocale nommée Vibing, supportant les plateformes macOS et Windows. Les retours des utilisateurs montrent que sa vitesse et sa justesse de reconnaissance sont bonnes, pouvant significativement améliorer l'efficacité de la saisie vocale quotidienne.

VibeVoice-TTS-1.5B : Génération de parole expressive multi-locuteurs de 90 minutes

VibeVoice-TTS-1.5B est le modèle central axé sur la synthèse vocale, capable de produire en une seule génération un audio continu jusqu'à 90 minutes, supportant la simulation de dialogue naturel pour jusqu'à 4 locuteurs différents. La parole générée par le modèle est expressive, sonnant naturelle et fluide, capable de simuler des pauses réalistes, des emphases et des tournures émotionnelles, très adaptée à la production de podcasts, de narrations audio longues, de livres audio ou de contenus à dialogues multi-rôles.

Comparé à de nombreux modèles TTS traditionnels ne supportant que 1-2 locuteurs, VibeVoice-TTS a réalisé une percée significative dans la cohérence des longs formats et multi-locuteurs. Son architecture sous-jacente utilise un tokeniseur de parole continu (tokeniseur acoustique et sémantique) combiné à une conception à faible taux de trame (7.5Hz), améliorant considérablement l'efficacité computationnelle du traitement des longues séquences.

VibeVoice-Realtime-0.5B : TTS en temps réel avec une latence d'environ 300 ms

VibeVoice-Realtime-0.5B se concentre sur les scénarios en temps réel, supportant une entrée de texte en flux, avec une latence de sortie du premier audio d'environ 300 millisecondes, tout en pouvant générer une parole longue d'environ 10 minutes. Ce modèle est particulièrement adapté aux applications interactives nécessitant une réponse immédiate, comme les assistants vocaux en temps réel ou les scénarios de doublage en direct.

De plus, le projet introduit un support expérimental de locuteurs, incluant la parole multilingue et diverses variantes de styles d'anglais, offrant plus d'espace de personnalisation aux développeurs.

Commentaire AIbase : L'open sourcing de Microsoft VibeVoice non seulement abaisse le seuil d'utilisation de l'IA vocale haute performance, mais fournit également une solution complète pour le déploiement local. Le projet a brièvement été retiré en raison de risques d'utilisation abusive, puis remis en ligne grâce à des mécanismes de sécurité comme l'incorporation de filigranes audio et de déclarations de non-responsabilité audibles, illustrant les principes d'un développement responsable de l'IA. Actuellement, les développeurs peuvent obtenir les poids des modèles sur le dépôt GitHub et sur Hugging Face, et les essayer rapidement via des plateformes comme Colab.

Avec les contributions continues de la communauté open source (comme une version fork optimisée pour Apple Silicon), VibeVoice devrait accélérer son déploiement dans des domaines tels que la création de contenu, les outils d'accessibilité et l'interaction vocale. Les développeurs intéressés peuvent visiter la page officielle du projet Microsoft pour explorer davantage.

Adresse du projet : https://github.com/microsoft/VibeVoice

Cryptos en tendance

CitreaCTR

wrapped stUSDTWSTUSDT

Questions liées

QQu'est-ce que VibeVoice et pourquoi a-t-il rapidement gagné 27K étoiles sur GitHub ?

AVibeVoice est une famille de modèles d'IA vocale open-source de Microsoft, comprenant la reconnaissance automatique de la parole (ASR) et la synthèse vocale (TTS). Il a rapidement gagné en popularité (27K étoiles) grâce à sa puissante capacité de traitement audio long, sa génération de dialogue naturel multi-locuteurs et ses caractéristiques de faible latence en temps réel.

QQuelle est la capacité de traitement audio unique du modèle VibeVoice-ASR-7B et quelles informations fournit-il ?

ALe modèle VibeVoice-ASR-7B peut traiter en une seule fois des fichiers audio pouvant durer jusqu'à 60 minutes. Il fournit une transcription structurée incluant l'identification de l'orateur, des horodatages précis et le contenu détaillé de la parole.

QQuelle est la particularité du modèle VibeVoice-TTS-1.5B en termes de génération de dialogue ?

ALe modèle VibeVoice-TTS-1.5B peut générer en une seule fois jusqu'à 90 minutes d'audio continu et simuler des conversations naturelles impliquant jusqu'à 4 locuteurs différents, avec une expressivité et une fluidité naturelle, imitant les pauses, les emphases et les tournures émotionnelles réelles.

QÀ quel scénario le modèle VibeVoice-Realtime-0.5B est-il particulièrement adapté et quelle est sa latence ?

ALe modèle VibeVoice-Realtime-0.5B est spécialement conçu pour les scénarios en temps réel, comme les assistants vocaux interactifs ou le doublage en direct. Il présente une latence d'environ 300 millisecondes pour la sortie du premier audio et prend en charge une entrée de texte en flux continu.

QQuelles mesures Microsoft a-t-il prises pour atténuer les risques d'utilisation abusive de VibeVoice ?

APour atténuer les risques d'utilisation abusive, Microsoft a brièvement retiré le projet avant de le remettre en ligne avec des mécanismes de sécurité intégrés, tels que le tatouage audio (audio watermarking) et des déclarations de non-responsabilité audibles.

Lectures associées

Le Web3, autrefois très en vogue, entre dans une vague de licenciements

L'industrie du Web3, autrefois en plein essor, est désormais confrontée à une vague de licenciements massive et rapide, largement attribuée aux transformations induites par l'IA et aux pressions financières. Les plateformes d'échange de cryptomonnaies, en première ligne, réduisent leurs effectifs parfois de manière brutale : coupure des accès systèmes sans préavis, licenciements présentés comme des départs volontaires pour éviter des indemnités, ou manipulation des évaluations de performance. Cette atmosphère génère une culture toxique, marquée par une surveillance étroite, des conflits internes entre dirigeants et un management par la peur. Les employés restants subissent une charge de travail accrue, des réunions incessantes et une perte de sens, dans un climat de méfiance généralisée. Le modèle économique du secteur montre ses limites : baisse des volumes de transaction et des frais associés, effondrement de la liquidité, effondrement des projets « altcoins », et pratiques prédatrices comme des frais d'inscription exorbitants pour les nouveaux jetons. Les investisseurs institutionnels (VC) se sont largement retirés. Conséquence : les professionnels licenciés tentent majoritairement de se reconvertir vers l'industrie de l'IA. Cependant, beaucoup se heurtent à une forte stigmatisation de leur expérience dans la crypto de la part des secteurs traditionnels de la finance ou même de l'IA « sérieuse », perçue comme un handicap. Contrairement aux cycles précédents, ce « grand froid » semble plus structurel. La concurrence s'intensifie pour une base d'utilisateurs réduite, les plateformes se livrant une guerre d'usure au lieu d'innover. La question n'est plus seulement celle d'un cycle, mais de la responsabilité d'un écosystème qui a pu épuiser sa propre base d'utilisateurs et de talents.

marsbitIl y a 3 mins

Le Web3, autrefois très en vogue, entre dans une vague de licenciements

marsbitIl y a 3 mins

Les espoirs d’une hausse du cours du bitcoin se renforcent ! Une société d’analyse révèle le « niveau du destin » pour le BTC !

La cryptomonnaie phare, le Bitcoin, commence la nouvelle semaine autour de 62 000 dollars. Malgré l'incertitude persistante concernant sa réaction aux récents développements géopolitiques entre les États-Unis et l'Iran, la société d'analyse BIT (anciennement Matrixport) note que les craintes d'un effondrement sur le marché des options BTC s'atténuent. Selon BIT, la perception du risque baissier faiblit, suggérant que le Bitcoin pourrait former un plancher plus élevé et que le marché a probablement dépassé la phase de craintes de vente les plus intenses. La société souligne que le maintien d'une perspective positive et du niveau de soutien à 62 000 dollars est crucial pour une reprise. Elle observe également que les positions actuelles des acteurs du marché sont relativement modestes, ce qui devrait limiter les pressions de vente supplémentaires. Le mouvement des prix sur le marché des options cette semaine sera décisif pour l'orientation à court terme du Bitcoin. Un resserrement de l'écart négatif (skew) de la courbe des options pourrait relancer l'élan haussier. Toutefois, BIT rappelle que les pressions macroéconomiques persistent, citant les événements géopolitiques et la hausse des rendements des obligations du Trésor américain comme principaux facteurs de risque pour le Bitcoin et les actifs risqués en général. La société conclut en précisant que son analyse ne constitue en aucun cas une recommandation d'investissement.

cryptonews.ruIl y a 9 mins

Les espoirs d’une hausse du cours du bitcoin se renforcent ! Une société d’analyse révèle le « niveau du destin » pour le BTC !

cryptonews.ruIl y a 9 mins

Les ventes chutent de 26 % et pourtant les prix augmentent ? Le dilemme de Xiaomi

L'industrie des smartphones traverse une période difficile. Le coût des puces mémoire, principalement les DRAM et NAND, a explosé en raison d'une réorientation de la production des grands fabricants vers la mémoire à haute bande passante (HBM), plus rentable pour l'IA. Les coûts des composants de stockage pour les téléphones ont ainsi été multipliés par près de 4 par rapport au début de 2025. Face à cette pression sans précédent, Xiaomi a procédé le 2 août à sa troisième augmentation de prix de l'année. Cette fois, les modèles phares comme la série Mi 17 et les Redmi K90 sont concernés, avec des hausses allant jusqu'à 500 yuans. Cette décision intervient dans un contexte de baisse significative des ventes : au deuxième trimestre 2026, les expéditions mondiales de Xiaomi ont chuté de 26,3% par rapport à l'année précédente, la plus forte baisse parmi les cinq principaux fabricants. Cette situation crée un dilemme pour Xiaomi. D'un côté, la hausse des coûts l'oblige à augmenter ses prix pour préserver ses marges. De l'autre, ces augmentations risquent de freiner davantage la demande des consommateurs, déjà en baisse. Le fabricant tente d'atténuer l'impact par des stratégies comme le développement de ses propres puces (série Surge) et l'ajustement des configurations de stockage proposées. Xiaomi n'est pas seul dans cette situation. Depuis mars, d'autres marques majeures comme OPPO, vivo et Apple ont également augmenté leurs prix. Les experts estiment qu'une nouvelle vague d'augmentations est probable dans le second semestre, signant le début d'un cycle de hausse des prix pour toute l'industrie, qui va contraindre les fabricants et les consommateurs à revoir leurs stratégies.

marsbitIl y a 18 mins

Les ventes chutent de 26 % et pourtant les prix augmentent ? Le dilemme de Xiaomi

marsbitIl y a 18 mins

23 nouvelles entreprises créées en 7 mois, les « modèles du monde » entrent dans une phase de « production de masse »

Selon un rapport d'IT桔one, la période de janvier à août 2026 a vu la création de 23 nouvelles entreprises chinoises spécialisées dans le domaine des "modèles du monde" (world models), dépassant ainsi le total de l'année 2023. Parmi elles, 18 ont levé des fonds rapidement, et deux ont atteint le statut de licorne dès leur tour de financement initial. Les profils des fondateurs sont extrêmement diversifiés, allant de jeunes chercheurs universitaires (dont un de 22 ans) à d'anciens cadres de grandes entreprises technologiques comme Alibaba ou Tencent. Les sociétés se structurent autour de cinq grandes approches techniques : les modèles de base génériques, l'intelligence spatiale 4D, le raisonnement causal, l'intelligence incarnée (robots) et des applications verticales (logistique, sciences). Les investissements sont massifs et précoces, avec des tours de table atteignant des centaines de millions de dollars dès les phases de seed ou pre-A. Des fonds de capital-risque de premier plan (Sequoia China, Hillhouse, Tencent) et des acteurs industriels (Xiaomi, Zhiyuan Robotics) investissent activement pour construire un écosystème. Le secteur, encore en phase exploratoire, voit une forte symbiose entre la recherche académique et l'industrie. La concentration géographique reste forte à Pékin (notamment dans le district de Haidian), mais des pôles émergent à Shanghai, Hangzhou et Shenzhen. En somme, le domaine des modèles du monde est entré dans une phase de concrétisation intense, marquée par des financements records et une vive compétition pour définir la prochaine étape de l'IA.

marsbitIl y a 20 mins

23 nouvelles entreprises créées en 7 mois, les « modèles du monde » entrent dans une phase de « production de masse »

marsbitIl y a 20 mins

Trois trimestres consécutifs de baisse, le marché des cryptos traverse son plus long reflux depuis 2022

Selon le rapport de CoinGecko pour le deuxième trimestre 2026, le marché crypto subit son troisième trimestre consécutif de baisse. La capitalisation totale a reculé de 12,6 %, passant de 2,4 à 2,1 billions de dollars, soit un retrait d'environ 52 % par rapport au pic de fin 2025. Trois tendances majeures attestent d'un retrait ordonné des capitaux : la capitalisation des stablecoins a baissé pour la première fois depuis 2023, les volumes de négociation sur les exchanges centralisés ont chuté de 27,9 %, et la valeur totale verrouillée (TVL) en DeFi a plongé de 23,4 %. Le Bitcoin (-14,2 %) et l'Ethereum (-25,4 %) ont sous-performé par rapport aux actifs traditionnels comme les actions, signalant une rupture des narratifs d'actif refuge ou technologique. Seuls quelques segments comme les marchés de prédiction ont connu une croissance. Une reprise modérée en juillet (+9,8 % pour le BTC) n'inverse pas la tendance, le marché restant en attente d'un assouplissement des politiques monétaires et de l'émergence de cas d'usage réels au-delà de la spéculation.

marsbitIl y a 31 mins

Trois trimestres consécutifs de baisse, le marché des cryptos traverse son plus long reflux depuis 2022

marsbitIl y a 31 mins

Trading

Spot

Articles tendance

Comment acheter ONE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Harmony (ONE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Harmony (ONE).Solde ：utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers ：pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P ：tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Harmony (ONE)Après avoir acheté vos Harmony (ONE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Harmony (ONE)Tradez facilement Harmony (ONE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

562 vues totalesPublié le 2024.12.12Mis à jour le 2026.06.02

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ONE (ONE) sont présentées ci-dessous.