Microsoft Open Source la Famille d'IA Vocale de Pointe VibeVoice : Traite 90 Minutes de Dialogue Multi-Locuteurs en une Seule Fois, Rapidement 27K Stars sur GitHub

marsbitPublié le 2026-03-30Dernière mise à jour le 2026-03-30

Résumé

Microsoft a récemment open-sourcé VibeVoice, une famille de modèles vocaux IA de pointe, incluant la reconnaissance vocale (ASR) et la synthèse vocale (TTS). Le projet, sous licence MIT, permet un déploiement local sans frais d’abonnement cloud et a rapidement atteint 27K étoiles sur GitHub. VibeVoice-ASR-7B traite jusqu’à 60 minutes d’audio en une seule fois, avec transcription structurée, identification des locuteurs, horodatage et support multilingue. VibeVoice-TTS-1.5B génère jusqu’à 90 minutes de dialogue naturel avec jusqu’à 4 locuteurs, idéal pour les podcasts ou livres audio. VibeVoice-Realtime-0.5B offre une latence d’environ 300 ms pour des applications temps réel. Le projet intègre des mesures de sécurité comme le filigrane audio. Disponible sur GitHub et Hugging Face, il ouvre des perspectives dans la création de contenu, l’accessibilité et les interfaces vocales.

Microsoft a récemment open sourcé une famille de modèles d'IA vocale de pointe nommée VibeVoice, couvrant des capacités telles que la reconnaissance automatique de la parole (ASR) et la synthèse vocale (TTS). Le projet a rapidement attiré l'attention de la communauté des développeurs grâce à son puissant traitement audio long, sa génération de dialogue naturel multi-locuteurs et ses caractéristiques de faible latence en temps réel, recueillant actuellement environ 27K Stars sur GitHub.

En tant que cadre de recherche open source, VibeVoice utilise la licence MIT, prend en charge le déploiement local, ne nécessite pas de frais d'abonnement cloud, et vise à promouvoir la collaboration et l'innovation dans le domaine de la synthèse vocale. La famille de modèles comprend principalement trois membres clés, chacun avec un accent différent, résolvant ensemble les points douloureux traditionnels de l'IA vocale dans le traitement des longues séquences, la cohérence des locuteurs et la fluidité naturelle.

VibeVoice-ASR-7B : Un outil de transcription structurée de la parole pouvant aller jusqu'à 60 minutes

VibeVoice-ASR-7B est un modèle unifié de transcription de la parole, capable de traiter en une seule fois des fichiers audio jusqu'à 60 minutes, produisant directement des résultats de transcription structurés. La sortie comprend non seulement "qui parle" (identification du locuteur), "quand il parle" (horodatage précis), mais aussi "ce qui est dit" (contenu détaillé), et prend en charge une fonction de mots-clés personnalisés, pouvant efficacement améliorer la précision de reconnaissance des noms propres ou termes techniques. Le modèle prend en charge plus de 50 langues, adapté à des scénarios complexes comme la transcription de longues réunions ou de podcasts.

Les développeurs de la communauté ont déjà créé des outils utiles basés sur ce modèle, comme une méthode de saisie vocale nommée Vibing, supportant les plateformes macOS et Windows. Les retours des utilisateurs montrent que sa vitesse et sa justesse de reconnaissance sont bonnes, pouvant significativement améliorer l'efficacité de la saisie vocale quotidienne.

VibeVoice-TTS-1.5B : Génération de parole expressive multi-locuteurs de 90 minutes

VibeVoice-TTS-1.5B est le modèle central axé sur la synthèse vocale, capable de produire en une seule génération un audio continu jusqu'à 90 minutes, supportant la simulation de dialogue naturel pour jusqu'à 4 locuteurs différents. La parole générée par le modèle est expressive, sonnant naturelle et fluide, capable de simuler des pauses réalistes, des emphases et des tournures émotionnelles, très adaptée à la production de podcasts, de narrations audio longues, de livres audio ou de contenus à dialogues multi-rôles.

Comparé à de nombreux modèles TTS traditionnels ne supportant que 1-2 locuteurs, VibeVoice-TTS a réalisé une percée significative dans la cohérence des longs formats et multi-locuteurs. Son architecture sous-jacente utilise un tokeniseur de parole continu (tokeniseur acoustique et sémantique) combiné à une conception à faible taux de trame (7.5Hz), améliorant considérablement l'efficacité computationnelle du traitement des longues séquences.

VibeVoice-Realtime-0.5B : TTS en temps réel avec une latence d'environ 300 ms

VibeVoice-Realtime-0.5B se concentre sur les scénarios en temps réel, supportant une entrée de texte en flux, avec une latence de sortie du premier audio d'environ 300 millisecondes, tout en pouvant générer une parole longue d'environ 10 minutes. Ce modèle est particulièrement adapté aux applications interactives nécessitant une réponse immédiate, comme les assistants vocaux en temps réel ou les scénarios de doublage en direct.

De plus, le projet introduit un support expérimental de locuteurs, incluant la parole multilingue et diverses variantes de styles d'anglais, offrant plus d'espace de personnalisation aux développeurs.

Commentaire AIbase : L'open sourcing de Microsoft VibeVoice non seulement abaisse le seuil d'utilisation de l'IA vocale haute performance, mais fournit également une solution complète pour le déploiement local. Le projet a brièvement été retiré en raison de risques d'utilisation abusive, puis remis en ligne grâce à des mécanismes de sécurité comme l'incorporation de filigranes audio et de déclarations de non-responsabilité audibles, illustrant les principes d'un développement responsable de l'IA. Actuellement, les développeurs peuvent obtenir les poids des modèles sur le dépôt GitHub et sur Hugging Face, et les essayer rapidement via des plateformes comme Colab.

Avec les contributions continues de la communauté open source (comme une version fork optimisée pour Apple Silicon), VibeVoice devrait accélérer son déploiement dans des domaines tels que la création de contenu, les outils d'accessibilité et l'interaction vocale. Les développeurs intéressés peuvent visiter la page officielle du projet Microsoft pour explorer davantage.

Adresse du projet : https://github.com/microsoft/VibeVoice

Questions liées

QQu'est-ce que VibeVoice et pourquoi a-t-il rapidement gagné 27K étoiles sur GitHub ?

AVibeVoice est une famille de modèles d'IA vocale open-source de Microsoft, comprenant la reconnaissance automatique de la parole (ASR) et la synthèse vocale (TTS). Il a rapidement gagné en popularité (27K étoiles) grâce à sa puissante capacité de traitement audio long, sa génération de dialogue naturel multi-locuteurs et ses caractéristiques de faible latence en temps réel.

QQuelle est la capacité de traitement audio unique du modèle VibeVoice-ASR-7B et quelles informations fournit-il ?

ALe modèle VibeVoice-ASR-7B peut traiter en une seule fois des fichiers audio pouvant durer jusqu'à 60 minutes. Il fournit une transcription structurée incluant l'identification de l'orateur, des horodatages précis et le contenu détaillé de la parole.

QQuelle est la particularité du modèle VibeVoice-TTS-1.5B en termes de génération de dialogue ?

ALe modèle VibeVoice-TTS-1.5B peut générer en une seule fois jusqu'à 90 minutes d'audio continu et simuler des conversations naturelles impliquant jusqu'à 4 locuteurs différents, avec une expressivité et une fluidité naturelle, imitant les pauses, les emphases et les tournures émotionnelles réelles.

QÀ quel scénario le modèle VibeVoice-Realtime-0.5B est-il particulièrement adapté et quelle est sa latence ?

ALe modèle VibeVoice-Realtime-0.5B est spécialement conçu pour les scénarios en temps réel, comme les assistants vocaux interactifs ou le doublage en direct. Il présente une latence d'environ 300 millisecondes pour la sortie du premier audio et prend en charge une entrée de texte en flux continu.

QQuelles mesures Microsoft a-t-il prises pour atténuer les risques d'utilisation abusive de VibeVoice ?

APour atténuer les risques d'utilisation abusive, Microsoft a brièvement retiré le projet avant de le remettre en ligne avec des mécanismes de sécurité intégrés, tels que le tatouage audio (audio watermarking) et des déclarations de non-responsabilité audibles.

Lectures associées

Cinq personnes impliquées dans un délit d'initié lié à la guerre, celui qui a gagné le plus a été arrêté

Le 24 avril, le ministère américain de la Justice a annoncé l'arrestation de Gannon Ken Van Dyke, un sergent de l'armée américaine, pour délit d'initié lié à une opération militaire visant le président vénézuélien Nicolas Maduro. Van Dyke aurait gagné plus de 400 000 dollars en pariant sur la plateforme de prédiction Polymarket avant l'opération du 3 janvier. Son compte, identifié comme 0x31a5, avait été signalé dès le 4 janvier par PolyBeats parmi cinq comptes suspects. Van Dyke, qui a participé directement à l'opération, a retiré ses gains rapidement et tenté de dissimuler ses traces numériques. Bien qu’il soit le premier inculpé dans cette affaire, quatre autres comptes ayant réalisé des profits similaires (entre 34 000 et 145 619 dollars) n’ont pour l’instant fait l’objet d’aucune poursuite. Les autorités pourraient toutefois intensifier leurs enquêtes, notamment depuis le renforcement des règles de transparence de Polymarket en mars et la collaboration active de la plateforme.

marsbitIl y a 16 mins

Cinq personnes impliquées dans un délit d'initié lié à la guerre, celui qui a gagné le plus a été arrêté

marsbitIl y a 16 mins

La détention de Bitcoin s'intensifie : l'offre des détenteurs à long terme augmente de 303 000 BTC

Selon les données de CryptoQuant, les détenteurs à long terme (LTH) de Bitcoin ont accru leurs réserves de 303 500 BTC au cours du dernier mois, signalant un changement de comportement du marché vers une accumulation persistante. Cette tendance, qui contraste avec les distributions nettes observées fin 2025, indique que l'offre se déplace vers des "mains plus fortes". Parallèlement, les fonds ETF spot et les stratégies institutionnelles ont également absorbé une part significative de l'offre. Cependant, la récente hausse des prix vers 77 600 $ est principalement tirée par la demande sur le marché des futures perpétuels, et non par la demande spot, qui reste faible. Les analystes alertent sur les risques de correction si les traders prennent leurs bénéfices sans soutien de la demande spot.

bitcoinistIl y a 38 mins

La détention de Bitcoin s'intensifie : l'offre des détenteurs à long terme augmente de 303 000 BTC

bitcoinistIl y a 38 mins

Bitwise : Optimiste quant à la performance du Bitcoin au second semestre, l'IA et la régulation vont déclencher une nouvelle saison des altcoins

Lors d'un récent épisode du Milk Road Show, les dirigeants de Bitwise, Matt Hougan (CIO) et Ryan Rasmussen (responsable de la recherche), ont partagé une vision extrêmement optimiste pour le Bitcoin et l'écosystème crypto. Ils estiment que l'objectif de 1 million de dollars par Bitcoin pourrait être « trop conservateur », le décrivant comme un pari « deux en un » : une réserve de valeur numérique (or digital) assortie d'une option d'appel hors de la monnaie pour devenir un actif de règlement international, une idée renforcée par l'instabilité géopolitique récente. Ils reconnaissent que le premier trimestre 2026 a été médiocre avec des baisses généralisées, mais soulignent que les flux d'actualités positifs (lancements de ETF par Morgan Stanley et Goldman Sachs, nouveau cadre réglementaire) sont tournés vers l'avenir et justifient l'optimisme actuel. Un point de données clé est l'explosion des actifs du monde réel tokenisés (RWA), passant de moins de 2 milliards il y a quelques années à près de 30 milliards de dollars aujourd'hui. Enfin, Hougan prédit un « nouvel altseason » pour 2026, catalysé par la combinaison de trois facteurs : le nouveau cadre réglementaire clair de la SEC pour les jetons, l'émergence de blockchains performantes et les capacités de l'IA. Cela permettra, selon lui, une nouvelle vague d'innovation et de projets légitimes, bien différente de l'ère ICO. Bitwise mise également sur cette diversification en annonçant un ETF Avalanche (AVAX), citant son architecture unique et sa croissance dans le secteur RWA.

marsbitIl y a 1 h

Bitwise : Optimiste quant à la performance du Bitcoin au second semestre, l'IA et la régulation vont déclencher une nouvelle saison des altcoins

marsbitIl y a 1 h

La Hausse du Bitcoin Près de 80 000 $ Alimente un Rebondissement Marqué du Sentiment sur les Marchés Cryptos

L'analyse révèle un déplacement significatif de plus de 300 000 Bitcoins vers des portefeuilles de détenteurs à long terme au cours des 30 derniers jours, indiquant une conviction accrue des investisseurs sérieux. Cette accumulation s'accompagne d'un rebond du sentiment de marché, l'indice Crypto Fear & Greed grimpant de 14 points en un jour pour atteindre 46/100, son plus haut niveau depuis janvier, bien qu'il reste en zone de "Peur". La récente hausse du Bitcoin, qui a frôlé les 80 000 $, a été entièrement portée par la demande sur le marché des futures perpétuels, tandis que la demande au comptant continue de se contracter. Les analystes de CryptoQuant mettent en garde contre un risque de correction si les prises de bénéfices interviennent sans un renforcement de l'activité au comptant, un schéma souvent de courte durée. La société Strategy (ex-MicroStrategy) a été un acheteur agressif, acquérant 53 000 BTC sur la période. Cependant, les traders de détail ne sont pas revenus en force, ce qui pourrait limiter la progression future de l'indice de sentiment qui s'appuie sur des données liées à leur activité.

bitcoinistIl y a 1 h

La Hausse du Bitcoin Près de 80 000 $ Alimente un Rebondissement Marqué du Sentiment sur les Marchés Cryptos

bitcoinistIl y a 1 h

Intel bondit de 20 %, le CPU revient au centre de la scène à l'ère des agents

Intel a bondé de 20% après avoir publié des résultats du Q1 2026 bien au-delà des attentes, avec un chiffre d'affaires de 13,6 milliards de dollars (+7% en glissement annuel) et un bénéfice non-GAAP par action de 0,29 $, surpassant les prévisions de 29 fois. La division Data Center and AI (DCAI) a été le moteur de cette performance, avec un revenu record de 5,1 milliards de dollars (+22%), marquant un rebond en forme de U. Ce renouveau s'explique par le changement de nature de la charge de travail IA : le passage de l'entraînement des modèles vers l'inférence et l'ère des Agents. Les études montrent que dans les flux de travail d'Agent, le CPU redevient central, représentant 50% à 90% de la latence totale pour des tâches comme l'appel d'API et la coordination. Le rebond d'Intel est également le résultat d'un changement stratégique majeur. Après une période difficile en 2024 (licenciements, abandon du projet d'GPU Falcon Shores), l'arrivée du nouveau PDG Lip-Bu Tan a recentré la société sur son cœur de métier : les CPU. Le marché commence ainsi à revaloriser le rôle crucial du CPU dans l'infrastructure IA.

marsbitIl y a 2 h

Intel bondit de 20 %, le CPU revient au centre de la scène à l'ère des agents

marsbitIl y a 2 h

Trading

Spot

Futures

Articles tendance

Comment acheter ONE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Harmony (ONE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Harmony (ONE).Solde ：utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers ：pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P ：tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Harmony (ONE)Après avoir acheté vos Harmony (ONE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Harmony (ONE)Tradez facilement Harmony (ONE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

352 vues totalesPublié le 2024.12.12Mis à jour le 2025.03.21

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ONE (ONE) sont présentées ci-dessous.