Microsoft Open Source la Famille d'IA Vocale de Pointe VibeVoice : Traite 90 Minutes de Dialogue Multi-Locuteurs en une Seule Fois, Rapidement 27K Stars sur GitHub

marsbitPublié le 2026-03-30Dernière mise à jour le 2026-03-30

Résumé

Microsoft a récemment open-sourcé VibeVoice, une famille de modèles vocaux IA de pointe, incluant la reconnaissance vocale (ASR) et la synthèse vocale (TTS). Le projet, sous licence MIT, permet un déploiement local sans frais d’abonnement cloud et a rapidement atteint 27K étoiles sur GitHub. VibeVoice-ASR-7B traite jusqu’à 60 minutes d’audio en une seule fois, avec transcription structurée, identification des locuteurs, horodatage et support multilingue. VibeVoice-TTS-1.5B génère jusqu’à 90 minutes de dialogue naturel avec jusqu’à 4 locuteurs, idéal pour les podcasts ou livres audio. VibeVoice-Realtime-0.5B offre une latence d’environ 300 ms pour des applications temps réel. Le projet intègre des mesures de sécurité comme le filigrane audio. Disponible sur GitHub et Hugging Face, il ouvre des perspectives dans la création de contenu, l’accessibilité et les interfaces vocales.

Microsoft a récemment open sourcé une famille de modèles d'IA vocale de pointe nommée VibeVoice, couvrant des capacités telles que la reconnaissance automatique de la parole (ASR) et la synthèse vocale (TTS). Le projet a rapidement attiré l'attention de la communauté des développeurs grâce à son puissant traitement audio long, sa génération de dialogue naturel multi-locuteurs et ses caractéristiques de faible latence en temps réel, recueillant actuellement environ 27K Stars sur GitHub.

En tant que cadre de recherche open source, VibeVoice utilise la licence MIT, prend en charge le déploiement local, ne nécessite pas de frais d'abonnement cloud, et vise à promouvoir la collaboration et l'innovation dans le domaine de la synthèse vocale. La famille de modèles comprend principalement trois membres clés, chacun avec un accent différent, résolvant ensemble les points douloureux traditionnels de l'IA vocale dans le traitement des longues séquences, la cohérence des locuteurs et la fluidité naturelle.

VibeVoice-ASR-7B : Un outil de transcription structurée de la parole pouvant aller jusqu'à 60 minutes

VibeVoice-ASR-7B est un modèle unifié de transcription de la parole, capable de traiter en une seule fois des fichiers audio jusqu'à 60 minutes, produisant directement des résultats de transcription structurés. La sortie comprend non seulement "qui parle" (identification du locuteur), "quand il parle" (horodatage précis), mais aussi "ce qui est dit" (contenu détaillé), et prend en charge une fonction de mots-clés personnalisés, pouvant efficacement améliorer la précision de reconnaissance des noms propres ou termes techniques. Le modèle prend en charge plus de 50 langues, adapté à des scénarios complexes comme la transcription de longues réunions ou de podcasts.

Les développeurs de la communauté ont déjà créé des outils utiles basés sur ce modèle, comme une méthode de saisie vocale nommée Vibing, supportant les plateformes macOS et Windows. Les retours des utilisateurs montrent que sa vitesse et sa justesse de reconnaissance sont bonnes, pouvant significativement améliorer l'efficacité de la saisie vocale quotidienne.

VibeVoice-TTS-1.5B : Génération de parole expressive multi-locuteurs de 90 minutes

VibeVoice-TTS-1.5B est le modèle central axé sur la synthèse vocale, capable de produire en une seule génération un audio continu jusqu'à 90 minutes, supportant la simulation de dialogue naturel pour jusqu'à 4 locuteurs différents. La parole générée par le modèle est expressive, sonnant naturelle et fluide, capable de simuler des pauses réalistes, des emphases et des tournures émotionnelles, très adaptée à la production de podcasts, de narrations audio longues, de livres audio ou de contenus à dialogues multi-rôles.

Comparé à de nombreux modèles TTS traditionnels ne supportant que 1-2 locuteurs, VibeVoice-TTS a réalisé une percée significative dans la cohérence des longs formats et multi-locuteurs. Son architecture sous-jacente utilise un tokeniseur de parole continu (tokeniseur acoustique et sémantique) combiné à une conception à faible taux de trame (7.5Hz), améliorant considérablement l'efficacité computationnelle du traitement des longues séquences.

VibeVoice-Realtime-0.5B : TTS en temps réel avec une latence d'environ 300 ms

VibeVoice-Realtime-0.5B se concentre sur les scénarios en temps réel, supportant une entrée de texte en flux, avec une latence de sortie du premier audio d'environ 300 millisecondes, tout en pouvant générer une parole longue d'environ 10 minutes. Ce modèle est particulièrement adapté aux applications interactives nécessitant une réponse immédiate, comme les assistants vocaux en temps réel ou les scénarios de doublage en direct.

De plus, le projet introduit un support expérimental de locuteurs, incluant la parole multilingue et diverses variantes de styles d'anglais, offrant plus d'espace de personnalisation aux développeurs.

Commentaire AIbase : L'open sourcing de Microsoft VibeVoice non seulement abaisse le seuil d'utilisation de l'IA vocale haute performance, mais fournit également une solution complète pour le déploiement local. Le projet a brièvement été retiré en raison de risques d'utilisation abusive, puis remis en ligne grâce à des mécanismes de sécurité comme l'incorporation de filigranes audio et de déclarations de non-responsabilité audibles, illustrant les principes d'un développement responsable de l'IA. Actuellement, les développeurs peuvent obtenir les poids des modèles sur le dépôt GitHub et sur Hugging Face, et les essayer rapidement via des plateformes comme Colab.

Avec les contributions continues de la communauté open source (comme une version fork optimisée pour Apple Silicon), VibeVoice devrait accélérer son déploiement dans des domaines tels que la création de contenu, les outils d'accessibilité et l'interaction vocale. Les développeurs intéressés peuvent visiter la page officielle du projet Microsoft pour explorer davantage.

Adresse du projet : https://github.com/microsoft/VibeVoice

Questions liées

QQu'est-ce que VibeVoice et pourquoi a-t-il rapidement gagné 27K étoiles sur GitHub ?

AVibeVoice est une famille de modèles d'IA vocale open-source de Microsoft, comprenant la reconnaissance automatique de la parole (ASR) et la synthèse vocale (TTS). Il a rapidement gagné en popularité (27K étoiles) grâce à sa puissante capacité de traitement audio long, sa génération de dialogue naturel multi-locuteurs et ses caractéristiques de faible latence en temps réel.

QQuelle est la capacité de traitement audio unique du modèle VibeVoice-ASR-7B et quelles informations fournit-il ?

ALe modèle VibeVoice-ASR-7B peut traiter en une seule fois des fichiers audio pouvant durer jusqu'à 60 minutes. Il fournit une transcription structurée incluant l'identification de l'orateur, des horodatages précis et le contenu détaillé de la parole.

QQuelle est la particularité du modèle VibeVoice-TTS-1.5B en termes de génération de dialogue ?

ALe modèle VibeVoice-TTS-1.5B peut générer en une seule fois jusqu'à 90 minutes d'audio continu et simuler des conversations naturelles impliquant jusqu'à 4 locuteurs différents, avec une expressivité et une fluidité naturelle, imitant les pauses, les emphases et les tournures émotionnelles réelles.

QÀ quel scénario le modèle VibeVoice-Realtime-0.5B est-il particulièrement adapté et quelle est sa latence ?

ALe modèle VibeVoice-Realtime-0.5B est spécialement conçu pour les scénarios en temps réel, comme les assistants vocaux interactifs ou le doublage en direct. Il présente une latence d'environ 300 millisecondes pour la sortie du premier audio et prend en charge une entrée de texte en flux continu.

QQuelles mesures Microsoft a-t-il prises pour atténuer les risques d'utilisation abusive de VibeVoice ?

APour atténuer les risques d'utilisation abusive, Microsoft a brièvement retiré le projet avant de le remettre en ligne avec des mécanismes de sécurité intégrés, tels que le tatouage audio (audio watermarking) et des déclarations de non-responsabilité audibles.

Lectures associées

Bitwise : Optimiste quant à la performance du Bitcoin au second semestre, l'IA et la régulation vont déclencher une nouvelle saison des altcoins

Lors d'un récent épisode du Milk Road Show, les dirigeants de Bitwise, Matt Hougan (CIO) et Ryan Rasmussen (responsable de la recherche), ont partagé une vision extrêmement optimiste pour le Bitcoin et l'écosystème crypto. Ils estiment que l'objectif de 1 million de dollars par Bitcoin pourrait être « trop conservateur », le décrivant comme un pari « deux en un » : une réserve de valeur numérique (or digital) assortie d'une option d'appel hors de la monnaie pour devenir un actif de règlement international, une idée renforcée par l'instabilité géopolitique récente. Ils reconnaissent que le premier trimestre 2026 a été médiocre avec des baisses généralisées, mais soulignent que les flux d'actualités positifs (lancements de ETF par Morgan Stanley et Goldman Sachs, nouveau cadre réglementaire) sont tournés vers l'avenir et justifient l'optimisme actuel. Un point de données clé est l'explosion des actifs du monde réel tokenisés (RWA), passant de moins de 2 milliards il y a quelques années à près de 30 milliards de dollars aujourd'hui. Enfin, Hougan prédit un « nouvel altseason » pour 2026, catalysé par la combinaison de trois facteurs : le nouveau cadre réglementaire clair de la SEC pour les jetons, l'émergence de blockchains performantes et les capacités de l'IA. Cela permettra, selon lui, une nouvelle vague d'innovation et de projets légitimes, bien différente de l'ère ICO. Bitwise mise également sur cette diversification en annonçant un ETF Avalanche (AVAX), citant son architecture unique et sa croissance dans le secteur RWA.

marsbitIl y a 1 h

Bitwise : Optimiste quant à la performance du Bitcoin au second semestre, l'IA et la régulation vont déclencher une nouvelle saison des altcoins

marsbitIl y a 1 h

Trading

Spot
Futures

Articles tendance

Comment acheter ONE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Harmony (ONE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Harmony (ONE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Harmony (ONE)Après avoir acheté vos Harmony (ONE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Harmony (ONE)Tradez facilement Harmony (ONE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

352 vues totalesPublié le 2024.12.12Mis à jour le 2025.03.21

Comment acheter ONE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ONE (ONE) sont présentées ci-dessous.

活动图片