Microsoft Open Source la Famille d'IA Vocale de Pointe VibeVoice : Traite 90 Minutes de Dialogue Multi-Locuteurs en une Seule Fois, Rapidement 27K Stars sur GitHub

marsbitPublié le 2026-03-30Dernière mise à jour le 2026-03-30

Résumé

Microsoft a récemment open-sourcé VibeVoice, une famille de modèles vocaux IA de pointe, incluant la reconnaissance vocale (ASR) et la synthèse vocale (TTS). Le projet, sous licence MIT, permet un déploiement local sans frais d’abonnement cloud et a rapidement atteint 27K étoiles sur GitHub. VibeVoice-ASR-7B traite jusqu’à 60 minutes d’audio en une seule fois, avec transcription structurée, identification des locuteurs, horodatage et support multilingue. VibeVoice-TTS-1.5B génère jusqu’à 90 minutes de dialogue naturel avec jusqu’à 4 locuteurs, idéal pour les podcasts ou livres audio. VibeVoice-Realtime-0.5B offre une latence d’environ 300 ms pour des applications temps réel. Le projet intègre des mesures de sécurité comme le filigrane audio. Disponible sur GitHub et Hugging Face, il ouvre des perspectives dans la création de contenu, l’accessibilité et les interfaces vocales.

Microsoft a récemment open sourcé une famille de modèles d'IA vocale de pointe nommée VibeVoice, couvrant des capacités telles que la reconnaissance automatique de la parole (ASR) et la synthèse vocale (TTS). Le projet a rapidement attiré l'attention de la communauté des développeurs grâce à son puissant traitement audio long, sa génération de dialogue naturel multi-locuteurs et ses caractéristiques de faible latence en temps réel, recueillant actuellement environ 27K Stars sur GitHub.

En tant que cadre de recherche open source, VibeVoice utilise la licence MIT, prend en charge le déploiement local, ne nécessite pas de frais d'abonnement cloud, et vise à promouvoir la collaboration et l'innovation dans le domaine de la synthèse vocale. La famille de modèles comprend principalement trois membres clés, chacun avec un accent différent, résolvant ensemble les points douloureux traditionnels de l'IA vocale dans le traitement des longues séquences, la cohérence des locuteurs et la fluidité naturelle.

VibeVoice-ASR-7B : Un outil de transcription structurée de la parole pouvant aller jusqu'à 60 minutes

VibeVoice-ASR-7B est un modèle unifié de transcription de la parole, capable de traiter en une seule fois des fichiers audio jusqu'à 60 minutes, produisant directement des résultats de transcription structurés. La sortie comprend non seulement "qui parle" (identification du locuteur), "quand il parle" (horodatage précis), mais aussi "ce qui est dit" (contenu détaillé), et prend en charge une fonction de mots-clés personnalisés, pouvant efficacement améliorer la précision de reconnaissance des noms propres ou termes techniques. Le modèle prend en charge plus de 50 langues, adapté à des scénarios complexes comme la transcription de longues réunions ou de podcasts.

Les développeurs de la communauté ont déjà créé des outils utiles basés sur ce modèle, comme une méthode de saisie vocale nommée Vibing, supportant les plateformes macOS et Windows. Les retours des utilisateurs montrent que sa vitesse et sa justesse de reconnaissance sont bonnes, pouvant significativement améliorer l'efficacité de la saisie vocale quotidienne.

VibeVoice-TTS-1.5B : Génération de parole expressive multi-locuteurs de 90 minutes

VibeVoice-TTS-1.5B est le modèle central axé sur la synthèse vocale, capable de produire en une seule génération un audio continu jusqu'à 90 minutes, supportant la simulation de dialogue naturel pour jusqu'à 4 locuteurs différents. La parole générée par le modèle est expressive, sonnant naturelle et fluide, capable de simuler des pauses réalistes, des emphases et des tournures émotionnelles, très adaptée à la production de podcasts, de narrations audio longues, de livres audio ou de contenus à dialogues multi-rôles.

Comparé à de nombreux modèles TTS traditionnels ne supportant que 1-2 locuteurs, VibeVoice-TTS a réalisé une percée significative dans la cohérence des longs formats et multi-locuteurs. Son architecture sous-jacente utilise un tokeniseur de parole continu (tokeniseur acoustique et sémantique) combiné à une conception à faible taux de trame (7.5Hz), améliorant considérablement l'efficacité computationnelle du traitement des longues séquences.

VibeVoice-Realtime-0.5B : TTS en temps réel avec une latence d'environ 300 ms

VibeVoice-Realtime-0.5B se concentre sur les scénarios en temps réel, supportant une entrée de texte en flux, avec une latence de sortie du premier audio d'environ 300 millisecondes, tout en pouvant générer une parole longue d'environ 10 minutes. Ce modèle est particulièrement adapté aux applications interactives nécessitant une réponse immédiate, comme les assistants vocaux en temps réel ou les scénarios de doublage en direct.

De plus, le projet introduit un support expérimental de locuteurs, incluant la parole multilingue et diverses variantes de styles d'anglais, offrant plus d'espace de personnalisation aux développeurs.

Commentaire AIbase : L'open sourcing de Microsoft VibeVoice non seulement abaisse le seuil d'utilisation de l'IA vocale haute performance, mais fournit également une solution complète pour le déploiement local. Le projet a brièvement été retiré en raison de risques d'utilisation abusive, puis remis en ligne grâce à des mécanismes de sécurité comme l'incorporation de filigranes audio et de déclarations de non-responsabilité audibles, illustrant les principes d'un développement responsable de l'IA. Actuellement, les développeurs peuvent obtenir les poids des modèles sur le dépôt GitHub et sur Hugging Face, et les essayer rapidement via des plateformes comme Colab.

Avec les contributions continues de la communauté open source (comme une version fork optimisée pour Apple Silicon), VibeVoice devrait accélérer son déploiement dans des domaines tels que la création de contenu, les outils d'accessibilité et l'interaction vocale. Les développeurs intéressés peuvent visiter la page officielle du projet Microsoft pour explorer davantage.

Adresse du projet : https://github.com/microsoft/VibeVoice

Cryptos en tendance

Questions liées

QQu'est-ce que VibeVoice et pourquoi a-t-il rapidement gagné 27K étoiles sur GitHub ?

AVibeVoice est une famille de modèles d'IA vocale open-source de Microsoft, comprenant la reconnaissance automatique de la parole (ASR) et la synthèse vocale (TTS). Il a rapidement gagné en popularité (27K étoiles) grâce à sa puissante capacité de traitement audio long, sa génération de dialogue naturel multi-locuteurs et ses caractéristiques de faible latence en temps réel.

QQuelle est la capacité de traitement audio unique du modèle VibeVoice-ASR-7B et quelles informations fournit-il ?

ALe modèle VibeVoice-ASR-7B peut traiter en une seule fois des fichiers audio pouvant durer jusqu'à 60 minutes. Il fournit une transcription structurée incluant l'identification de l'orateur, des horodatages précis et le contenu détaillé de la parole.

QQuelle est la particularité du modèle VibeVoice-TTS-1.5B en termes de génération de dialogue ?

ALe modèle VibeVoice-TTS-1.5B peut générer en une seule fois jusqu'à 90 minutes d'audio continu et simuler des conversations naturelles impliquant jusqu'à 4 locuteurs différents, avec une expressivité et une fluidité naturelle, imitant les pauses, les emphases et les tournures émotionnelles réelles.

QÀ quel scénario le modèle VibeVoice-Realtime-0.5B est-il particulièrement adapté et quelle est sa latence ?

ALe modèle VibeVoice-Realtime-0.5B est spécialement conçu pour les scénarios en temps réel, comme les assistants vocaux interactifs ou le doublage en direct. Il présente une latence d'environ 300 millisecondes pour la sortie du premier audio et prend en charge une entrée de texte en flux continu.

QQuelles mesures Microsoft a-t-il prises pour atténuer les risques d'utilisation abusive de VibeVoice ?

APour atténuer les risques d'utilisation abusive, Microsoft a brièvement retiré le projet avant de le remettre en ligne avec des mécanismes de sécurité intégrés, tels que le tatouage audio (audio watermarking) et des déclarations de non-responsabilité audibles.

Lectures associées

Manus : le plan de rachat se précise, les investisseurs chinois prêts à débourser 2 milliards de dollars pour racheter leurs parts, la voie vers une introduction à Hong Kong se dessine

Selon des informations rapportées par The Information, les investisseurs chinois précoces de Manus, dont Tencent, Sequoia China et ZhenFund, prévoient de racheter la société pour 20 milliards de dollars US, soit le même montant que celui payé par Meta lors de son acquisition en décembre dernier. Cette initiative fait suite à l'interdiction, en avril, de l'acquisition par Meta par les autorités chinoises de contrôle des investissements étrangers. Dans le cadre de ce rachat, Manus envisagerait de restructurer son organisation en créant une entreprise à capitaux mixtes (joint-venture) en Chine, une architecture perçue comme une préparation à une future introduction en bourse à Hong Kong. Les investisseurs chinois injecteraient des fonds en dollars. Malgré la courte période sous la tutelle de Meta, les performances de Manus ont connu une croissance significative, son taux de revenus annualisés étant passé d'environ 1 milliard de dollars à entre 4 et 5 milliards de dollars. D'un point de vue financier, cette inversion de transaction pourrait avantager les premiers investisseurs, leur permettant de reprendre des parts à un coût inférieur à la valorisation actuelle, tout en ouvrant la voie à une indépendance et une potentielle IPO. Les termes définitifs du rachat, incluant les proportions d'investissement et la structure de la joint-venture, restent en cours de négociation. Ce cas pourrait servir de référence pour les startups chinoises d'IA confrontées à des questions de conformité dans les fusions et acquisitions transfrontalières.

marsbitIl y a 10 mins

Manus : le plan de rachat se précise, les investisseurs chinois prêts à débourser 2 milliards de dollars pour racheter leurs parts, la voie vers une introduction à Hong Kong se dessine

marsbitIl y a 10 mins

STRC en décrochage de 11 %, le mécanisme perpétuel de Strategy est-il toujours opérationnel ?

Le titre préférentiel STRC de MicroStrategy est en situation de « décrochage » prolongé, affichant un écart de plus de 11% par rapport à sa valeur nominale cible de 100 dollars. Ce produit, conçu comme un titre à revenu stable autour de cette valeur, est le moteur essentiel de la « roue financière » de l'entreprise, lui permettant de lever des fonds sans diluer les actionnaires ordinaires pour acheter du Bitcoin. Cependant, ce mécanisme repose sur le maintien du prix du STRC près de 100 dollars. Malgré une augmentation du dividende à 11.5% et une fréquence de paiement accrue, la dépréciation persiste. Les causes incluent des liquidations forcées de positions à effet de levier, mais surtout une inquiétude fondamentale du marché quant à la solidité financière de MicroStrategy. Un récent rapport de JPMorgan a soulevé des questions sur la capacité de l'entreprise à honorer ses obligations de dividendes avec sa trésorerie actuelle. Bien que MicroStrategy affirme que ses réserves de Bitcoin couvriraient des décennies de paiements, la vente symbolique de 32 BTC début juin a ébranlé la confiance. Le marché craint désormais que l'entreprise ne doive vendre davantage de Bitcoin si ses capacités de financement via le STRC s'affaiblissent. En conclusion, la pression persistante sur le STRC reflète une réévaluation des risques du modèle de MicroStrategy. Si cette tendance se poursuit, elle pourrait non seulement paralyser son principal outil de levée de fonds, mais aussi transformer son rôle historique d'acheteur net majeur de Bitcoin en une source potentielle de ventes, avec des conséquences significatives pour le marché.

链捕手Il y a 16 mins

STRC en décrochage de 11 %, le mécanisme perpétuel de Strategy est-il toujours opérationnel ?

链捕手Il y a 16 mins

Les altcoins font face à la plus forte pression de vente au comptant depuis 2020, selon les données de CryptoQuant

Selon les données de CryptoQuant, les altcoins subissent actuellement leur plus forte pression de vente au comptant depuis 2020, avec un écart cumulé de volume d'achat/vente d'environ 209 milliards de dollars sur une période prolongée. Cette pression reflète une faible demande des investisseurs particuliers, une rotation vers les rendements des stablecoins et une prudence persistante en dehors du Bitcoin et de l'Ethereum. Plusieurs facteurs expliquent cette pression durable : le Bitcoin absorbe les flux institutionnels via les ETF, l'Ethereum captive l'attention, tandis que les stablecoins offrent une alternative moins risquée. De nombreux altcoins se retrouvent ainsi coincés, trop risqués pour les capitaux conservateurs mais pas assez volatils pour attirer les spéculateurs. Bien qu'une telle pression de vente extrême puisse éventuellement constituer un signal contraire en indiquant un positionnement unilatéral, aucune confirmation d'un renversement immédiat ou d'un "altseason" n'est visible. Le marché pourrait rester faible longtemps, surtout si la domination du Bitcoin persiste. Pour qu'un véritable retournement haussier s'engage, il faudrait observer un passage à une accumulation au comptant soutenue et une amélioration de la dynamique sur plusieurs secteurs d'altcoins. Pour l'instant, ces données indiquent surtout que les altcoins sont profondément en disgrâce.

bitcoinistIl y a 45 mins

Les altcoins font face à la plus forte pression de vente au comptant depuis 2020, selon les données de CryptoQuant

bitcoinistIl y a 45 mins

Derrière le bulletin de notes de l'IA, se cache un « examinateur » chinois

À chaque publication d'un modèle d'IA de pointe, l'attention se porte sur des "bulletins de notes" bien connus comme MMLU-Pro, MMMU et MMMU-Pro. Ces benchmarks sont devenus les épreuves standard pour évaluer et comparer les capacités des grands modèles de langage et multimodaux. Derrière ces outils d'évaluation influents se trouve Chen Wenhu, professeur assistant à l'Université de Waterloo. Face à l'obsolescence d'anciens benchmarks comme le MMLU original, où les modèles atteignaient des scores quasi parfaits, Chen et son équipe ont créé MMLU-Pro. Cette nouvelle "feuille d'examen", plus difficile avec plus de choix et des questions nécessitant un raisonnement, permet de mieux différencier les performances des modèles. Dans le domaine multimodal, leur benchmark MMMU, et sa version améliorée MMMU-Pro, évaluent la capacité des modèles à comprendre et raisonner à partir d'informations complexes combinant texte, images, tableaux, etc., comme dans des problèmes universitaires. Chen, dont les recherches portent sur la compréhension d'informations complexes, a travaillé chez Google DeepMind sur Gemini avant de fonder le TIGERLab. Son équipe développe également des modèles (comme UniVideo pour la vidéo), une expérience qui l'aide à concevoir de meilleures évaluations. Il travaille désormais au sein du laboratoire Superintelligence de Meta sur les données et l'évaluation multimodales. Son parcours illustre le rôle crucial, bien que moins médiatisé, des chercheurs qui conçoivent les outils permettant de mesurer objectivement les progrès de l'IA.

marsbitIl y a 1 h

Derrière le bulletin de notes de l'IA, se cache un « examinateur » chinois

marsbitIl y a 1 h

STRC se détache de 11%, le moteur perpétuel de Strategy peut-il encore tourner ?

Le titre préférentiel STRC de MicroStrategy connaît une dépréciation persistante, s'éloignant de plus de 11% de sa valeur nominale cible de 100 USD. Cette situation remet en question le mécanisme central conçu pour maintenir le titre autour de cette valeur via un ajustement dynamique des dividendes, actuellement portés à 11.5% sans effet correctif. STRC est le moteur du modèle de financement de MicroStrategy, permettant des émissions via un programme ATM pour lever des fonds et acheter du Bitcoin, sans dilution des actions ordinaires. Son ancrage à 100 USD est crucial pour le bon fonctionnement de cette "roue financière". Les raisons de cette déviation incluent des liquidations en cascade de positions à effet de levier et, plus fondamentalement, des inquiétudes sur la liquidité de l'entreprise. Un rapport de JPMorgan a souligné que ses réserves de trésorerie ne couvriraient que ~6 mois de paiements de dividendes prioritaires. Bien que MicroStrategy affirme que son trésor Bitcoin pourrait couvrir 32 ans de dividendes, cela supposerait de vendre des actifs, brisant ainsi un récit d'investissement à long terme. La première vente minime de Bitcoin par l'entreprise en juin a accentué ces craintes. Une dépréciation prolongée de STRC affaiblirait la capacité de financement de MicroStrategy. Si ses réserves de trésorerie diminuaient, la peur qu'elle doive vendre du Bitcoin pour honorer ses obligations pourrait s'intensifier, transformant potentiellement cet acheteur majeur du marché en vendeur, avec des conséquences significatives pour le prix du Bitcoin.

Odaily星球日报Il y a 1 h

STRC se détache de 11%, le moteur perpétuel de Strategy peut-il encore tourner ?

Odaily星球日报Il y a 1 h

Trading

Spot
Futures

Articles tendance

Comment acheter ONE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Harmony (ONE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Harmony (ONE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Harmony (ONE)Après avoir acheté vos Harmony (ONE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Harmony (ONE)Tradez facilement Harmony (ONE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

422 vues totalesPublié le 2024.12.12Mis à jour le 2026.06.02

Comment acheter ONE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ONE (ONE) sont présentées ci-dessous.

活动图片