微软开源前沿语音 AI 家族 VibeVoice:单次处理 90 分钟多说话人对话,GitHub 迅速获 27K Star

marsbit發佈於 2026-03-30更新於 2026-03-30

文章摘要

微软开源了名为VibeVoice的语音AI模型家族,涵盖语音识别(ASR)和文本转语音(TTS)能力,支持本地部署,采用MIT许可。该项目在GitHub已获约27K星,主要包含三个模型: - VibeVoice-ASR-7B:可一次性处理长达60分钟音频,支持50多种语言,输出带说话人识别、时间戳和内容转录,适用于会议记录和播客转录。 - VibeVoice-TTS-1.5B:单次生成90分钟音频,支持最多4个说话人的自然对话,语音表现力强,适合有声书和多角色内容制作。 - VibeVoice-Realtime-0.5B:专为实时场景设计,延迟约300毫秒,支持流式输入和长语音生成,适用于语音助手和直播。 项目曾因安全风险短暂下架,后通过音频水印和免责声明等机制重新上线,目前可在GitHub和Hugging Face获取。

微软近日开源了名为VibeVoice的前沿语音 AI 模型家族,涵盖自动语音识别(ASR)和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性,迅速在开发者社区引发关注,目前已在 GitHub 收获约27K Star。

作为开源研究框架,VibeVoice 采用 MIT 许可协议,支持本地部署,无需云端订阅费用,旨在推动语音合成领域的协作与创新。模型家族主要包括三个核心成员,各有侧重,共同解决了传统语音 AI 在长序列处理、说话人一致性和自然流畅性上的痛点。

VibeVoice-ASR-7B:长达60分钟的结构化语音转文本利器

VibeVoice-ASR-7B 是一个统一的语音转文本模型,能够一次性处理长达60分钟的音频文件,直接输出结构化转录结果。输出不仅包含“谁在说话”(说话人识别)、“何时说话”(精确时间戳),还包括“说了什么”(详细内容),并支持自定义热词功能,可有效提升专有名词或技术术语的识别准确率。该模型支持超过50种语言,适用于长篇会议记录、播客转录等复杂场景。

社区开发者已基于该模型开发出实用工具,例如一款名为Vibing的语音输入法,支持 macOS 和 Windows 平台。用户反馈显示,其识别速度和准确率表现不错,可显著提升日常语音输入效率。

VibeVoice-TTS-1.5B:90分钟多说话人富有表现力的语音生成

VibeVoice-TTS-1.5B 是专注于文本转语音的核心模型,能在单次生成中产出长达90分钟的连续音频,支持最多4个不同说话人进行自然对话模拟。模型生成的语音富有表现力,听起来自然流畅,能模拟真实的停顿、强调和情感转折,非常适合制作播客、长音频叙事、有声书或多角色对话内容。

相比许多传统 TTS 模型仅支持1-2个说话人,VibeVoice-TTS 在长形式、多说话人一致性上实现了显著突破。其底层采用连续语音分词器(声学与语义分词器)结合低帧率设计(7.5Hz),大幅提升了长序列处理的计算效率。

VibeVoice-Realtime-0.5B:约300毫秒延迟的实时 TTS

VibeVoice-Realtime-0.5B 专注于实时场景,支持流式文本输入,首音频输出延迟约300毫秒,同时还能生成约10分钟的长篇语音。该模型特别适合需要即时回应的交互应用,如实时语音助手或直播配音场景。

此外,项目还引入了实验性说话人支持,包括多语言语音和多种英语风格变体,为开发者提供更多定制空间。

AIbase 点评:微软 VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛,还为本地部署提供了完整解决方案。项目曾因潜在误用风险短暂下架,后通过嵌入音频水印、可听免责声明等安全机制重新上线,体现了负责任 AI 开发的原则。目前,开发者可在 GitHub 仓库和 Hugging Face 获取模型权重,并通过 Colab 等平台快速试用。

随着开源社区的持续贡献(如针对 Apple Silicon 的优化 fork),VibeVoice 有望在内容创作、无障碍工具、语音交互等领域加速落地。感兴趣的开发者可访问微软官方项目页进一步探索

项目地址:https://github.com/microsoft/VibeVoice

熱門幣種推薦

相關問答

Q微软开源的VibeVoice语音AI家族主要包含哪些核心模型?

AVibeVoice家族主要包含三个核心模型:VibeVoice-ASR-7B(自动语音识别模型,支持60分钟长音频处理)、VibeVoice-TTS-1.5B(文本转语音模型,支持90分钟多说话人对话生成)和VibeVoice-Realtime-0.5B(实时TTS模型,延迟约300毫秒)。

QVibeVoice-ASR-7B模型的核心能力是什么?

AVibeVoice-ASR-7B能够一次性处理长达60分钟的音频文件,直接输出结构化转录结果,包括说话人识别、精确时间戳和详细内容,支持超过50种语言,并可通过自定义热词提升专有名词识别准确率。

QVibeVoice-TTS-1.5B在语音生成方面有什么突破?

A该模型能在单次生成中产出长达90分钟的连续音频,支持最多4个不同说话人的自然对话模拟,生成的语音富有表现力且自然流畅,通过连续语音分词器和低帧率设计提升了长序列处理效率。

QVibeVoice项目如何体现负责任AI开发原则?

A项目曾因潜在误用风险短暂下架,后通过嵌入音频水印、可听免责声明等安全机制重新上线,体现了微软对负责任AI开发的重视。

Q开发者可以通过哪些平台获取或试用VibeVoice模型?

A开发者可在GitHub仓库和Hugging Face平台获取模型权重,并通过Colab等平台快速试用。项目采用MIT许可协议,支持本地部署。

你可能也喜歡

产品发布:市场指南针

Glassnode推出全新工具“市场指南针”,旨在解决用户面对海量数据时难以抉择的问题。该工具通过七个维度综合分析市场:其中四个前瞻性维度(宏观环境、资金流动、投资者行为、链上基本面)汇合成一个从“风险规避”到“风险偏好”的主综合评分;另外三个独立维度(周期位置、衍生品、跨资产轮动)则描述当前市场状态。 目前主评分为14(满分100),处于“风险规避”区间,显示市场仍处熊市阶段。比特币价格约64,400美元,月内下跌16%。具体来看: * **宏观**:评分23,主要受美元走强拖累。 * **资金流动**:评分31,稳定币供应增长转负,市场“弹药”略有减少。 * **投资者行为**:评分35,长期持有者占比创新高,显示筹码正流向坚定持有者。 * **链上基本面**:评分38,网络活动有初步回暖迹象,但尚未全面复苏。 * **周期位置**:评分18,处于“投降”阶段,但现价仍高于平均成本。 * **衍生品**:评分43,杠杆率较低,市场仓位谨慎且对冲充分。 * **跨资产轮动**:评分70,显示资金相对青睐山寨币,但各板块普跌,实为“跌得少”的相对优势。 总体而言,市场处于低位盘整阶段,内部结构正在修复,但由美元主导的宏观约束尚未解除,明确的趋势反转仍需等待美元指数回落至其200日均线以下。该工具每日更新数据,每周提供分析摘要。

insights.glassnode3 小時前

产品发布:市场指南针

insights.glassnode3 小時前

英伟达CPU压境,中国RISC-V迎战:半导体深观察之四

英伟达即将向中国客户提供其首款专为AI设计的独立CPU Vera,基于Arm架构,单颗售价超2万美元。这凸显了中国在AI算力需求激增下,对CPU架构自主可控的迫切性。文章指出,除了x86和Arm,RISC-V正成为中国突破“不可能三角”(繁荣、可控、自主)的关键赛道。 RISC-V因其开源、模块化特性,被视为实现自主可控且有机会繁荣的路径。当前,中国已成为全球RISC-V发展的热点,受AI算力需求、出口管制压力、开源降本以及政策支持等多重因素推动。国内多家厂商的高性能RISC-V核心在SPEC定点跑分上已触及或超过15分的行业门槛,并实现了3GHz以上的主频,拿到了进入高性能计算俱乐部的“入场券”。 产业焦点已从单核性能转向完整的“计算子系统”,包括自研一致性片上网络(NoC)和满足数据中心要求的全栈RAS能力。已有厂商交付了40核、严格兼容RVA23国际标准的服务器处理器,体现了对生态统一性的重视。在视频编解码、加解密等特定负载上,部分国产RISC-V处理器已接近甚至超越x86/Arm同代产品。 挑战同样严峻。生态碎片化、EDA工具链不完善、验证复杂度高、单核能效追趕、以及先进工艺制约等都是必须啃下的“硬骨头”。业界清醒认识到,在数据中心领域超越成熟架构的周期将比预期更长。 结论是,面对英伟达Vera的敲门,中国自研CPU并非只有跟随Arm一条路。RISC-V赛道已在中国推开大门,并在高性能计算领域取得了实质性进展。虽然前路漫长,充满工程挑战,但它为中国提供了在下一轮算力革命中掌握主动权的可能性。

marsbit4 小時前

英伟达CPU压境,中国RISC-V迎战:半导体深观察之四

marsbit4 小時前

Stratosphere、Pudgy Penguins与Streamex于2026年ETHConf及纽约科技周期间举办创始人圆桌VIP晚宴

2026年6月9日,在ETHConf 2026和纽约科技周期间,Stratosphere、Pudgy Penguins和Streamex在纽约市联合举办了一场私密的“创始人桌”VIP晚宴,汇聚了数字资产、科技、人工智能、传统金融和机构资本领域的众多领导者。 此次仅限受邀者参加的晚宴,旨在将精选的创始人、运营商、基金、高管及机构领袖聚集一堂,在私密环境中促进自然交流。出席嘉宾包括来自花旗、BitMine、BitGo、未来资产证券(美国)、Experian、Pyth Network、Space and Time、MegaETH、B3、Stable、Antler、Delphi Digital、Fun、Linera、Vanta Trading、Streamex、PolyData、Horizen Labs、World Foundation、Zipcode、OpenLedger、Onyx、Definitive、Notalone Ventures等机构的代表。 晚宴由Stratosphere主办,Pudgy Penguins和Streamex联合举办。Stratosphere贡献了其广泛的创始人、运营商、投资者和机构网络;Pudgy Penguins带来了数字资产领域强大的消费品牌和社区;Streamex则聚焦于代币化黄金和大宗商品市场,引入了机构及现实世界资产的视角。 Stratosphere首席执行官哈桑·谢赫表示:“我对数字资产的下一阶段,尤其是商品代币化感到乐观。这类晚宴让我们能将基金、机构和创始人聚集在同一房间,探讨市场走向。”该“创始人桌”系列活动计划在全年主要全球会议期间持续举办,致力于在私密、以关系驱动的场合中连接创始人、资本、机构和领先品牌。 Stratosphere是一家服务于科技和金融行业领导者的生态合作伙伴与增长咨询公司。

TheNewsCrypto6 小時前

Stratosphere、Pudgy Penguins与Streamex于2026年ETHConf及纽约科技周期间举办创始人圆桌VIP晚宴

TheNewsCrypto6 小時前

交易

現貨
合約

熱門文章

如何購買ONE

歡迎來到HTX.com!在這裡,購買Harmony (ONE)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Harmony (ONE)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Harmony (ONE)購買Harmony (ONE)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Harmony (ONE)在HTX的現貨市場輕鬆交易Harmony (ONE)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

649 人學過發佈於 2024.12.12更新於 2026.06.02

如何購買ONE

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 ONE (ONE)幣價的意見。

活动图片