微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

marsbit发布于2026-03-30更新于2026-03-30

文章摘要

微软开源了名为VibeVoice的语音AI模型家族，涵盖语音识别（ASR）和文本转语音（TTS）能力，支持本地部署，采用MIT许可。该项目在GitHub已获约27K星，主要包含三个模型： - VibeVoice-ASR-7B：可一次性处理长达60分钟音频，支持50多种语言，输出带说话人识别、时间戳和内容转录，适用于会议记录和播客转录。 - VibeVoice-TTS-1.5B：单次生成90分钟音频，支持最多4个说话人的自然对话，语音表现力强，适合有声书和多角色内容制作。 - VibeVoice-Realtime-0.5B：专为实时场景设计，延迟约300毫秒，支持流式输入和长语音生成，适用于语音助手和直播。项目曾因安全风险短暂下架，后通过音频水印和免责声明等机制重新上线，目前可在GitHub和Hugging Face获取。

微软近日开源了名为VibeVoice的前沿语音 AI 模型家族,涵盖自动语音识别(ASR)和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性,迅速在开发者社区引发关注,目前已在 GitHub 收获约27K Star。

作为开源研究框架,VibeVoice 采用 MIT 许可协议,支持本地部署,无需云端订阅费用,旨在推动语音合成领域的协作与创新。模型家族主要包括三个核心成员,各有侧重,共同解决了传统语音 AI 在长序列处理、说话人一致性和自然流畅性上的痛点。

VibeVoice-ASR-7B:长达60分钟的结构化语音转文本利器

VibeVoice-ASR-7B 是一个统一的语音转文本模型,能够一次性处理长达60分钟的音频文件,直接输出结构化转录结果。输出不仅包含“谁在说话”(说话人识别)、“何时说话”(精确时间戳),还包括“说了什么”(详细内容),并支持自定义热词功能,可有效提升专有名词或技术术语的识别准确率。该模型支持超过50种语言,适用于长篇会议记录、播客转录等复杂场景。

社区开发者已基于该模型开发出实用工具,例如一款名为Vibing的语音输入法,支持 macOS 和 Windows 平台。用户反馈显示,其识别速度和准确率表现不错,可显著提升日常语音输入效率。

VibeVoice-TTS-1.5B:90分钟多说话人富有表现力的语音生成

VibeVoice-TTS-1.5B 是专注于文本转语音的核心模型,能在单次生成中产出长达90分钟的连续音频,支持最多4个不同说话人进行自然对话模拟。模型生成的语音富有表现力,听起来自然流畅,能模拟真实的停顿、强调和情感转折,非常适合制作播客、长音频叙事、有声书或多角色对话内容。

相比许多传统 TTS 模型仅支持1-2个说话人,VibeVoice-TTS 在长形式、多说话人一致性上实现了显著突破。其底层采用连续语音分词器(声学与语义分词器)结合低帧率设计(7.5Hz),大幅提升了长序列处理的计算效率。

VibeVoice-Realtime-0.5B:约300毫秒延迟的实时 TTS

VibeVoice-Realtime-0.5B 专注于实时场景,支持流式文本输入,首音频输出延迟约300毫秒,同时还能生成约10分钟的长篇语音。该模型特别适合需要即时回应的交互应用,如实时语音助手或直播配音场景。

此外,项目还引入了实验性说话人支持,包括多语言语音和多种英语风格变体,为开发者提供更多定制空间。

AIbase 点评:微软 VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛,还为本地部署提供了完整解决方案。项目曾因潜在误用风险短暂下架,后通过嵌入音频水印、可听免责声明等安全机制重新上线,体现了负责任 AI 开发的原则。目前,开发者可在 GitHub 仓库和 Hugging Face 获取模型权重,并通过 Colab 等平台快速试用。

随着开源社区的持续贡献(如针对 Apple Silicon 的优化 fork),VibeVoice 有望在内容创作、无障碍工具、语音交互等领域加速落地。感兴趣的开发者可访问微软官方项目页进一步探索

项目地址:https://github.com/microsoft/VibeVoice

你可能也喜欢

「新美联储通讯社」：无论是否达成停火协议，美联储降息前景都黯淡

有“新美联储通讯社”之称的记者Nick Timiraos撰文分析称，无论美国与伊朗是否达成停火协议，美联储降息的前景均不乐观。3月美联储会议纪要显示，通胀回落至2%的进程可能比预期更慢，地缘冲突虽未直接阻止降息，但加剧了政策复杂性。停火协议虽可避免经济衰退的最坏情景，消除能源价格持续飙升迫使加息的风险，但也可能使通胀问题更突出——能源价格未必完全回落，金融条件放松反而可能维持价格压力。多数官员仍预计今年至少降息一次，但前提是通胀必须重回下行轨道。会议纪要显示，已有更多官员倾向于取消“下一步更可能降息”的政策偏向，为加息留下可能性。美联储主席鲍威尔指出，连续的地缘冲击可能削弱公众对通胀回落的信心。即便冲突结束，供应链恢复仍需时间，价格“回声效应”或将持续，能源市场的脆弱性也可能导致长期定价结构改变。因此，美联储维持谨慎立场，利率或在更长时间内保持高位。

marsbit8分钟前

marsbit8分钟前

普通人如何用10分钟识别一个Token背后有庄？

作者danny指出，识别一个币是否有庄并非关键，真正重要的是判断庄家处于吸筹、拉升、出货还是已跑阶段。文章提供了一套链上结合链外的分析框架，帮助散户判断市场阶段是否友好。链上信号包括： 1. 筹码集中度：需合并关联钱包计算，观察买入时间是否集中； 2. 成交量真实度：通过“成交量÷持币地址数”判断是否刷量； 3. 流动性池监控：观察LP锁定状态及深度变化； 4. 换手合理性：分析成交量与市值的比例及净买入量； 5. 大单占比：用基尼系数量化交易集中度； 6. 结合地址增长与价格变化判断庄家阶段。文章强调，庄家是市场底层结构，散户因只能做多而处于劣势——成本高、容错低。做空机制可打破单边劣势，让散户在出货阶段也能获利，但需注意高风险，如轧空和流动性问题。最终，做空权是散户实现双向博弈、提升生存能力的关键工具，而非万能解药。

marsbit24分钟前

marsbit24分钟前

霍尔木兹海峡的比特币收费站

伊朗在霍尔木兹海峡设立比特币收费站，要求油轮以比特币支付通行费，每桶原油收费1美元。此举源于美伊冲突后伊朗关闭海峡，随后转为收费模式。伊朗革命卫队实际操作该收费系统，并通过法律授权数字货币支付。选择比特币而非稳定币，是因比特币无法被冻结，避免制裁影响。若通行量恢复，月收入可达8亿美元，堪比苏伊士运河。市场反应积极，比特币价格上涨，凸显其作为避险资产和国际结算工具的价值。这一模式可能被其他海峡模仿，挑战国际航运规范。技术不挑用户，加密货币在制裁环境下成为关键支付通道。

marsbit29分钟前

marsbit29分钟前

DEXE 暴跌 15%，卖方主导地位飙升 – 警示信号？

DEXE价格大幅下跌15%，从9.2美元跌至7.3美元，失守8美元关键支撑位，与整体加密货币市场的反弹走势相反。下跌原因包括交易者获利了结、卖方主导度升至93万（买方降至58万），以及衍生品市场出现大量平仓行为。未平仓合约下降而交易量上升，净流出34.2万美元，显示市场看空情绪强烈。技术指标如抛物线转向和MACD均显示下行压力加大。若价格无法收复7.9美元，可能进一步下探7美元甚至5.1美元；反之，若能突破7.9美元，则可能回升至9.2美元。

ambcrypto33分钟前

ambcrypto33分钟前

Mythos 推出后，以太坊生态还能活多久

Mythos的出现对以太坊生态构成严峻安全挑战。以太坊链上锁仓达680亿美元，但大量合约代码老旧且不可修改，面临新型AI驱动的自动化攻击威胁。Mythos能快速识别跨合约语义漏洞，传统审计和治理机制难以应对。Lido控制28%质押ETH，集中风险显著。专家指出，攻击将优先针对资金量大、防御薄弱的合约，而社区响应速度可能无法跟上AI的攻击效率。以太坊的生存取决于社区对安全问题的重视和行动速度。

marsbit51分钟前

marsbit51分钟前

交易

现货

合约

微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

文章摘要

VibeVoice-ASR-7B:长达60分钟的结构化语音转文本利器

VibeVoice-TTS-1.5B:90分钟多说话人富有表现力的语音生成

VibeVoice-Realtime-0.5B:约300毫秒延迟的实时 TTS

相关问答

你可能也喜欢

「新美联储通讯社」：无论是否达成停火协议，美联储降息前景都黯淡

普通人如何用10分钟识别一个Token背后有庄？

霍尔木兹海峡的比特币收费站

DEXE 暴跌 15%，卖方主导地位飙升 – 警示信号？

Mythos 推出后，以太坊生态还能活多久

交易

热门文章

如何购买ONE

相关讨论

热门问答

热门分类

热门标签