Microsoft открывает доступ к передовому семейству голосовых ИИ VibeVoice: обработка 90-минутных диалогов с несколькими говорящими, GitHub быстро набирает 27K звезд

marsbitОпубликовано 2026-03-30Обновлено 2026-03-30

Введение

Microsoft открыла исходный код семейства передовых голосовых ИИ-моделей VibeVoice, включающих распознавание речи (ASR) и преобразование текста в речь (TTS). Проект, получивший около 27 000 звезд на GitHub, позволяет однократно обрабатывать до 90 минут многопользовательского диалога. Ключевые модели: - VibeVoice-ASR-7B: преобразует аудио длиной до 60 минут в структурированный текст с распознаванием говорящих, временными метками и поддержкой 50+ языков. - VibeVoice-TTS-1.5B: генерирует до 90 минут естественной речи с поддержкой до 4 голосов, имитируя паузы и эмоции. - VibeVoice-Realtime-0.5B: обеспечивает задержку всего ~300 мс для потокового TTS. Проект использует лицензию MIT, поддерживает локальное развертывание и включает механизмы безопасности, такие как аудио-водяные знаки. Модели доступны на GitHub и Hugging Face.

Microsoft недавно открыл исходный код передового семейства голосовых ИИ-моделей под названием VibeVoice, которое охватывает такие возможности, как автоматическое распознавание речи (ASR) и преобразование текста в речь (TTS). Проект быстро привлек внимание сообщества разработчиков благодаря своей мощной обработке длинных аудио, генерации естественных диалогов с несколькими говорящими, а также характеристикам низкой задержки в реальном времени. На данный момент он набрал около 27 тысяч звезд на GitHub.

Будучи фреймворком для открытых исследований, VibeVoice использует лицензию MIT, поддерживает локальное развертывание, не требует облачных подписок и направлен на содействие сотрудничеству и инновациям в области синтеза речи. Семейство моделей в основном включает три ключевых компонента, каждый со своей специализацией, которые решают традиционные проблемы голосового ИИ в обработке длинных последовательностей, согласованности говорящего и естественной плавности.

VibeVoice-ASR-7B: Мощный инструмент для структурированного преобразования речи в текст длительностью до 60 минут

VibeVoice-ASR-7B — это унифицированная модель преобразования речи в текст, способная обрабатывать аудиофайлы длиной до 60 минут за один раз и напрямую выводить структурированные результаты транскрипции. Вывод включает не только «кто говорит» (идентификация говорящего) и «когда говорит» (точные временные метки), но и «что сказано» (подробное содержание), а также поддерживает функцию пользовательских горячих слов, что может эффективно повысить точность распознавания специальных имен или технических терминов. Модель поддерживает более 50 языков и подходит для сложных сценариев, таких как запись длинных совещаний или транскрипция подкастов.

Разработчики сообщества уже создали на основе этой модели практические инструменты, например, метод ввода с помощью голоса под названием Vibing, который поддерживает платформы macOS и Windows. Отзывы пользователей показывают, что его скорость и точность распознавания довольно хороши, что может значительно повысить эффективность повседневного голосового ввода.

VibeVoice-TTS-1.5B: Выразительное генерация речи для много говорящих длительностью 90 минут

VibeVoice-TTS-1.5B — это основная модель, ориентированная на преобразование текста в речь, способная за одно поколение создавать непрерывное аудио длительностью до 90 минут, поддерживая моделирование естественного диалога для до 4 различных говорящих. Генерируемая моделью речь выразительна, звучит естественно и плавно, может имитировать реальные паузы, акценты и эмоциональные переходы, что идеально подходит для создания подкастов, длинных аудио-нарративов, аудиокниг или контента с участием нескольких персонажей.

По сравнению со многими традиционными моделями TTS, которые поддерживают только 1-2 говорящих, VibeVoice-TTS достиг значительного прорыва в согласованности для длинных форм и нескольких говорящих. Его основа использует непрерывное речевое токенизирование (акустическое и семантическое) в сочетании с низкой частотой кадров (7,5 Гц), что значительно повышает вычислительную эффективность обработки длинных последовательностей.

VibeVoice-Realtime-0.5B: TTS в реальном времени с задержкой около 300 мс

VibeVoice-Realtime-0.5B ориентирован на сценарии реального времени, поддерживает потоковый ввод текста, задержка вывода первого звука составляет около 300 миллисекунд, при этом модель также может генерировать длинную речь продолжительностью около 10 минут. Эта модель особенно подходит для интерактивных приложений, требующих немедленного ответа, таких как голосовые помощники в реальном времени или сценарии озвучки в прямом эфире.

Кроме того, в проект добавлена экспериментальная поддержка говорящих, включая многоязычную речь и различные стили английского языка, что предоставляет разработчикам больше возможностей для настройки.

Комментарий AIbase: Открытый исходный код Microsoft VibeVoice не только снижает порог использования высокопроизводительного голосового ИИ, но и предоставляет комплексное решение для локального развертывания. Проект был временно удален из-за потенциальных рисков неправомерного использования, но позже был возвращен с внедрением механизмов безопасности, таких как аудио-водяные знаки и слышимые предупреждения, что демонстрирует принципы ответственной разработки ИИ. В настоящее время разработчики могут получить веса моделей в репозитории GitHub и на Hugging Face, а также быстро протестировать их на таких платформах, как Colab.

Благодаря постоянному вкладу сообщества открытого исходного кода (например, оптимизированные форки для Apple Silicon), VibeVoice有望有望 ускорить внедрение в таких областях, как создание контента, инструменты доступности и голосовое взаимодействие. Заинтересованные разработчики могут посетить официальную страницу проекта Microsoft для дальнейшего изучения.

Адрес проекта: https://github.com/microsoft/VibeVoice

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Связанные с этим вопросы

QЧто такое VibeVoice и почему он быстро набрал 27K звезд на GitHub?

AVibeVoice — это семейство передовых моделей искусственного интеллекта для обработки речи, разработанное Microsoft, включающее возможности автоматического распознавания речи (ASR) и преобразования текста в речь (TTS). Проект быстро gained популярность благодаря способности обрабатывать длинные аудиофайлы, поддерживать многопользовательские диалоги и обеспечивать низкую задержку в реальном времени.

QКаковы ключевые особенности модели VibeVoice-ASR-7B?

AVibeVoice-ASR-7B — это модель для преобразования речи в текст, способная обрабатывать аудио длиной до 60 минут. Она предоставляет структурированную расшифровку с распознаванием говорящего, точными временными метками и поддержкой пользовательских ключевых слов. Модель поддерживает более 50 языков.

QЧем отличается VibeVoice-TTS-1.5B от традиционных TTS-моделей?

AVibeVoice-TTS-1.5B может генерировать до 90 минут аудио с поддержкой до 4 различных говорящих в естественном диалоге. В отличие от традиционных моделей, ограниченных 1-2 голосами, она обеспечивает высокую согласованность и выразительность речи, включая паузы, акценты и эмоциональные переходы.

QДля каких задач предназначена модель VibeVoice-Realtime-0.5B?

AVibeVoice-Realtime-0.5B предназначена для приложений, требующих мгновенного ответа, таких как голосовые помощники или live-трансляции. Она обеспечивает задержку около 300 мс при генерации аудио и способна создавать речи длиной до 10 минут.

QКакие меры безопасности были приняты в проекте VibeVoice?

AПосле временного удаления из-за рисков misuse, проект был возвращен с внедрением аудио-водяных знаков и слышимых предупреждений для ответственного использования ИИ. Это позволяет снизить потенциальные злоупотребления технологией.

Похожее

Надежды на рост курса биткоина усиливаются! Аналитическая компания раскрывает «уровень судьбы» для BTC!

Криптовалюта биткоин начала неделю около отметки в 62 000 долларов. Аналитическая фирма BIT (ранее Matrixport) отмечает, что опасения по поводу снижения стоимости на рынке опционов BTC ослабевают. По её мнению, рынок, возможно, миновал пик страхов, и формируется более высокое ценовое дно. Ключевым условием для восстановления курса является удержание уровня поддержки в 62 000 долларов. Также аналитики указывают, что текущие участники рынка имеют небольшие позиции, что ограничивает давление продавцов. Движение на рынке опционов на этой неделе будет критически важным для краткосрочного направления BTC, так как сужение отрицательного перекоса опционной кривой может возобновить восходящий тренд. В то же время сохраняются макроэкономические риски, связанные с геополитической ситуацией и ростом доходности американских гособлигаций. Компания подчёркивает, что её анализ не является инвестиционной рекомендацией.

cryptonews.ru10 мин. назад

Надежды на рост курса биткоина усиливаются! Аналитическая компания раскрывает «уровень судьбы» для BTC!

cryptonews.ru10 мин. назад

Продажи упали на 26%, а цены выросли? Дилемма Xiaomi

Аналитический отчет: продажи Xiaomi упали на 26%, но компания повышает цены. "Железное правило" индустрии смартфонов "чем позже купишь, тем дешевле" рушится под давлением роста издержек. 2 августа Xiaomi повысила рекомендованные розничные цены на 9 моделей, включая флагманскую серию Mi 17, Redmi K90 и Turbo 5. Цены на флагманы выросли на 400-500 юаней, а модели Redmi подорожали на 300 юаней. Это уже третье повышение цен Xiaomi в этом году, отражающее поэтапный рост затрат, распространяющийся от бюджетных к флагманским моделям. Повышение цен происходит на фоне падения продаж. По данным IDC, глобальные поставки смартфонов Xiaomi во втором квартале 2026 года составили 31,2 млн единиц, что на 26,3% меньше, чем годом ранее, — это самое значительное падение среди топ-5 производителей. На внутреннем китайском рынке компания заняла пятое место с долей 12% и падением на 21%. Основная причина роста цен — резкий скачок стоимости чипов памяти. Всплеск спроса на решения для ИИ-вычислений привел к перераспределению производственных мощностей крупных производителей, таких как Samsung и SK Hynix, в пользу более прибыльной памяти HBM, что вызвало дефицит и подорожание потребительской DRAM и NAND-памяти. По словам президента Xiaomi Лу Вэйбина, стоимость памяти для некоторых версий выросла почти в 4 раза по сравнению с первым кварталом 2025 года, увеличив себестоимость одного смартфона примерно на 1500 юаней. Он прогнозирует, что тенденция к росту цен на память сохранится как минимум до конца 2027 года. Для смягчения последствий Xiaomi активизирует разработку собственных чипов серии Surge и оптимизирует конфигурации памяти в различных моделях. Повышение цен — общая тенденция для всей отрасли. С марта OPPO, OnePlus, vivo, Honor и Apple также повысили цены на часть своей продукции. Ожидается, что основная волна роста цен придется на вторую половину года.

marsbit20 мин. назад

Продажи упали на 26%, а цены выросли? Дилемма Xiaomi

marsbit20 мин. назад

7 месяцев – 23 новые компании. Модели мира перешли на этап «массового производства»

За первые 7 месяцев 2026 года в Китае создано 23 новые компании, ориентированные на разработку мировых моделей (World Models), что превысило показатель за весь прошлый год. 18 из них уже привлекли финансирование, включая 2 единорогов и 4 проекта с оценкой свыше 1 млрд юаней. Ключевые инвесторы — Sequoia China, Hillhouse, Tencent, Ant Group и другие. Компании разделяются на пять направлений: универсальные базовые модели (например, Pragmatic Tech, Inverse Matrix Tech), 4D и пространственный интеллект (Yuanhao Power), модели причинно-следственных рассуждений (Aether AI), воплощенный интеллект (PokeBot, KunlunXing Robotics) и вертикальные сценарии (Quantum Power в логистике). Особенности рынка: крупные инвестиции на ранних этапах, разнообразный портрет основателей (от 22-летних студентов до бывших топ-менеджеров Alibaba и Huawei), активное участие инвесторов из индустрии (Zhiyuan Robot, Xiaomi), углубленная интеграция академических исследований и бизнеса, а также ускоренный отток талантов из крупных компаний. Эти данные сигнализируют о переходе от концептуальных дискуссий к фазе активной инженерной реализации в сфере мировых моделей в Китае.

marsbit31 мин. назад

7 месяцев – 23 новые компании. Модели мира перешли на этап «массового производства»

marsbit31 мин. назад

Три квартала подряд снижения: крипторынок переживает самый продолжительный отлив с 2022 года

Согласно отчету CoinGecko, общая капитализация крипторынка снизилась на 12,6% во втором квартале 2026 года, продолжив трехквартальную тенденцию к оттоку капитала. Объемы торгов на централизованных биржах упали на 27,9%, а общая стоимость заблокированных средств (TVL) в DeFi сократилась на 23,4%. Рынок стабильных монет впервые с 2023 года показал отрицательный рост, что указывает на прямое изъятие средств из индустрии. Биткоин (-14,2%) и эфириум (-25,4%) отстали от роста традиционных рисковых активов. Немногочисленные точки роста, такие как рынки предсказаний и токенизированные коллекционные предметы, в основном подпитываются спекулятивными механизмами. Несмотря на оживление в июле, рынок переживает упорядоченный отток капитала. Будущее восстановление будет зависеть от политики ФРС и способности отрасли найти реальные источники дохода помимо спекуляций.

marsbit34 мин. назад

Три квартала подряд снижения: крипторынок переживает самый продолжительный отлив с 2022 года

marsbit34 мин. назад

Bithumb устанавливает график IPO на 2028 год на фоне реорганизации системы внутреннего контроля

Южнокорейская криптобиржа Bithumb объявила о планах подать заявку на предварительный листинговый обзор в 2027 году и завершить первичное публичное предложение (IPO) в 2028 году. В рамках подготовки к этому биржа реорганизовала бизнес-структуру, выделив Bithumb Asset, чтобы разграничить ответственность и снизить конфликты интересов. Также запланировано усиление внутреннего контроля и переход на международные стандарты финансовой отчетности K-IFRS. Этот шаг происходит на фоне укрепления связей других местных бирж, таких как Korbit и Upbit, с традиционными финансовыми и технологическими группами. Одновременно Bithumb сталкивается с проблемами, включая серьезную техническую ошибку в феврале, когда клиентам по ошибке были зачислены 620 000 BTC вместо денежных бонусов в вонах, а также приостановку торговли акциями связанных с ней компаний Vidente и Bucket Studio из-за аудиторских вопросов. График IPO может быть скорректирован в зависимости от рыночных условий и решений регуляторов.

cointelegraph45 мин. назад

Bithumb устанавливает график IPO на 2028 год на фоне реорганизации системы внутреннего контроля

cointelegraph45 мин. назад

Торговля

Спот

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на ONE (ONE) представлены ниже.