Microsoft открывает доступ к передовому семейству голосовых ИИ VibeVoice: обработка 90-минутных диалогов с несколькими говорящими, GitHub быстро набирает 27K звезд

marsbitОпубликовано 2026-03-30Обновлено 2026-03-30

Введение

Microsoft открыла исходный код семейства передовых голосовых ИИ-моделей VibeVoice, включающих распознавание речи (ASR) и преобразование текста в речь (TTS). Проект, получивший около 27 000 звезд на GitHub, позволяет однократно обрабатывать до 90 минут многопользовательского диалога. Ключевые модели: - VibeVoice-ASR-7B: преобразует аудио длиной до 60 минут в структурированный текст с распознаванием говорящих, временными метками и поддержкой 50+ языков. - VibeVoice-TTS-1.5B: генерирует до 90 минут естественной речи с поддержкой до 4 голосов, имитируя паузы и эмоции. - VibeVoice-Realtime-0.5B: обеспечивает задержку всего ~300 мс для потокового TTS. Проект использует лицензию MIT, поддерживает локальное развертывание и включает механизмы безопасности, такие как аудио-водяные знаки. Модели доступны на GitHub и Hugging Face.

Microsoft недавно открыл исходный код передового семейства голосовых ИИ-моделей под названием VibeVoice, которое охватывает такие возможности, как автоматическое распознавание речи (ASR) и преобразование текста в речь (TTS). Проект быстро привлек внимание сообщества разработчиков благодаря своей мощной обработке длинных аудио, генерации естественных диалогов с несколькими говорящими, а также характеристикам низкой задержки в реальном времени. На данный момент он набрал около 27 тысяч звезд на GitHub.

Будучи фреймворком для открытых исследований, VibeVoice использует лицензию MIT, поддерживает локальное развертывание, не требует облачных подписок и направлен на содействие сотрудничеству и инновациям в области синтеза речи. Семейство моделей в основном включает три ключевых компонента, каждый со своей специализацией, которые решают традиционные проблемы голосового ИИ в обработке длинных последовательностей, согласованности говорящего и естественной плавности.

VibeVoice-ASR-7B: Мощный инструмент для структурированного преобразования речи в текст длительностью до 60 минут

VibeVoice-ASR-7B — это унифицированная модель преобразования речи в текст, способная обрабатывать аудиофайлы длиной до 60 минут за один раз и напрямую выводить структурированные результаты транскрипции. Вывод включает не только «кто говорит» (идентификация говорящего) и «когда говорит» (точные временные метки), но и «что сказано» (подробное содержание), а также поддерживает функцию пользовательских горячих слов, что может эффективно повысить точность распознавания специальных имен или технических терминов. Модель поддерживает более 50 языков и подходит для сложных сценариев, таких как запись длинных совещаний или транскрипция подкастов.

Разработчики сообщества уже создали на основе этой модели практические инструменты, например, метод ввода с помощью голоса под названием Vibing, который поддерживает платформы macOS и Windows. Отзывы пользователей показывают, что его скорость и точность распознавания довольно хороши, что может значительно повысить эффективность повседневного голосового ввода.

VibeVoice-TTS-1.5B: Выразительное генерация речи для много говорящих длительностью 90 минут

VibeVoice-TTS-1.5B — это основная модель, ориентированная на преобразование текста в речь, способная за одно поколение создавать непрерывное аудио длительностью до 90 минут, поддерживая моделирование естественного диалога для до 4 различных говорящих. Генерируемая моделью речь выразительна, звучит естественно и плавно, может имитировать реальные паузы, акценты и эмоциональные переходы, что идеально подходит для создания подкастов, длинных аудио-нарративов, аудиокниг или контента с участием нескольких персонажей.

По сравнению со многими традиционными моделями TTS, которые поддерживают только 1-2 говорящих, VibeVoice-TTS достиг значительного прорыва в согласованности для длинных форм и нескольких говорящих. Его основа использует непрерывное речевое токенизирование (акустическое и семантическое) в сочетании с низкой частотой кадров (7,5 Гц), что значительно повышает вычислительную эффективность обработки длинных последовательностей.

VibeVoice-Realtime-0.5B: TTS в реальном времени с задержкой около 300 мс

VibeVoice-Realtime-0.5B ориентирован на сценарии реального времени, поддерживает потоковый ввод текста, задержка вывода первого звука составляет около 300 миллисекунд, при этом модель также может генерировать длинную речь продолжительностью около 10 минут. Эта модель особенно подходит для интерактивных приложений, требующих немедленного ответа, таких как голосовые помощники в реальном времени или сценарии озвучки в прямом эфире.

Кроме того, в проект добавлена экспериментальная поддержка говорящих, включая многоязычную речь и различные стили английского языка, что предоставляет разработчикам больше возможностей для настройки.

Комментарий AIbase: Открытый исходный код Microsoft VibeVoice не только снижает порог использования высокопроизводительного голосового ИИ, но и предоставляет комплексное решение для локального развертывания. Проект был временно удален из-за потенциальных рисков неправомерного использования, но позже был возвращен с внедрением механизмов безопасности, таких как аудио-водяные знаки и слышимые предупреждения, что демонстрирует принципы ответственной разработки ИИ. В настоящее время разработчики могут получить веса моделей в репозитории GitHub и на Hugging Face, а также быстро протестировать их на таких платформах, как Colab.

Благодаря постоянному вкладу сообщества открытого исходного кода (например, оптимизированные форки для Apple Silicon), VibeVoice有望有望 ускорить внедрение в таких областях, как создание контента, инструменты доступности и голосовое взаимодействие. Заинтересованные разработчики могут посетить официальную страницу проекта Microsoft для дальнейшего изучения.

Адрес проекта: https://github.com/microsoft/VibeVoice

Трендовые криптовалюты

Связанные с этим вопросы

QЧто такое VibeVoice и почему он быстро набрал 27K звезд на GitHub?

AVibeVoice — это семейство передовых моделей искусственного интеллекта для обработки речи, разработанное Microsoft, включающее возможности автоматического распознавания речи (ASR) и преобразования текста в речь (TTS). Проект быстро gained популярность благодаря способности обрабатывать длинные аудиофайлы, поддерживать многопользовательские диалоги и обеспечивать низкую задержку в реальном времени.

QКаковы ключевые особенности модели VibeVoice-ASR-7B?

AVibeVoice-ASR-7B — это модель для преобразования речи в текст, способная обрабатывать аудио длиной до 60 минут. Она предоставляет структурированную расшифровку с распознаванием говорящего, точными временными метками и поддержкой пользовательских ключевых слов. Модель поддерживает более 50 языков.

QЧем отличается VibeVoice-TTS-1.5B от традиционных TTS-моделей?

AVibeVoice-TTS-1.5B может генерировать до 90 минут аудио с поддержкой до 4 различных говорящих в естественном диалоге. В отличие от традиционных моделей, ограниченных 1-2 голосами, она обеспечивает высокую согласованность и выразительность речи, включая паузы, акценты и эмоциональные переходы.

QДля каких задач предназначена модель VibeVoice-Realtime-0.5B?

AVibeVoice-Realtime-0.5B предназначена для приложений, требующих мгновенного ответа, таких как голосовые помощники или live-трансляции. Она обеспечивает задержку около 300 мс при генерации аудио и способна создавать речи длиной до 10 минут.

QКакие меры безопасности были приняты в проекте VibeVoice?

AПосле временного удаления из-за рисков misuse, проект был возвращен с внедрением аудио-водяных знаков и слышимых предупреждений для ответственного использования ИИ. Это позволяет снизить потенциальные злоупотребления технологией.

Похожее

Знакомство: Market Compass

Glassnode представляет Market Compass — инструмент, который консолидирует тысячи метрик в единую систему из семи компонентов для оценки состояния рынка Биткоина. Четыре компонента являются прогнозными и формируют основной индекс (0–100), отражающий ожидания от «Снижения рисков» (Risk-Off) до «Стремления к риску» (Risk-On): * **Макроэкономика**: от ужесточения до экспансии. * **Движение капитала и ликвидность**: от оттока до притока. * **Поведение инвесторов**: от распределения к накоплению. * **Базовые ончейн-показатели**: от спада к активному росту. Три компонента описывают текущую ситуацию: * **Позиция в цикле**: от капитуляции до эйфории. * **Деривативы**: от снижения левериджа до перегрева. * **Ротация между активами**: сезон Биткоина или альткоинов. **Текущее состояние (на момент публикации):** Основной индекс — 14 (Risk-Off), что характерно для медвежьей фазы (BTC ~64 400$, -16% за месяц). Сильнее всего индекс сдерживает макрокомпонент (23) из-за сильного доллара (DXY выше 200-дневной средней). Однако три других прогнозных компонента демонстрируют умеренное улучшение, указывая на внутреннее восстановление. Например, долгосрочные холдеры накопили рекордную долю монет. **Ключевой вывод:** Compass показывает картину, которую не увидеть по отдельным метрикам: на рынке идут процессы накопления («донная ловля»), но режим не изменился, поскольку ключевой негативный фактор — сильный доллар — сохраняется. Инструмент не дает прямых сигналов к покупке/продаже, а предоставляет контекст для принятия решений.

insights.glassnode4 ч. назад

Знакомство: Market Compass

insights.glassnode4 ч. назад

Nvidia атакует процессорами, Китай отвечает RISC-V. Четвертое глубокое наблюдение за полупроводниками

Статья сообщает, что Nvidia намерена поставлять в Китай свои новые CPU Vera для AI-центров обработки данных по цене свыше $20 000 за чип. На этом фоне в Китае активно развивается альтернативная архитектура RISC-V как путь к созданию собственных, независимых и конкурентоспособных высокопроизводительных процессоров. Ключевая задача для китайского RISC-сектора – преодолеть «невозможный треугольник», совместив независимость, управляемость и процветающую экосистему. В то время как x86 и Arm доминируют, открытая и модульная природа RISC-V дает такую возможность. Усилия сейчас сосредоточены на переходе от встраиваемых систем к высокопроизводительным вычислениям для центров обработки данных и AI. В материковом Китае наблюдается высокая активность: несколько команд уже достигли или превзошли порог в 15 баллов SPECint (ключевой показатель производительности ядра), разрабатываются собственные согласованные сетевые интерфейсы (NoC) и полноценные процессоры с десятками ядер, соответствующие стандарту RVA23 для совместимости. RISC-V рассматривается как потенциальная основа для будущих AI-ускорителей, предлагая лучшую интеграцию CPU и ускорителей, возможность кастомизации и перспективу единого программного стека. Однако остаются серьезные вызовы: фрагментация экосистемы, незрелость инструментов и ПО, отставание в одноядерной производительности и энергоэффективности, а также зависимость от передовых производственных процессов. Эксперты признают, что путь к полной конкурентоспособности в сфере высокопроизводительных вычислений будет долгим. В итоге, хотя RISC-V не может мгновенно заменить предложения вроде Nvidia Vera, он представляет собой стратегический путь для Китая к созданию независимой и жизнеспособной альтернативы на следующем этапе гонки вычислительных мощностей.

marsbit5 ч. назад

Nvidia атакует процессорами, Китай отвечает RISC-V. Четвертое глубокое наблюдение за полупроводниками

marsbit5 ч. назад

Stratosphere, Pudgy Penguins и Streamex провели VIP-ужин Founders Table во время ETHConf 2026 и NYC Tech Week

Нью-Йорк, 18 июня 2026 года, Chainwire. Стратосфера, Pudgy Penguins и Streamex провели закрытый VIP-ужин Founders Table в Нью-Йорке в рамках ETHConf 2026 и NYC Tech Week. Мероприятие собрало лидеров из сфер цифровых активов, технологий, ИИ, традиционных финансов и институционального капитала. Ужин состоялся 9 июня для отобранного круга основателей, операторов, фондов, топ-менеджеров и институциональных лидеров. Формат Founders Table предусматривает приватную атмосферу без формальной программы, чтобы способствовать естественному общению. Среди гостей были представители Citi, BitMine, BitGo, Mirae Asset Securities USA, Experian, Pyth Network и других компаний. Stratosphere предоставила сеть контактов, Pudgy Penguins — сильный потребительский бренд в цифровых активах, а Streamex — экспертизу в области токенизированных товарных рынков, таких как золото. Основатель Stratosphere Хассан Шейх отметил оптимизм относительно следующей фазы развития цифровых активов, особенно токенизации товаров. Серия ужинов Founders Table будет продолжена на других крупных конференциях, объединяя основателей, капитал и институции.

TheNewsCrypto7 ч. назад

Stratosphere, Pudgy Penguins и Streamex провели VIP-ужин Founders Table во время ETHConf 2026 и NYC Tech Week

TheNewsCrypto7 ч. назад

Панель ставок на Polymarket заработала благодаря коду, но Polymarket — не лучшее место для «арбитража»

В статье рассказывается о создании пользовательской панели мониторинга для платформы прогнозирования Polymarket, которая помогла автору достичь 30% доходности за несколько недель при стартовом капитале в $1600. Однако автор подчеркивает, что основная цель статьи — не продвижение Polymarket как источника легкой прибыли, а предупреждение о рисках и структурных ловушках этой платформы. Ключевые выводы автора: 1. **Polymarket — не место для арбитража.** Это рынок, где высока зависимость от интерпретации правил и информационного преимущества. Даже при высокой уверенности в исходе события всегда существует риск полной потери инвестиции в случае ошибки. 2. **Управление рисками и диверсификация важнее поиска «верных ставок».** * Автор внедрил систему классификации ставок по уровням уверенности (T1, T2, T3) с строгими лимитами на размер позиции для каждого уровня. * Важна **истинная диверсификация** по некоррелирующим темам (например, Восточная Азия, Ближний Восток, криптовалюты), а не просто участие во множестве рынков с общей базовой переменной. * Высокая вероятность успеха (например, 95%) не оправдывает крупную позицию, так как даже малая вероятность провала означает потерю 100% вложенных средств. 3. **Математическое ожидание и хвостовые риски.** Необходимо оценивать не только потенциальную доходность, но и разницу между личной оценкой вероятности и рыночной ценой, а также влияние потери всей позиции на общий портфель. 4. **Polymarket как тренировочный полигон.** Автор рассматривает платформу скорее как инструмент для тренировки аналитического мышления и дисциплины в условиях неопределенности, чем как источник стабильного дохода. В заключение, автор отмечает, что ценность созданной панели заключается не в подсчете прибыли, а в наложении строгих рамок управления капиталом и рисками на интуитивные решения, превращая разрозненные ставки в систематизированный процесс.

marsbit8 ч. назад

Панель ставок на Polymarket заработала благодаря коду, но Polymarket — не лучшее место для «арбитража»

marsbit8 ч. назад

Разбор роста Notion: от приложения для заметок до 100 миллионов пользователей — как Notion построил тройную маховик роста на основе продукта, шаблонов и сообщества

Notion — это уникальный пример роста SaaS-компании, который основан не на одной функции или агрессивном маркетинге, а на взаимосвязанной системе из трех «маховиков роста»: продукта, шаблонов и сообщества. Изначально Notion начинал как сложный инструмент для создания пользовательских рабочих пространств, но после перезапуска команда сосредоточилась на модульности и простоте. Это позволило превратить его в гибкую платформу, где пользователи могут комбинировать блоки для различных задач — от ведения заметок до управления проектами. Первый маховик — Product-Led Growth (PLG). Свободный план позволил быстро привлечь студентов, создателей и стартапы. Продукт обладает встроенными вирусными механиками: страницы и шаблоны легко делиться, а необходимость сотрудничества естественным образом приводит к приглашению новых пользователей. Второй маховик — экономика шаблонов. Высокая гибкость Notion может отпугнуть новичков. Шаблоны решают эту проблему, превращая абстрактные возможности в готовые решения для конкретных сценариев (планирование, учёба, управление контентом). Пользователи и создатели генерируют тысячи шаблонов, что расширяет экосистему, улучшает SEO и создаёт сообщество заинтересованных создателей. Третий маховик — сообщество. Пользователи делятся своими рабочими процессами, обучают других и формируют идентичность вокруг философии «лучших способов работы». Программа Ambassador помогает локализовать контент и проводить мероприятия по всему миру, превращая пользователей в активных евангелистов. Notion успешно перешёл от индивидуальных пользователей к корпоративному рынку благодаря стратегии «снизу вверх»: сотрудники сначала используют его неформально, а затем компании официально внедряют его для команд. В эпоху ИИ Notion интегрирует возможности искусственного интеллекта непосредственно в рабочие процессы (написание, суммирование, управление знаниями), что повышает ценность платформы и открывает новые сценарии использования. Секрет устойчивого роста Notion заключается не в отдельных функциях, а в целостной экосистеме, где продукт, пользовательский контент и сообщество взаимно усиливают друг друга, создавая значительные барьеры для конкурентов.

marsbit11 ч. назад

Разбор роста Notion: от приложения для заметок до 100 миллионов пользователей — как Notion построил тройную маховик роста на основе продукта, шаблонов и сообщества

marsbit11 ч. назад

Торговля

Спот
Фьючерсы

Популярные статьи

Как купить ONE

Добро пожаловать на HTX.com! Мы сделали приобретение Harmony (ONE) простым и удобным. Следуйте нашему пошаговому руководству и отправляйтесь в свое крипто-путешествие.Шаг 1: Создайте аккаунт на HTXИспользуйте свой адрес электронной почты или номер телефона, чтобы зарегистрироваться и бесплатно создать аккаунт на HTX. Пройдите удобную регистрацию и откройте для себя весь функционал.Создать аккаунтШаг 2: Перейдите в Купить криптовалюту и выберите свой способ оплатыКредитная/Дебетовая Карта: Используйте свою карту Visa или Mastercard для мгновенной покупки Harmony (ONE).Баланс: Используйте средства с баланса вашего аккаунта HTX для простой торговли.Третьи Лица: Мы добавили популярные способы оплаты, такие как Google Pay и Apple Pay, для повышения удобства.P2P: Торгуйте напрямую с другими пользователями на HTX.Внебиржевая Торговля (OTC): Мы предлагаем индивидуальные услуги и конкурентоспособные обменные курсы для трейдеров.Шаг 3: Хранение Harmony (ONE)После приобретения вами Harmony (ONE) храните их в своем аккаунте на HTX. В качестве альтернативы вы можете отправить их куда-либо с помощью перевода в блокчейне или использовать для торговли с другими криптовалютами.Шаг 4: Торговля Harmony (ONE)С легкостью торгуйте Harmony (ONE) на спотовом рынке HTX. Просто зайдите в свой аккаунт, выберите торговую пару, совершайте сделки и следите за ними в режиме реального времени. Мы предлагаем удобный интерфейс как для начинающих, так и для опытных трейдеров.

737 просмотров всегоОпубликовано 2024.04.12Обновлено 2026.06.02

Как купить ONE

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на ONE (ONE) представлены ниже.

活动图片