Microsoft abre en código abierto la familia de IA de voz VibeVoice: procesa 90 minutos de diálogo con múltiples hablantes de una sola vez, alcanza rápidamente 27K estrellas en GitHub

marsbitPublicado a 2026-03-30Actualizado a 2026-03-30

Resumen

Microsoft ha lanzado como código abierto su familia de modelos de IA de voz VibeVoice, que incluye capacidades de reconocimiento de voz (ASR) y síntesis de voz (TTS). El proyecto, que ya cuenta con 27K estrellas en GitHub, destaca por procesar hasta 90 minutos de audio con múltiples hablantes, baja latencia y soporte para más de 50 idiomas. Los modelos principales son: - VibeVoice-ASR-7B: Transcribe audio de 60 minutos con identificación de hablantes y marcas de tiempo. - VibeVoice-TTS-1.5B: Genera 90 minutos de audio con hasta 4 voces distintas y expresividad natural. - VibeVoice-Realtime-0.5B: Ofrece síntesis en tiempo real con apenas 300 ms de delay. El framework, bajo licencia MIT, permite despliegue local sin costes de suscripción e incluye medidas de seguridad como marcas de agua. Ya se han desarrollado herramientas prácticas como un teclado de voz para macOS y Windows.

Microsoft ha lanzado recientemente como código abierto la familia de modelos de IA de voz de vanguardia llamada VibeVoice, que abarca capacidades como el reconocimiento automático de voz (ASR) y la conversión de texto a voz (TTS). El proyecto, con su potente procesamiento de audio largo, generación de diálogos naturales con múltiples hablantes y características de baja latencia en tiempo real, ha captado rápidamente la atención de la comunidad de desarrolladores, alcanzando actualmente alrededor de 27,000 estrellas en GitHub.

Como marco de investigación de código abierto, VibeVoice utiliza la licencia MIT, admite implementación local, no requiere costos de suscripción en la nube y tiene como objetivo impulsar la colaboración e innovación en el campo de la síntesis de voz. La familia de modelos incluye principalmente tres miembros centrales, cada uno con un enfoque diferente, que abordan conjuntamente los puntos débiles de la IA de voz tradicional en el procesamiento de secuencias largas, la consistencia del hablante y la fluidez natural.

VibeVoice-ASR-7B: La herramienta para transcripción estructurada de voz a texto de hasta 60 minutos

VibeVoice-ASR-7B es un modelo unificado de voz a texto capaz de procesar archivos de audio de hasta 60 minutos de duración de una sola vez, generando directamente resultados de transcripción estructurados. La salida no solo incluye "quién está hablando" (identificación del hablante) y "cuándo se habla" (marcas de tiempo precisas), sino también "qué se dijo" (contenido detallado), y admite la función de palabras clave personalizadas, lo que puede mejorar efectivamente la precisión en el reconocimiento de nombres propios o términos técnicos. El modelo es compatible con más de 50 idiomas y es adecuado para escenarios complejos como transcripciones de reuniones largas o podcasts.

Los desarrolladores de la comunidad ya han creado herramientas prácticas basadas en este modelo, como un método de entrada por voz llamado Vibing, compatible con las plataformas macOS y Windows. Los comentarios de los usuarios indican que su velocidad y precisión de reconocimiento son notables, pudiendo mejorar significativamente la eficiencia en la entrada de voz diaria.

VibeVoice-TTS-1.5B: Generación de voz expresiva de 90 minutos con múltiples hablantes

VibeVoice-TTS-1.5B es el modelo central enfocado en la conversión de texto a voz, capaz de producir audio continuo de hasta 90 minutos en una sola generación, admitiendo la simulación de diálogos naturales con hasta 4 hablantes diferentes. La voz generada por el modelo es expresiva, suena natural y fluida, y puede imitar pausas realistas, énfasis y cambios emocionales, lo que la hace ideal para la producción de podcasts, narrativas de audio largas, audiolibros o contenido con diálogos de múltiples personajes.

En comparación con muchos modelos TTS tradicionales que solo admiten 1-2 hablantes, VibeVoice-TTS ha logrado un avance significativo en la consistencia de formas largas y múltiples hablantes. Su base utiliza un tokenizador de voz continuo (tokenizador acústico y semántico) combinado con un diseño de baja frecuencia de frames (7.5 Hz), mejorando sustancialmente la eficiencia computacional en el procesamiento de secuencias largas.

VibeVoice-Realtime-0.5B: TTS en tiempo real con una latencia de aproximadamente 300 ms

VibeVoice-Realtime-0.5B se centra en escenarios en tiempo real, admite entrada de texto en flujo continuo (streaming), con una latencia de salida del primer audio de aproximadamente 300 milisegundos, y además puede generar voz de larga duración de unos 10 minutos. Este modelo es especialmente adecuado para aplicaciones interactivas que requieren respuestas inmediatas, como asistentes de voz en tiempo real o escenarios de doblaje en vivo.

Además, el proyecto incorpora soporte experimental para hablantes, incluyendo voz multilingüe y varias variantes de estilos de inglés, ofreciendo a los desarrolladores más espacio para personalización.

Comentario de AIbase: La apertura del código de VibeVoice por parte de Microsoft no solo reduce el umbral de uso de la IA de voz de alto rendimiento, sino que también proporciona una solución completa para la implementación local. El proyecto fue retirado brevemente debido a posibles riesgos de uso indebido, pero se relanzó posteriormente mediante mecanismos de seguridad como la incorporación de marcas de agua de audio y declaraciones audibles de exención de responsabilidad, reflejando los principios de desarrollo responsable de IA. Actualmente, los desarrolladores pueden obtener los pesos en el repositorio de GitHub y en Hugging Face, y probarlo rápidamente a través de plataformas como Colab.

Con las continuas contribuciones de la comunidad de código abierto (como la bifurcación optimizada para Apple Silicon), se espera que VibeVoice acelere su implementación en áreas como la creación de contenido, herramientas de accesibilidad e interacción por voz. Los desarrolladores interesados pueden visitar la página oficial del proyecto de Microsoft para explorar más.

Dirección del proyecto: https://github.com/microsoft/VibeVoice

Preguntas relacionadas

Q¿Qué es VibeVoice y por qué ha generado tanto interés en GitHub?

AVibeVoice es una familia de modelos de IA de voz de vanguardia de código abierto de Microsoft que incluye capacidades como reconocimiento automático de voz (ASR) y texto a voz (TTS). Ha generado interés debido a su potente procesamiento de audio largo, generación de conversaciones naturales con múltiples hablantes y características de baja latencia en tiempo real, obteniendo alrededor de 27K estrellas en GitHub.

Q¿Cuáles son los tres modelos principales de la familia VibeVoice y qué hace cada uno?

ALos tres modelos principales son: 1) VibeVoice-ASR-7B: Un modelo unificado de voz a texto que puede procesar archivos de audio de hasta 60 minutos. 2) VibeVoice-TTS-1.5B: Un modelo de texto a voz que puede generar hasta 90 minutos de audio continuo con hasta 4 hablantes diferentes. 3) VibeVoice-Realtime-0.5B: Un modelo de TTS en tiempo real con una latencia de unos 300 ms, adecuado para aplicaciones interactivas.

Q¿Qué ventaja ofrece VibeVoice-ASR-7B en la transcripción de audio largo?

AVibeVoice-ASR-7B puede procesar archivos de audio de hasta 60 minutos de una sola vez y generar una transcripción estructurada que incluye la identificación del hablante, marcas de tiempo precisas y el contenido detallado. También admite más de 50 idiomas y tiene una función de palabras clave personalizable para mejorar la precisión.

Q¿Cómo maneja VibeVoice-TTS-1.5B la generación de conversaciones con múltiples hablantes?

AVibeVoice-TTS-1.5B puede simular conversaciones naturales con hasta 4 hablantes diferentes en una sola generación, produciendo audio de hasta 90 minutos. Genera voz expresiva que suena natural, imitando pausas reales, énfasis y transiciones emocionales. Utiliza un tokenizador de voz continuo y un diseño de baja frecuencia de cuadros (7.5Hz) para una mayor eficiencia computacional.

Q¿Qué medidas de seguridad tomó el proyecto VibeVoice antes de ser relanzado?

AEl proyecto VibeVoice fue relanzado después de incorporar mecanismos de seguridad como la marca de agua de audio integrada y declaraciones de exención de responsabilidad audibles para abordar los riesgos de uso indebido, lo que refleja los principios de desarrollo responsable de IA.

Lecturas Relacionadas

W3.io y Space and Time colaboran para lanzar una infraestructura financiera de IA verificable

Hoy, W3.io y Space and Time anunciaron una colaboración para lanzar una infraestructura financiera de IA verificable. Esta asociación procesa más de 200.000 operaciones diarias y aborda la creciente brecha de responsabilidad en procesos autónomos de pagos, proveedores y cumplimiento. W3 ofrece una plataforma para crear y automatizar procesos financieros impulsados por agentes de IA en un día, mientras que Space and Time proporciona una capa de verificación de datos subyacente. Juntos, garantizan una cadena de prueba inmutable desde la ejecución hasta la liquidación. La plataforma Creatorland, con más de 100.000 creadores de contenido, validó la integración, que gestiona flujos de trabajo de pagos y remuneraciones a gran escala. Ejecutivos de ambas empresas destacaron la necesidad de transparencia y rendición de cuentas en operaciones financieras automatizadas. W3 ya integra a actores como Circle, Stripe y PayPal, mientras que Space and Time, respaldado por Microsoft M12, conecta datos del mundo real con tecnología blockchain para impulsar DeFi y activos tokenizados.

TheNewsCryptoHace 1 hora(s)

W3.io y Space and Time colaboran para lanzar una infraestructura financiera de IA verificable

TheNewsCryptoHace 1 hora(s)

Fiscal General de Nueva York demanda a Coinbase y Gemini por presuntas violaciones de la ley estatal

En un caso destacado dentro del clima actual favorable a las criptomonedas en EE.UU., la Fiscal General de Nueva York, Letitia James, demandó a Coinbase y Gemini por presuntas violaciones de la ley estatal. La demanda, presentada el martes, acusa a ambas plataformas de operar mercados de predicción sin las licencias requeridas por la Comisión de Juegos del estado, alegando que estas actividades se equiparan al juego ilegal según la legislación local. James argumenta que los resultados en estos mercados escapan al control de los usuarios o se asemejan a juegos de azar, por lo que deberían regularse como apuestas. Además, denuncia que ambas plataformas permitieron el acceso a usuarios de 18 a 20 años, incumpliendo la edad mínima de 21 años para apuestas móviles en Nueva York. La demanda solicita el reembolso de ganancias ilegales, multas civiles equivalentes al triple de esos beneficios, restitución a clientes y prohibiciones para que menores de 21 años realicen apuestas. También busca restringir la promoción de estos servicios en campus universitarios. Tras conocerse la noticia, las acciones de Coinbase (COIN) cayeron un 10% y las de Gemini (GEMI) un 4%. Ninguna de las empresas ha emitido aún declaraciones oficiales sobre el caso.

bitcoinistHace 2 hora(s)

Fiscal General de Nueva York demanda a Coinbase y Gemini por presuntas violaciones de la ley estatal

bitcoinistHace 2 hora(s)

La Extorsión Cripto Golpea el Estrecho de Ormuz: Estafadores Aprovechan la Crisis Naviera

Al menos un barco que fue atacado al intentar salir del Estrecho de Ormuz podría haber actuado siguiendo instrucciones fraudulentas de delincuentes que se hacían pasar por autoridades iraníes. La firma de riesgo marítimo Marisks advirtió sobre una estafa dirigida a navieras con barcos bloqueados al oeste del estrecho. Los estafadores, fingiendo ser servicios de seguridad iraníes, ofrecen paso seguro a cambio de pagos en Bitcoin o Tether (USDT). El proceso simula ser oficial: se solicitan documentos y se asigna una tarifa en criptomonedas. El timo aprovecha la desesperación por el cierre del estrecho —por donde circulaba el 20% del petróleo mundial— y se inspira en informes reales sobre peajes en Bitcoin. Pagar no solo implica perder dinero: según Chainalysis, transferir cripto a entidades vinculadas con Irán podría violar sanciones internacionales y exponer a las empresas a graves consecuencias legales.

bitcoinistHace 5 hora(s)

La Extorsión Cripto Golpea el Estrecho de Ormuz: Estafadores Aprovechan la Crisis Naviera

bitcoinistHace 5 hora(s)

Investigador del MIT Propone una Nueva Ruta para Hacer al Bitcoin Resistente a la Cuántica

La directora de MIT Digital Currency Initiative, Neha Narula, propone un plan para proteger a Bitcoin de futuros ataques cuánticos mediante una estrategia gradual. Sugiere implementar mediante un soft fork un nuevo tipo de salida segura post-cuántica (P2MR según BIP 360) combinado con un nuevo opcode de firma y agilidad criptográfica. Esto permitiría a los usuarios mover sus fondos a direcciones seguras de forma inmediata, sin tener que esperar a resolver cuestiones más complejas como el manejo de monedas inactivas o perdidas. Narula argumenta que es crucial actuar ahora con medidas de bajo riesgo y alto beneficio, posponiendo decisiones más controvertidas para cuando se acerque la amenaza real de un ordenador cuántico. Aunque la solución no protege a las monedas en direcciones ya expuestas, genera datos sobre la adopción y reduce progresivamente la cantidad de bitcoin vulnerable. La propuesta prioriza la acción práctica sobre la perfección, permitiendo avances significativos sin requerir consenso total sobre todos los aspectos.

bitcoinistHace 5 hora(s)

Investigador del MIT Propone una Nueva Ruta para Hacer al Bitcoin Resistente a la Cuántica

bitcoinistHace 5 hora(s)

Lo que hay que saber sobre el impulso de la Ley CLARITY esta semana y por qué mediados de mayo es ahora clave

Después de meses de retraso, el Senado de EE. UU. se acerca a un momento decisivo para la Ley CLARITY. La presión de los bancos tradicionales, especialmente sobre el comité bancario y el senador Thom Tillis, podría retrasar la votación hasta mediados de mayo. Los grupos bancarios están preocupados por las restricciones a los rendimientos de las stablecoins en el proyecto actual. Aunque se alcanzó un compromiso a finales de marzo que satisfizo en gran medida a la industria cripto, el texto final aún no se ha hecho público. Además de las stablecoins, la ley también debe resolver cuestiones pendientes sobre ética y finanzas descentralizadas (DeFi) antes de su votación final.

bitcoinistHace 6 hora(s)

Lo que hay que saber sobre el impulso de la Ley CLARITY esta semana y por qué mediados de mayo es ahora clave

bitcoinistHace 6 hora(s)

Trading

Spot

Futuros

Artículos destacados

Cómo comprar ONE

¡Bienvenido a HTX.com! Hemos hecho que comprar Harmony (ONE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Harmony (ONE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Harmony (ONE)Después de comprar tu Harmony (ONE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Harmony (ONE)Tradear fácilmente con Harmony (ONE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

390 Vistas totalesPublicado en 2024.12.12Actualizado en 2025.03.21

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ONE (ONE).

Microsoft abre en código abierto la familia de IA de voz VibeVoice: procesa 90 minutos de diálogo con múltiples hablantes de una sola vez, alcanza rápidamente 27K estrellas en GitHub

Resumen

VibeVoice-ASR-7B: La herramienta para transcripción estructurada de voz a texto de hasta 60 minutos

VibeVoice-TTS-1.5B: Generación de voz expresiva de 90 minutos con múltiples hablantes

VibeVoice-Realtime-0.5B: TTS en tiempo real con una latencia de aproximadamente 300 ms

Preguntas relacionadas

Lecturas Relacionadas

W3.io y Space and Time colaboran para lanzar una infraestructura financiera de IA verificable

Fiscal General de Nueva York demanda a Coinbase y Gemini por presuntas violaciones de la ley estatal

La Extorsión Cripto Golpea el Estrecho de Ormuz: Estafadores Aprovechan la Crisis Naviera

Investigador del MIT Propone una Nueva Ruta para Hacer al Bitcoin Resistente a la Cuántica

Lo que hay que saber sobre el impulso de la Ley CLARITY esta semana y por qué mediados de mayo es ahora clave

Trading

Artículos destacados

Cómo comprar ONE

Discusiones

Categorías populares

Etiquetas Populares