Microsoft Membuka Sumber AI Suara Terdepan VibeVoice: Proses 90 Menit Percakapan Multi-Pembicara Sekaligus, GitHub Raih 27K Star dengan Cepat

marsbitDipublikasikan tanggal 2026-03-30Terakhir diperbarui pada 2026-03-30

Abstrak

Microsoft baru-baru ini merilis model AI suara canggih VibeVoice sebagai proyek open-source, mencakup kemampuan ASR (Automatic Speech Recognition) dan TTS (Text-to-Speech). Model ini mampu memproses audio panjang (hingga 90 menit) dan percakapan multi-pembicara dengan latensi rendah. Proyek ini cepat populer di GitHub, mencapai sekitar 27K Star. VibeVoice-ASR-7B dapat memproses file audio hingga 60 menit, menghasilkan transkrip terstruktur dengan identifikasi pembicara, stempel waktu, dan dukungan untuk lebih dari 50 bahasa. VibeVoice-TTS-1.5B berfokus pada generasi suara ekspresif untuk percakapan alami hingga 4 pembicara dalam satu sesi. Sementara VibeVoice-Realtime-0.5B dirancang untuk skenario real-time dengan latency sekitar 300ms. Proyek ini menggunakan lisensi MIT, mendukung deploy lokal tanpa biaya langganan cloud, dan telah menerapkan mekanisme keamanan seperti watermark audio. Tersedia di GitHub dan Hugging Face untuk eksplorasi lebih lanjut.

Microsoft baru-baru ini membuka sumber model AI suara terdepan bernama VibeVoice, yang mencakup kemampuan seperti pengenalan suara otomatis (ASR) dan konversi teks ke suara (TTS). Proyek ini dengan cepat menarik perhatian komunitas pengembang berkat kemampuannya yang kuat dalam pemrosesan audio panjang, generasi percakapan alami multi-pembicara, serta karakteristik latensi rendah real-time, dan telah mengumpulkan sekitar 27K Star di GitHub.

Sebagai kerangka penelitian sumber terbuka, VibeVoice menggunakan lisensi MIT, mendukung penyebaran lokal, tidak memerlukan biaya langganan cloud, dan bertujuan untuk mendorong kolaborasi dan inovasi dalam bidang sintesis suara. Keluarga model terutama terdiri dari tiga anggota inti, masing-masing memiliki fokus berbeda, bersama-sama mengatasi kelemahan tradisional AI suara dalam pemrosesan urutan panjang, konsistensi pembicara, dan kelancaran alami.

VibeVoice-ASR-7B: Alat Transkripsi Suara ke Teks Terstruktur hingga 60 Menit

VibeVoice-ASR-7B adalah model terpadu untuk mengubah suara menjadi teks, mampu memproses file audio hingga 60 menit sekaligus dan langsung menghasilkan hasil transkripsi terstruktur. Keluaran tidak hanya mencakup "siapa yang berbicara" (pengenalan pembicara), "kapan berbicara" (stempel waktu yang tepat), tetapi juga "apa yang dikatakan" (konten detail), dan mendukung fungsi kata kunci khusus yang dapat secara efektif meningkatkan akurasi pengenalan untuk istilah proper atau teknis. Model ini mendukung lebih dari 50 bahasa, cocok untuk skenario kompleks seperti pencatatan rapat panjang atau transkrip podcast.

Pengembang komunitas telah mengembangkan alat praktis berdasarkan model ini, misalnya metode input suara bernama Vibing yang mendukung platform macOS dan Windows. Umpan balik pengguna menunjukkan bahwa kecepatan dan akurasi pengenalannya cukup baik, dapat secara signifikan meningkatkan efisiensi input suara sehari-hari.

VibeVoice-TTS-1.5B: Generasi Suara Ekspresif Multi-Pembicara 90 Menit

VibeVoice-TTS-1.5B adalah model inti yang berfokus pada konversi teks ke suara, mampu menghasilkan audio kontinu hingga 90 menit dalam satu kali generasi, mendukung hingga 4 pembicara berbeda untuk simulasi percakapan alami. Suara yang dihasilkan model sangat ekspresif, terdengar alami dan lancar, dapat meniru jeda, penekanan, dan perubahan emosi yang nyata, sangat cocok untuk produksi podcast, narasi audio panjang, buku audio, atau konten percakapan multi-karakter.

Dibandingkan dengan banyak model TTS tradisional yang hanya mendukung 1-2 pembicara, VibeVoice-TTS telah mencapai terobosan signifikan dalam konsistensi bentuk panjang dan multi-pembicara. Di balik layar, model ini menggunakan tokenizer suara kontinu (tokenizer akustik dan semantik) yang dikombinasikan dengan desain frame rate rendah (7.5Hz), secara signifikan meningkatkan efisiensi komputasi untuk pemrosesan urutan panjang.

VibeVoice-Realtime-0.5B: TTS Real-Time dengan Latensi Sekitar 300 Milidetik

VibeVoice-Realtime-0.5B berfokus pada skenario real-time, mendukung input teks streaming, dengan latensi keluaran audio pertama sekitar 300 milidetik, sekaligus masih dapat menghasilkan suara panjang sekitar 10 menit. Model ini sangat cocok untuk aplikasi interaktif yang memerlukan respons instan, seperti asisten suara real-time atau skenario sulih suara langsung.

Selain itu, proyek ini juga memperkenalkan dukungan pembicara eksperimental, termasuk suara multi-bahasa dan berbagai varian gaya bahasa Inggris, memberikan lebih banyak ruang kustomisasi bagi pengembang.

Komentar AIbase: Pembukaan sumber VibeVoice oleh Microsoft tidak hanya menurunkan ambang batas penggunaan AI suara berkinerja tinggi, tetapi juga menyediakan solusi lengkap untuk penyebaran lokal. Proyek ini pernah diturunkan sebentar karena risiko penyalahgunaan potensial, kemudian diluncurkan kembali dengan mekanisme keamanan seperti penyematan watermark audio dan pernyataan免责 (penafian pendengaran), mencerminkan prinsip pengembangan AI yang bertanggung jawab. Saat ini, pengembang dapat memperoleh bobot model di repositori GitHub dan Hugging Face, serta mencobanya dengan cepat melalui platform seperti Colab.

Dengan kontribusi berkelanjutan dari komunitas sumber terbuka (seperti fork optimasi untuk Apple Silicon), VibeVoice diharapkan dapat mempercepat penerapannya di bidang-bidang seperti pembuatan konten, alat aksesibilitas, dan interaksi suara. Pengembang yang tertarik dapat mengunjungi halaman proyek resmi Microsoft untuk mengeksplorasi lebih lanjut.

Alamat proyek: https://github.com/microsoft/VibeVoice

Pertanyaan Terkait

QApa itu VibeVoice dan mengapa proyek ini mendapatkan perhatian besar di GitHub?

AVibeVoice adalah keluarga model AI suara canggih yang dikembangkan oleh Microsoft, mencakup kemampuan seperti pengenalan suara otomatis (ASR) dan teks-ke-suara (TTS). Proyek ini mendapat perhatian karena kemampuannya memproses audio panjang, menghasilkan percakapan alami multi-pembicara, serta karakteristik latensi rendah secara real-time, dan telah meraih sekitar 27K bintang di GitHub.

QApa keunggulan utama dari model VibeVoice-ASR-7B?

AVibeVoice-ASR-7B adalah model pengubah suara-ke-teks terpadu yang dapat memproses file audio hingga 60 menit sekaligus dan mengeluarkan hasil transkripsi terstruktur. Ini mencakup pengenalan pembicara, stempel waktu yang tepat, konten detail, mendukung lebih dari 50 bahasa, dan memiliki fitur kata kustom untuk meningkatkan akurasi pengenalan istilah khusus.

QBagaimana VibeVoice-TTS-1.5B mengatasi tantangan dalam generasi suara?

AVibeVoice-TTS-1.5B berfokus pada generasi teks-ke-suara yang dapat menghasilkan audio terus-menerus hingga 90 menit dalam satu kali generasi, mendukung hingga 4 pembicara berbeda untuk simulasi percakapan alami. Suara yang dihasilkan ekspresif dan alami, meniru jeda, penekanan, dan perubahan emosi yang nyata, dengan efisiensi komputasi tinggi berkat penggunaan continuous speech tokenizer dan desain frame rate rendah (7.5Hz).

QApa kegunaan khusus dari VibeVoice-Realtime-0.5B?

AVibeVoice-Realtime-0.5B dirancang untuk skenario real-time, mendukung input teks streaming dengan latency output audio pertama sekitar 300 milidetik, dan masih dapat menghasilkan suara panjang hingga 10 menit. Model ini sangat cocok untuk aplikasi interaktif yang membutuhkan respons instan, seperti asisten suara real-time atau skenario sulih suara langsung.

QBagaimana Microsoft memastikan Pengembangan AI yang Bertanggung Jawab dalam proyek VibeVoice?

AMicrosoft telah menerapkan mekanisme keamanan seperti penyematan watermark audio dan pernyataan tanggung jawab yang dapat didengar untuk memastikan penggunaan yang bertanggung jawab. Proyek ini sempat diturunkan sementara karena risiko penyalahgunaan potensial, tetapi kemudian diunggah kembali dengan penambahan fitur-fitur keamanan ini, mencerminkan prinsip pengembangan AI yang bertanggung jawab.

Bacaan Terkait

5 Orang Terlibat Insider Trading Perang, Yang Paling Untung Ditangkap

Departemen Kehakiman AS menangkap Gannon Ken Van Dyke, seorang sersan Angkatan Darat AS, karena perdagangan orang dalam terkait operasi penangkapan Presiden Venezuela Nicolas Maduro pada 3 Januari. Van Dyke menghasilkan lebih dari $400.000 dengan bertaruh di pasar prediksi Polymarket sebelum operasi dimulai. Akunnya (0x31a5) adalah satu dari lima akun yang diidentifikasi PolyBeats sebagai pelaku perdagangan mencurigakan. Ia mendaftar pada 26 Desember, memasang taruhan terkait penangkapan Maduro, dan menarik dana setelah operasi. Van Dyke kemudian mencoba menghapus jejak dengan mengubah email dan meminta penghapusan akun. Empat akun lain yang dicurigai masih belum ditangkap, mungkin karena keuntungan lebih kecil atau sumber informasi yang kurang jelas. Polymarket telah memperketat aturan perdagangan dan bekerja sama dengan penyelidik. Penangkapan Van Dyke, empat bulan setelah kejadian, menjadi peringatan bahwa transaksi di blockchain dapat dilacak dan penyelidikan mungkin masih berlangsung untuk kasus serupa.

marsbit20m yang lalu

5 Orang Terlibat Insider Trading Perang, Yang Paling Untung Ditangkap

marsbit20m yang lalu

Bitcoin HODLing Menguat: Pasokan LTH Melonjak 303.000 BTC

Data menunjukkan bahwa pemegang Bitcoin jangka panjang (LTH) telah mengalami peningkatan pasokan yang signifikan sebesar 303.500 BTC dalam sebulan terakhir, menandakan pergeseran perilaku pasar ke arah akumulasi. Sementara itu, pemegang jangka pendek (STH) justru berkurang. Analisis CryptoQuant mengindikasikan bahwa pasokan Bitcoin sedang beralih ke "tangan yang lebih kuat," termasuk melalui akumulasi oleh ETF spot dan Strategy. Namun, peringatan muncul karena rally harga terbaru didorong terutama oleh permintaan futures, bukan permintaan spot, yang berisiko koreksi jika investor mulai mengambil keuntungan. Bitcoin saat ini diperdagangkan di sekitar $77.600, naik 4% dalam seminggu.

bitcoinist43m yang lalu

Bitcoin HODLing Menguat: Pasokan LTH Melonjak 303.000 BTC

bitcoinist43m yang lalu

Bitwise: Optimis dengan Performa Bitcoin di Paruh Kedua Tahun Ini, AI dan Regulasi Akan Memicu Musim Altcoin Baru

Bitwise CIO Matt Hougan dan Kepala Riset Ryan Rasmussen optimis tentang Bitcoin, memperkirakan harga bisa mencapai $1 juta atau lebih pada 2035. Mereka melihatnya sebagai "emas digital" dan alat penyelesaian global, terutama dengan meningkatnya ketidakstabilan geopolitik dan penurunan kepercayaan pada sistem moneter tradisional. Konflik Iran disebut sebagai contoh bagaimana Bitcoin bisa digunakan dalam pembayaran internasional, meningkatkan nilai opsi moneternya. Mereka juga membahas laporan kuartal pertama 2026 yang menunjukkan penurunan hampir di semua aset kripto, namun diimbangi dengan berita positif seperti peluncuran ETF Bitcoin oleh Morgan Stanley dan Goldman Sachs. Aset dunia nyata yang ditokenisasi (RWA) tumbuh signifikan, dari di bawah $2 miliar menjadi hampir $30 miliar dalam dua tahun. Hougan memprediksi "musim altcoin" baru pada 2026, didorong oleh kerangka peraturan token yang jelas, blockchain berkinerja tinggi, dan AI. Kombinasi ini memungkinkan proyek bernilai lahir tanpa masalah hukum seperti di masa ICO. Bitwise juga meluncurkan ETF Avalanche (AVAX) karena arsitektur unik dan pertumbuhan kuat di sektor RWA.

marsbit1j yang lalu

Bitwise: Optimis dengan Performa Bitcoin di Paruh Kedua Tahun Ini, AI dan Regulasi Akan Memicu Musim Altcoin Baru

marsbit1j yang lalu

Reli Bitcoin Mendekati $80K Memicu Pemulihan Sentimen Tajam di Pasar Kripto

Analisis pasar kripto menunjukkan perbaikan sentimen yang signifikan seiring kenaikan harga Bitcoin mendekati $80.000. Indeks Fear & Greed melonjak 14 poin ke level 46, tertinggi sejak Januari, meski masih dalam zona "takut". Data CryptoQuant mengungkap 303.000 BTC berpindah ke dompet long-term holder dalam 30 hari terakhir, menandakan penguatan basis kepemilikan institusi seperti Strategy yang membeli 53.000 BTC. Namun, kenaikan ini didorong terutama oleh permintaan futures, bukan spot, yang berisiko koreksi jika minat spot tetap lemah. Partisipasi retail trader juga belum pulih sepenuhnya, membatasi potensi kenaikan lebih lanjut.

bitcoinist1j yang lalu

Reli Bitcoin Mendekati $80K Memicu Pemulihan Sentimen Tajam di Pasar Kripto

bitcoinist1j yang lalu

Intel Melonjak 20%, CPU Kembali ke Pusat Panggung di Era Agent

Intel melonjak 20% setelah melaporkan kinerja kuartal pertama 2026 yang jauh melampaui ekspektasi. Pendapatan mencapai $13,6 miliar (naik 7% year-on-year), sementara laba non-GAAP per saham $0,29 mengalahkan perkiraan analis sebanyak 29 kali. Kenaikan ini didorong terutama oleh pertumbuhan 22% dalam bisnis Data Center dan AI (DCAI), yang mencapai rekor $5,1 miliar. Pemulihan ini menandai kebangkitan CPU di era AI, khususnya dalam tahap inferensi dan pengaturan *agent*. Penelitian menunjukkan bahwa dalam alur kerja *agent*, CPU menangani 50-90% dari keseluruhan proses, menjadikannya komponen kritis. Intel, di bawah kepemimpinan CEO baru Lip-Bu Tan, telah beralih fokus dari mengembangkan akselerator AI seperti Gaudi dan Falcon Shores yang tidak kompetitif, kembali ke kekuatan utamanya di CPU. Langkah strategis ini, ditambah dengan siklus pembaruan infrastruktur AI dan peluncuran prosesor Xeon 6, mengantarkan pembalikan nasib Intel setelah periode sulit pada 2024, termasuk PHK dan penurunan harga saham yang signifikan.

marsbit2j yang lalu

Intel Melonjak 20%, CPU Kembali ke Pusat Panggung di Era Agent

marsbit2j yang lalu

Trading

Spot

Futures

Artikel Populer

Cara Membeli ONE

Selamat datang di HTX.com! Kami telah membuat pembelian Harmony (ONE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Harmony (ONE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Harmony (ONE) AndaSetelah melakukan pembelian, simpan Harmony (ONE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Harmony (ONE)Lakukan trading Harmony (ONE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

477 Total TayanganDipublikasikan pada 2024.12.12Diperbarui pada 2025.03.21

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ONE (ONE) disajikan di bawah ini.