OWhisper Diluncurkan sebagai Server Speech-to-Text Lokal dengan Streaming Real-Time dan Dukungan Linux

Tim Komunitas BigGo
OWhisper Diluncurkan sebagai Server Speech-to-Text Lokal dengan Streaming Real-Time dan Dukungan Linux

OWhisper telah muncul sebagai alat open-source baru yang dirancang untuk menghadirkan kemampuan speech-to-text lokal kepada developer dan pengguna yang menginginkan kontrol atas layanan transkripsi mereka. Dibuat oleh tim di balik Hyprnote, proyek ini mengatasi permintaan yang terus meningkat untuk alternatif self-hosted terhadap layanan transkripsi berbasis cloud, memposisikan dirinya sebagai Ollama untuk Speech-to-Text.

Kemampuan Streaming Real-Time Mendorong Minat Pengguna

Respons komunitas sangat antusias terhadap fitur streaming real-time OWhisper. Pengguna secara aktif menguji kemampuan platform untuk menyediakan output teks berkelanjutan dari stream audio langsung, dengan banyak yang mencari antarmuka command-line yang dapat menyalurkan teks yang ditranskripsi langsung ke program lain. Alat ini menggunakan Voice Activity Detection (VAD) untuk secara cerdas memotong audio untuk pemrosesan, memungkinkan transkripsi yang lebih responsif dibandingkan dengan jendela pemrosesan tradisional 30 detik.

Fungsionalitas streaming bekerja melalui API yang kompatibel dengan Deepgram, memungkinkan developer menggunakan SDK klien Deepgram yang sudah ada untuk terhubung ke instance OWhisper lokal mereka. Pilihan kompatibilitas ini telah diterima dengan baik karena menyediakan antarmuka yang familiar bagi developer yang sudah bekerja dengan layanan speech-to-text.

Fitur Utama:

  • Pemrosesan speech-to-text secara real-time dan batch
  • Voice Activity Detection (VAD) untuk chunking audio yang cerdas
  • Kemampuan output teks streaming
  • Alternatif self-hosted untuk layanan transkripsi cloud
  • Open-source dengan pengembangan yang didorong komunitas
  • Diarisasi pembicara direncanakan untuk rilis September 2025

Dukungan Cross-Platform dan Variasi Model

Early adopter telah berhasil menguji OWhisper pada sistem Linux, dengan tim pengembangan menyediakan binary yang sudah dibangun untuk berbagai platform. Alat ini mendukung berbagai macam model lokal, termasuk berbagai varian Whisper dan model Moonshine yang lebih baru, yang menawarkan pemrosesan lebih cepat untuk segmen audio yang lebih pendek.

Moonshine memproses segmen audio 10 detik 5x lebih cepat daripada Whisper sambil mempertahankan WER yang sama (atau lebih baik!).

Pemilihan model mencakup versi terkuantisasi yang dioptimalkan untuk berbagai kebutuhan performa, dari model kecil untuk aplikasi ringan hingga model yang lebih besar untuk akurasi yang lebih baik.

Model Lokal yang Didukung:

  • Varian Whisper : whisper-cpp-base-q8, whisper-cpp-small-q8, whisper-cpp-large-turbo-q8
  • Versi yang dioptimalkan untuk bahasa Inggris: whisper-cpp-base-q8-en, whisper-cpp-tiny-q8-en, whisper-cpp-small-q8-en
  • Model Moonshine : moonshine-onnx-tiny, moonshine-onnx-base (dengan versi terkuantisasi q4 dan q8)
  • Semua model tersedia dalam berbagai tingkat kuantisasi untuk kebutuhan performa yang berbeda

Speaker Diarization dalam Roadmap

Salah satu fitur yang paling diminta oleh komunitas adalah speaker diarization - kemampuan untuk mengidentifikasi dan memisahkan pembicara yang berbeda dalam rekaman audio. Meskipun saat ini belum diimplementasikan, tim pengembangan telah mengkonfirmasi bahwa kemampuan ini direncanakan untuk dirilis sekitar September 2025. Fitur ini akan secara signifikan memperluas kegunaan OWhisper untuk transkripsi rapat dan skenario multi-speaker.

Saat ini, aplikasi Hyprnote yang terkait dapat memisahkan audio mikrofon dan speaker menjadi dua saluran, menyediakan bentuk dasar pemisahan sumber, tetapi identifikasi speaker yang sebenarnya dalam satu saluran audio memerlukan model AI tambahan yang masih dalam pengembangan.

Fokus Komunitas Open Source

Proyek ini mempertahankan komitmen yang kuat terhadap pengembangan open-source, dengan tim secara aktif mendorong kontribusi komunitas dan pull request. Pendekatan ini kontras dengan beberapa alternatif komersial dan telah beresonansi dengan baik dengan developer yang mencari solusi transparan dan community-driven untuk kebutuhan speech-to-text.

OWhisper melayani dua kasus penggunaan utama: deployment lokal cepat untuk prototyping dan penggunaan pribadi, dan deployment skala besar pada infrastruktur khusus. Fleksibilitas ini membuatnya cocok baik untuk developer individu yang bereksperimen dengan pengenalan suara maupun organisasi yang memerlukan layanan transkripsi pribadi dan self-hosted.

Referensi: What is OWhisper?