OWhisper telah muncul sebagai alat sumber terbuka baharu yang direka untuk membawa keupayaan speech-to-text tempatan kepada pembangun dan pengguna yang mahukan kawalan ke atas perkhidmatan transkripsi mereka. Dicipta oleh pasukan di sebalik Hyprnote, projek ini menangani permintaan yang semakin meningkat untuk alternatif self-hosted kepada perkhidmatan transkripsi berasaskan awan, meletakkan dirinya sebagai Ollama untuk Speech-to-Text.
Keupayaan Penstriman Masa Nyata Menarik Minat Pengguna
Sambutan komuniti amat bersemangat tentang ciri penstriman masa nyata OWhisper. Pengguna secara aktif menguji keupayaan platform untuk menyediakan output teks berterusan daripada strim audio langsung, dengan ramai yang mencari antara muka baris arahan yang boleh menyalurkan teks yang ditranskripsi terus kepada program lain. Alat ini menggunakan Voice Activity Detection (VAD) untuk memecah audio secara bijak untuk pemprosesan, membolehkan transkripsi yang lebih responsif berbanding tetingkap pemprosesan tradisional 30 saat.
Fungsi penstriman berfungsi melalui API yang serasi dengan Deepgram, membolehkan pembangun menggunakan SDK klien Deepgram sedia ada untuk menyambung kepada contoh OWhisper tempatan mereka. Pilihan keserasian ini telah diterima baik kerana ia menyediakan antara muka yang biasa untuk pembangun yang sudah bekerja dengan perkhidmatan speech-to-text.
Ciri-ciri Utama:
- Pemprosesan pertuturan-ke-teks masa nyata dan kelompok
- Pengesanan Aktiviti Suara (VAD) untuk pembahagian audio yang pintar
- Keupayaan keluaran teks berterusan
- Alternatif hos sendiri kepada perkhidmatan transkripsi awan
- Sumber terbuka dengan pembangunan dipacu komuniti
- Diarisasi penutur dirancang untuk keluaran September 2025
Sokongan Merentas Platform dan Kepelbagaian Model
Pengguna awal telah berjaya menguji OWhisper pada sistem Linux, dengan pasukan pembangunan menyediakan binari pra-dibina untuk pelbagai platform. Alat ini menyokong rangkaian model tempatan yang luas, termasuk pelbagai varian Whisper dan model Moonshine yang lebih baharu, yang menawarkan pemprosesan lebih pantas untuk segmen audio yang lebih pendek.
Moonshine memproses segmen audio 10 saat 5 kali lebih pantas daripada Whisper sambil mengekalkan WER yang sama (atau lebih baik!).
Pemilihan model termasuk versi terkuantiti yang dioptimumkan untuk keperluan prestasi yang berbeza, daripada model kecil untuk aplikasi ringan hingga model yang lebih besar untuk ketepatan yang lebih baik.
Model Tempatan yang Disokong:
- Varian Whisper : whisper-cpp-base-q8 , whisper-cpp-small-q8 , whisper-cpp-large-turbo-q8
- Versi yang dioptimumkan untuk bahasa Inggeris: whisper-cpp-base-q8-en , whisper-cpp-tiny-q8-en , whisper-cpp-small-q8-en
- Model Moonshine : moonshine-onnx-tiny , moonshine-onnx-base (dengan versi terkuantiti q4 dan q8 )
- Semua model tersedia dalam pelbagai tahap kuantisasi untuk keperluan prestasi yang berbeza
Speaker Diarization dalam Pelan Hala Tuju
Salah satu ciri yang paling diminta oleh komuniti ialah speaker diarization - keupayaan untuk mengenal pasti dan memisahkan penutur yang berbeza dalam rakaman audio. Walaupun tidak dilaksanakan pada masa ini, pasukan pembangunan telah mengesahkan keupayaan ini dirancang untuk dikeluarkan sekitar September 2025. Ciri ini akan meluaskan kegunaan OWhisper dengan ketara untuk transkripsi mesyuarat dan senario berbilang penutur.
Pada masa ini, aplikasi Hyprnote yang berkaitan boleh memisahkan audio mikrofon dan pembesar suara kepada dua saluran, menyediakan bentuk asas pemisahan sumber, tetapi pengenalan penutur sebenar dalam saluran audio tunggal memerlukan model AI tambahan yang masih dalam pembangunan.
Fokus Komuniti Sumber Terbuka
Projek ini mengekalkan komitmen yang kuat terhadap pembangunan sumber terbuka, dengan pasukan secara aktif menggalakkan sumbangan komuniti dan pull request. Pendekatan ini berbeza dengan beberapa alternatif komersial dan telah mendapat sambutan baik daripada pembangun yang mencari penyelesaian yang telus dan dipacu komuniti untuk keperluan speech-to-text.
OWhisper melayani dua kes penggunaan utama: penggunaan tempatan yang cepat untuk prototaip dan kegunaan peribadi, dan penggunaan berskala besar pada infrastruktur tersuai. Fleksibiliti ini menjadikannya sesuai untuk kedua-dua pembangun individu yang bereksperimen dengan pengecaman pertuturan dan organisasi yang memerlukan perkhidmatan transkripsi peribadi dan self-hosted.
Rujukan: What is OWhisper?