KittenTTS telah muncul sebagai model text-to-speech sumber terbuka yang menjanjikan, mendakwa dapat menyampaikan sintesis suara berkualiti tinggi dalam hanya 25MB dengan operasi CPU sahaja. Walau bagaimanapun, respons komuniti mendedahkan jurang yang ketara antara janji ringan projek ini dengan cabaran pelaksanaan dunia sebenar.
Spesifikasi Model
- Parameter: 15 juta
- Saiz model: <25MB
- Operasi CPU sahaja (tidak memerlukan GPU)
- Kadar sampel: 24kHz
- Suara yang tersedia: 6 pilihan (expr-voice-2/3/4-m/f)
- Lesen: Apache-2.0 (dengan isu kebergantungan GPL)
Mimpi Ngeri Pemasangan Bercanggah dengan Dakwaan Berfungsi Di Mana-mana Sahaja
Projek ini dengan berani menyatakan Berfungsi di mana-mana sahaja dalam keperluan sistemnya, tetapi pengguna melaporkan kegagalan pemasangan yang meluas. Isu teras berpunca daripada masalah keserasian versi Python dan rangkaian kebergantungan yang kompleks yang boleh mengembang sehingga beberapa gigabait saiz. Pengguna mengalami kegagalan dengan kedua-dua versi Python lama dan baharu, dengan sesetengah pemasangan memerlukan sehingga 6GB ruang persekitaran maya - jauh daripada jejak 25MB yang diiklankan.
Keadaan telah menjadi begitu bermasalah sehingga ahli komuniti mengesyorkan kaedah pemasangan alternatif seperti uvx
dan uv
untuk memintas neraka kebergantungan. Alat-alat ini, walaupun membantu, menambah satu lagi lapisan kerumitan untuk pengguna yang hanya mahu mencuba model tersebut.
Ringkasan Isu Pemasangan
- Saiz persekitaran maya: Sehingga 6GB (berbanding 25MB yang diiklankan)
- Masalah keserasian versi Python
- Bergantung kepada komponen berlesen GPL-3.0
- Ralat kompilasi pada sesetengah sistem
- Penyelesaian yang disyorkan: Gunakan alat uvx/uv
Kebimbangan Pelesenan GPL Mengancam Penggunaan Komersial
Isu pelesenan kritikal telah muncul yang boleh mengehadkan penggunaan KittenTTS dalam aplikasi komersial. Walaupun diiklankan sebagai berlesen Apache-2.0, model ini bergantung kepada phonemizer
, yang menggunakan espeak-ng
berlesen GPL-3.0. Rantaian kebergantungan ini secara berkesan menjadikan keseluruhan projek berlesen GPL, berpotensi menyekat kes penggunaan komersial.
Penggunaan perpustakaan adalah empat baris. Tiga menyediakan perpustakaan, yang lain memanggilnya. Ditambah saya rasa penyata import. Walaupun mengabaikan Google vs Oracle saya tidak fikir baris-baris tersebut dengan sendirinya memenuhi sebarang ambang keaslian.
Konflik pelesenan ini telah mencetuskan perbincangan mengenai penyelesaian berpotensi, termasuk membuang kebergantungan GPL atau melaksanakan pendekatan dwi-pelesenan.
Ulasan Bercampur Prestasi dan Kualiti
Ujian komuniti mendedahkan hasil bercampur untuk kualiti TTS sebenar. Walaupun sesetengah pengguna memuji pencapaian teknikal memuatkan model neural TTS ke dalam 25MB, yang lain menggambarkan output sebagai logam dan buatan. Penanda aras prestasi menunjukkan model menjana audio pada kelajuan kira-kira 5x masa sebenar pada perkakasan moden, dengan latensi awal sekitar 315ms untuk teks pendek.
Kualiti nampaknya berbeza dengan ketara antara pilihan suara yang berbeza, dengan sesetengah suara kedengaran seperti remaja yang belum selesai akil baligh manakala yang lain digambarkan sebagai terlalu teruja atau buatan. Beberapa pengguna telah mencatat masalah sebutan dengan nombor dan gabungan perkataan tertentu.
Penanda Aras Prestasi ( Intel Core i9-14900HX )
- Masa pemuatan model: ~710ms
- Latensi awal: ~315ms untuk teks pendek
- Kelajuan penjanaan audio: 5.46x masa sebenar untuk teks panjang
- Prestasi konsisten merentasi suara yang berbeza (4.63x - 5.28x masa sebenar)
Respons Pembangun dan Rancangan Masa Depan
Pasukan pembangunan telah mengakui isu-isu ini dan menunjukkan bahawa keluaran semasa hanyalah titik semak pratonton daripada latihan awal. Mereka menjanjikan keluaran model penuh dengan kedua-dua versi parameter 15M dan 80M yang sepatutnya menyampaikan kualiti yang jauh lebih tinggi. Pasukan juga sedang berusaha untuk menangani masalah kebergantungan dan kebimbangan pelesenan.
Walaupun menghadapi cabaran semasa, projek ini mewakili langkah penting ke arah model AI yang benar-benar mudah alih yang boleh berjalan pada peranti pinggir tanpa keperluan GPU. Konsep model TTS ultra-ringan telah menjana minat yang ketara dalam komuniti, terutamanya untuk aplikasi terbenam dan kes penggunaan luar talian.
Rujukan: Kitten TTS