Whisper AI Mendedahkan Latihan pada Kandungan Cetak Rompak Melalui Halusinasi Audio Senyap

Pasukan Komuniti BigGo
Whisper AI Mendedahkan Latihan pada Kandungan Cetak Rompak Melalui Halusinasi Audio Senyap

OpenAI mempunyai keanehan luar biasa yang menyebabkan kegemparan dalam komuniti teknologi. Apabila diberi fail audio yang benar-benar senyap, AI tersebut secara konsisten menghasilkan teks halusinasi yang sama merentasi bahasa yang berbeza - mendedahkan apa yang kelihatan sebagai bukti latihan pada kandungan cetak rompak.

Pengakuan Senyap

Apabila pengguna memasukkan kesunyian tulen ke dalam Whisper , model tersebut tidak hanya mengembalikan tiada apa-apa atau menunjukkan tiada pertuturan dikesan. Sebaliknya, ia dengan yakin mentranskrip frasa tertentu yang kelihatan datang dari fail sarikata. Dalam bahasa Arab, ia secara konsisten mengeluarkan Translation by Nancy Qanqar, manakala kesunyian Jerman menghasilkan Subtitles of ZDF for funk, 2017. Ini bukan halusinasi rawak - ia adalah notis hak cipta dan kredit penterjemah yang biasanya muncul di hujung fail sarikata.

Corak ini meluas merentasi pelbagai bahasa. Pengguna Cina melaporkan melihat amaran cetak rompak seperti For study/research purpose only. Please delete after 48 hours - penafian biasa yang terdapat dalam sarikata filem tidak rasmi. Output Rusia mengkredit DimaTorzok untuk sarikata, manakala bahasa Inggeris sering menghasilkan frasa gaya YouTube seperti Thanks for watching! Please subscribe and like!

Halusinasi Senyap Whisper yang Biasa mengikut Bahasa:

  • Bahasa Arab: "Translation by Nancy Qanqar" (ترجمة نانسي قنقر)
  • Bahasa Jerman: "Subtitles of ZDF for funk, 2017"
  • Bahasa Cina: "For study/research purpose only. Please delete after 48 hours"
  • Bahasa Inggeris: "Thanks for watching! Please subscribe and like!"
  • Bahasa Rusia: "Subtitles by DimaTorzok"
  • Bahasa Czech: "Subtitles made by JohnyX"
  • Bahasa Turki: "esekadam iyi seyirler diler"

Isu Kualiti Data Latihan

Tingkah laku ini menunjukkan masalah kualiti data asas dalam proses latihan Whisper . Model tersebut kelihatan telah mempelajari bahawa kesunyian di hujung kandungan audio harus dipasangkan dengan notis kredit ini, kerana itulah yang dilihatnya berulang kali dalam data latihannya. Perbincangan komuniti mendedahkan ini adalah kes klasik model yang terlalu menyesuaikan diri dengan corak palsu daripada belajar mengendalikan kesunyian dengan betul.

Pengoptimum berfungsi dengan betul, dan corak benar-benar wujud dalam data latihan. Tetapi pertimbangkan: Tingkah laku ini merosakkan prestasi model pada data sampel luar; setiap perkataan yang anda ramalkan semasa kesunyian meningkatkan Kadar Ralat Perkataan transkrip.

Isu ini menjadi sangat bermasalah kerana Whisper berkemungkinan dilatih pada fail sarikata dari pelbagai sumber, termasuk terjemahan buatan peminat yang diedarkan dengan kandungan cetak rompak. Sarikata tidak rasmi ini sering mengandungi kredit penterjemah, jenaka, dan notis hak cipta yang tiada kaitan dengan kandungan pertuturan sebenar.

Penyelesaian Teknikal dan Jalan Keluar

Komuniti teknologi telah mengenal pasti beberapa pendekatan untuk menangani masalah ini. Voice Activity Detection ( VAD ) muncul sebagai penyelesaian yang paling disyorkan - pada asasnya prapemprosesan audio untuk mengenal pasti dan membuang segmen senyap sebelum menghantarnya ke Whisper . Sesetengah pelaksanaan menawarkan parameter seperti min_silence_duration_ms untuk membantu menapis bahagian senyap yang bermasalah.

Walau bagaimanapun, ramai pengguna mendapati ia mengecewakan bahawa jalan keluar sedemikian diperlukan untuk model AI utama. Halusinasi tidak hanya berlaku dengan kesunyian lengkap - ia boleh muncul semasa jeda semula jadi dalam pertuturan, bahagian muzik, atau apabila kualiti audio adalah lemah.

Penyelesaian Teknikal:

  • Voice Activity Detection (VAD): Praproses audio untuk mengesan dan membuang segmen senyap
  • Penalaan parameter: Gunakan min_silence_duration_ms dalam pelaksanaan faster-whisper
  • Praproses audio: Buang kesunyian daripada klip audio sebelum transkripsi
  • Pelarasan ambang: Ubah suai tetapan logprob_threshold (keberkesanan terhad pada model v3)

Implikasi yang Lebih Luas

Penemuan ini menimbulkan persoalan tentang pendekatan industri AI terhadap kurasi data latihan. Walaupun diketahui secara meluas bahawa model bahasa besar berlatih pada bahan berhak cipta, bukti khusus penggunaan kandungan cetak rompak - lengkap dengan kredit penterjemah peminat - menyerlahkan tahap amalan ini.

Situasi ini juga menunjukkan bagaimana sistem AI yang canggih sekalipun boleh mempamerkan tingkah laku tidak dijangka apabila menghadapi kes tepi seperti kesunyian. Untuk alat pengecaman pertuturan, mengendalikan ketiadaan pertuturan dengan betul sepatutnya menjadi keupayaan asas, bukan pemikiran kemudian yang memerlukan langkah prapemprosesan tambahan.

Apabila model AI menjadi lebih berleluasa dalam sistem pengeluaran, artifak latihan jenis ini berfungsi sebagai peringatan penting bahawa sampah masuk, sampah keluar masih terpakai - walaupun kepada sistem pembelajaran mesin yang paling canggih.

Rujukan: Complete silence is always hallucinated as Translation by Nancy Qunqar #2608