Satu eksperimen menarik sedang menjejaki sama ada pengguna Bluesky boleh secara kolektif menyebut setiap perkataan dalam bahasa Inggeris. Projek Bluesky Dictionary , yang dicipta oleh pembangun Avi Bagla , memantau siaran masa nyata platform untuk melihat berapa banyak kamus bahasa Inggeris yang muncul dalam perbualan harian. Selepas memproses lebih 4 juta siaran, keputusan menunjukkan jurang mengejutkan dalam perbendaharaan kata digital kita.
Liputan Terhad Walaupun Pemprosesan Data Besar-besaran
Projek ini telah menganalisis 51.7 juta perkataan daripada 4.2 juta siaran Bluesky , namun hanya meliputi 35.57% daripada kamus bahasa Inggeris standard yang mengandungi 274,937 perkataan. Ini bermakna hampir dua pertiga perkataan bahasa Inggeris tidak pernah muncul dalam siaran yang dianalisis. Ahli komuniti menyatakan terkejut dengan betapa biasanya beberapa perkataan yang hilang, dengan menyatakan bahawa istilah munasabah seperti congregant, definer, dan stereoscope masih belum dikesan lagi.
Walau bagaimanapun, had skop adalah ketara. Dengan Bluesky menghos kira-kira 1.7 bilion jumlah siaran mengikut data komuniti, projek ini hanya meneliti 0.28% daripada semua mesej di platform. Saiz sampel kecil ini mungkin menjelaskan mengapa banyak perkataan biasa masih belum ditangkap.
Statistik Semasa:
- Liputan Kamus: 35.57% (97,796 daripada 274,937 perkataan)
- Jumlah Perkataan Diproses: 51.7 juta
- Siaran Dianalisis: 4.2 juta
- Saiz Pangkalan Data: 58 MB
- Kadar Pemprosesan Data: ~900 kbps
Pelaksanaan Teknikal dan Cabaran Dunia Sebenar
Sistem backend menggunakan pendekatan mudah dengan jadual pangkalan data SQLite yang menjejaki statistik perkataan dan corak penggunaan. Pencipta memproses aliran data Bluesky pada kira-kira 900 kilobit sesaat, menyimpan setiap perkataan unik dengan kiraan dan cap masa penggunaannya. Saiz pangkalan data 58-megabait menunjukkan betapa cekapnya data teks boleh disimpan dan dianalisis.
Beberapa pengguna melaporkan kesukaran teknikal mengakses laman web, menghadapi ralat SSL dan isu CORS . Pergantungan pada JavaScript sisi klien untuk memaparkan keputusan mewujudkan halangan bagi pengguna dengan tetapan keselamatan pelayar yang ketat atau firewall korporat.
Seni Bina Teknikal:
- Backend: Pangkalan data SQLite dengan dua jadual utama
- Sumber Data: Bluesky Jetstream API (firehose termampat)
- Kamus Perkataan: GitHub "an-array-of-english-words" (274,937 perkataan)
- Pemprosesan: Tokenisasi perkataan masa nyata dan carian
- Penyimpanan: Kiraan perkataan, penggunaan pertama, penggunaan terakhir, dan rujukan siaran
Penemuan Tidak Dijangka dan Memanipulasi Sistem
Projek ini telah menangkap beberapa istilah yang benar-benar kabur seperti stigmatophilia, algolagnia, dan pyrosomes sambil terlepas perkataan biasa. Sesetengah pengguna telah mula dengan sengaja menyiarkan perkataan kamus yang jarang untuk meningkatkan peratusan liputan. Seorang pengguna berjaya mendapat combo berganda dengan menggunakan kedua-dua wheal dan sluices dalam satu siaran tentang lawatan muzium Cornwall .
Sistem ini juga menghadapi cabaran ketepatan, seperti mengindeks eluvium apabila pengguna membincangkan nama kumpulan musik dan bukannya istilah geologi. Isu pengesanan bahasa timbul apabila siaran Perancis yang mengandungi perkataan yang kelihatan seperti bahasa Inggeris diproses, walaupun Bluesky memang menyertakan metadata bahasa yang boleh membantu menapis keputusan.
Eksperimen ini mendedahkan bagaimana perbualan digital, walaupun pada skala besar, hanya mewakili sebahagian kecil daripada bahasa manusia. Walaupun dengan jutaan siaran, perbendaharaan kata dalam talian kita masih terhad secara mengejutkan berbanding dengan kekayaan penuh bahasa Inggeris.
Rujukan: The Bluesky Dictionary