Institusi kebudayaan di seluruh dunia sedang menghadapi krisis digital yang tidak pernah berlaku sebelum ini. Muzium, perpustakaan, dan arkib melaporkan laman web mereka diserang oleh bot latihan AI yang agresif yang mengikis kandungan dengan begitu intensif sehingga menyebabkan gangguan perkhidmatan dan kos pelayan yang tidak mampan.
Lonjakan ini bermula secara senyap tetapi telah mencapai tahap yang membimbangkan. Lebih 90% institusi yang dikaji kini menghadapi bot agresif ini beberapa kali seminggu, dengan banyak yang mengalami penutupan laman web sepenuhnya akibatnya.
Kesan Repositori Akses Terbuka:
- 66 repositori yang dikaji oleh COAR
- Lebih 90% menghadapi bot agresif
- Serangan berlaku lebih daripada sekali seminggu
- Kerap menyebabkan kelembapan dan gangguan perkhidmatan
Pertahanan Web Tradisional Gagal
Fail robots.txt standard - dokumen teks ringkas yang dengan sopan meminta perangkak web untuk menghormati sempadan tertentu - telah menjadi tidak berguna terhadap penuaian data AI moden. Bot ini sama ada mengabaikan garis panduan sepenuhnya atau beroperasi dengan begitu agresif sehingga pematuhan sukarela tidak bermakna.
Sesetengah institusi telah beralih kepada perkhidmatan perlindungan bot komersial daripada syarikat seperti AWS dan Cloudflare, tetapi penyelesaian ini mewujudkan masalah baru. Menambah keperluan log masuk mengalahkan tujuan menyediakan akses awam percuma kepada koleksi kebudayaan, manakala firewall canggih memerlukan kepakaran teknikal dan kos berterusan yang banyak institusi tidak mampu.
Robots.txt: Fail teks standard yang digunakan laman web untuk berkomunikasi dengan perangkak web tentang bahagian mana laman mereka yang patut atau tidak patut diakses
Kos Tersembunyi Kemajuan AI
Apa yang menjadikan situasi ini amat mencabar ialah sifat tersembunyi masalah ini. Banyak institusi tidak menyedari mereka diserang sehingga laman web mereka mula ranap. Bot ini menggunakan sejumlah besar lebar jalur dan sumber pelayan, mewujudkan kos yang tidak dapat ditanggung oleh organisasi kebudayaan - yang biasanya beroperasi dengan bajet ketat.
Komuniti sedang meneroka penyelesaian teknikal kreatif, termasuk sistem bukti kerja yang memerlukan usaha pengiraan sebelum mengakses kandungan, dan pengehadan kadar berasaskan kuki yang menjejaki dan mengawal pelawat berulang. Walau bagaimanapun, pendekatan ini mungkin hanya memberikan kelegaan sementara kerana pengendali bot menyesuaikan teknik mereka.
Keputusan Tinjauan daripada Institusi Kebudayaan:
- 43 organisasi ditinjau oleh GLAM-E Lab
- 39 daripada 43 mengalami peningkatan trafik baru-baru ini
- 27 mengaitkan peningkatan secara khusus kepada bot latihan AI
- Tambahan 7 lagi mengesyaki penglibatan bot
Perubahan Asas dalam Trafik Web
Situasi ini mewakili perubahan dramatik dalam cara internet beroperasi. Corak trafik web tradisional mengandaikan kebanyakan pelawat adalah manusia yang melayari kandungan sekali-sekala. Kini, sistem automatik secara sistematik memuat turun keseluruhan koleksi, yang secara asasnya merosakkan model ekonomi yang memungkinkan akses dalam talian percuma.
Institusi kebudayaan yang menjadi hos koleksi dalam talian tidak mempunyai sumber untuk terus menambah lebih banyak pelayan, menggunakan firewall yang lebih canggih, dan mengupah lebih banyak jurutera operasi selama-lamanya.
Masalah ini melangkaui syarikat AI korporat sahaja. Apabila perkakasan AI menjadi lebih mampu milik, pembangun individu dan projek kecil semakin membina model mereka sendiri, yang membawa kepada pendaraban aktiviti pengikisan di seluruh web.
Garis Masa Aktiviti Bot:
- Sesetengah institusi menyedari peningkatan seawal tahun 2021
- Yang lain baru mula mengalami masalah pada tahun 2024
- Peningkatan masalah sering tidak disedari sehingga laman web ranap
- Lonjakan trafik dikaitkan dengan ledakan AI selepas ChatGPT
Melihat ke Hadapan
Krisis ini menyerlahkan persoalan yang lebih luas tentang masa depan kandungan dalam talian percuma. Jika laman web tidak mampu melayani pelawat manusia dan bot latihan AI, banyak mungkin terpaksa diletakkan di sebalik paywall atau ditutup sepenuhnya, yang berpotensi mengehadkan akses awam kepada warisan kebudayaan dan sumber pendidikan.
Penyelesaiannya berkemungkinan memerlukan syarikat AI membangunkan amalan pengumpulan data yang lebih mampan yang tidak membebankan laman web yang mereka bergantung. Tanpa kerjasama sedemikian, model semasa akses percuma dan terbuka kepada koleksi kebudayaan mungkin menjadi mustahil secara ekonomi untuk dikekalkan.
Rujukan: Bots are overwhelming websites with their hunger for AI data