Masalah yang semakin berkembang sedang muncul di seluruh web apabila perangkak bervolum tinggi, yang kebanyakannya disyaki mengumpul data untuk latihan AI, menyamar menggunakan tandatangan pelayar yang lapuk. Ini telah memaksa pentadbir laman web melaksanakan langkah-langkah penyekatan yang kadang-kadang turut menjerat pengguna sah.
Isu ini telah menjadi sangat akut pada awal 2025, dengan pemilik laman web melaporkan peningkatan beban pelayan yang ketara daripada perangkak automatik. Perangkak ini sering menyamar sebagai versi lama pelayar popular seperti Chrome, menjadikannya sukar untuk membezakan antara pengguna tulen dengan perisian lapuk dan trafik automatik berniat jahat.
Ciri-ciri Perangkak Biasa:
- Menggunakan nilai User-Agent Chrome yang lama
- Merangkak dari blok alamat IP yang tersebar luas
- Sesetengahnya menggunakan entri DNS terbalik palsu yang mendakwa sebagai googlebot
- Permintaan automatik bervolum tinggi
- Disyaki pengumpulan data untuk latihan LLM
Perkhidmatan Arkib Terjebak dalam Sasaran
Perkhidmatan pengarkiban popular telah menjadi mangsa yang tidak disengajakan dalam langkah-langkah anti-perangkak ini. Perkhidmatan seperti archive.today, archive.ph, dan archive.is menggunakan tandatangan pelayar lama semasa merangkak halaman untuk pemeliharaan, menjadikan mereka tidak dapat dibezakan daripada perangkak bermasalah yang cuba disekat oleh pemilik laman web.
Keadaan ini menjadi rumit kerana perkhidmatan arkib ini beroperasi dari blok alamat IP yang diedarkan yang tidak jelas dikenal pasti sebagai milik perkhidmatan pengarkiban. Sesetengahnya bahkan menggunakan entri DNS terbalik palsu yang mendakwa sebagai perangkak enjin carian sah, amalan yang biasanya dikaitkan dengan pelaku berniat jahat.
Perkhidmatan Arkib Yang Terjejas:
- archive.today
- archive.ph
- archive.is
- Domain archive.* yang lain
Alternatif Yang Disyorkan:
- archive.org (perangkak arkib yang berkelakuan lebih baik)
Penyelesaian Teknikal dan Perdebatan Komuniti
Komuniti pembangun telah aktif membincangkan pelbagai pendekatan untuk menangani cabaran ini. Sementara sesetengahnya memberi tumpuan kepada mekanisme penyekatan sisi pelayan, yang lain sedang meneroka kaedah pengesanan yang lebih canggih yang dapat membezakan antara perkhidmatan pengarkiban sah dan operasi penuaian data.
You can just do trap 'caller 1' ERR should do the same thing. Also you should set errtrace (-E) and possibly nounset (-u) and pipefail.
Perbincangan ini juga telah mencetuskan perbualan yang lebih luas mengenai keseimbangan antara melindungi laman web daripada trafik automatik yang berlebihan dan mengekalkan kebolehcapaian untuk tujuan pengarkiban dan penyelidikan yang sah. Ramai pembangun menyokong pendekatan yang lebih piawai untuk mengenal pasti perangkak sah dan perkhidmatan arkib.
Kesan terhadap Kebolehcapaian Web
Perlumbaan senjata perangkak ini sedang mewujudkan halangan baru kepada kebolehcapaian web dan usaha pengarkiban. Pengguna dengan pelayar yang benar-benar lapuk mungkin mendapati diri mereka tidak dapat mengakses kandungan, sementara usaha pemeliharaan web yang penting menghadapi halangan yang semakin meningkat.
Keadaan ini menyerlahkan ketegangan berterusan antara melindungi sumber web dan mengekalkan internet yang terbuka dan boleh diakses. Apabila syarikat AI terus mencari data latihan dan pelaku berniat jahat menjadi lebih canggih dalam pendekatan mereka, pemilik laman web terpaksa membuat keputusan yang semakin sukar mengenai kawalan akses.
Pentadbir laman web kini mengesyorkan agar pengguna mengemas kini pelayar mereka bukan sahaja atas sebab keselamatan, tetapi untuk mengelakkan disekat secara salah oleh sistem anti-perangkak. Sementara itu, komuniti pengarkiban menyeru untuk standard yang lebih baik dan sistem pengenalan untuk membezakan usaha pemeliharaan sah daripada operasi penuaian data.