Perplexity AI Didapati Menggunakan Perangkak Tersembunyi untuk Memintas Sekatan Laman Web

Pasukan Komuniti BigGo

Perplexity AI Didapati Menggunakan Perangkak Tersembunyi untuk Memintas Sekatan Laman Web

Cloudflare telah mendedahkan Perplexity AI kerana menggunakan taktik perangkakan yang menipu untuk mengakses laman web yang secara jelas telah menyekat bot syarikat tersebut. Siasatan firma keselamatan siber ini mendedahkan corak tingkah laku yang melemahkan mekanisme kepercayaan asas yang telah mengawal perangkakan web selama beberapa dekad.

Kontroversi ini tertumpu kepada sikap Perplexity yang nyata mengabaikan fail robots.txt dan sekatan rangkaian. Apabila pemilik laman web cuba menghalang perangkak yang diisytiharkan Perplexity daripada mengakses kandungan mereka, syarikat AI tersebut didakwa beralih kepada ejen pengguna yang tidak didedahkan yang menyamar sebagai pelayar web biasa, khususnya meniru Google Chrome pada macOS.

Taktik Pengelakan Perplexity:

Menggunakan ejen pengguna yang tidak didedahkan yang menyamar sebagai Google Chrome pada macOS
Bergilir-gilir melalui pelbagai alamat IP yang tidak berada dalam julat rasmi
Bertukar antara ASN yang berbeza (pembekal perkhidmatan internet)
Mengabaikan atau gagal mengambil fail robots.txt
Meneruskan perangkakan selepas disekat oleh ejen pengguna yang diisytiharkan


Ilustrasi yang menyerlahkan isu perangkakan senyap yang digunakan oleh Perplexity AI

Skala Perangkakan yang Menipu

Penyelidikan Cloudflare mendedahkan taktik pengelakan yang meluas merentas puluhan ribu domain, dengan berjuta-juta permintaan sehari datang daripada alamat IP yang tidak tersenarai dalam julat rasmi Perplexity . Syarikat tersebut bergilir-gilir melalui penyedia perkhidmatan internet yang berbeza (ASN) untuk menyamarkan lagi aktiviti perangkakan mereka apabila berhadapan dengan sekatan.

Untuk menguji syak wasangka mereka, Cloudflare mencipta domain baharu dengan fail robots.txt yang ketat yang melarang semua akses automatik. Walaupun terdapat sekatan yang jelas ini, apabila penyelidik bertanya kepada Perplexity AI mengenai domain rahsia ini, perkhidmatan tersebut memberikan maklumat terperinci tentang kandungan, membuktikan bahawa ia telah mengakses tapak yang disekat.

Perdebatan Komuniti Mengenai Hak Akses AI

Pendedahan ini telah mencetuskan perdebatan sengit mengenai sempadan antara permintaan pengguna yang sah dan perangkakan tanpa kebenaran. Sesetengah ahli komuniti berpendapat bahawa perkhidmatan AI yang bertindak bagi pihak pengguna sepatutnya mempunyai hak akses yang sama seperti pelayar manusia. Yang lain berpendapat bahawa skala besar dan sifat komersial perangkakan AI secara asasnya mengubah persamaan tersebut.

Jika saya kini melangkah lebih jauh dan menggunakan LLM untuk merumuskan kandungan kerana persembahan autentik dipenuhi dengan iklan, JavaScript, dan pop-up, sehingga kandungan menjadi hampir tidak boleh digunakan, maka mengapa LLM yang mengakses laman web bagi pihak saya berada dalam kategori undang-undang yang berbeza daripada pelayar Firefox saya yang mengakses laman web bagi pihak saya?

Komuniti teknikal kekal berpecah mengenai sama ada piawaian web semasa secukupnya menangani perangkakan AI. Fail robots.txt tradisional direka untuk enjin carian yang mengarahkan trafik kembali ke laman web, bukan untuk sistem AI yang berpotensi menghapuskan keperluan pengguna untuk melawat sumber asal.

Perbandingan dengan Perangkakan AI Beretika ( OpenAI ):

Menggariskan dengan jelas tujuan perangkak dan ejen pengguna
Menghormati arahan robots.txt tanpa cubaan pengelakan
Menghentikan perangkakan apabila dipersembahkan dengan halaman sekatan
Menggunakan tandatangan Web Bot Auth untuk permintaan HTTP
Tiada perangkakan susulan daripada ejen pengguna alternatif apabila disekat

Kesan yang Lebih Luas kepada Penerbitan Web

Pemilik laman web menyatakan kebimbangan yang semakin meningkat mengenai syarikat AI yang meraih keuntungan daripada kandungan mereka tanpa memberikan pampasan atau atribusi. Tidak seperti enjin carian yang menghantar pelawat kembali ke sumber asal, sistem AI sering memberikan jawapan langsung yang mengurangkan trafik ke laman web sumber.

Peralihan ini mengancam model ekonomi yang telah menyokong sebahagian besar penciptaan kandungan web. Penerbit yang bergantung kepada hasil iklan atau penukaran langganan bimbang bahawa rumusan AI boleh menghapuskan keupayaan mereka untuk memonetisasi kerja mereka, yang berpotensi menyebabkan kurang kandungan disediakan secara terbuka.

Langkah Tindak Balas Cloudflare:

Menyahsenaraikan Perplexity sebagai bot yang disahkan
Menambah heuristik kepada peraturan terurus yang menyekat perangkakan senyap
Membangunkan cap jari perangkak berasaskan pembelajaran mesin
Lebih 2.5 juta laman web kini menyekat perangkak AI melalui Cloudflare
Perlindungan percuma tersedia untuk semua pelanggan Cloudflare

Perlumbaan Senjata Teknikal Meningkat

Cloudflare telah bertindak balas dengan membangunkan kaedah pengesanan baharu dan peraturan penyekatan yang khusus menyasarkan perangkak tersembunyi Perplexity . Syarikat kini menggunakan pembelajaran mesin dan analisis rangkaian untuk mengenal pasti tingkah laku perangkakan yang menyamar, walaupun ia cuba meniru corak pelayaran manusia.

Walau bagaimanapun, komuniti teknikal mengakui ini mewujudkan perlumbaan senjata yang berterusan. Apabila kaedah pengesanan bertambah baik, teknik perangkakan menjadi lebih canggih. Ada yang meramalkan bahawa perangkak AI masa depan mungkin menggunakan alat automasi pelayar atau bahkan mengedarkan perangkakan melalui peranti pengguna untuk menjadikan pengesanan hampir mustahil.

Kontroversi ini menyerlahkan persoalan asas mengenai persetujuan, penggunaan adil, dan masa depan web terbuka apabila sistem AI menjadi lebih lazim dalam cara orang mengakses maklumat.

Rujukan: Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives


Perlumbaan senjata yang berterusan dalam merangkak web dan pengesanan yang ditonjolkan melalui representasi pengawasan futuristik