Pemilik Laman Web Melawan Perangkak AI Agresif dengan Alat Penyekatan dan Had Kadar

Pasukan Komuniti BigGo
Pemilik Laman Web Melawan Perangkak AI Agresif dengan Alat Penyekatan dan Had Kadar

Pentadbir laman web di seluruh internet semakin beralih kepada langkah-langkah pertahanan kerana perangkak AI daripada syarikat teknologi utama membanjiri pelayan mereka dengan trafik berlebihan. Laporan terkini Fastly mendedahkan bahawa bot AI kini menyumbang sebahagian besar trafik web, tetapi pengalaman dunia sebenar yang dikongsi oleh pengendali laman web memberikan gambaran paling jelas tentang masalah yang semakin meningkat ini.

Taburan Trafik Perayap AI (Laporan Fastly)

  • Meta: 52% daripada keseluruhan trafik perayap AI
  • Google: 23% daripada trafik perayap AI
  • OpenAI: 20% daripada trafik perayap AI
  • Anthropic: 3.76% daripada trafik perayap
  • Common Crawl Project: 0.21% daripada trafik perayap

Laman Kecil Menanggung Beban Terberat

Pemilik laman web bebas mendapati diri mereka terperangkap dalam pertempuran yang tidak dijangka. Seorang pengendali laman penemuan buku melaporkan ranap harian akibat trafik perangkak AI, manakala seorang lagi yang menguruskan laman web industri pembersihan paip mengalami 15,000 permintaan seminit daripada sistem OpenAI . Ini bukanlah laman komersial bertrafik tinggi - mereka adalah platform khusus yang melayani komuniti khusus yang tiba-tiba mendapati diri mereka diserang.

Kesannya melampaui sekadar ketidakselesaan. Pemilik laman web menerangkan pangkalan data yang ranap, analitik yang terpesong, dan kos yang meningkat daripada perkhidmatan seperti Google Maps yang mengenakan caj setiap panggilan API. Bagi pengendali kecil yang beroperasi dengan bajet ketat, perbelanjaan tidak dijangka ini boleh merosakkan.

Taburan Trafik AI Fetcher

  • OpenAI : ~98% daripada semua permintaan AI fetcher
  • Perplexity AI : 1.53% daripada trafik fetcher
  • Syarikat lain: <1% gabungan

Cloudflare Muncul sebagai Pertahanan Utama

Komuniti sebahagian besarnya bersatu di sekeliling Cloudflare sebagai mekanisme pertahanan utama mereka. Beberapa pengendali laman web melaporkan kejayaan dengan Super Bot Fight Mode platform tersebut, yang boleh menghapuskan lonjakan bot dengan berkesan. Walau bagaimanapun, penyelesaian ini datang dengan pertukaran - pengguna sah dengan penyekat iklan atau tetapan privasi sering menghadapi cabaran pengesahan tambahan.

Bagi mereka yang mencari alternatif, alat seperti Anubis menawarkan cabaran bukti kerja yang menjadikan pengikisan mahal dari segi pengiraan. Sesetengah pentadbir malah telah menggunakan lubang tar - sistem yang direka untuk membazir sumber perangkak dengan menyajikan aliran kandungan yang dijana tanpa henti.

Alat Pertahanan Popular Yang Disebut

  • Cloudflare: Super Bot Fight Mode, peraturan sekatan geografi tersuai
  • Anubis: Cabaran bukti kerja untuk laman web kecil
  • Pengehadan kadar: Sekatan asas permintaan-per-jam
  • Lubang tar: Sistem yang menyajikan kandungan yang dijana tanpa henti untuk membuang sumber perangkak

Perlumbaan Senjata Teknikal Semakin Sengit

Apa yang amat membimbangkan ialah bagaimana sesetengah syarikat AI nampaknya mengabaikan konvensyen web yang telah ditetapkan. Beberapa pengendali laman web mencatatkan perangkak yang memintas fail robots.txt, rentetan ejen pengguna palsu, dan berputar melalui rangkaian proksi kediaman untuk mengelak pengesanan. Ini telah memaksa pemilik laman web ke dalam perlumbaan senjata teknikal yang semakin meningkat.

Ini adalah isu kawal selia. Perkara yang perlu berlaku ialah kerajaan perlu campur tangan dan memberikan syarikat-syarikat AI ini yang memusnahkan kebaikan bersama digital denda yang mengancam kewujudan dan membuatkan mereka membayar ganti rugi kepada komuniti yang mereka sakiti.

Keadaan telah menjadi begitu teruk sehingga sesetengah pentadbir web lama melaksanakan larangan perangkak menyeluruh buat kali pertama dalam beberapa dekad operasi. Yang lain telah memindahkan kandungan di sebalik dinding log masuk atau mengehadkan akses mengikut wilayah geografi.

Penyelesaian Mampan Masih Sukar Dicapai

Walaupun alat penyekatan memberikan kelegaan segera, ia tidak menangani isu asas penggunaan sumber dan eksternalisasi kos. Ada yang mencadangkan bahawa syarikat AI boleh menawarkan muat turun data pukal dan bukannya perangkakan berterusan, tetapi koordinasi pada inisiatif sedemikian masih terhad.

Trajektori semasa menunjukkan masalah ini hanya akan bertambah sengit apabila alat AI menjadi lebih meluas dan canggih. Sehingga piawaian industri muncul atau campur tangan kawal selia berlaku, pengendali laman web berkemungkinan akan terus mengukuhkan hartanah digital mereka terhadap gelombang trafik automatik yang semakin meningkat.

Rujukan: AI crawlers and fetchers are blowing up websites, with Meta and OpenAI the worst offenders