Perangkak Web AI Membanjiri Laman Web Kecil dengan Lonjakan Trafik Sehingga 20 Kali Ganda Paras Normal

Pasukan Komuniti BigGo
Perangkak Web AI Membanjiri Laman Web Kecil dengan Lonjakan Trafik Sehingga 20 Kali Ganda Paras Normal

Kebangkitan kecerdasan buatan telah membawa beban yang tidak dijangka kepada pemilik laman web di seluruh dunia. Perangkak web AI kini menghentam laman web dengan beban trafik yang tidak pernah berlaku sebelum ini, menyebabkan masalah prestasi dan memaksa ramai pengendali laman untuk melaksanakan langkah pertahanan yang mahal atau meninggalkan kehadiran dalam talian mereka sama sekali.

Letupan Trafik Mengancam Kestabilan Laman Web

Menurut data Cloudflare , bot AI kini mewakili 30% daripada trafik web global, dengan 80% aktiviti bot AI datang daripada perangkak pengumpulan data. Tidak seperti perangkak enjin carian tradisional yang mengikut garis panduan sopan, perangkak AI baharu ini jauh lebih agresif. Mereka boleh menjana lonjakan trafik yang mencapai 10 hingga 20 kali ganda paras normal dalam beberapa minit, mengalahkan sumber pelayan sepenuhnya.

Kesan ini paling teruk menimpa laman web yang lebih kecil yang menggunakan perkhidmatan hos kongsi. Malah laman yang tidak disasarkan secara langsung boleh mengalami masalah apabila laman lain pada pelayan yang sama dihentam oleh perangkak. Seorang pentadbir sistem yang menguruskan infrastruktur hos butik menggambarkan keadaan ini sebagai hampir seperti mempunyai laman yang kena Slashdotted setiap hari.

Nota: Slashdotted merujuk kepada apabila laman web menjadi terharu oleh trafik mendadak daripada dipaparkan di laman berita teknologi popular.

Statistik Trafik Bot AI:

  • 30% daripada trafik web global kini datang daripada bot (data Cloudflare)
  • 80% daripada trafik bot AI terdiri daripada bot pengumpul data (laporan Fastly)
  • Lonjakan trafik boleh mencapai 10-20 kali ganda paras normal dalam beberapa minit
  • Meta menyumbang 52% daripada trafik bot carian AI, Google 23%, OpenAI 20%

Tekanan Kewangan Memaksa Pilihan Sukar

Kesan kewangan memaksa pemilik laman web membuat keputusan sukar. Pencipta ProtonDB , sumber permainan Linux yang popular, baru-baru ini menghadapi peningkatan bil bulanan sebanyak 500 dolar Amerika yang tidak dijangka akibat trafik perangkak AI yang menggunakan 30GB data setiap hari. Ini mendorong laman tersebut melebihi had pelan hos 1TB, mengancam kemampanan perkhidmatan percuma tersebut.

Ramai pengendali laman terpaksa beralih kepada penyelesaian mahal atau perubahan platform utama. Ada yang melaksanakan dinding log masuk, berpindah kepada penyedia hos yang berbeza, atau bahkan mempertimbangkan dinding bayar untuk kandungan yang sebelum ini percuma.

Contoh Kesan Kewangan:

  • ProtonDB : Peningkatan $500 USD bulanan disebabkan 30GB trafik perangkak AI harian
  • Netlify mengenakan caj $50 bagi setiap 100GB melebihi had 1TB
  • Penyedia hos kecil melaporkan penggunaan sumber 5000 kali ganda berbanding pelawat manusia
  • Sesetengah laman web terpaksa menaik taraf daripada hos berkongsi kepada sumber khusus

Pertahanan Tradisional Terbukti Tidak Berkesan

Kaedah lama mengawal perangkak web gagal terhadap bot AI. Ramai perangkak AI hanya mengabaikan fail robots.txt, cara tradisional laman web berkomunikasi keutamaan perangkakan kepada bot. Malah teknologi anti-bot yang canggih dan sistem CAPTCHA bergelut melawan perangkak berkuasa AI yang boleh menyelesaikan cabaran ini secara automatik.

Mana-mana pengikis web yang mengikis SECARA BERURUTAN pada 1r/s sebenarnya adalah pengikis yang berkelakuan baik dan tidak mengganggu. Cuma WP secara amnya ** untuk prestasi.

Pemilik laman web beralih kepada langkah penyekatan yang lebih agresif, termasuk penapisan berasaskan IP dan perkhidmatan khusus seperti penyekat perangkak Anubis AI . Walau bagaimanapun, ini mewujudkan perlumbaan senjata yang berterusan kerana perangkak menyesuaikan diri dengan menggunakan kumpulan IP yang lebih besar dan ejen pengguna palsu untuk kelihatan seperti pelawat biasa.

Nota: 1r/s bermaksud satu permintaan sesaat, dianggap kadar perangkakan yang munasabah.

Langkah Pertahanan dan Alat:

  • Kaedah tradisional: fail robots.txt (sering diabaikan oleh perangkak AI)
  • Perkhidmatan penyekatan: perlindungan bot Cloudflare , penyekat perangkak AI Anubis
  • Penyelesaian teknikal: penapisan IP, penyekatan berasaskan ASN, peraturan fail2ban
  • Sekatan kandungan: dinding log masuk, dinding bayaran, cabaran CAPTCHA
  • Pengehosan alternatif: Migrasi ke platform dengan lebar jalur tanpa had

Ekosistem Web yang Lebih Luas Berisiko

Masalah perangkak melangkaui laman web individu untuk mengancam sifat terbuka internet itu sendiri. Tidak seperti perangkak enjin carian tradisional yang boleh memandu trafik kembali ke laman web melalui hasil carian, perangkak AI mengekstrak kandungan tanpa memberikan sebarang faedah balasan kepada pemilik laman. Ini memecahkan ekosistem web tradisional di mana pencipta kandungan boleh memonetisasi kerja mereka melalui trafik carian dan pengiklanan.

Apabila langkah pertahanan menjadi lebih biasa, web menjadi semakin berpecah-belah. Maklumat penting sedang dipindahkan ke belakang dinding log masuk atau dikeluarkan sepenuhnya, berpotensi mewujudkan Internet yang ter- Balkanized di mana akses kepada pengetahuan memerlukan pembayaran atau pendaftaran pada setiap pusingan.

Keadaan ini menyerlahkan peralihan asas dalam cara web beroperasi, dengan syarikat AI mengekstrak nilai besar daripada kandungan sementara pencipta asal menanggung kos infrastruktur dan tidak menerima sebarang pampasan sebagai balasan.

Rujukan: Al web crawlers are destroying websites in their never-ending hunger for any and all content