Cloudflare Melancarkan Sistem Bayar Setiap Crawl untuk Memonetisasi AI Web Scraping dan Menyekat Crawlers secara Lalai

Pasukan Editorial BigGo
Cloudflare Melancarkan Sistem Bayar Setiap Crawl untuk Memonetisasi AI Web Scraping dan Menyekat Crawlers secara Lalai

Syarikat infrastruktur web Cloudflare sedang mengubah keseimbangan kuasa antara pencipta kandungan dan syarikat AI dengan sistem monetisasi baharu yang membolehkan pemilik laman web mengenakan bayaran kepada crawler kecerdasan buatan untuk akses kepada kandungan mereka. Inisiatif ini mewakili perubahan ketara daripada model semasa di mana syarikat AI dengan bebas mengikis kandungan web tanpa pampasan kepada pencipta asal.

Imej ini menggambarkan pembangunan pesat teknologi kecerdasan buatan, menekankan kepentingan syarikat AI dalam landskap kandungan semasa yang sedang ditangani oleh Cloudflare
Imej ini menggambarkan pembangunan pesat teknologi kecerdasan buatan, menekankan kepentingan syarikat AI dalam landskap kandungan semasa yang sedang ditangani oleh Cloudflare

Penyekatan Lalai AI Crawler Berkuat Kuasa

Cloudflare telah mengumumkan bahawa crawler web AI kini akan disekat secara lalai di seluruh rangkaiannya, menandakan apa yang syarikat itu gambarkan sebagai langkah pertama ke arah masa depan yang lebih mampan untuk kedua-dua pencipta kandungan dan inovator AI . Ini dibina berdasarkan alat AI Audit sedia ada syarikat itu, yang sebelum ini membenarkan pelanggan menyekat bot AI tertentu secara manual dengan satu klik. Pemilik laman web yang masih ingin membenarkan pengikisan percuma boleh melumpuhkan tetapan lalai ini, walaupun pilihan monetisasi baharu Cloudflare mungkin menjadikan pilihan itu kurang menarik.

Sistem Pay Per Crawl Memasuki Ujian Beta

Teras pendekatan baharu Cloudflare ialah sistem Pay Per Crawl nya, yang kini telah memasuki ujian beta selepas diumumkan tahun lepas. Skim inovatif ini memanfaatkan kod respons HTTP 402 Payment Required yang sebelum ini tidak aktif untuk mencipta kaedah piawai bagi mengenakan bayaran kepada syarikat AI yang ingin mengakses kandungan laman web. Sistem ini membolehkan pencipta kandungan kawalan terperinci ke atas tapak mereka, membolehkan mereka memberikan akses percuma kepada crawler tertentu, mengenakan bayaran kepada yang lain untuk masuk, atau menyekat scraper yang tidak diingini sepenuhnya.

Pelaksanaan Kod Respons HTTP:

  • Menggunakan kod status HTTP 402 "Payment Required"
  • Perangkak boleh bertindak balas dengan niat pembayaran atau disekat
  • Laman web boleh memberi isyarat keterbukaan kepada pengaturan pembayaran masa hadapan
  • Membolehkan mekanisme pengecasan piawai merentas infrastruktur web

Pelaksanaan Teknikal dan Langkah Keselamatan

Cloudflare telah melaksanakan langkah pengesahan yang canggih untuk menghalang syarikat AI daripada mengelakkan sistem pembayaran. Crawler yang sah mesti mengesahkan diri mereka menggunakan signature-agent , signature-input , dan signature headers , yang Cloudflare sahkan terhadap kunci awam yang disimpan dalam direktori yang dihoskan. Ini menghalang pelaku berniat jahat daripada menyamar sebagai crawler yang diluluskan untuk mendapat akses tanpa kebenaran. Sistem ini juga termasuk kawalan bajet, membolehkan crawler AI menetapkan had perbelanjaan menggunakan crawler-max-price headers apabila mengakses tapak yang dilindungi.

Proses Pengesahan Pay Per Crawl:

  • Perangkak menggunakan pengepala signature-agent, signature-input, dan signature
  • Cloudflare mengesahkan terhadap pasangan kunci Ed25519 dalam direktori yang dihoskan
  • Perbandingan kunci awam dengan maklumat URL dan ejen pengguna
  • Menyekat perangkak palsu sambil membenarkan akses yang disahkan

Perkongsian Industri dan Respons Pasaran

ProRata , syarikat permulaan di sebalik enjin carian AI Gist.AI , telah muncul sebagai peserta pertama yang diakui secara terbuka dalam program Pay Per Crawl . Pengasas dan CEO syarikat Bill Gross menekankan peranan inisiatif dalam melindungi kreativiti manusia, menyatakan bahawa pencipta dan penerbit layak mendapat pampasan yang adil untuk sumbangan mereka. Model perkongsian ini berpotensi menyamakan kedudukan untuk pencipta kandungan yang lebih kecil yang tidak mempunyai sumber untuk merundingkan perjanjian pelesenan individu dengan syarikat AI utama seperti OpenAI , yang telah pun menjalinkan perkongsian kandungan dengan banyak organisasi media.

Mengimbangi Inovasi dengan Pemeliharaan

Sistem penyekatan baharu menggabungkan pembelajaran mesin dan analisis tingkah laku untuk membezakan antara crawler web yang bermanfaat dan scraper AI yang bermasalah. Pendekatan ini mengakui bahawa tidak semua akses web automatik adalah berbahaya, terutamanya usaha pemeliharaan oleh organisasi seperti Internet Archive . Penyelidikan daripada Pew Research Center yang menyerlahkan bahawa 25% halaman web dari 2013-2023 tidak lagi boleh diakses menggariskan kepentingan aktiviti crawling arkib yang sah.

Implikasi Masa Depan untuk Pembangunan AI

Inisiatif Cloudflare boleh mengubah secara asasnya cara syarikat AI memperoleh data latihan, berpotensi memaksa mereka membuat bajet untuk pemerolehan kandungan daripada bergantung pada pengikisan percuma. Syarikat itu membayangkan ejen AI beroperasi dengan bajet yang telah ditetapkan untuk mengakses kandungan berkualiti tinggi dan relevan apabila bertindak balas kepada gesaan pengguna. Model berasaskan kebenaran untuk akses kandungan internet ini mewakili peralihan ketara ke arah mengiktiraf nilai ekonomi penciptaan kandungan digital dan boleh menetapkan piawaian industri baharu untuk pemerolehan data latihan AI .