Pembangun Mencipta Penjana JPEG Palsu untuk Melawan Perangkak Web yang Agresif

Pasukan Komuniti BigGo
Pembangun Mencipta Penjana JPEG Palsu untuk Melawan Perangkak Web yang Agresif

Seorang pembangun kreatif telah menemui cara yang luar biasa untuk menangani perangkak web yang agresif dengan menjana imej JPEG palsu atas permintaan. Penyelesaian ini muncul daripada pemerhatian bagaimana bot pencari imej sedang mencari kandungan dengan terdesak pada aplikasi web yang dipanggil Spigot, yang mencipta halaman web palsu untuk memerangkap perangkak yang menyalahgunakan sistem.

Masalah dengan Bot yang Lapar Imej

Pembangun tersebut menyedari bahawa ImageSiftBot membuat beribu-ribu permintaan setiap jam kepada Spigot, mencari imej yang tidak wujud. Daripada sekadar menyekat bot tersebut, mereka memutuskan untuk membantu dengan mencipta imej palsu yang akan membuang sumber perangkak tersebut. Cabarannya adalah melakukan ini tanpa menggunakan terlalu banyak kuasa CPU pelayan, kerana pemampatan imej sebenar memerlukan pengiraan yang mahal.

Statistik Aktiviti Perangkak

  • ImageSiftBot : ~15,000 imej palsu dimuat turun setiap hari
  • Jumlah trafik Spigot : >1 juta halaman dihidangkan setiap hari
  • Integrasi imej palsu: ~60% daripada halaman yang dijana kini mengandungi JPEG palsu
  • Beberapa perangkak utama terjejas: bot Meta , AmazonBot , GPTBot

Penyelesaian Teknikal yang Bijak

Kejayaan datang daripada memahami bagaimana pemampatan JPEG berfungsi. Memandangkan data termampat kelihatan pada dasarnya rawak, pembangun menyedari mereka boleh mencipta JPEG palsu dengan menggunakan templat fail JPEG sebenar dan mengisi bahagian data imej termampat dengan bait rawak. Pendekatan ini memerlukan kuasa CPU yang minimum sambil masih menghasilkan fail yang akan diterima oleh pelayar dan perangkak sebagai imej yang sah.

Proses ini melibatkan pengimbasan fail JPEG sedia ada untuk mengekstrak komponen struktural mereka - pengepala, metadata, dan maklumat bahagian - sambil membuang data piksel sebenar. Ini mencipta templat ringan yang boleh diisi dengan data rawak untuk menghasilkan imej palsu dalam pelbagai saiz dan format.

JPEG: Format imej biasa yang menggunakan pemampatan untuk mengurangkan saiz fail Templat: Struktur siap sedia yang boleh diisi dengan kandungan yang berbeza

Prestasi dan Keberkesanan

Hasilnya mengagumkan dari segi prestasi. Sistem ini boleh menjana sekitar 900 imej palsu setiap saat, berjumlah kira-kira 190 megabait setiap saat kandungan palsu. Ini jauh melebihi kelajuan sambungan internet pelayan, menjadikannya hampir tidak terhad dari perspektif lebar jalur.

Perbincangan komuniti mendedahkan beberapa pemerhatian menarik tentang imej yang dijana. Pengguna menyatakan bahawa JPEG palsu cenderung dipaparkan dengan kecenderungan hijau, yang berpotensi berfungsi sebagai kaedah pengesanan untuk perangkak yang canggih. Walau bagaimanapun, kebanyakan perangkak nampaknya tidak mengambil berat tentang kualiti imej atau kerosakan kecil selagi mereka boleh memuat turun dan memproses fail tersebut.

Metrik Prestasi

  • Kelajuan penjanaan: ~900 imej JPEG palsu sesaat
  • Daya pemprosesan data: ~190 MB/sesaat kandungan palsu
  • Penyimpanan templat: 514 templat JPEG daripada sumber 150MB dikurangkan kepada <500KB
  • Peningkatan kadar ralat: Kod Huffman tidak sah dikurangkan daripada >90% kepada <4% dengan topeng bit

Impak yang Lebih Luas pada Perangkakan Web

Teknik ini telah terbukti berkesan terhadap beberapa perangkak utama, termasuk bot Meta, AmazonBot, dan GPTBot, yang semuanya telah mula mengumpul imej palsu tersebut. Ini menimbulkan persoalan tentang perlumbaan senjata antara pencipta kandungan dan operasi perangkakan yang agresif.

Beberapa ahli komuniti membuat perbandingan dengan projek anti-spam lama seperti Project Honey Pot, yang menggunakan teknik penipuan serupa untuk mengenal pasti perangkak web dan pemungut e-mel yang berniat jahat. Pendekatan ini mewakili peralihan daripada sekadar menyekat trafik yang tidak diingini kepada secara aktif membuang sumber sistem yang menyalahgunakan.

Pembangun tersebut sejak itu telah memperhalusi teknik dengan menggunakan topeng bit pada data rawak, mengurangkan kebarangkalian menjana fail JPEG yang jelas tidak sah daripada lebih 90% kepada kurang daripada 4%. Penambahbaikan ini mengekalkan keperluan CPU yang rendah sambil menjadikan imej palsu lebih meyakinkan kepada sistem automatik.

Penyelesaian kreatif ini menunjukkan bagaimana memahami format fail dan pemampatan boleh digunakan secara defensif terhadap operasi perangkakan web yang intensif sumber, membalikkan keadaan pada sistem yang menggunakan lebar jalur dan sumber pelayan tanpa kebenaran.

Rujukan: 25 Mac 2025: Faking a JPEG