Gitea Memperkenalkan Ciri Anti-Crawler untuk Menangani Lonjakan Trafik Bot AI

Pasukan Komuniti BigGo
Gitea Memperkenalkan Ciri Anti-Crawler untuk Menangani Lonjakan Trafik Bot AI

Platform Git yang dihoskan sendiri Gitea telah melancarkan ciri baharu untuk membantu pentadbir menangani masalah yang semakin meningkat iaitu bot pengikis AI yang membebankan pelayan mereka. Penyelesaian ini hadir ketika pembangun di seluruh dunia melaporkan lonjakan trafik yang besar daripada perangkak automatik yang melombong repositori mereka untuk data latihan.

Koleksi logo platform perisian yang berwarna-warni menonjolkan pelbagai alat yang digunakan oleh pembangun yang menghadapi cabaran dengan bot pengikis AI
Koleksi logo platform perisian yang berwarna-warni menonjolkan pelbagai alat yang digunakan oleh pembangun yang menghadapi cabaran dengan bot pengikis AI

Ledakan Trafik daripada Bot AI

Pentadbir pelayan telah bergelut dengan penggunaan lebar jalur yang tidak pernah berlaku sebelum ini daripada bot pengikis AI. Seorang pengguna melaporkan VPS peribadi mereka telah dilanda 800GB trafik bulanan daripada pelawat automatik ini, yang terperangkap merangkak melalui halaman sejarah Git yang mendalam. Bot-bot tersebut nampaknya secara sistematik mengikis repositori kod, kemungkinan untuk tujuan latihan model AI.

Lonjakan trafik bot ini telah memaksa ramai pembangun mencari penyelesaian, dengan sesetengahnya terpaksa menyekat keseluruhan julat IP milik syarikat AI utama seperti OpenAI , Microsoft , dan Mistral . Walau bagaimanapun, pendekatan manual ini sering memerlukan penyelenggaraan berterusan dan boleh secara tidak sengaja menyekat pengguna yang sah.

Antara muka pengguna yang memaparkan permintaan tarik dan aktiviti repositori mencerminkan cabaran pentadbir pelayan dalam menangani peningkatan trafik daripada bot AI
Antara muka pengguna yang memaparkan permintaan tarik dan aktiviti repositori mencerminkan cabaran pentadbir pelayan dalam menangani peningkatan trafik daripada bot AI

Pembaikan Konfigurasi Mudah

Pasukan pembangunan Gitea bertindak balas dengan penyelesaian yang elegan: pilihan konfigurasi REQUIRE_SIGNIN_VIEW = expensive. Ciri ini membolehkan pentadbir memerlukan pengesahan pengguna hanya untuk halaman yang memerlukan sumber intensif, seperti paparan sejarah Git yang terperinci, sambil mengekalkan kebanyakan kandungan repositori boleh diakses secara umum.

Pendekatan ini mencapai keseimbangan antara keterbukaan dan perlindungan. Pengguna biasa masih boleh melayari repositori, melihat kod, dan mengakses kebanyakan ciri tanpa mencipta akaun. Sementara itu, operasi yang memerlukan pengiraan mahal yang menarik perangkak bot disekat di sebalik keperluan log masuk yang mudah.

Setelah sedikit penyiasatan, mereka terperangkap dalam beberapa halaman sejarah git yang mendalam... membuat pengecualian untuk titik akhir API nampaknya rumit. Nasib baik pembangun Gitea baru-baru ini telah melaksanakan REQUIRE_SIGNIN_VIEW = expensive sebagai pembaikan.

Konfigurasi Anti-Perangkak:

  • Tetapan: REQUIRE_SIGNIN_VIEW = expensive
  • Kesan: Memerlukan log masuk hanya untuk halaman yang memerlukan sumber intensif
  • Faedah: Menyekat bot perangkak sambil mengekalkan akses awam kepada kebanyakan kandungan
  • Pendekatan alternatif: Penyekatan IP bagi ASN syarikat AI ( OpenAI , Microsoft , Mistral )

Respons Komuniti dan Alternatif

Komuniti Gitea telah memuji pendekatan yang disasarkan ini untuk pengurusan bot. Pengguna melaporkan bahawa melaksanakan tetapan ini serta-merta memulihkan pelayan mereka kepada tahap trafik dan penggunaan CPU yang normal, tanpa mengganggu aliran kerja biasa atau rakan sekerja mereka.

Sesetengah pembangun telah meneroka penyelesaian alternatif, termasuk migrasi kepada alat pengehosan Git yang lebih ringan seperti rgit yang digabungkan dengan utiliti sandaran. Walau bagaimanapun, ramai menghargai set ciri komprehensif Gitea , yang merangkumi CI/CD bersepadu melalui Gitea Actions , alat pengurusan projek, dan sokongan registri pakej untuk lebih daripada 20 jenis pakej yang berbeza.

Ciri-ciri Utama:

  • Pengehosan kod dengan repositori berasaskan Git
  • Sistem CI/CD bersepadu ( Gitea Actions ) yang serasi dengan GitHub Actions
  • Pengurusan projek dengan isu, papan kanban, pencapaian
  • Registri pakej yang menyokong 20+ jenis pakej ( NPM , Maven , Docker , PyPI , dll.)
  • Sokongan pelbagai platform ( Linux , Windows , macOS , FreeBSD , Kubernetes )
  • Keserasian pangkalan data ( SQLite , MySQL , PostgreSQL , TiDB , MS SQL )
Logo pelbagai platform perisian mencerminkan perbincangan komuniti Gitea mengenai alternatif dan ciri komprehensif platform tersebut
Logo pelbagai platform perisian mencerminkan perbincangan komuniti Gitea mengenai alternatif dan ciri komprehensif platform tersebut

Implikasi yang Lebih Luas

Perkembangan ini menyerlahkan ketegangan yang semakin meningkat antara keperluan pengumpulan data syarikat AI dan sumber pembangun individu serta organisasi kecil. Apabila latihan AI menjadi lebih memerlukan data, platform yang dihoskan sendiri sedang melaksanakan penyelesaian kreatif untuk mengekalkan perkhidmatan mereka tanpa menyekat sepenuhnya akses automatik.

Kejayaan pendekatan Gitea mungkin mempengaruhi platform lain yang dihoskan sendiri untuk menggunakan strategi pengesahan terpilih yang serupa, mengimbangi akses awam dengan perlindungan sumber dalam era perangkakan web yang didorong AI.

Rujukan: Private, Fast, Reliable DevOps Platform