Platform Git self-hosted Gitea telah meluncurkan fitur baru untuk membantu administrator mengatasi masalah yang semakin berkembang dari bot scraper AI yang membanjiri server mereka. Solusi ini hadir ketika developer di seluruh dunia melaporkan lonjakan lalu lintas masif dari crawler otomatis yang menambang repositori mereka untuk data pelatihan.
![]() |
---|
Koleksi logo platform perangkat lunak yang berwarna-warni menyoroti beragam alat yang digunakan oleh pengembang yang menghadapi tantangan dengan bot scraper AI |
Ledakan Lalu Lintas dari Bot AI
Administrator server telah berjuang dengan konsumsi bandwidth yang belum pernah terjadi sebelumnya dari bot scraper AI. Seorang pengguna melaporkan VPS pribadi mereka terkena 800GB lalu lintas bulanan dari pengunjung otomatis ini, yang terjebak merayapi halaman riwayat Git yang dalam. Bot-bot tersebut tampaknya secara sistematis melakukan scraping repositori kode, kemungkinan untuk tujuan pelatihan model AI.
Lonjakan lalu lintas bot ini telah memaksa banyak developer untuk mencari solusi, dengan beberapa menggunakan cara memblokir seluruh rentang IP milik perusahaan AI besar seperti OpenAI , Microsoft , dan Mistral . Namun, pendekatan manual ini sering memerlukan pemeliharaan konstan dan dapat secara tidak sengaja memblokir pengguna yang sah.
![]() |
---|
Antarmuka pengguna yang menampilkan pull request dan aktivitas repositori mencerminkan perjuangan admin server dalam menghadapi peningkatan lalu lintas dari bot AI |
Perbaikan Konfigurasi Sederhana
Tim pengembangan Gitea merespons dengan solusi yang elegan: opsi konfigurasi REQUIRE_SIGNIN_VIEW = expensive
. Fitur ini memungkinkan administrator untuk mewajibkan autentikasi pengguna hanya untuk halaman yang membutuhkan banyak sumber daya, seperti tampilan riwayat Git yang detail, sambil menjaga sebagian besar konten repositori tetap dapat diakses publik.
Pendekatan ini mencapai keseimbangan antara keterbukaan dan perlindungan. Pengguna reguler masih dapat menjelajahi repositori, melihat kode, dan mengakses sebagian besar fitur tanpa membuat akun. Sementara itu, operasi yang membutuhkan komputasi berat yang menarik bot crawler dibatasi di balik persyaratan login sederhana.
Setelah sedikit investigasi, mereka terjebak di beberapa halaman riwayat git yang dalam... membuat pengecualian untuk endpoint API tampaknya rumit. Untungnya, developer Gitea baru-baru ini telah mengimplementasikan
REQUIRE_SIGNIN_VIEW = expensive
sebagai perbaikan.
Konfigurasi Anti-Crawler:
- Pengaturan:
REQUIRE_SIGNIN_VIEW = expensive
- Efek: Memerlukan login hanya untuk halaman yang membutuhkan sumber daya intensif
- Manfaat: Memblokir bot crawler sambil mempertahankan akses publik ke sebagian besar konten
- Pendekatan alternatif: Pemblokiran IP dari ASN perusahaan AI ( OpenAI , Microsoft , Mistral )
Respons Komunitas dan Alternatif
Komunitas Gitea telah memuji pendekatan yang tertarget ini untuk manajemen bot. Pengguna melaporkan bahwa menerapkan pengaturan ini langsung mengembalikan server mereka ke tingkat lalu lintas dan penggunaan CPU normal, tanpa mengganggu alur kerja reguler atau kolaborator mereka.
Beberapa developer telah menjelajahi solusi alternatif, termasuk migrasi ke alat hosting Git yang lebih ringan seperti rgit yang dikombinasikan dengan utilitas backup. Namun, banyak yang menghargai set fitur komprehensif Gitea , yang mencakup CI/CD terintegrasi melalui Gitea Actions , alat manajemen proyek, dan dukungan registry paket untuk lebih dari 20 jenis paket yang berbeda.
Fitur Utama:
- Hosting kode dengan repositori berbasis Git
- Sistem CI/CD terintegrasi ( Gitea Actions ) yang kompatibel dengan GitHub Actions
- Manajemen proyek dengan issues, papan kanban, milestone
- Registry paket yang mendukung 20+ jenis paket ( NPM , Maven , Docker , PyPI , dll.)
- Dukungan multi-platform ( Linux , Windows , macOS , FreeBSD , Kubernetes )
- Kompatibilitas database ( SQLite , MySQL , PostgreSQL , TiDB , MS SQL )
![]() |
---|
Logo-logo beragam dari platform perangkat lunak mencerminkan diskusi komunitas Gitea tentang alternatif dan fitur-fitur komprehensif platform tersebut |
Implikasi yang Lebih Luas
Perkembangan ini menyoroti ketegangan yang berkembang antara kebutuhan pengumpulan data perusahaan AI dan sumber daya developer individu serta organisasi kecil. Seiring pelatihan AI menjadi lebih haus data, platform self-hosted mengimplementasikan solusi kreatif untuk mempertahankan layanan mereka tanpa sepenuhnya memblokir akses otomatis.
Keberhasilan pendekatan Gitea mungkin mempengaruhi platform self-hosted lainnya untuk mengadopsi strategi autentikasi selektif yang serupa, menyeimbangkan akses publik dengan perlindungan sumber daya di era web crawling yang didorong AI.
Referensi: Private, Fast, Reliable DevOps Platform