Bot Penggali Data AI Meruntuhkan Situs Web Institusi Budaya saat Lalu Lintas Melonjak 90%

Tim Editorial BigGo
Bot Penggali Data AI Meruntuhkan Situs Web Institusi Budaya saat Lalu Lintas Melonjak 90%

Institusi budaya di seluruh dunia menghadapi krisis digital yang belum pernah terjadi sebelumnya. Museum, perpustakaan, dan arsip melaporkan bahwa situs web mereka kewalahan oleh bot pelatihan AI yang agresif yang menggali konten secara sangat intensif hingga menyebabkan gangguan layanan dan biaya server yang tidak berkelanjutan.

Lonjakan ini dimulai secara diam-diam namun telah mencapai tingkat yang mengkhawatirkan. Lebih dari 90% institusi yang disurvei kini menghadapi bot-bot agresif ini beberapa kali per minggu, dengan banyak yang mengalami penutupan situs web secara total akibatnya.

Dampak Repositori Akses Terbuka:

  • 66 repositori yang disurvei oleh COAR
  • Lebih dari 90% mengalami serangan bot agresif
  • Serangan terjadi lebih dari sekali per minggu
  • Sering menyebabkan perlambatan dan gangguan layanan

Pertahanan Web Tradisional Mengalami Kegagalan

File robots.txt standar - dokumen teks sederhana yang dengan sopan meminta web crawler untuk menghormati batasan tertentu - telah menjadi pada dasarnya tidak berguna melawan pemanenan data AI modern. Bot-bot ini baik mengabaikan pedoman tersebut sepenuhnya atau beroperasi secara sangat agresif sehingga kepatuhan sukarela tidak berarti apa-apa.

Beberapa institusi beralih ke layanan perlindungan bot komersial dari perusahaan seperti AWS dan Cloudflare , namun solusi ini menciptakan masalah baru. Menambahkan persyaratan login menggagalkan tujuan menyediakan akses publik gratis ke koleksi budaya, sementara firewall canggih memerlukan keahlian teknis dan biaya berkelanjutan yang tidak mampu ditanggung oleh banyak institusi.

Robots.txt: File teks standar yang digunakan situs web untuk berkomunikasi dengan web crawler tentang bagian mana dari situs mereka yang boleh atau tidak boleh diakses

Biaya Tersembunyi dari Kemajuan AI

Yang membuat situasi ini sangat menantang adalah sifat masalah yang tersembunyi. Banyak institusi tidak menyadari bahwa mereka sedang diserang sampai situs web mereka mulai crash. Bot-bot tersebut mengonsumsi bandwidth dan sumber daya server dalam jumlah besar, menciptakan biaya yang tidak dapat ditanggung oleh organisasi budaya - yang biasanya beroperasi dengan anggaran ketat.

Komunitas sedang mengeksplorasi solusi teknis kreatif, termasuk sistem proof-of-work yang memerlukan upaya komputasi sebelum mengakses konten, dan pembatasan tingkat berbasis cookie yang melacak dan membatasi pengunjung berulang. Namun, pendekatan ini mungkin hanya memberikan bantuan sementara karena operator bot menyesuaikan teknik mereka.

Hasil Survei dari Institusi Budaya:

  • 43 organisasi disurvei oleh GLAM-E Lab
  • 39 dari 43 organisasi mengalami peningkatan lalu lintas baru-baru ini
  • 27 organisasi secara khusus mengaitkan peningkatan tersebut dengan bot pelatihan AI
  • 7 organisasi tambahan menduga adanya keterlibatan bot

Perubahan Fundamental dalam Lalu Lintas Web

Situasi ini merepresentasikan perubahan dramatis dalam cara internet beroperasi. Pola lalu lintas web tradisional mengasumsikan sebagian besar pengunjung adalah manusia yang sesekali menjelajahi konten. Sekarang, sistem otomatis secara sistematis mengunduh seluruh koleksi, secara fundamental merusak model ekonomi yang memungkinkan akses online gratis.

Institusi budaya yang menjadi host koleksi online tidak memiliki sumber daya untuk terus menambah server, menerapkan firewall yang lebih canggih, dan mempekerjakan lebih banyak insinyur operasi secara terus-menerus.

Masalah ini meluas melampaui hanya perusahaan AI korporat. Seiring perangkat keras AI menjadi lebih terjangkau, pengembang individu dan proyek kecil semakin banyak membangun model mereka sendiri, yang mengarah pada multiplikasi aktivitas scraping di seluruh web.

Kronologi Aktivitas Bot:

  • Beberapa institusi mulai merasakan peningkatan sejak awal 2021
  • Yang lain baru mulai mengalami masalah pada 2024
  • Eskalasi masalah sering kali tidak disadari hingga website mengalami crash
  • Lonjakan traffic dikaitkan dengan ledakan AI pasca- ChatGPT

Melihat ke Depan

Krisis ini menyoroti pertanyaan yang lebih luas tentang masa depan konten online gratis. Jika situs web tidak mampu melayani pengunjung manusia dan bot pelatihan AI, banyak yang mungkin terpaksa berada di balik paywall atau ditutup sepenuhnya, yang berpotensi membatasi akses publik ke warisan budaya dan sumber daya pendidikan.

Solusinya kemungkinan memerlukan perusahaan AI untuk mengembangkan praktik pengumpulan data yang lebih berkelanjutan yang tidak membebani situs web yang mereka andalkan. Tanpa kerja sama seperti itu, model akses terbuka dan gratis saat ini ke koleksi budaya mungkin menjadi tidak mungkin dipertahankan secara ekonomi.

Referensi: Bots are overwhelming websites with their hunger for AI data