Web Crawler Menggunakan Tanda Tangan Browser Lama Memaksa Pemilik Situs Memblokir Pengguna Sah

Tim Komunitas BigGo
Web Crawler Menggunakan Tanda Tangan Browser Lama Memaksa Pemilik Situs Memblokir Pengguna Sah

Masalah yang semakin berkembang muncul di seluruh web karena crawler bervolume tinggi, banyak yang diduga mengumpulkan data untuk pelatihan AI, menyamar menggunakan tanda tangan browser yang sudah usang. Hal ini telah memaksa administrator website untuk menerapkan langkah-langkah pemblokiran yang terkadang menangkap pengguna sah dalam serangan silang.

Masalah ini menjadi sangat akut pada awal 2025, dengan pemilik website melaporkan peningkatan beban server yang signifikan dari crawler otomatis. Crawler ini sering menyamar sebagai versi lama dari browser populer seperti Chrome, sehingga sulit untuk membedakan antara pengguna asli dengan perangkat lunak usang dan lalu lintas otomatis yang berbahaya.

Karakteristik Crawler Umum:

  • Menggunakan nilai User-Agent Chrome yang lama
  • Melakukan crawling dari blok alamat IP yang tersebar luas
  • Beberapa menggunakan entri reverse DNS palsu yang mengklaim sebagai googlebot
  • Permintaan otomatis bervolume tinggi
  • Diduga pengumpulan data untuk pelatihan LLM

Layanan Arsip Terjebak dalam Serangan Silang

Layanan pengarsipan populer telah menjadi korban yang tidak disengaja dari langkah-langkah anti-crawler ini. Layanan seperti archive.today, archive.ph, dan archive.is menggunakan tanda tangan browser lama saat melakukan crawling halaman untuk preservasi, membuat mereka tidak dapat dibedakan dari crawler bermasalah yang coba diblokir oleh pemilik situs.

Situasi ini diperumit oleh layanan arsip ini yang beroperasi dari blok alamat IP terdistribusi yang tidak jelas diidentifikasi sebagai milik layanan arsip. Beberapa bahkan menggunakan entri DNS terbalik yang dipalsukan yang mengklaim sebagai crawler mesin pencari yang sah, praktik yang biasanya dikaitkan dengan aktor jahat.

Layanan Arsip yang Terdampak:

  • archive.today
  • archive.ph
  • archive.is
  • Domain archive.* lainnya

Alternatif yang Direkomendasikan:

  • archive.org (crawler arsip yang lebih baik perilakunya)

Solusi Teknis dan Debat Komunitas

Komunitas developer telah aktif mendiskusikan berbagai pendekatan untuk menangani tantangan ini. Sementara beberapa fokus pada mekanisme pemblokiran sisi server, yang lain mengeksplorasi metode deteksi yang lebih canggih yang dapat membedakan antara layanan arsip yang sah dan operasi pemanenan data.

You can just do trap 'caller 1' ERR should do the same thing. Also you should set errtrace (-E) and possibly nounset (-u) and pipefail.

Diskusi ini juga memicu percakapan yang lebih luas tentang keseimbangan antara melindungi website dari lalu lintas otomatis yang berlebihan dan mempertahankan aksesibilitas untuk tujuan arsip dan penelitian yang sah. Banyak developer mengadvokasi pendekatan yang lebih terstandarisasi untuk mengidentifikasi crawler dan layanan arsip yang sah.

Dampak pada Aksesibilitas Web

Perlombaan senjata crawler ini menciptakan hambatan baru untuk aksesibilitas web dan upaya pengarsipan. Pengguna dengan browser yang benar-benar usang mungkin mendapati diri mereka tidak dapat mengakses konten, sementara upaya preservasi web yang penting menghadapi hambatan yang semakin meningkat.

Situasi ini menyoroti ketegangan yang sedang berlangsung antara melindungi sumber daya web dan mempertahankan internet yang terbuka dan dapat diakses. Karena perusahaan AI terus mencari data pelatihan dan aktor jahat menjadi lebih canggih dalam pendekatan mereka, pemilik website dipaksa untuk membuat keputusan yang semakin sulit tentang kontrol akses.

Administrator website sekarang merekomendasikan agar pengguna menjaga browser mereka tetap terbaru bukan hanya untuk alasan keamanan, tetapi untuk menghindari diblokir secara keliru oleh sistem anti-crawler. Sementara itu, komunitas arsip menyerukan standar dan sistem identifikasi yang lebih baik untuk membedakan upaya preservasi yang sah dari operasi pemanenan data.

Referensi: You're using a suspiciously old browser