Pemilik Website Blokir Crawler Browser Lama untuk Melawan Lonjakan Penambangan Data LLM

Tim Komunitas BigGo
Pemilik Website Blokir Crawler Browser Lama untuk Melawan Lonjakan Penambangan Data LLM

Seorang administrator website telah menerapkan langkah anti-crawler yang agresif untuk memblokir pengunjung yang menggunakan versi browser yang sudah usang, dengan alasan adanya lonjakan crawler bervolume tinggi yang tampaknya mengumpulkan data untuk pelatihan large language model ( LLM ). Sistem pemblokiran ini terutama menargetkan user agent Chrome lama yang telah menjadi populer di kalangan crawler otomatis pada awal 2025.

Layanan Arsip yang Terdampak:

  • archive.today
  • archive.ph
  • archive.is
  • Alternatif yang direkomendasikan: archive.org

Layanan Arsip Terkena Dampak

Langkah pemblokiran ini secara tidak sengaja mempengaruhi layanan arsip yang sah, khususnya archive.today , archive.ph , dan archive.is . Layanan-layanan ini menggunakan string user agent Chrome yang lebih lama dan melakukan crawling dari blok alamat IP terdistribusi yang tidak teridentifikasi dengan jelas sebagai layanan arsip. Beberapa alamat IP mereka bahkan menggunakan entri reverse DNS palsu yang mengklaim sebagai crawler Google , sebuah praktik yang biasanya dikaitkan dengan pelaku jahat.

Pemilik website merekomendasikan penggunaan archive.org sebagai gantinya, menggambarkannya sebagai crawler arsip yang berperilaku lebih baik dan dapat berhasil mengakses konten yang diblokir.

Komunitas Mengenang Era Terminal X

Sementara insiden pemblokiran ini memicu diskusi, anggota komunitas memanfaatkan kesempatan untuk bernostalgia tentang masa keemasan terminal X - perangkat keras khusus yang berfungsi sebagai thin client untuk workstation Unix pada tahun 1980-an dan 1990-an. Terminal-terminal ini menyediakan tampilan resolusi tinggi, seringkali 1280x1024 atau bahkan 1024x1024 piksel, yang terhubung ke server yang powerful melalui Ethernet .

Para pengguna berbagi kenangan tentang betapa mengejutkannya performa sistem-sistem ini meskipun berbagi satu koneksi Ethernet 10Mbps di antara beberapa terminal. X Window System sangat dioptimalkan untuk operasi menggambar lokal, membuat bahkan game dapat berjalan dengan lancar melalui jaringan.

Saya terkejut bagaimana sebuah ruangan dengan terminal 1280x1024 terbaik mampu berfungsi dengan sangat baik pada 10mbps yang dibagi dengan deteksi collision yang cukup buruk.

Spesifikasi Terminal X Historis:

  • Resolusi tampilan: 1280x1024 atau 1024x1024 piksel
  • Jaringan: Berbagi Ethernet 10Mbps
  • Sistem operasi: Beragam (beberapa menjalankan varian BSD tanpa MMU)
  • Perangkat lunak: Dapat menjalankan mwm, pengelola sesi Motif, dtterm, JVM, dan browser Mosaic

Kemunduran Komputasi Thin Client

Diskusi komunitas mengungkapkan bagaimana munculnya web browser, khususnya NCSA Mosaic dan kemudian Netscape , menandai awal dari berakhirnya era terminal X . Browser web awal ini mendorong sejumlah besar data bitmap melalui koneksi jaringan, menciptakan bottleneck yang membuat model thin client menjadi kurang praktis.

Pergeseran menuju konten multimedia dan halaman web yang banyak menggunakan gambar memerlukan streaming data visual yang konstan ke terminal, membanjiri infrastruktur jaringan yang sebelumnya bekerja dengan sangat baik untuk aplikasi berbasis teks dan operasi menggambar X11 yang dioptimalkan.

Insiden pemblokiran crawler saat ini berfungsi sebagai pengingat bahwa sumber daya jaringan tetap berharga, bahkan puluhan tahun setelah era terminal X berakhir. Pemilik website terus menyeimbangkan aksesibilitas dengan perlindungan sumber daya, meskipun ancamannya telah berevolusi dari keterbatasan bandwidth menjadi kekhawatiran tentang pemanenan data.

Referensi: You're using a suspiciously old browser