Seorang pemilik blog telah menerapkan langkah anti-crawler yang agresif dengan memblokir pengguna yang menggunakan browser lama, menyoroti masalah yang semakin berkembang yang dihadapi operator website di awal tahun 2025. Langkah ini diambil sebagai respons terhadap apa yang digambarkan pemilik sebagai wabah crawler bervolume tinggi yang tampaknya mengumpulkan data untuk tujuan pelatihan AI.
Sistem pemblokiran menargetkan browser yang dianggap mencurigakan, terutama versi lama dari Chrome. Hal ini menciptakan efek samping yang tidak diinginkan di mana pengguna yang sah dengan browser yang sudah usang juga ditolak aksesnya ke konten. Situasi ini mencerminkan tantangan yang lebih luas yang dihadapi operator website yang harus menyeimbangkan aksesibilitas dengan perlindungan terhadap pengambilan data otomatis.
Layanan yang Terdampak:
- archive.today
- archive.ph
- archive.is
- Versi browser Chrome yang lebih lama
- Berbagai blok alamat IP terdistribusi
Layanan Arsip Terjebak dalam Pertempuran
Langkah anti-crawler ini secara khusus berdampak pada layanan arsip seperti archive.today, archive.ph, dan archive.is. Layanan-layanan ini menggunakan user agent Chrome lama dan melakukan crawling dari alamat IP terdistribusi yang tidak teridentifikasi dengan jelas sebagai layanan arsip yang sah. Beberapa alamat IP mereka bahkan menggunakan entri reverse DNS palsu yang mengklaim sebagai crawler Google, praktik yang biasanya dikaitkan dengan aktor jahat.
Pemilik blog merekomendasikan penggunaan archive.org sebagai gantinya, mencatat bahwa layanan ini berperilaku lebih bertanggung jawab sebagai crawler arsip. Perbedaan ini menyoroti bagaimana layanan arsip yang berbeda beroperasi dan tantangan yang dihadapi pemilik website dalam membedakan antara lalu lintas otomatis yang sah dan yang bermasalah.
Alternatif yang Direkomendasikan:
- archive.org (digambarkan sebagai "crawler arsip yang berperilaku lebih baik")
Komunitas Memperdebatkan Model Komputasi
Situasi ini telah memicu diskusi yang lebih luas tentang arsitektur komputasi dan pola akses pengguna. Anggota komunitas memperdebatkan keunggulan model komputasi terpusat versus terdistribusi, dengan beberapa pihak berargumen bahwa layanan web modern pada dasarnya menciptakan kembali model terminal-mainframe dari era komputasi sebelumnya.
Namun, dalam banyak hal, dunia yang kita tinggali saat ini sebenarnya sangat berbasis terminal. Ketika Anda berada di Facebook, di Google, tanyakan pada diri Anda sendiri di mana komputasi itu terjadi.
Diskusi ini menyentuh bagaimana platform besar seperti Facebook dan Google melakukan sebagian besar pekerjaan komputasi di server mereka daripada di perangkat klien, meskipun pengguna memiliki komputer pribadi yang powerful. Hal ini mencerminkan perdebatan historis tentang thin client versus komputer pribadi, tetapi dengan pertimbangan baru seputar daya tahan baterai, efisiensi pemrosesan, dan sumber daya bersama.
Solusi Teknis dan Cara Mengatasi
Untuk pengguna yang terdampak pemblokiran, pemilik blog menyarankan untuk menghubungi mereka secara langsung dengan informasi browser dan string user agent untuk menyelesaikan false positive. Namun, pendekatan manual ini tidak dapat diterapkan secara luas dan menunjukkan kesulitan dalam menerapkan pertahanan otomatis tanpa berdampak pada pengguna yang sah.
Situasi ini menunjukkan bagaimana pengumpulan data pelatihan AI memaksa operator website untuk membuat pilihan sulit antara keterbukaan dan perlindungan. Seiring dengan semakin canggih dan luasnya crawling otomatis, lebih banyak situs mungkin perlu menerapkan langkah pertahanan serupa, yang berpotensi memfragmentasi aksesibilitas web dalam prosesnya.
Referensi: You're using a suspiciously old browser