Administrator website semakin sering menggunakan cara memblokir seluruh negara dan jaringan penyedia cloud karena web scraper bertenaga AI terus mengabaikan kontrol akses tradisional. Contoh terbaru melibatkan bot bernama Thinkbot yang menggunakan 74 alamat IP unik di 41 blok jaringan, semuanya dimiliki oleh raksasa teknologi China Tencent, sambil sepenuhnya mengabaikan file robots.txt yang digunakan website untuk mengomunikasikan preferensi crawling.
Blok Jaringan Tencent yang Umumnya Diblokir oleh Administrator Website
Rentang Jaringan | Jenis | Cakupan |
---|---|---|
43.130.0.0/18 | Tencent Cloud | ~16,384 IP |
43.135.0.0/18 | Tencent Cloud | ~16,384 IP |
101.32.0.0/20 | Tencent Cloud | ~4,096 IP |
119.28.64.0/19 | Tencent Cloud | ~8,192 IP |
170.106.32.0/19 | Tencent Cloud | ~8,192 IP |
Cakupan Total: Lebih dari 476,590 alamat IP unik di 41 blok jaringan
Skala Masalah
Insiden Thinkbot menyoroti tren yang berkembang di mana scraper otomatis beroperasi di rentang IP yang sangat besar untuk menghindari deteksi dan pemblokiran. Alih-alih menyediakan dokumentasi yang tepat atau menghormati protokol web standar, bot khusus ini hanya menyuruh pemilik website untuk memblokir alamat IP-nya jika mereka tidak menyukai lalu lintasnya. Pendekatan ini memaksa administrator ke dalam permainan whack-a-mole yang mahal, karena memblokir alamat individual menjadi tidak efektif ketika bot dapat beralih di antara ribuan IP yang berbeda.
Banyak operator website melaporkan bahwa solusi tradisional seperti pembatasan rate dan pemblokiran user agent telah menjadi sebagian besar tidak berguna. Komunitas telah mengamati bahwa scraper ini sering menunggu dengan sabar melalui throttling bandwidth dan beradaptasi dengan cepat terhadap langkah-langkah defensif standar. Beberapa administrator telah menemukan kesuksesan dengan pendekatan kreatif, seperti memerlukan parameter URL tertentu atau menyajikan konten yang berbeda kepada bot yang dicurigai, tetapi metode ini memerlukan pemeliharaan konstan dan keahlian teknis.
Pemblokiran Tingkat Geografis dan Jaringan
Diskusi mengungkapkan bahwa banyak pemilik website telah beralih ke memblokir seluruh negara, khususnya China dan Rusia, melaporkan pengurangan dramatis dalam lalu lintas berbahaya. Beberapa administrator melaporkan melihat penurunan 90-95% dalam upaya serangan dan aktivitas bot yang tidak diinginkan setelah menerapkan blok tingkat negara. Namun, pendekatan ini menciptakan masalah aksesibilitas untuk pengguna yang sah yang bepergian ke luar negeri atau menggunakan layanan VPN.
Jaringan penyedia cloud menghadirkan tantangan lain, karena scraper semakin menggunakan layanan dari Amazon Web Services, Google Cloud, Microsoft Azure, dan penyedia besar lainnya. Beberapa pemilik website telah mulai memblokir seluruh rentang IP penyedia cloud, meskipun ini dapat berdampak pada pengguna bisnis yang sah yang mengakses website melalui VPN korporat yang dihosting di platform ini.
Kami menyelesaikan banyak masalah kami dengan memblokir semua ASN China. Memang, bukan solusi yang paling ramah, tetapi ada begitu banyak masalah yang berasal dari klien China sehingga lebih mudah untuk melarang seluruh negara.
Strategi Pemblokiran Geografis Umum
Pendekatan | Efektivitas | Kelemahan |
---|---|---|
Pemblokiran tingkat negara ( China / Russia ) | Pengurangan 90-95% dalam lalu lintas berbahaya | Memblokir pengguna sah dan pelancong |
Pemblokiran ASN penyedia cloud | Efektivitas tinggi melawan bot farm | Berdampak pada pengguna bisnis dengan VPN korporat |
Deteksi proxy residensial | Efektivitas sedang | Implementasi kompleks, positif palsu |
Akses khusus whitelist | Keamanan tertinggi | Sangat membatasi aksesibilitas |
Langkah Teknis Balasan dan Keterbatasannya
Administrator website sedang mengeksplorasi berbagai solusi teknis di luar pemblokiran IP sederhana. Beberapa menggunakan layanan seperti Cloudflare untuk penyaringan geografis, sementara yang lain menerapkan aturan firewall khusus yang secara otomatis menambahkan jaringan bermasalah ke daftar blokir. Pendekatan yang lebih canggih termasuk menganalisis pola lalu lintas untuk mengidentifikasi jaringan pusat data versus koneksi residensial, meskipun ini menjadi kompleks dengan munculnya layanan proxy residensial.
Diskusi komunitas juga mengungkapkan taktik defensif yang menarik, seperti menyajikan data palsu atau rusak kepada scraper yang dicurigai, menerapkan zip bomb yang mengonsumsi sumber daya scraper, atau menggunakan teknik honeypot untuk mengidentifikasi dan memblokir aktor jahat. Namun, metode ini memerlukan keahlian teknis yang signifikan dan pemeliharaan berkelanjutan.
Dampak Infrastruktur Internet yang Lebih Luas
Konflik yang meningkat antara pemilik website dan scraper otomatis ini secara fundamental mengubah cara internet beroperasi. Adopsi luas pemblokiran geografis dan tingkat jaringan menciptakan web yang lebih terfragmentasi, di mana akses sangat bergantung pada lokasi dan penyedia jaringan Anda. Beberapa administrator khawatir bahwa tren menuju pemblokiran defensif ini pada akhirnya akan memerlukan sistem berbasis whitelist daripada model internet terbuka-secara-default saat ini.
Situasi ini juga menimbulkan pertanyaan tentang keberlanjutan infrastruktur web saat ini ketika dihadapkan dengan lalu lintas otomatis yang semakin canggih. Karena perusahaan AI terus mengikis konten web untuk data pelatihan, dan karena langkah-langkah defensif menjadi lebih agresif, internet mungkin berevolusi menuju sistem yang lebih terbatas dan terkompartementalisasi yang memprioritaskan keamanan daripada akses universal.
Referensi: The Boston Diaries