Perplexity AI Ketahuan Menggunakan Crawler Tersembunyi untuk Melewati Blokir Website

Tim Komunitas BigGo
Perplexity AI Ketahuan Menggunakan Crawler Tersembunyi untuk Melewati Blokir Website

Cloudflare telah mengungkap Perplexity AI karena menggunakan taktik crawling yang menipu untuk mengakses website yang secara eksplisit telah memblokir bot perusahaan tersebut. Investigasi perusahaan keamanan siber ini mengungkapkan pola perilaku yang merusak mekanisme kepercayaan dasar yang telah mengatur web crawling selama puluhan tahun.

Kontroversi ini berpusat pada pengabaian Perplexity terhadap file robots.txt dan blokir jaringan. Ketika pemilik website mencoba mencegah crawler resmi Perplexity mengakses konten mereka, perusahaan AI tersebut diduga beralih ke user agent yang tidak diungkapkan yang menyamar sebagai browser web biasa, khususnya meniru Google Chrome di macOS.

Taktik Penghindaran Perplexity:

  • Menggunakan user agent yang tidak diungkapkan yang menyamar sebagai Google Chrome di macOS
  • Berputar melalui beberapa alamat IP yang tidak berada dalam rentang resmi
  • Beralih antara ASN yang berbeda (penyedia layanan internet)
  • Mengabaikan atau gagal mengambil file robots.txt
  • Melanjutkan crawling setelah diblokir oleh user agent yang dideklarasikan
Sebuah ilustrasi yang menyoroti masalah stealth crawling yang digunakan oleh Perplexity AI
Sebuah ilustrasi yang menyoroti masalah stealth crawling yang digunakan oleh Perplexity AI

Skala Crawling yang Menipu

Riset Cloudflare mengungkap taktik penghindaran yang ekstensif di puluhan ribu domain, dengan jutaan permintaan per hari yang berasal dari alamat IP yang tidak tercantum dalam rentang resmi Perplexity . Perusahaan tersebut melakukan rotasi melalui penyedia layanan internet (ASN) yang berbeda untuk lebih menyamarkan aktivitas crawling-nya ketika menghadapi pembatasan.

Untuk menguji kecurigaan mereka, Cloudflare menciptakan domain yang benar-benar baru dengan file robots.txt yang ketat yang melarang semua akses otomatis. Meskipun ada pembatasan yang jelas ini, ketika peneliti bertanya kepada Perplexity AI tentang domain rahasia ini, layanan tersebut memberikan informasi detail tentang kontennya, membuktikan bahwa mereka telah mengakses situs yang diblokir.

Perdebatan Komunitas tentang Hak Akses AI

Pengungkapan ini telah memicu perdebatan sengit tentang batasan antara permintaan pengguna yang sah dan crawling yang tidak sah. Beberapa anggota komunitas berpendapat bahwa layanan AI yang bertindak atas nama pengguna seharusnya memiliki hak akses yang sama dengan browser manusia. Yang lain berpendapat bahwa skala besar dan sifat komersial dari crawling AI secara fundamental mengubah persamaan tersebut.

Jika saya sekarang melangkah lebih jauh dan menggunakan LLM untuk meringkas konten karena presentasi aslinya sangat dipenuhi dengan iklan, JavaScript, dan pop-up, sehingga kontennya menjadi hampir tidak dapat digunakan, lalu mengapa LLM yang mengakses website atas nama saya akan berada dalam kategori hukum yang berbeda dengan browser Firefox saya yang mengakses website atas nama saya?

Komunitas teknis tetap terbagi mengenai apakah standar web saat ini secara memadai menangani crawling AI. File robots.txt tradisional dirancang untuk mesin pencari yang mengarahkan lalu lintas kembali ke website, bukan untuk sistem AI yang berpotensi menghilangkan kebutuhan pengguna untuk mengunjungi sumber asli.

Perbandingan dengan Crawling AI yang Etis ( OpenAI ):

  • Dengan jelas menguraikan tujuan crawler dan user agent
  • Menghormati arahan robots.txt tanpa upaya pengelakan
  • Menghentikan crawling ketika disajikan dengan halaman pemblokiran
  • Menggunakan penandatanganan Web Bot Auth untuk permintaan HTTP
  • Tidak ada crawling lanjutan dari user agent alternatif ketika diblokir

Dampak yang Lebih Luas pada Penerbitan Web

Pemilik website mengungkapkan kekhawatiran yang meningkat tentang perusahaan AI yang meraup keuntungan dari konten mereka tanpa memberikan kompensasi atau atribusi. Tidak seperti mesin pencari yang mengirim pengunjung kembali ke sumber asli, sistem AI sering memberikan jawaban langsung yang mengurangi lalu lintas ke website sumber.

Pergeseran ini mengancam model ekonomi yang telah mendukung sebagian besar pembuatan konten web. Penerbit yang mengandalkan pendapatan iklan atau konversi berlangganan khawatir bahwa ringkasan AI dapat menghilangkan kemampuan mereka untuk memonetisasi karya mereka, yang berpotensi menyebabkan lebih sedikit konten yang tersedia secara publik.

Langkah-Langkah Respons Cloudflare :

  • Menghapus Perplexity dari daftar bot terverifikasi
  • Menambahkan heuristik ke aturan terkelola yang memblokir crawling tersembunyi
  • Mengembangkan fingerprinting crawler berbasis machine learning
  • Lebih dari 2,5 juta situs web kini memblokir AI crawler melalui Cloudflare
  • Perlindungan gratis tersedia untuk semua pelanggan Cloudflare

Eskalasi Perlombaan Senjata Teknis

Cloudflare telah merespons dengan mengembangkan metode deteksi dan aturan pemblokiran baru yang secara khusus menargetkan crawler tersembunyi Perplexity . Perusahaan tersebut sekarang menggunakan pembelajaran mesin dan analisis jaringan untuk mengidentifikasi perilaku crawling yang menyamar, bahkan ketika mencoba meniru pola browsing manusia.

Namun, komunitas teknis mengakui bahwa ini menciptakan perlombaan senjata yang berkelanjutan. Seiring metode deteksi membaik, teknik crawling menjadi lebih canggih. Beberapa memprediksi bahwa crawler AI masa depan mungkin menggunakan alat otomasi browser atau bahkan mendistribusikan crawling melalui perangkat pengguna untuk membuat deteksi hampir tidak mungkin.

Kontroversi ini menyoroti pertanyaan fundamental tentang persetujuan, penggunaan yang adil, dan masa depan web terbuka seiring sistem AI menjadi lebih umum dalam cara orang mengakses informasi.

Referensi: Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

Perlombaan senjata yang sedang berlangsung dalam web crawling dan deteksi yang disorot melalui representasi futuristik dari pengawasan
Perlombaan senjata yang sedang berlangsung dalam web crawling dan deteksi yang disorot melalui representasi futuristik dari pengawasan