Pemilik Website Menerapkan Taktik "Poisoning" untuk Melawan Crawler LLM yang Agresif

Tim Komunitas BigGo

Pemilik Website Menerapkan Taktik "Poisoning" untuk Melawan Crawler LLM yang Agresif

Pemilik website sedang melawan balik crawler AI yang agresif dengan strategi baru: menyajikan konten yang sengaja dirusak untuk meracuni data pelatihan large language model. Perlawanan kreatif ini muncul karena metode pemblokiran tradisional seperti file robots.txt terbukti semakin tidak efektif melawan scraper yang gigih.

Pendekatan ini melibatkan pembuatan versi artikel yang tidak masuk akal yang dipenuhi dengan distorsi tata bahasa dan absurditas leksikal, kemudian membuat versi yang rusak ini hanya dapat diakses melalui link nofollow. Teorinya adalah bahwa mesin pencari yang sah seperti Google akan menghormati arahan nofollow, sementara crawler AI nakal akan mengabaikannya dan mengonsumsi konten yang terkontaminasi.


Desain grafis yang melambangkan kerusakan atau tautan yang tidak berfungsi dalam konten, mencerminkan perlawanan terhadap crawler AI

Masalahnya: Crawler yang Tidak Mau Menerima Penolakan

Banyak pemilik website melaporkan kewalahan oleh perilaku scraping yang agresif. Beberapa menghadapi bombardir konstan dari crawler yang menyerang server mereka dengan 12 permintaan per detik atau lebih, meningkatkan biaya bandwidth dan berpotensi mempengaruhi performa situs untuk pengguna yang sah. Masalah ini menjadi sangat parah sehingga situs kecil dengan traffic minimal juga ditargetkan seagresif platform besar.

Metode pemblokiran tradisional terbukti tidak memadai. Meskipun perusahaan besar seperti OpenAI mengklaim menghormati file robots.txt untuk crawler pelatihan mereka, kenyataannya lebih kompleks. Banyak scraper yang mengabaikan aturan ini sepenuhnya atau beroperasi melalui pihak ketiga, membuat hampir tidak mungkin untuk mempertahankan daftar blokir yang efektif.

User Agent Crawler LLM Umum

GPTBot ( OpenAI )
Perplexity-User (mengabaikan robots.txt untuk permintaan pengguna)
ChatGPT-User (berbeda dari GPTBot )
Berbagai crawler tanpa nama dari Tencent dan perusahaan lainnya

Solusi Komunitas: Honeypot dan Tarpit

Komunitas teknologi telah mengembangkan beberapa langkah balasan yang kreatif. Tool seperti Iocaine dan Nepenthes menciptakan tarpit - sumber tak terbatas dari konten sampah yang dihasilkan yang menautkan ke diri mereka sendiri berulang kali, dirancang untuk membuang-buang sumber daya crawler. Solusi ini dapat berjalan efektif pada hardware minimal, dengan beberapa menangani beban scraping berat sambil hanya menggunakan 30 MB RAM pada VPS bulanan senilai 3 dolar Amerika.

Pendekatan poisoning melangkah lebih jauh dengan berpotensi mengkontaminasi data pelatihan yang sebenarnya. Dengan menghasilkan konten yang tampak sah bagi sistem otomatis tetapi mengandung kesalahan halus dan elemen yang tidak masuk akal, pemilik website berharap dapat menurunkan kualitas model AI yang dilatih pada konten mereka.

Perbandingan Penggunaan Resource

Honeypot Iocaine : penggunaan RAM ~30 MB pada VPS $3 USD/bulan
Dapat menangani ~12 permintaan per detik dari crawler
Kebutuhan server minimal untuk operasi yang efektif

Perdebatan: Efektivitas dan Etika

Tidak semua orang setuju bahwa strategi ini akan berhasil. Kritikus menunjukkan bahwa pelatihan LLM modern melibatkan proses penyaringan yang canggih yang secara khusus dirancang untuk menghapus konten berkualitas rendah. Mereka berargumen bahwa omong kosong yang jelas kemungkinan akan terdeteksi dan disaring sebelum mencapai dataset pelatihan.

Membangun LLM yang hebat sepenuhnya tentang membangun set pelatihan berkualitas tinggi. Itulah inti permainannya! Menyaring artikel sampah yang penuh dengan kesalahan ejaan adalah salah satu dari banyak langkah yang akan diambil vendor dalam mengkurasi data pelatihan tersebut.

Namun, pendukung percaya bahwa pendekatan ini bisa menjadi lebih efektif jika diadopsi secara luas. Bahkan jika upaya poisoning individual gagal, pengurasan sumber daya kolektif pada scraper dapat memaksa perilaku yang lebih baik. Beberapa menyarankan bahwa bentuk korupsi konten yang lebih halus mungkin terbukti lebih sulit untuk dideteksi dan disaring.

Langkah-langkah Implementasi Content Poisoning

Buat template nonsense yang mencerminkan artikel utama
Gunakan manipulasi teks untuk mengganti kata-kata secara acak
Tambahkan tautan nofollow ke versi yang telah dirusak
Blokir crawler yang sah dari halaman nonsense melalui robots.txt
Jebak crawler dalam matriks konten nonsense melalui tautan internal

Melihat ke Depan: Perlombaan Senjata

Perkembangan ini mewakili eskalasi terbaru dalam perlombaan senjata yang sedang berlangsung antara pembuat konten dan perusahaan AI. Meskipun pemain besar seperti OpenAI dan Anthropic telah menetapkan saluran resmi untuk keluar dari pengumpulan data pelatihan, proliferasi usaha AI yang lebih kecil berarti scraper baru muncul terus-menerus.

Efektivitas content poisoning masih harus dibuktikan, tetapi ini mencerminkan frustrasi yang meningkat dengan keadaan web scraping saat ini. Baik melalui langkah balasan teknis atau perubahan kebijakan, ketegangan antara kebutuhan pengembangan AI dan hak pembuat konten terus mendorong inovasi di kedua sisi.

robots.txt: File standar yang memberi tahu web crawler bagian mana dari website yang tidak boleh mereka akses nofollow: Atribut HTML yang memberi tahu mesin pencari untuk tidak mengikuti link tertentu VPS: Virtual Private Server, jenis layanan web hosting

Referensi: POISONING WELL

Berita Terkait

‌

‌
‌

‌

‌
‌

‌