Meta Diduga Mengabaikan robots.txt Saat Mengambil Data Fediverse untuk Pelatihan AI

Tim Komunitas BigGo
Meta Diduga Mengabaikan robots.txt Saat Mengambil Data Fediverse untuk Pelatihan AI

Sebuah laporan terbaru telah memicu perdebatan sengit tentang apakah raksasa teknologi harus menghormati keinginan pemilik website saat mengumpulkan data untuk pelatihan AI. Kontroversi ini berpusat pada klaim bahwa Meta mengambil data dari website independen dan instance Fediverse sambil sepenuhnya mengabaikan file robots.txt - cara standar website memberitahu crawler konten apa yang bisa mereka akses.

Diskusi ini telah mengungkap perpecahan fundamental dalam cara orang memandang data internet publik. Meskipun Meta membantah tuduhan tersebut, percakapan yang lebih luas telah mengekspos ketegangan yang lebih dalam tentang praktik pengumpulan data perusahaan AI dan dampaknya pada web independen.

Perpecahan Besar robots.txt

Respons komunitas menunjukkan perpecahan filosofis yang jelas. Beberapa pihak berargumen bahwa data apa pun yang dipublikasikan secara terbuka di internet seharusnya menjadi sasaran yang wajar untuk scraping dan pelatihan AI. Mereka melihat upaya untuk membatasi akses sebagai hal yang bertentangan dengan prinsip dasar internet tentang berbagi informasi terbuka.

Pihak lain khawatir tentang konsekuensi jangka panjang dari scraping AI yang tidak terbatas. Mereka menunjukkan bahwa meskipun Fediverse dan website independen menciptakan konten yang membuat sistem AI menjadi berharga, sistem AI yang sama ini pada akhirnya bisa menggantikan kreator asli, memutus audiens dan pendapatan mereka.

AI generatif masih bergantung pada karya para kreator yang mata pencahariannya terancam untuk data pelatihannya. Ia masih bergantung pada orang lain yang mengalami dunia nyata, dan menggambarkannya untuk mereka. Hanya saja ia menolak memberikan audiens atau hasil kerja mereka.

Dampak Teknis di Luar Etika

Di luar kekhawatiran filosofis, operator website melaporkan masalah praktis dengan scraping AI. Beberapa situs independen menghadapi apa yang pada dasarnya adalah serangan distributed denial-of-service dari crawler AI yang agresif, membuat website mereka lambat atau tidak tersedia untuk pengguna biasa. Untuk website kecil yang beroperasi dengan anggaran ketat, peningkatan beban server ini dapat mengancam kelangsungan finansial mereka.

Realitas teknisnya adalah file robots.txt hanya berfungsi ketika crawler memilih untuk menghormatinya. Karena file-file ini tidak mengikat secara hukum, perusahaan dapat mengabaikannya tanpa melanggar hukum apa pun. Hal ini telah menyebabkan beberapa pemilik website menerapkan langkah-langkah pemblokiran yang lebih agresif, termasuk firewall dan bahkan zip bomb - file terkompresi yang mengembang menjadi ukuran sangat besar ketika diunduh oleh crawler yang tidak diinginkan.

Langkah Perlindungan untuk Administrator Website:

  • Menetapkan Syarat dan Ketentuan Layanan yang secara eksplisit melarang scraping AI
  • Mengajukan permintaan penghapusan data melalui Privacy Center milik Meta
  • Menggunakan formulir GDPR (khusus EU) untuk permintaan kepatuhan
  • Menerapkan robots.txt dan header X-Robots-Tag
  • Menggunakan solusi firewall seperti perangkat lunak Anubis
  • Mengkonfigurasi zip bomb untuk memperlambat crawler yang tidak diinginkan

Faktor Federasi

Fediverse menghadirkan tantangan unik untuk perlindungan data. Karena cara kerja federasi, postingan dari satu instance dapat muncul di banyak instance lain di seluruh jaringan. Ini berarti bahwa meskipun instance Anda tidak langsung di-scrape, konten Anda mungkin masih berakhir dalam dataset pelatihan AI melalui salinan cache di server federasi lain.

Dokumen yang bocor dilaporkan berisi 1.659 halaman URL, dengan puluhan instance Mastodon , Lemmy , dan PeerTube yang teridentifikasi. Namun, cakupan sebenarnya bisa jauh lebih besar, karena analisis hanya menghitung situs dengan nama platform di alamat domain mereka.

Instansi Fediverse yang Terdampak dalam Dokumen yang Bocor:

  • Mastodon: 46 kecocokan
  • Lemmy: 6 kecocokan
  • PeerTube: 46 kecocokan
  • Total ukuran dokumen: 1.659 halaman URL

Melihat ke Depan

Saat perusahaan AI terus memperluas upaya pengumpulan data mereka, ketegangan antara berbagi informasi terbuka dan perlindungan kreator kemungkinan akan semakin intensif. Pemilik website sedang mengeksplorasi berbagai langkah defensif, dari pembaruan syarat layanan hingga solusi pemblokiran teknis, meskipun tidak ada yang menawarkan perlindungan lengkap.

Perdebatan ini pada akhirnya mencerminkan pertanyaan yang lebih luas tentang bagaimana pengembangan AI harus menyeimbangkan inovasi dengan penghormatan terhadap komunitas dan kreator yang karyanya membuat inovasi tersebut menjadi mungkin. Seperti yang dicatat oleh seorang anggota komunitas, pendekatan saat ini berisiko memakan benih jagung - mengonsumsi sumber informasi yang sangat dibutuhkan sistem AI untuk tetap berguna dan terkini.

Referensi: Is Meta Scraping the Fediverse for AI?