Dokumen pengadilan terbaru telah mengungkap praktik kontroversial oleh perusahaan AI Anthropic, yang mengungkapkan bahwa perusahaan tersebut secara fisik menghancurkan jutaan buku selama proses pelatihan untuk model bahasa Claude. Pengungkapan ini telah memicu perdebatan tentang metode yang digunakan perusahaan untuk memperoleh data pelatihan bagi sistem kecerdasan buatan dan batas-batas hukum seputar hak cipta dan penggunaan wajar.
![]() |
---|
Transformasi dari buku fisik ke informasi digital digambarkan melalui gambar buku merah yang memancarkan kode biner, mencerminkan metode destruktif Anthropic untuk pelatihan AI |
Proses Pemindaian Destruktif Menghabiskan Jutaan
Dokumen pengadilan menunjukkan bahwa Anthropic menghabiskan jutaan dolar Amerika untuk membeli buku fisik, yang kemudian dikenai proses pemindaian destruktif. Perusahaan secara sistematis melepas jilid buku, memindai halaman-halaman menjadi file PDF yang dapat dibaca mesin, dan kemudian membuang salinan kertas asli. Pendekatan ini dipilih untuk mempercepat proses digitalisasi yang diperlukan untuk memberi makan algoritma pelatihan Claude dengan data teks berkualitas tinggi.
Skala operasi ini sangat besar, dengan jutaan volume diproses melalui metode destruktif ini. Anthropic menargetkan terutama buku bekas dari saluran ritel, menghindari kebutuhan untuk negosiasi lisensi yang kompleks dengan penerbit. Pendekatan perusahaan dipengaruhi oleh doktrin penjualan pertama Amerika Serikat, yang memungkinkan pembeli buku fisik untuk membuangnya sesuai keinginan mereka setelah akuisisi.
Proses Pemindaian Destruktif:
- Jutaan buku fisik dibeli dan dihancurkan
- Proses melibatkan pelepasan jilidan, pemindaian halaman, pembuangan buku asli
- Biaya: Beberapa juta USD
- Target: Terutama buku bekas dari saluran ritel
Perekrutan Strategis dan Preseden Hukum
Pada Februari 2024, Anthropic mempekerjakan Tom Turvey, yang sebelumnya mengelola kemitraan untuk Google Books, secara khusus menugaskannya untuk memperoleh buku dari seluruh dunia. Penunjukan strategis ini menunjukkan perusahaan bertujuan untuk mereplikasi model digitalisasi buku Google yang berhasil secara hukum, yang sebelumnya telah diputuskan pengadilan sebagai penggunaan wajar.
Keputusan perekrutan terbukti tepat ketika Hakim William Alsup memutuskan bahwa metode pemindaian Anthropic merupakan penggunaan wajar. Alasan hakim berpusat pada beberapa faktor: buku-buku dibeli secara legal, segera dihancurkan setelah pemindaian, dan file digital tetap untuk penggunaan internal saja tanpa distribusi eksternal. Dia menggambarkan proses ini sebagai transformasi digital yang menghemat ruang dengan karakteristik transformatif yang cukup untuk memenuhi syarat perlindungan penggunaan wajar.
Kemenangan Hukum Campuran dengan Tantangan Berkelanjutan
Meskipun Anthropic meraih kemenangan hukum parsial, keputusan pengadilan tidak sepenuhnya menguntungkan. Hakim memutuskan melawan perusahaan karena ketergantungan sebelumnya pada perpustakaan e-book bajakan selama pengembangan Claude. CEO Dario Amodei awalnya mengadvokasi penggunaan konten bajakan untuk melewati proses lisensi yang panjang, keputusan yang kini melemahkan posisi hukum perusahaan.
Putusan campuran ini berarti Anthropic masih menghadapi persidangan hak cipta yang dijadwalkan pada Desember 2024, di mana perusahaan bisa menghadapi denda hingga 150.000 dolar Amerika per karya bajakan yang digunakan dalam pelatihan. Kasus ini menyoroti ketegangan antara kebutuhan perusahaan AI akan data pelatihan dalam jumlah besar dan perlindungan hak cipta yang ada.
Hasil Hukum Utama:
- Kemenangan parsial bagi Anthropic dalam pemindaian buku di bawah doktrin penggunaan wajar
- Putusan yang merugikan Anthropic karena menggunakan perpustakaan e-book bajakan
- Persidangan hak cipta yang akan datang pada Desember 2024 dengan potensi denda hingga USD 150.000 per karya bajakan
Implikasi Industri untuk Pengembangan AI
Pengungkapan tentang penghancuran buku datang di tengah pengawasan yang lebih luas terhadap dampak lingkungan AI generatif dan praktik hak cipta. Pendekatan alternatif ada, seperti teknologi pemindaian non-destruktif yang dikembangkan oleh Internet Archive, yang melestarikan buku asli sambil membuat salinan digital. OpenAI dan Microsoft juga telah mengumumkan kemitraan dengan Harvard University Library untuk menggunakan hampir satu juta buku domain publik untuk pelatihan AI sambil mempertahankan pelestarian yang tepat dari volume fisik.
Kasus ini menetapkan preseden yang berpotensi signifikan untuk industri AI, karena dapat memungkinkan perusahaan untuk melatih model pada materi berhak cipta tanpa pemberitahuan penerbit, asalkan mereka mengikuti metodologi beli-dan-hancurkan Anthropic. Namun, pertempuran hak cipta yang sedang berlangsung di seluruh industri terus menimbulkan risiko substansial, dengan kasus yang melibatkan Getty Images dan gugatan Disney terhadap Midjourney berpotensi membentuk kembali lanskap hukum untuk pengembangan AI generatif.