Komunitas Teknologi Menantang Proposal "Attribution-Based Control" untuk Mengakses Data Pribadi dalam Pelatihan AI

Tim Komunitas BigGo

Komunitas Teknologi Menantang Proposal "Attribution-Based Control" untuk Mengakses Data Pribadi dalam Pelatihan AI

Sebuah proposal terbaru untuk membuka jutaan kali lebih banyak data untuk pelatihan AI melalui Attribution-Based Control ( ABC ) telah memicu perdebatan sengit di komunitas teknologi. Proposal tersebut menyarankan bahwa model AI saat ini sangat terbatas data, hanya menggunakan ratusan terabyte sementara dunia mengandung 500.000 exabyte informasi digital yang belum dimanfaatkan.

Ukuran Data Pelatihan AI Saat Ini vs. Data Global

Model AI terdepan menggunakan 2-180 TB data pelatihan
Data digital global: ~500.000 exabyte (500.000.000.000 TB)
Rasio: Data pribadi sekitar 1 juta kali lebih besar dari dataset pelatihan saat ini

Kelayakan Teknis Mendapat Kritik

Komunitas telah mengangkat kekhawatiran serius tentang fondasi teknis dari proposal ABC . Kritikus menunjukkan bahwa homomorphic encryption, komponen kunci dari infrastruktur pelindung privasi yang disarankan, menciptakan overhead komputasi yang sangat besar sehingga membuatnya tidak praktis untuk operasi machine learning skala besar. Meskipun penulis mengklaim dampak performa sebanding dengan enkripsi HTTPS , pengembang berpengalaman tetap skeptis tentang implementasi sistem semacam itu dengan arsitektur GPU saat ini.

Homomorphic encryption: Metode kriptografi yang memungkinkan komputasi pada data terenkripsi tanpa mendekripsinya terlebih dahulu, tetapi dengan biaya komputasi yang signifikan.

Perdebatan Kualitas vs. Kuantitas Data

Titik perdebatan utama berpusat pada apakah lebih banyak data secara otomatis menghasilkan model AI yang lebih baik. Anggota komunitas berargumen bahwa proposal tersebut memperlakukan semua data sebagai sama berharganya, padahal kenyataannya sebagian besar dataset pribadi akan memberikan sedikit manfaat untuk pelatihan language model. Pembacaan sensor suhu, file duplikat, dan entri database terstruktur mungkin mewakili volume besar tetapi menawarkan nilai pelatihan minimal.

Kita tidak membutuhkan 'lebih banyak data', kita membutuhkan 'lebih banyak data dari jenis spesifik yang kita latih'. Itu tidak begitu mudah tersedia.

Diskusi mengungkapkan ketidaksepakatan fundamental tentang hukum penskalaan dalam pengembangan AI , dengan beberapa pihak berargumen bahwa kemajuan saat ini lebih banyak berasal dari teknik yang diperbaiki seperti reasoning dan reinforcement learning daripada sekadar menambahkan lebih banyak data pelatihan.

Perbandingan Data Pelatihan Model AI Utama

Perusahaan	Model	Ukuran Data Pelatihan
Meta	Llama-3	75 TB
OpenAI	GPT-4	13 TB
Google	Gemini-Ultra	15 TB
Amazon	Titan	24 TB
DeepSeek	DeepSeek LLM	2 TB

Kekhawatiran Privasi dan Kepercayaan

Mungkin kritik terkuat berfokus pada implikasi privasi dan kepercayaan korporat. Anggota komunitas mengekspresikan skeptisisme mendalam tentang memberikan akses kepada perusahaan AI ke catatan medis, transaksi keuangan, dan data pribadi sensitif lainnya, bahkan dengan perlindungan privasi yang diusulkan. Rekam jejak perusahaan teknologi besar dalam penanganan data telah membuat banyak orang tidak yakin bahwa solusi teknis apa pun dapat melindungi hak privasi individu secara memadai.

Kritikus juga mempertanyakan insentif ekonomi, mencatat bahwa perusahaan yang sama yang saat ini menghindari pembayaran untuk data pelatihan yang ada tidak mungkin memberikan kompensasi yang adil kepada pemilik data di bawah sistem baru mana pun, terlepas dari mekanisme penegakan teknis.

Persyaratan Inti Attribution-Based Control (ABC)

Pemilik data harus mengontrol prediksi AI mana yang didukung oleh data mereka
Pemilik data harus mengontrol bagaimana data mereka memengaruhi kesimpulan AI
Sistem harus memungkinkan generasi pendapatan berkelanjutan dari penggunaan data
Implementasi teknis memerlukan partisi model dan infrastruktur privasi

Keterlibatan Pemerintah Menimbulkan Kekhawatiran

Rekomendasi proposal untuk program yang dipimpin pemerintah bergaya ARPANET untuk mengembangkan sistem ABC telah menarik perhatian khusus. Anggota komunitas khawatir tentang implikasi dari lembaga pemerintah yang mengoordinasikan akses ke sejumlah besar data pribadi, bahkan dengan perlindungan privasi yang diklaim. Perbandingan dengan pengembangan infrastruktur internet terasa tidak tepat bagi banyak orang mengingat sifat sensitif dari data yang terlibat.

Perdebatan menyoroti ketegangan yang lebih luas dalam pengembangan AI antara keinginan untuk sistem yang lebih mampu dan kebutuhan untuk melindungi privasi individu dan hak data. Sementara komunitas teknis terus berinovasi dalam teknologi pelindung privasi, tantangan praktis dan etis dalam mengimplementasikan sistem semacam itu dalam skala besar tetap menjadi hambatan yang berat.

Referensi: Unlocking a Million Times More Data for AI

Berita Terkait

‌

‌
‌

‌

‌
‌

‌