Sebuah proposal terbaru untuk membuka jutaan kali lebih banyak data untuk pelatihan AI melalui Attribution-Based Control ( ABC ) telah memicu perdebatan sengit di komunitas teknologi. Proposal tersebut menyarankan bahwa model AI saat ini sangat terbatas data, hanya menggunakan ratusan terabyte sementara dunia mengandung 500.000 exabyte informasi digital yang belum dimanfaatkan.
Ukuran Data Pelatihan AI Saat Ini vs. Data Global
- Model AI terdepan menggunakan 2-180 TB data pelatihan
- Data digital global: ~500.000 exabyte (500.000.000.000 TB)
- Rasio: Data pribadi sekitar 1 juta kali lebih besar dari dataset pelatihan saat ini
Kelayakan Teknis Mendapat Kritik
Komunitas telah mengangkat kekhawatiran serius tentang fondasi teknis dari proposal ABC . Kritikus menunjukkan bahwa homomorphic encryption, komponen kunci dari infrastruktur pelindung privasi yang disarankan, menciptakan overhead komputasi yang sangat besar sehingga membuatnya tidak praktis untuk operasi machine learning skala besar. Meskipun penulis mengklaim dampak performa sebanding dengan enkripsi HTTPS , pengembang berpengalaman tetap skeptis tentang implementasi sistem semacam itu dengan arsitektur GPU saat ini.
Homomorphic encryption: Metode kriptografi yang memungkinkan komputasi pada data terenkripsi tanpa mendekripsinya terlebih dahulu, tetapi dengan biaya komputasi yang signifikan.
Perdebatan Kualitas vs. Kuantitas Data
Titik perdebatan utama berpusat pada apakah lebih banyak data secara otomatis menghasilkan model AI yang lebih baik. Anggota komunitas berargumen bahwa proposal tersebut memperlakukan semua data sebagai sama berharganya, padahal kenyataannya sebagian besar dataset pribadi akan memberikan sedikit manfaat untuk pelatihan language model. Pembacaan sensor suhu, file duplikat, dan entri database terstruktur mungkin mewakili volume besar tetapi menawarkan nilai pelatihan minimal.
Kita tidak membutuhkan 'lebih banyak data', kita membutuhkan 'lebih banyak data dari jenis spesifik yang kita latih'. Itu tidak begitu mudah tersedia.
Diskusi mengungkapkan ketidaksepakatan fundamental tentang hukum penskalaan dalam pengembangan AI , dengan beberapa pihak berargumen bahwa kemajuan saat ini lebih banyak berasal dari teknik yang diperbaiki seperti reasoning dan reinforcement learning daripada sekadar menambahkan lebih banyak data pelatihan.
Perbandingan Data Pelatihan Model AI Utama
Perusahaan | Model | Ukuran Data Pelatihan |
---|---|---|
Meta | Llama-3 | 75 TB |
OpenAI | GPT-4 | 13 TB |
Gemini-Ultra | 15 TB | |
Amazon | Titan | 24 TB |
DeepSeek | DeepSeek LLM | 2 TB |
Kekhawatiran Privasi dan Kepercayaan
Mungkin kritik terkuat berfokus pada implikasi privasi dan kepercayaan korporat. Anggota komunitas mengekspresikan skeptisisme mendalam tentang memberikan akses kepada perusahaan AI ke catatan medis, transaksi keuangan, dan data pribadi sensitif lainnya, bahkan dengan perlindungan privasi yang diusulkan. Rekam jejak perusahaan teknologi besar dalam penanganan data telah membuat banyak orang tidak yakin bahwa solusi teknis apa pun dapat melindungi hak privasi individu secara memadai.
Kritikus juga mempertanyakan insentif ekonomi, mencatat bahwa perusahaan yang sama yang saat ini menghindari pembayaran untuk data pelatihan yang ada tidak mungkin memberikan kompensasi yang adil kepada pemilik data di bawah sistem baru mana pun, terlepas dari mekanisme penegakan teknis.
Persyaratan Inti Attribution-Based Control (ABC)
- Pemilik data harus mengontrol prediksi AI mana yang didukung oleh data mereka
- Pemilik data harus mengontrol bagaimana data mereka memengaruhi kesimpulan AI
- Sistem harus memungkinkan generasi pendapatan berkelanjutan dari penggunaan data
- Implementasi teknis memerlukan partisi model dan infrastruktur privasi
Keterlibatan Pemerintah Menimbulkan Kekhawatiran
Rekomendasi proposal untuk program yang dipimpin pemerintah bergaya ARPANET untuk mengembangkan sistem ABC telah menarik perhatian khusus. Anggota komunitas khawatir tentang implikasi dari lembaga pemerintah yang mengoordinasikan akses ke sejumlah besar data pribadi, bahkan dengan perlindungan privasi yang diklaim. Perbandingan dengan pengembangan infrastruktur internet terasa tidak tepat bagi banyak orang mengingat sifat sensitif dari data yang terlibat.
Perdebatan menyoroti ketegangan yang lebih luas dalam pengembangan AI antara keinginan untuk sistem yang lebih mampu dan kebutuhan untuk melindungi privasi individu dan hak data. Sementara komunitas teknis terus berinovasi dalam teknologi pelindung privasi, tantangan praktis dan etis dalam mengimplementasikan sistem semacam itu dalam skala besar tetap menjadi hambatan yang berat.
Referensi: Unlocking a Million Times More Data for AI