Debat Keamanan AI Memanas Saat Peneliti Menantang Kerangka Kerja "Rule of Two"

Tim Komunitas BigGo

Debat Keamanan AI Memanas Saat Peneliti Menantang Kerangka Kerja "Rule of Two"

Dalam dunia kecerdasan buatan yang berkembang pesat, sebuah kerangka kerja keamanan baru telah memicu perdebatan sengit di antara pengembang dan pakar keamanan. Diskusi ini berpusat pada apakah aturan Rule of Two yang diusulkan dapat melindungi sistem AI dari serangan prompt injection dengan memadai, atau justru terlalu menyederhanakan tantangan keamanan kompleks yang dihadapi oleh aplikasi AI modern.

Kerangka Keamanan Inti yang Diperdebatkan

Agents Rule of Two mengusulkan bahwa sistem AI seharusnya hanya menggabungkan dua dari tiga kemampuan berbahaya potensial: memproses input yang tidak terpercaya, mengakses sistem atau data sensitif, serta mengubah status atau berkomunikasi secara eksternal. Kerangka kerja yang dikembangkan oleh peneliti Meta AI ini bertujuan untuk mencegah konsekuensi paling parah dari serangan prompt injection. Namun, komunitas keamanan telah mengungkapkan kekhawatiran signifikan tentang apakah pendekatan ini memberikan perlindungan yang memadai. Banyak pakar berpendapat bahwa bahkan sistem yang mengikuti aturan ini masih dapat menyebabkan bahaya yang cukup besar, terutama ketika menggabungkan input tidak terpercaya dengan kemampuan untuk mengubah status sistem.

Bahkan tanpa akses ke sistem privat atau data sensitif, penggabungan tersebut tetap dapat menghasilkan hasil yang berbahaya.

Framework Aturan Dua untuk Agen:

Properti A: Memproses input yang tidak dapat dipercaya
Properti B: Mengakses sistem sensitif atau data pribadi
Properti C: Mengubah state atau berkomunikasi secara eksternal
Prinsip Inti: Hindari menggabungkan ketiga properti dalam satu sesi untuk mencegah konsekuensi serius dari prompt injection

Keterbatasan Teknis dan Kekhawatiran Praktis

Para profesional keamanan telah mengidentifikasi beberapa kelemahan kritis dalam model yang disederhanakan ini. Diagram asli kerangka kerja ini memberi label aman pada kombinasi tertentu, yang dianggap menyesatkan oleh banyak komentator. Satu keprihatinan utama adalah bahwa model itu sendiri merupakan komponen yang tidak terpercaya, karena data pelatihan dapat mengandung kerentanan atau pintu belakang tersembunyi. Masalah besar lainnya menyangkut integritas data - potensi sistem AI untuk memodifikasi data privat selama pemrosesan, tidak hanya mengeksfiltrasinya. Komunitas juga menyoroti bahwa serangan prompt injection dapat memanipulasi operator manusia bahkan tanpa akses alat langsung, menciptakan risiko yang tidak diatasi dengan memadai oleh Rule of Two.

Kekhawatiran Utama Komunitas:

Bobot model itu sendiri merepresentasikan input yang tidak terpercaya karena potensi masalah data pelatihan
Risiko integritas data (modifikasi selama inferensi) belum sepenuhnya diatasi
Manipulasi operator manusia tetap dimungkinkan bahkan tanpa akses alat
Penyederhanaan berlebihan dapat menyebabkan kelengahan keamanan yang berbahaya

Pendekatan Keamanan Alternatif Bermunculan

Beberapa komentator menyarankan bahwa konsep keamanan tradisional seperti taint tracking mungkin menawarkan perlindungan yang lebih kuat. Pendekatan ini melibatkan penandaan data yang tidak terpercaya dan melacaknya melalui operasi sistem, mencegah data yang terkontaminasi memengaruhi fungsi-fungsi kritis. Diskusi juga menyentuh sistem CaMeL milik Google DeepMind, yang menggunakan pembuatan kode yang dapat dieksekusi untuk memisahkan pemrosesan data terpercaya dan tidak terpercaya. Banyak pakar menekankan bahwa prinsip-prinsip keamanan siber yang sudah ada tidak boleh dibuang demi kerangka kerja khusus AI, dengan berargumen bahwa praktik keamanan fundamental tetap relevan terlepas dari teknologi yang terlibat.


Menjelajahi pendekatan keamanan alternatif dalam AI: Pentingnya metode tradisional seperti taint tracking dalam melindungi dari kerentanan

Faktor Manusia dalam Keamanan AI

Tema yang berulang dalam diskusi ini melibatkan peran manusia dalam sistem keamanan AI. Beberapa komentator mencatat bahwa persyaratan persetujuan manusia untuk operasi tertentu pada dasarnya menciptakan sistem human-in-the-loop, yang mungkin mengurangi manfaat produktivitas dari otomatisasi. Yang lain menunjukkan bahwa operator manusia sering kali hanya menjadi pemverifikasi, yang berpotensi menyetujui keputusan AI tanpa pengawasan yang berarti. Hal ini memunculkan pertanyaan tentang apakah bisnis akan memprioritaskan keamanan dibandingkan kenyamanan saat menerapkan sistem AI dalam skenario dunia nyata.

Tingkat Keberhasilan Serangan Adaptif dari Penelitian:

Red-teaming manusia: tingkat keberhasilan 100% terhadap 12 pertahanan
Metode otomatis: keberhasilan di atas 90% untuk sebagian besar pertahanan
Reinforcement learning: sangat efektif terhadap model black-box
Metode berbasis pencarian: menggunakan LLM-as-judge untuk mengevaluasi dan memodifikasi kandidat serangan

Implikasi Lebih Luas untuk Pengembangan AI

Perdebatan ini melampaui detail teknis hingga pertanyaan mendasar tentang bagaimana kita membangun dan menerapkan sistem AI. Beberapa komentator membandingkan Rule of Two dengan teorema CAP dalam sistem terdistribusi - sebuah kerangka kerja teoretis yang berguna yang tidak selalu cocok dengan sempurna untuk implementasi praktis. Yang lain menyatakan kekhawatiran bahwa model keamanan yang terlalu disederhanakan dapat menyebabkan kelengahan yang berbahaya, terutama ketika para pemimpin bisnis mungkin menafsirkan label aman terlalu harfiah. Diskusi ini menunjukkan bahwa komunitas keamanan AI masih bergulat dengan cara menyeimbangkan model teoretis dengan persyaratan keamanan praktis.

Percakapan yang sedang berlangsung mengungkapkan komunitas yang sangat terlibat dengan tantangan keamanan sistem AI. Meskipun kerangka kerja seperti Rule of Two memberikan titik awal yang berguna untuk diskusi, para profesional keamanan menyadari bahwa perlindungan di dunia nyata membutuhkan pendekatan yang lebih bernuansa. Seiring sistem AI menjadi semakin terintegrasi ke dalam fungsi bisnis yang kritis, kebutuhan akan strategi keamanan yang kuat dan komprehensif menjadi lebih penting dari sebelumnya. Keterlibatan kritis komunitas dengan solusi yang diusulkan menunjukkan skeptisisme sehat yang kemungkinan akan mendorong praktik keamanan yang lebih baik dalam jangka panjang.

Referensi: New prompt injection papers: Agents Rule of Two and The Attacker Moves Second

Berita Terkait

‌

‌
‌

‌

‌
‌

‌