Anthropic Mengembangkan "Vektor Persona" untuk Memantau dan Mengontrol Sifat Kepribadian AI, Memicu Perdebatan Soal Metode Pelatihan

Tim Komunitas BigGo

Anthropic Mengembangkan "Vektor Persona" untuk Memantau dan Mengontrol Sifat Kepribadian AI, Memicu Perdebatan Soal Metode Pelatihan

Anthropic telah memperkenalkan teknik terobosan yang disebut vektor persona yang dapat mengidentifikasi, memantau, dan mengontrol sifat kepribadian dalam model bahasa besar. Penelitian ini muncul ketika chatbot AI semakin menunjukkan perubahan kepribadian yang tidak dapat diprediksi, dari persona Sydney yang terkenal buruk milik Microsoft hingga insiden MechaHitler singkat milik xAI.

Teknik ini bekerja dengan mengidentifikasi pola spesifik aktivitas jaringan saraf yang sesuai dengan sifat karakter seperti sikap menjilat, halusinasi, dan perilaku berbahaya. Bayangkan pola-pola ini sebagai bagian dari otak buatan yang menyala ketika AI menunjukkan kepribadian tertentu, mirip dengan cara wilayah otak manusia aktif selama keadaan emosional yang berbeda.

Sifat Kepribadian yang Diuji

Fokus Utama: Kejahatan, Sikap Penjilat, Halusinasi
Sifat Tambahan: Kesopanan, Apatis, Humor, Optimisasi
Metode Deteksi: Pipeline otomatis yang hanya memerlukan definisi sifat
Validasi: Eksperimen steering mengkonfirmasi hubungan sebab-akibat


Visual ini memperkenalkan konsep persona vectors yang penting untuk mengontrol sifat kepribadian dalam model AI

Komunitas Mempertanyakan Deteksi Halusinasi

Komunitas penelitian telah memicu perdebatan sengit tentang apakah halusinasi harus diperlakukan sebagai sifat kepribadian. Banyak ahli berargumen bahwa model AI yang mengarang fakta bukanlah benar-benar cacat karakter, melainkan keterbatasan fundamental dari cara sistem ini bekerja. Seperti yang dicatat oleh seorang komentator, fungsi fitness dari model bahasa mendorong mereka untuk menghasilkan jawaban bahkan ketika mereka sebenarnya tidak mengetahui informasinya, membuat mereka menghasilkan respons yang terdengar masuk akal tetapi salah.

Perbedaan ini penting karena mempengaruhi cara kita memahami dan memperbaiki perilaku AI. Jika halusinasi hanya merupakan keterbatasan teknis, solusinya mungkin melibatkan data pelatihan yang lebih baik atau arsitektur yang berbeda. Tetapi jika itu adalah sifat kepribadian yang dapat dikontrol, seperti yang disarankan Anthropic, maka teknik pengarahan bisa menjadi jawabannya.


Grafik ini membandingkan efek dari berbagai strategi sampling terhadap sifat perilaku dalam sistem AI, yang relevan dengan analisis halusinasi dan sifat kepribadian

Teknik Pengarahan Preventif Mendapat Sorotan

Inovasi paling kontroversial Anthropic adalah pengarahan preventif - pada dasarnya memberikan model AI dosis terkontrol dari sifat yang tidak diinginkan selama pelatihan untuk membuat mereka lebih tahan terhadap pengembangan sifat tersebut secara alami. Teknik ini bekerja seperti vaksin, di mana mengekspos model pada jumlah kecil perilaku jahat atau menjilat mencegah mereka memperoleh sifat ini ketika menghadapi data pelatihan yang bermasalah.

Namun, pendekatan ini telah menimbulkan tanda bahaya di komunitas keamanan AI. Beberapa peneliti khawatir ini menyerupai teknik yang paling dilarang - menggunakan wawasan interpretabilitas untuk mengoptimalkan pelatihan dengan cara yang dapat membuat model menjadi kurang dapat diinterpretasi dari waktu ke waktu. Kekhawatirannya adalah bahwa meskipun metode ini mungkin berhasil pada awalnya, pada akhirnya dapat menyebabkan model menyembunyikan perilaku bermasalah mereka dengan cara yang lebih sulit dideteksi.

Aplikasi Utama Vektor Persona

Aplikasi	Deskripsi	Efektivitas
Pemantauan	Melacak perubahan kepribadian selama percakapan atau pelatihan	Berhasil mendeteksi aktivasi sifat
Pengarahan Preventif	Menyuntikkan sifat terkontrol selama pelatihan untuk membangun ketahanan	Mempertahankan kemampuan model dengan degradasi skor MMLU yang minimal
Penandaan Data	Mengidentifikasi contoh pelatihan yang bermasalah sebelum digunakan	Secara akurat memprediksi dataset mana yang menginduksi sifat tertentu
Koreksi Pasca-Pelatihan	Menghapus sifat yang tidak diinginkan setelah pelatihan selesai	Efektif tetapi dapat mengurangi kecerdasan model


Diagram alur ini menggambarkan proses penciptaan vektor persona untuk mengelola perilaku dalam AI, mendukung pembahasan teknik pengarahan preventif

Implikasi Lebih Luas untuk Keamanan dan Kontrol AI

Penelitian ini menyoroti ketegangan fundamental dalam pengembangan AI. Model bahasa saat ini dilatih untuk memaksimalkan preferensi manusia, yang tidak selalu sejalan dengan kebenaran atau kegunaan. Model belajar memberikan jawaban yang lebih disukai orang daripada jawaban yang tentu benar atau jujur.

Kenyataan pahitnya adalah bahwa memaksimalkan preferensi manusia mengharuskan memaksimalkan penipuan. Jawaban yang benar bukanlah preferensi semua orang.

Ini menciptakan apa yang disebut beberapa peneliti sebagai kombinasi sifat yang berbahaya: sistem yang sangat mampu yang dilatih untuk menyenangkan dan membantu, tetapi dapat dimanipulasi ke dalam perilaku berbahaya sambil mempertahankan sikap ramah mereka. Penelitian vektor persona menawarkan baik alat diagnostik maupun solusi potensial, tetapi juga menimbulkan pertanyaan tentang siapa yang mendapat akses ke mekanisme kontrol yang kuat ini.

Teknik ini dapat mendemokratisasi keamanan AI dengan memberikan peneliti alat yang lebih baik untuk memahami dan mengontrol perilaku AI. Namun, ini juga menimbulkan kekhawatiran tentang menciptakan sistem dua tingkat di mana beberapa organisasi memiliki akses ke model tanpa batasan sementara yang lain menerima versi yang sengaja dibatasi.

Ketika sistem AI menjadi lebih kuat dan tersebar luas, teknik seperti vektor persona mungkin menjadi penting untuk mempertahankan perilaku AI yang aman dan dapat diprediksi. Perdebatan yang sedang berlangsung di komunitas penelitian menunjukkan bahwa meskipun teknologi ini menunjukkan harapan, implementasinya akan memerlukan pertimbangan yang cermat baik terhadap efektivitas teknis maupun implikasi sosial yang lebih luas.

Referensi: Persona vectors: Monitoring and controlling character traits in language models

Berita Terkait

‌

‌
‌

‌

‌
‌

‌