Seorang peneliti keamanan berhasil mendekripsi filter keamanan AI Apple , mengungkap cara kerja internal bagaimana Apple Intelligence memutuskan konten mana yang akan diblokir atau dimodifikasi. File yang bocor menunjukkan sistem komprehensif berupa regular expressions dan filter kata kunci yang digunakan Apple untuk mengontrol output AI generatifnya, memicu diskusi tentang sensor korporat dan pendekatan keamanan AI.
Implementasi Teknis:
- Kunci enkripsi diekstrak melalui alat debugging LLDB
- File disimpan di
/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_Overrides/
- Dekripsi memerlukan LLDB milik Xcode dan proses
GenerativeExperiencesSafetyInferenceProvider
- Sistem keamanan berlapis dengan filter regex sebagai lapisan penyaringan pertama
Politisi di Seluruh Dunia Menghadapi Pemblokiran Universal
Penemuan paling mengejutkan dalam filter keamanan Apple adalah pemblokiran ekstensif terhadap tokoh politik dari seluruh dunia. Sistem ini memblokir penyebutan politisi besar termasuk Justin Trudeau , Boris Johnson , Liz Truss , dan bahkan pemimpin Afrika Selatan seperti Cyril Ramaphosa dan Jacob Zuma . Yang menarik, Alexandria Ocasio-Cortez muncul dalam filter lokalisasi bahasa Spanyol, sementara Biden dan Trump memiliki pola regex yang berbeda yang diterapkan pada mereka.
Sensor politik yang luas ini menimbulkan pertanyaan tentang pendekatan Apple terhadap netralitas AI. Filter tersebut tampaknya tidak mendiskriminasi berdasarkan partai politik atau ideologi - mereka hanya memblokir tokoh politik secara menyeluruh. Beberapa anggota komunitas berspekulasi hal ini bisa terkait dengan mencegah pembuatan konten yang tidak pantas yang melibatkan tokoh publik, terutama mengingat kekhawatiran tentang teknologi deepfake.
Tokoh Politik yang Diblokir Meliputi:
- Justin Trudeau (Kanada)
- Boris Johnson, Liz Truss, Keir Starmer, Rishi Sunak (Inggris)
- Anthony Albanese, Christopher Luxon (Australia/Selandia Baru)
- Cyril Ramaphosa, Jacob Zuma, John Steenhuisen (Afrika Selatan)
- Michael D. Higgins (Irlandia)
- Alexandria Ocasio-Cortez (AS - lokalisasi Spanyol)
- Biden dan Trump (AS - pola regex terpisah)
Branding Korporat Menjadi Prioritas Bersama Pencegahan Kematian
Dalam langkah yang menyoroti prioritas korporat, filter keamanan Apple memastikan kapitalisasi yang tepat dari nama merek Apple dengan ketelitian yang sama seperti yang diterapkan untuk memblokir konten tentang kematian dan bunuh diri. Sistem akan mengoreksi imac menjadi iMac dan mempertahankan format yang tepat untuk produk Apple lainnya, memperlakukan konsistensi merek sama seriusnya dengan mencegah konten berbahaya.
Filter terkait kematian sangat komprehensif, memblokir berbagai istilah yang berkaitan dengan bunuh diri dan kekerasan. Namun, sistem ini tidak mencakup slang internet yang lebih baru seperti unalive - istilah yang muncul di platform sosial untuk menghindari filter konten serupa. Celah ini menyoroti tantangan berkelanjutan untuk tetap selangkah lebih maju dari bahasa yang terus berkembang yang digunakan untuk melewati moderasi otomatis.
Catatan: Regex (regular expressions) adalah aturan pencocokan pola yang digunakan untuk mengidentifikasi kombinasi teks tertentu dalam sistem komputer.
Filter Regex Sederhana Mengungkap Keterbatasan Keamanan AI
Implementasi teknis sangat bergantung pada pencocokan regular expression dasar, yang dapat dengan mudah dilewati dengan substitusi karakter sederhana. Misalnya, Boris Johnson bisa menjadi B0ris Johnson untuk berpotensi lolos dari filter. Pendekatan ini merepresentasikan pertahanan lini pertama daripada sistem keamanan bertenaga AI yang canggih.
Saya merasa lucu bahwa AGI seharusnya sudah di depan mata, sementara LLM yang seharusnya super pintar ini masih perlu output mereka difilter oleh regex.
Filter beroperasi sebagai lapisan penyaringan awal sebelum model keamanan AI Apple yang lebih canggih terlibat. Pendekatan berlapis ini menunjukkan Apple memprioritaskan efisiensi, menggunakan pencocokan pola sederhana untuk menangkap pelanggaran yang jelas sebelum menerapkan pemeriksaan keamanan berbasis AI yang lebih mahal secara komputasi.
Kategori Filter:
- reject: Frasa eksak yang memicu pelanggaran
- remove: Frasa yang dihapus dari output
- replace: Substitusi frasa
- regexReject: Pemblokiran berbasis pola menggunakan regular expressions
- regexRemove: Penghapusan berbasis pola
- regexReplace: Substitusi berbasis pola
Artefak Pengujian dan Frasa Misterius
Di antara aturan keamanan yang sah, peneliti menemukan frasa uji yang aneh seperti Granular Mango Serpent dan xylophone copious opportunity defined elephant out. Ini tampaknya merupakan artefak pengujian yang digunakan selama pengembangan, dengan beberapa anggota komunitas berspekulasi bahwa mereka mungkin berfungsi sebagai akronim untuk prosedur pengujian internal atau token canary untuk mendeteksi klon model.
Kehadiran sisa-sisa pengujian ini menunjukkan sistem keamanan AI Apple masih aktif dikembangkan dan disempurnakan. Perusahaan tampaknya mengambil pendekatan hati-hati, menerapkan filter luas sambil terus mengembangkan mekanisme keamanan yang lebih canggih.
Pengungkapan filter ini memberikan wawasan langka tentang bagaimana perusahaan teknologi besar mendekati keamanan AI dalam praktik. Meskipun metodenya mungkin tampak kasar dibandingkan dengan kemampuan AI mutakhir, mereka merepresentasikan pendekatan pragmatis untuk mencegah pembuatan konten bermasalah dalam skala besar. Seiring sistem AI menjadi lebih umum di perangkat konsumen, keseimbangan antara keamanan, fungsionalitas, dan kebebasan berekspresi kemungkinan akan tetap menjadi isu kontroversial di industri teknologi.
Referensi: apple_generative_model_safety_decrypted