Sistem AI Rentan Terhadap Serangan Teks Tersembunyi Melalui Eksploitasi Penskalaan Gambar

Tim Komunitas BigGo

Sistem AI Rentan Terhadap Serangan Teks Tersembunyi Melalui Eksploitasi Penskalaan Gambar

Para peneliti telah menemukan celah keamanan yang mengkhawatirkan dalam sistem AI yang memungkinkan penyerang menyembunyikan instruksi berbahaya dalam gambar yang hanya terlihat setelah sistem secara otomatis mengubah ukurannya. Teknik ini telah berhasil mengkompromikan platform-platform besar termasuk Google Gemini , Vertex AI , dan Google Assistant , menimbulkan pertanyaan serius tentang keamanan aplikasi AI modern.

Serangan ini mengeksploitasi kelemahan mendasar dalam cara sistem AI memproses gambar. Ketika pengguna mengunggah gambar berukuran besar, sistem-sistem ini biasanya memperkecil ukurannya untuk mengurangi biaya pemrosesan dan memenuhi persyaratan ukuran. Namun, optimisasi yang tampaknya tidak berbahaya ini menciptakan peluang bagi penyerang untuk menanamkan teks tersembunyi yang hanya muncul setelah proses penskalaan.

Sistem AI yang Terdampak:

Google Gemini CLI
Vertex AI Studio
Antarmuka web dan API Gemini
Google Assistant (Android)
Genspark
Berbagai sistem AI produksi lainnya


Gambar ini mengilustrasikan hasil perbandingan antara gambar asli dan versi yang diperkecil, menyoroti potensi risiko yang terkait dengan penskalaan gambar dalam sistem AI

Fondasi Teknis Serangan

Kerentanan ini berasal dari prinsip-prinsip matematis di balik algoritma penurunan skala gambar. Ketika gambar diperkecil ukurannya, beberapa piksel resolusi tinggi digabungkan menjadi piksel resolusi rendah tunggal melalui metode interpolasi seperti algoritma nearest neighbor, bilinear, atau bicubic. Penyerang dapat memanipulasi piksel-piksel tertentu dalam gambar asli sehingga ketika algoritma ini memprosesnya, teks tersembunyi muncul dalam versi yang diperkecil.

Teknik ini mengandalkan teorema sampling Nyquist-Shannon , yang menjelaskan bagaimana informasi dapat hilang atau terdistorsi ketika tingkat sampling tidak memadai. Dengan secara hati-hati membuat nilai piksel di area gelap gambar, penyerang dapat menyebabkan teks muncul dengan kontras tinggi terhadap latar belakang setelah penskalaan, sambil tetap hampir tidak terlihat dalam gambar asli.

Interpolasi: Metode matematis yang digunakan untuk memperkirakan nilai antara titik data yang diketahui, dalam hal ini, menentukan warna piksel ketika mengurangi ukuran gambar.

Algoritma Penurunan Skala Gambar yang Dieksploitasi:

Interpolasi Nearest Neighbor: Metode paling sederhana, menggunakan nilai piksel terdekat
Interpolasi Bilinear: Mempertimbangkan 4 piksel di sekitarnya untuk hasil yang lebih halus
Interpolasi Bicubic: Menggunakan 16 piksel (grid 4x4) dengan polinomial kubik untuk kualitas tertinggi

Kekhawatiran Komunitas Tentang Arsitektur Keamanan AI

Komunitas keamanan telah menyatakan kekhawatiran mendalam tentang desain fundamental model bahasa besar dan sistem visi. Masalah utama terletak pada fakta bahwa sistem AI ini tidak dapat membedakan antara instruksi yang sah dan konten berbahaya yang tertanam dalam input pengguna. Segala sesuatu yang dipersepsikan AI menjadi bagian dari konteks pemrosesannya, menciptakan apa yang para ahli gambarkan sebagai kurangnya pemisahan total antara kode dan data.

Kami telah merancang sistem yang hanya mendukung sinyal in-band, membatalkan pelajaran yang telah dipelajari dengan susah payah dari desain sistem sebelumnya.

Keterbatasan arsitektur ini berarti bahwa pendekatan keamanan tradisional tidak memadai. Tidak seperti sistem perangkat lunak konvensional yang dapat menerapkan batasan ketat antara berbagai jenis input, model AI memproses semua informasi melalui jalur neural yang sama, sehingga sangat sulit untuk mencegah instruksi berbahaya dieksekusi.

Dampak Dunia Nyata dan Metode Eksploitasi

Para peneliti mendemonstrasikan serangan ekstraksi data yang berhasil terhadap Gemini CLI Google dengan menggabungkan kerentanan penskalaan gambar dengan konfigurasi default yang terlalu permisif. Dalam bukti konsep mereka, mereka mengonfigurasi sistem untuk secara otomatis menyetujui panggilan alat tanpa konfirmasi pengguna, kemudian menggunakan gambar yang dibuat khusus untuk memicu tindakan yang mengekstrak informasi sensitif dari email pengguna.

Serangan ini bekerja di berbagai platform dan antarmuka, termasuk aplikasi web, perangkat mobile, dan endpoint API. Yang membuat ini sangat berbahaya adalah bahwa pengguna melihat gambar asli yang tidak berbahaya sementara sistem AI memproses versi yang diperkecil yang berbahaya, menciptakan ketidaksesuaian total antara persepsi pengguna dan realitas sistem.

Teknik ini telah terbukti efektif terhadap berbagai algoritma dan implementasi penurunan skala di berbagai pustaka perangkat lunak, menunjukkan bahwa ini bukan kerentanan yang terisolasi tetapi masalah sistemik yang mempengaruhi ekosistem AI yang lebih luas.

Strategi Pertahanan dan Keterbatasan

Pendekatan mitigasi saat ini menghadapi tantangan signifikan karena sifat fundamental bagaimana sistem AI memproses informasi visual. Meskipun beberapa menyarankan untuk menghindari penurunan skala gambar sepenuhnya dan membatasi dimensi unggahan sebagai gantinya, pendekatan ini mungkin tidak praktis untuk semua aplikasi.

Pertahanan yang paling kuat melibatkan penerapan pola desain aman yang memerlukan konfirmasi pengguna eksplisit untuk operasi sensitif apa pun, terlepas dari bagaimana permintaan tersebut berasal. Namun, ini bertentangan dengan pengalaman pengguna yang mulus yang ingin disediakan oleh banyak aplikasi AI.

Upaya untuk melatih model mengabaikan teks dalam gambar atau menerapkan sistem penyaringan menghadapi masalah perlombaan senjata klasik. Penyerang dapat beradaptasi dengan menggunakan bahasa yang berbeda, mengkodekan teks dalam kode QR, menyesuaikan tingkat kontras, atau menanamkan instruksi dalam elemen visual yang lebih halus.

Fitur Tool Anamorpher:

Generator serangan penskalaan gambar bersumber terbuka
Dukungan untuk algoritma downscaling utama
Suite pengujian fingerprinting khusus dengan pola papan catur, lingkaran konsentris, dan pola Moiré
Antarmuka front-end dan Python API
Backend modular untuk algoritma downscaling khusus

Implikasi untuk Pengembangan AI

Kerentanan ini menyoroti kekhawatiran yang lebih luas tentang model keamanan sistem AI saat ini. Sifat non-deterministik jaringan neural membuat tidak mungkin untuk menjamin bahwa langkah-langkah keamanan akan bekerja secara konsisten. Tidak seperti perangkat lunak tradisional di mana batas keamanan dapat ditegakkan melalui struktur kode, sistem AI bergantung pada metode pelatihan probabilistik yang dapat dielakkan melalui rekayasa prompt yang kreatif.

Penemuan ini menggarisbawahi perlunya perubahan fundamental dalam cara sistem AI dirancang dan diterapkan, terutama dalam lingkungan perusahaan di mana keamanan data adalah yang terpenting. Seiring kemampuan AI terus berkembang dan terintegrasi ke dalam sistem-sistem kritis, mengatasi keterbatasan keamanan arsitektural ini menjadi semakin mendesak.

Referensi: Weaponizing image scaling against production Al systems

Berita Terkait

‌

‌
‌

‌

‌
‌

‌