Upaya ambisius Amsterdam untuk membangun sistem kecerdasan buatan yang adil untuk mendeteksi penipuan kesejahteraan telah berakhir dengan kegagalan, menyoroti tantangan kompleks dalam menghilangkan bias pada sistem AI. Ibu kota Belanda ini menghabiskan bertahun-tahun mengembangkan apa yang mereka harapkan menjadi model pembelajaran mesin yang tidak bias, hanya untuk menemukan bahwa memperbaiki diskriminasi terhadap satu kelompok sering kali menciptakan masalah baru untuk kelompok lain.
Badan jaminan sosial kota, Dienst, merancang sistem untuk memprediksi aplikasi kesejahteraan mana yang layak diselidiki lebih lanjut. Berbeda dengan banyak sistem AI pemerintah yang beroperasi secara rahasia, Amsterdam melakukan upaya nyata untuk mengatasi masalah keadilan dan bahkan membagikan kode serta metodologi mereka kepada para investigator.
Masalah Ground Truth Membuat AI yang Adil Hampir Mustahil
Diskusi komunitas mengungkap tantangan mendasar yang membuat sistem AI yang benar-benar adil sangat sulit dicapai. Isu utamanya adalah apa yang disebut para ahli sebagai masalah ground truth - kita sama sekali tidak mengetahui tingkat penipuan aktual di berbagai kelompok demografis karena investigasi yang dipimpin manusia sebelumnya berpotensi bias.
Bagian besar dari kesulitan upaya semacam ini adalah kita tidak mengetahui ground truth. Sebuah model adil atau tidak bias jika performanya sama baiknya untuk semua kelompok.
Ini menciptakan masalah siklus. Untuk membangun sistem yang tidak bias, Anda memerlukan data pelatihan yang tidak bias. Tetapi jika data historis Anda berasal dari keputusan manusia yang bias, AI Anda akan mempelajari dan memperkuat bias yang sama. Amsterdam mencoba menyelesaikan ini dengan menyesuaikan bobot model mereka, tetapi pendekatan ini menyebabkan konsekuensi yang tidak terduga.
Fitur Model yang Digunakan oleh Sistem Amsterdam:
- Persentase partisipasi dalam kegiatan kesejahteraan pada tahun sebelumnya
- Status gangguan mental terkini
- Jadwal janji temu wawancara oleh petugas pembebasan bersyarat
- Jumlah tunggakan dan status bantuan utang
- Durasi waktu menerima tunjangan kesejahteraan
- Riwayat tunjangan sebelumnya dan status kekurangan pembayaran
- Rata-rata hukuman karena melanggar aturan kesejahteraan
Reweighting Menciptakan Masalah Baru Sambil Menyelesaikan yang Lama
Solusi Amsterdam melibatkan teknik yang disebut reweighting untuk mengurangi bias terhadap pelamar non- Belanda . Awalnya, model menandai orang dengan latar belakang migran pada tingkat yang jauh lebih tinggi - 55,36% dibandingkan 34,53% untuk pelamar Belanda . Proses reweighting berhasil mengurangi kesenjangan ini.
Namun, ketika diterapkan di dunia nyata selama pilot tiga bulan, bias tidak hilang - malah berbalik arah. Model yang disesuaikan mulai salah menandai warga negara Belanda dan perempuan pada tingkat yang lebih tinggi daripada kelompok yang awalnya dirancang untuk dilindungi. Perempuan menjadi 12% lebih mungkin untuk salah ditandai dibandingkan laki-laki.
Hasil ini menggambarkan realitas matematis yang sering diabaikan oleh banyak advokat keadilan: meningkatkan keadilan untuk satu kelompok sering kali memerlukan trade-off yang mempengaruhi kelompok lain. Anda tidak dapat mengoptimalkan semua definisi keadilan secara bersamaan.
Metrik Bias Sebelum vs Sesudah Reweighting:
- Model asli: Pelamar non- Dutch ditandai pada 55,36% vs Dutch pada 34,53%
- Setelah reweighting: Bias berkurang untuk non- Dutch namun bergeser ke kelompok lain
- Hasil pilot: Perempuan 12% lebih mungkin ditandai secara keliru dibanding laki-laki
- Performa: Kemampuan deteksi keseluruhan menurun sementara volume investigasi meningkat
Degradasi Performa Membunuh Proyek
Selain masalah bias, performa keseluruhan model memburuk secara signifikan selama pengujian dunia nyata. Alih-alih mengurangi investigasi seperti yang dimaksudkan, sistem justru meningkatkan beban kerja sambil hampir tidak meningkatkan deteksi kasus penipuan aktual.
Pilot menandai 3.510 orang untuk investigasi selama tiga bulan, tetapi menemukan bukti underpayment hanya dalam 526 kasus. Lebih mengkhawatirkan, 626 investigasi harus ditutup tanpa menemukan bukti yang cukup, dan 17 pelamar kesejahteraan berhasil mengajukan banding atas investigasi mereka sebagai yang salah dikenakan.
Pengamat komunitas mencatat bahwa artikel tersebut sangat fokus pada metrik keadilan tetapi memberikan sedikit bukti tentang efektivitas sistem dalam benar-benar menangkap penipuan atau menghemat uang pembayar pajak. Ini menyoroti masalah umum dengan inisiatif keadilan AI - mereka sering memprioritaskan tampak adil daripada berguna.
Hasil Pilot (periode 3 bulan):
- Total yang ditandai: 3.510 orang
- Kasus valid yang ditemukan: 526 kasus kekurangan pembayaran
- Ditutup tanpa bukti: 626 penyelidikan
- Penyelidikan yang dihentikan: 11 kasus
- Banding yang berhasil: 17 kasus (penyelidikan yang salah)
Pelajaran untuk Pengembangan AI Masa Depan
Pengalaman Amsterdam menawarkan pelajaran berharga bagi pemerintah dan organisasi lain yang mencoba membangun sistem AI yang adil. Proyek ini menunjukkan bahwa niat baik dan transparansi tidak cukup untuk mengatasi tantangan matematis dan filosofis mendasar dari keadilan algoritmik.
Kota ini akhirnya membuat keputusan yang tepat untuk meninggalkan proyek daripada menerapkan sistem yang berkinerja lebih buruk daripada investigator manusia sambil tetap menunjukkan bias. Pengakuan jujur atas kegagalan ini, meskipun mengecewakan, menunjukkan lebih banyak integritas daripada banyak organisasi yang menerapkan sistem bias tanpa evaluasi yang tepat.
Kasus ini juga mengungkap mengapa mendefinisikan keadilan sangat kontroversial. Definisi matematis keadilan yang berbeda dapat saling bertentangan, memaksa pengembang untuk membuat penilaian nilai tentang kelompok mana yang layak mendapat perlindungan dan trade-off apa yang dapat diterima. Keputusan ini secara inheren politis dan tidak dapat diselesaikan melalui cara teknis saja.
Eksperimen gagal Amsterdam berfungsi sebagai kisah peringatan tentang keterbatasan teknologi AI saat ini dalam aplikasi sensitif. Sampai kita mengembangkan metode yang lebih baik untuk menangani bias dan meningkatkan data ground truth, sistem AI yang benar-benar adil mungkin tetap menjadi tujuan yang sulit dicapai daripada realitas yang dapat dicapai.
Referensi: Here we investigated Amsterdam's attempt to build a 'fair' fraud detection model