Komunitas teknologi sedang ramai berdebat menyusul investigasi sistematis terbaru OpenAI tentang mengapa model bahasa besar menghasilkan informasi palsu, yang biasa disebut halusinasi. Riset ini muncul ketika sistem AI semakin banyak digunakan dalam kehidupan sehari-hari, membuat keandalan mereka menjadi perhatian kritis bagi pengguna dan pengembang.
Masalah Inti: Tujuan Pelatihan dan Tolok Ukur
Riset OpenAI mengidentifikasi halusinasi sebagai masalah yang pada dasarnya berasal dari tujuan pelatihan dan metode evaluasi yang cacat, bukan sebagai keanehan sistem AI yang tidak dapat diperbaiki. Studi ini menunjukkan bahwa pendekatan pelatihan saat ini tidak secara memadai mengajarkan model kapan harus mengatakan saya tidak tahu versus kapan harus memberikan jawaban yang percaya diri.
Namun, komunitas tetap terpecah tentang apakah halusinasi bahkan merupakan istilah yang tepat. Beberapa pihak berargumen bahwa output ini merepresentasikan fungsi normal dari model statistik daripada malfungsi yang sebenarnya. Model-model tersebut bekerja persis seperti yang dirancang - mereka menghasilkan respons yang paling mungkin secara statistik berdasarkan data pelatihan mereka, terlepas dari akurasi faktual.
Temuan Penelitian Utama:
- Halusinasi berasal dari tujuan pelatihan dan tolok ukur, bukan cacat model yang melekat
- Model yang lebih kecil terkadang dapat menangani ketidakpastian dengan lebih baik daripada model yang lebih besar
- "Kalibrasi" (mencocokkan kepercayaan dengan akurasi) memerlukan komputasi yang lebih sedikit daripada menjadi akurat
- Solusi saat ini berfokus pada peningkatan metode pelatihan daripada perubahan arsitektur
Memori Manusia vs Penyimpanan Pengetahuan AI
Diskusi paralel yang menarik telah muncul membandingkan memori manusia dengan sistem pengetahuan AI. Tidak seperti model bahasa, manusia sering dapat membedakan antara apa yang mereka ketahui dan apa yang mereka tebak karena mereka mengingat proses mempelajari informasi. Memori episodik ini - mengingat pengalaman belajar spesifik - tampaknya membantu manusia menghindari menyatakan informasi palsu dengan percaya diri.
Perbandingan ini mengungkap perbedaan kunci: pengetahuan manusia terasa berlapis, dengan fakta-fakta berbeda memiliki tingkat kepastian yang bervariasi berdasarkan bagaimana mereka dipelajari. Model AI, sebaliknya, memperlakukan semua data pelatihan sebagai pola statistik yang sama-sama valid tanpa rasa keandalan sumber atau konteks pembelajaran.
Perbandingan Memori Manusia vs AI:
- Memori Manusia: Episodik (mengingat pengalaman belajar), tingkat kepercayaan hierarkis, sadar akan sumber
- Pengetahuan AI: Pola statistik, tidak ada konteks pembelajaran, memperlakukan semua data pelatihan secara setara
- Penyebab Halusinasi: Manusia dapat "merasakan" kesenjangan pengetahuan; AI tidak dapat membedakan antara informasi yang diketahui dan tidak diketahui
Solusi Teknis dan Keterbatasan
Riset ini menunjukkan bahwa model yang lebih kecil mungkin sebenarnya menangani ketidakpastian lebih baik daripada yang lebih besar dalam beberapa kasus. Model yang tahu sangat sedikit tentang suatu topik dapat dengan sederhana mengatakan saya tidak tahu, sementara model dengan pengetahuan parsial menghadapi tugas yang lebih sulit untuk menentukan tingkat kepercayaan dirinya.
Bisa jadi lebih mudah bagi model kecil untuk mengetahui batasnya. Misalnya, ketika diminta menjawab pertanyaan Māori, model kecil yang tidak tahu bahasa Māori dapat dengan sederhana mengatakan 'saya tidak tahu' sedangkan model yang tahu sedikit bahasa Māori harus menentukan tingkat kepercayaan dirinya.
Temuan ini menantang asumsi bahwa model yang lebih besar secara otomatis berarti lebih sedikit halusinasi. Hubungan antara ukuran model dan keandalan tampaknya lebih kompleks dari yang diperkirakan sebelumnya.
Dampak Dunia Nyata dan Arah Masa Depan
Implikasi praktis meluas melampaui minat akademis. Pengguna secara teratur menghadapi situasi di mana AI dengan percaya diri memberikan informasi teknis yang salah, detail hukum, atau klaim faktual. Riset ini menunjukkan bahwa metode pelatihan yang lebih baik yang berfokus pada kalibrasi - mengajarkan model untuk mencocokkan kepercayaan diri mereka dengan akurasi aktual mereka - dapat secara signifikan mengurangi masalah-masalah ini.
Debat ini juga menyentuh apakah arsitektur AI saat ini dapat sepenuhnya menyelesaikan masalah halusinasi, atau apakah pendekatan yang secara fundamental berbeda yang melibatkan pengalaman dunia nyata dan pembelajaran berkelanjutan mungkin diperlukan. Beberapa peneliti berargumen bahwa sampai sistem AI dapat membentuk memori episodik yang asli melalui pengalaman hidup, halusinasi akan tetap menjadi keterbatasan yang melekat daripada bug yang dapat diselesaikan.
Ketika sistem AI menjadi lebih terintegrasi ke dalam aplikasi kritis, memahami dan meminimalkan halusinasi menjadi semakin penting untuk keamanan pengguna dan keandalan sistem.
Referensi: Knowledge and memory