Di era kecerdasan buatan, sebuah pola yang mengkhawatirkan telah muncul di ruang pengadilan, proyek pemrograman, dan kantor perusahaan di seluruh dunia. Orang-orang semakin memperlakukan respons chatbot AI sebagai fakta yang otoritatif, mengarah pada apa yang digambarkan seorang komentator sebagai sirup jagung fruktosa tinggi dalam membaca - informasi yang terdengar masuk akal namun berpotensi menyesatkan yang memuaskan tanpa memberi nutrisi.
Masalah intinya bukan bahwa large language model (LLM) selalu salah, tetapi mereka beroperasi dengan cara yang fundamentally berbeda dari sumber pengetahuan tradisional. Tidak seperti ensiklopedia atau makalah akademis yang dibangun berdasarkan referensi yang dapat diverifikasi, LLM menghasilkan teks berdasarkan pola statistik dalam data pelatihan mereka, membuat mustahil bagi mereka untuk membedakan secara andal antara informasi faktual dan fiksi yang meyakinkan.
Epidemi Halusinasi
Di berbagai komunitas teknis, pengguna melaporkan contoh yang semakin canggih dari sistem AI yang menciptakan sumber dan dengan percaya diri menyajikan informasi palsu. Seorang pengembang berbagi pertukaran yang sangat revealing di mana asisten AI berulang kali bersikeras bahwa dokumentasi pemrograman Ruby tertentu itu ada, bahkan memberikan nomor baris dan tautan GitHub yang detail. Ketika pengembang memeriksa referensi ini, mereka menemukan bahwa AI telah sepenuhnya memalsukan baik konten dokumentasi maupun kutipan yang mendukung klaimnya.
LLM bahkan tidak memilih apa yang dihasilkannya - ia hanya memberikan probabilitas kata berikutnya dan salah satunya DIPILIH SECARA ACAK oleh sampler. Jadi, mungkin kata 1-3 dari jawaban LLM adalah beberapa ungkapan umum yang diprediksi oleh ribuan sampel, kata 4 berasal dari 4chan (pilihan acak probabilitas rendah dari sampler), dan kata 5 dihalusinasikan.
Pola ini melampaui pemrograman ke dalam penelitian akademis, dokumentasi hukum, dan nasihat medis. Masalah ini menjadi sangat berbahaya ketika sistem AI menghasilkan kutipan yang tampak sah tetapi merujuk pada penelitian yang tidak ada atau salah merepresentasikan sumber yang sebenarnya. Beberapa kasus pengadilan telah muncul di mana pengacara mengajukan ringkasan hukum yang berisi kutipan kasus palsu yang dihasilkan oleh alat AI.
Pola Umum Halusinasi AI
- Kutipan dan referensi yang dibuat-buat
- Salah representasi konten sumber
- Penyajian informasi palsu dengan percaya diri
- Ketidakmampuan membedakan antara pola data pelatihan dan akurasi faktual
- Pengambilan sampel acak yang menghasilkan output tidak konsisten
Ilusi Kutipan Sumber
Banyak pengguna membela sistem AI dengan menunjuk pada kemampuan mereka untuk memberikan kutipan, terutama dalam model seperti Gemini yang dapat melakukan pencarian web. Namun, diskusi komunitas mengungkap perbedaan kritis antara verifikasi sumber yang sebenarnya dan apa yang sebenarnya terjadi. Ketika sistem AI mengutip sumber, mereka seringkali baik merangkum hasil pencarian (yang bisa saja tidak akurat) atau menghasilkan kutipan yang tampak masuk akal berdasarkan pola dalam data pelatihan mereka.
Situasi menjadi bahkan lebih kompleks dengan sistem Retrieval-Augmented Generation (RAG), di mana data eksternal dimasukkan ke dalam jendela konteks AI. Meskipun ini dapat meningkatkan akurasi, ini tidak menjamin bahwa AI akan menafsirkan atau merepresentasikan informasi tersebut dengan benar. Seperti yang dicatat seorang komentator, Jika output berasal dari RAG (pencarian) daripada dari model itu sendiri, maka tautan dimungkinkan, tetapi tidak jika model hanya menghasilkan urutan kata-kata itu sendiri.
Faktor Manusia dalam Kepercayaan AI
Apa yang membuat masalah kutipan AI sangat menantang adalah bagaimana hal itu berinteraksi dengan psikologi manusia. Orang secara alami cenderung mempercayai respons yang percaya diri dan diartikulasikan dengan baik, terlepas dari akurasi sebenarnya mereka. Ini menciptakan badai sempurna di mana sistem AI yang dioptimalkan untuk preferensi manusia menghasilkan respons yang terasa otoritatif bahkan ketika mereka sepenuhnya dibuat-buat.
Komunitas telah mengamati bahwa masalah ini mempengaruhi domain yang berbeda secara tidak merata. Untuk kueri faktual yang sederhana dengan data pelatihan yang melimpah, sistem AI sering kali berkinerja cukup baik. Namun, untuk topik teknis khusus, fakta sejarah yang tidak jelas, atau sistem proprietary, akurasinya turun secara dramatis. Seperti yang dicatat seorang komentator yang bekerja dengan bahasa kuno, sistem AI akan dengan berani menciptakan sumber, mengutipnya dalam bahasa Yunani atau Latin untuk topik-topik di mana verifikasi sulit dilakukan.
Observasi Akurasi Spesifik Domain
- Akurasi tinggi: Pertanyaan faktual umum, terjemahan bahasa, pembuatan kode untuk sistem yang terdokumentasi dengan baik
- Akurasi sedang: Interpretasi dokumentasi teknis, sintesis pengetahuan umum
- Akurasi rendah: Fakta sejarah khusus, sistem proprietary, detail teknis yang tidak umum, preseden hukum
Menavigasi Realitas Baru
Terlepas dari tantangan ini, banyak orang dalam komunitas teknis telah mengembangkan strategi untuk menggunakan AI secara bertanggung jawab. Pendekatan paling umum melibatkan memperlakukan output AI sebagai titik awal untuk investigasi daripada jawaban akhir. Ini berarti selalu memverifikasi informasi kritis melalui sumber independen dan menjadi sangat skeptis terhadap kutipan yang tidak dapat dengan mudah diperiksa.
Beberapa organisasi telah menerapkan kebijakan yang jelas tentang penggunaan AI, menekankan bahwa karyawan tetap bertanggung jawab atas pekerjaan apa pun yang mereka hasilkan, terlepas dari apakah AI membantu dalam pembuatannya. Seperti yang disarankan seorang komentator, pedoman sederhana seperti Anda dapat menggunakan AI, tetapi Anda pada akhirnya bertanggung jawab atas apa yang Anda kirimkan dapat membantu menetapkan ekspektasi yang tepat tanpa menjadi terlalu restriktif.
Evolusi masalah ini mencerminkan tantangan literasi internet sebelumnya. Sama seperti pendidik pernah memperingatkan siswa untuk tidak mengutip Wikipedia secara membabi buta, kita sekarang belajar bahwa sistem AI membutuhkan keterlibatan kritis yang serupa. Pelajaran mendasarnya tetap sama: memahami dari mana informasi berasal sama pentingnya dengan informasi itu sendiri.
Seiring sistem AI terus berkembang, konsensus komunitas menunjukkan bahwa solusinya bukan menolak alat-alat ini sepenuhnya, tetapi mengembangkan cara yang lebih canggih untuk mengevaluasi output mereka. Ini mungkin termasuk sistem verifikasi yang lebih baik, peningkatan transparansi tentang bagaimana jawaban dihasilkan, dan pendidikan berkelanjutan tentang keterbatasan teknologi AI saat ini. Tujuannya bukan untuk menghilangkan AI dari alur kerja kita, tetapi untuk mengintegrasikannya dengan cara yang mengakui baik kemampuan maupun keterbatasan nyatanya.
Referensi: But Claude Said...
