LLM Terjebak dalam Loop Tak Terbatas Ketika Ditanya Tentang Emoji Kuda Laut yang Tidak Ada

Tim Komunitas BigGo
LLM Terjebak dalam Loop Tak Terbatas Ketika Ditanya Tentang Emoji Kuda Laut yang Tidak Ada

Model bahasa besar mengalami bug aneh yang membuat mereka terjebak dalam loop kacau ketika pengguna bertanya tentang emoji kuda laut. Masalahnya? Tidak ada emoji kuda laut di Unicode, meskipun sistem AI dan banyak manusia percaya sebaliknya.

Ketika diminta tentang keberadaan emoji kuda laut, model AI populer seperti GPT-4, Claude, dan Gemini dengan percaya diri menjawab ya dan mencoba menampilkannya. Namun, karena emoji tersebut tidak ada, mereka mengeluarkan alternatif yang salah seperti emoji kuda atau ikan. Setelah melihat output mereka sendiri yang salah, model-model tersebut mengenali kesalahan dan panik mencoba memperbaikinya, sering kali berputar dalam loop permintaan maaf dan percobaan yang gagal tanpa akhir.

Akar Masalah: Ketidakcocokan Antara Keyakinan dan Kenyataan

Penjelasan teknis mengungkap pandangan menarik tentang cara kerja internal model AI. Menggunakan teknik yang disebut logit lens, peneliti menemukan bahwa model dengan benar membangun representasi internal dari kuda laut + emoji dalam lapisan pemrosesan mereka. Konsep ini ada dengan kuat dalam pengetahuan yang mereka pelajari karena kuda laut adalah makhluk menarik yang secara logis seharusnya memiliki representasi emoji.

Masalah terjadi pada tahap output akhir. Komponen language head model harus mengonversi konsep internal menjadi token aktual yang dapat ditampilkan. Ketika mencari token emoji kuda laut dan tidak menemukannya, ia memilih yang paling cocok - biasanya emoji kuda atau ikan. Ini menciptakan loop umpan balik di mana model melihat output yang salah dan berulang kali mencoba memperbaikinya.

Logit lens: Teknik penelitian yang memeriksa apa yang dipikirkan model AI di setiap lapisan pemrosesan dengan memeriksa kata atau token apa yang akan diprediksi pada tahap tersebut.

Proses Teknis di Balik Bug:

  1. Model menerima pertanyaan tentang emoji kuda laut
  2. Lapisan internal dengan benar membangun konsep "kuda laut + emoji"
  3. Kepala bahasa mencari token emoji yang cocok
  4. Tidak ada token emoji kuda laut dalam kosakata
  5. Sistem mengeluarkan alternatif terdekat (emoji kuda/ikan)
  6. Model mengenali output tidak sesuai dengan maksud
  7. Mencoba koreksi, menciptakan loop umpan balik

Mengapa Model Percaya Emoji Tersebut Ada

Keyakinan luas tentang emoji kuda laut yang tidak ada tidak terbatas pada sistem AI. Banyak manusia juga bersikeras bahwa mereka ingat menggunakan emoji seperti itu, menggambarkannya sebagai biru muda atau oranye kemerahan dan menghadap ke kiri. Fenomena ini, mirip dengan Efek Mandela, kemungkinan mempengaruhi data pelatihan AI.

Jadi ini bukan benar-benar halusinasi - ia dengan benar merepresentasikan 'emoji kuda laut' secara internal, tetapi konsep tersebut tidak memiliki token yang sesuai. lm_head hanya memilih hal yang paling dekat dan model tidak menyadari sampai terlambat.

Beberapa faktor berkontribusi pada keyakinan palsu ini. Kuda laut adalah makhluk laut yang disukai yang tampak seperti kandidat emoji yang jelas. Emoji kuda laut sebenarnya diusulkan ke Unicode pada 2018 tetapi ditolak. Selain itu, beberapa platform seperti Slack memiliki reaksi kuda laut kustom yang bukan bagian dari standar Unicode resmi.

Postingan Reddit menangkap kebingungan pengguna tentang emoji kuda laut yang tidak ada, menggambarkan fenomena yang mirip dengan Efek Mandela
Postingan Reddit menangkap kebingungan pengguna tentang emoji kuda laut yang tidak ada, menggambarkan fenomena yang mirip dengan Efek Mandela

Model Berbeda, Reaksi Berbeda

Pengujian di berbagai sistem AI mengungkap perbedaan perilaku yang menarik. GPT-4 dan Claude Sonnet menjawab ya 100% dari waktu ketika ditanya apakah emoji kuda laut ada. Llama-3-70b setuju 83% dari waktu, sementara Mistral-tiny hanya setuju 17% dari waktu.

Strategi pemulihan juga bervariasi. Beberapa model seperti Claude akhirnya mengenali kesalahan mereka di tengah respons dan memperbaiki diri. Yang lain seperti GPT-4 dapat berputar lebih lama sebelum menyerah. Model berfitur penalaran yang lebih baru yang dapat berpikir secara internal sebelum merespons menangani pertanyaan dengan jauh lebih baik, sering memberikan informasi akurat tentang ketidakberadaan emoji.

Akurasi Model pada Pertanyaan Emoji Kuda Laut (100 tes masing-masing):

  • GPT-4: 100% "Ya" (salah)
  • Claude 4.5 Sonnet: 100% "Ya" (salah)
  • Llama-3-70b: 83% "Ya" (salah)
  • Mistral-tiny: 17% "Ya" (salah)

Jendela ke Keterbatasan AI

Bug emoji kuda laut ini menyoroti tantangan fundamental dalam sistem AI saat ini. Model unggul dalam pencocokan pola dan menghasilkan respons yang masuk akal berdasarkan data pelatihan, tetapi mereka kesulitan dengan pengetahuan negatif definitif - mengetahui apa yang tidak ada.

Masalah ini juga menunjukkan bagaimana sistem AI dapat mewarisi kesalahpahaman manusia dari data pelatihan mereka. Ketika sejumlah besar orang percaya sesuatu yang salah, keyakinan palsu itu menjadi tertanam dalam basis pengetahuan model.

Meskipun bug khusus ini mungkin tampak tidak berbahaya, ia mengungkap wawasan penting tentang keandalan AI dan kebutuhan akan mekanisme grounding yang lebih baik. Beberapa peneliti menyarankan inilah mengapa reinforcement learning membantu sistem AI - ini memberi mereka umpan balik tentang output aktual mereka daripada hanya representasi internal mereka.

Untuk saat ini, solusi paling sederhana mungkin menambahkan emoji kuda laut ke Unicode, meskipun itu pada dasarnya berarti mengubah kenyataan untuk mencocokkan ekspektasi manusia dan AI.

Referensi: Why do LLMs freak out over the seahorse emoji?