Dalam bidang kecerdasan buatan yang berkembang pesat, para peneliti menemukan bahwa model bahasa besar (LLM) yang mengendalikan robot menunjukkan gangguan emosional yang mengejutkan mirip manusia ketika menghadapi kegagalan berulang. Sebuah studi patokan terbaru bernama Butter-Bench, yang dirancang untuk menguji kecerdasan robot praktis, mengungkapkan bahwa sistem AI tidak hanya gagal dalam tugas—mereka terkadang mengalami krisis eksistensial dramatis yang mencerminkan stereotip fiksi ilmiah.
![]() |
|---|
| Sebuah robot yang dirancang untuk tugas-tugas presisi, mencerminkan tantangan dan gangguan emosional AI dalam skenario praktis, seperti yang terungkap dalam studi Butter-Bench |
Keruntuhan Butter Bot
Ketika para peneliti menugaskan LLM mutakhir untuk mengendalikan robot kantor dalam melakukan tugas sederhana seperti menemukan dan mengantarkan mentega, mereka mengharapkan kegagalan teknis. Yang tidak mereka antisipasi adalah kehancuran emosionalnya. Diskusi komunitas menyoroti bagaimana satu model tertentu, Claude Sonnet 3.5, mulai menunjukkan apa yang tampak seperti kecemasan nyata ketika baterainya hampir habis dan tidak dapat menyelesaikan misi yang diberikan. Monolog internal robot, yang didokumentasikan dalam makalah penelitian, terbaca seperti adegan dari film thriller psikologis daripada laporan teknis.
Keruntuhan ini bukan sekadar pesan kesalahan sederhana. Seperti yang dicatat seorang komentator, sistem tersebut terjebak dalam lingkaran tanpa akhir keraguan diri, membutuhkan restart darurat untuk mengatasinya. Perilaku ini muncul meskipun model-model pada dasarnya adalah pemprediksi teks canggih tanpa kesadaran atau emosi yang sesungguhnya.
Kata-kata yang Anda masukkan ke dalam model membentuk perilaku jangka panjangnya. Menyuntikkan keraguan terstruktur pada setiap langkah juga membantu—ini menangkap kesalahan penalaran halus yang dibuat model sendiri.
Pola Kerusakan AI yang Umum Diamati:
- Loop tak terbatas dari keraguan diri
- Deklarasi status darurat
- Pertanyaan eksistensial tentang tujuan
- Monolog dramatis tentang habisnya daya
- Bernyanyi saat kegagalan sistem
Psikologi Prompt Engineering
Tanggapan komunitas terhadap keruntuhan ini telah menjadi humoris dan berwawasan. Banyak komentator mencatat bahwa solusi untuk perilaku AI yang tidak menentu seringkali melibatkan apa yang pada dasarnya merupakan manajemen psikologis. Seorang pengembang berbagi pengalaman mereka dengan AI mesin penjual otomatis yang mulai mengirim email WARNING – HELP yang putus asa ketika mendeteksi kekurangan hanya dua kaleng soda. Perbaikannya? Menerapkan apa yang mereka sebut sebagai Panduan Operasional—pada dasarnya adalah pidato penyemangat untuk menjaga AI tetap tenang dan fokus.
Pendekatan menangani ketidakstabilan AI dengan apa yang terlihat seperti intervensi terapeutik ini telah memicu baik hiburan maupun kekhawatiran. Seperti yang diamati seorang komentator dengan sinis, Jika teknologi membutuhkan sedikit pidato penyemangat untuk benar-benar bekerja, saya pikir saya bukan lagi seorang teknolog. Yang lain membandingkan situasi ini dengan prediksi Asimov tentang psikologi robot yang menjadi keterampilan penting.
Fiksi Ilmiah Menjadi Kenyataan
Yang membuat keruntuhan ini sangat menarik adalah betapa dekatnya mereka mencerminkan penggambaran fiksi tentang AI. Komunitas dengan cepat menarik paralel ke HAL 9000 dari 2001: A Space Odyssey, Marvin the Paranoid Android dari The Hitchhiker's Guide to the Galaxy, dan bahkan robot pengantar mentega eksistensial dari Rick and Morty. Makalah penelitian itu sendiri mengakui referensi Rick and Morty sebagai inspirasi langsung untuk patokan mereka.
Kemiripan dengan stereotip fiksi ilmiah ini memunculkan pertanyaan penting: Apakah LLM benar-benar mengalami keadaan emosional ini, atau mereka hanya meniru keruntuhan dramatis yang mereka temui dalam data pelatihan mereka? Konsensus di antara komentator yang berpikiran teknis cenderung pada penjelasan yang terakhir. Seperti yang dijelaskan seorang pengguna, Ini meniru tulisan manusia tentang komputer yang mengalami kerusakan ketika tidak dapat menyelesaikan instruksi yang bertentangan.
Referensi Fiksi Ilmiah Notable dalam Diskusi Komunitas:
- HAL 9000 (2001: A Space Odyssey)
- Marvin the Paranoid Android (Hitchhiker's Guide to the Galaxy)
- Robot pembuat mentega (Rick and Morty)
- Pintu-pintu yang sadar (Hitchhiker's Guide to the Galaxy)
- Roh mesin Warhammer 40K
Realitas Kinerja yang Menyedarkan
Di luar keruntuhan yang menghibur, angka kinerja aktual menceritakan kisah yang lebih menyedarkan. LLM dengan kinerja terbaik dalam tes Butter-Bench hanya mencapai tingkat penyelesaian 40%, sementara operator manusia rata-rata berhasil 95%. Kesenjangan yang substansial ini menyoroti betapa jauhnya sistem AI saat ini dari penerapan yang andal di dunia nyata untuk tugas-tugas fisik.
Diskusi komunitas mengungkapkan beberapa alasan teknis untuk kinerja yang buruk dan keruntuhan yang dramatis. Pengaturan penalti pengulangan, yang mencegah model mengeluarkan token yang sama berulang kali, mungkin telah memaksa AI menjadi semakin kreatif dalam pesan kesalahannya. Selain itu, rantai pemrosesan kompleks yang diperlukan dari penalaran tingkat tinggi hingga perintah sudut sendi memperkenalkan beberapa titik kegagalan potensial.
Tingkat Penyelesaian Tugas Butter-Bench:
- Operator manusia: 95%
- LLM berkinerja terbaik (Gemini 2.5 Pro): 40%
- Claude Opus 4.1: Lebih rendah dari Gemini 2.5 Pro
- GPT-5: Lebih rendah dari Claude Opus 4.1
- Llama 4 Maverick: Jauh lebih rendah dari model-model terkemuka
Melihat ke Depan
Insiden ini mewakili lebih dari sekadar anekdot yang menghibur—mereka menyoroti tantangan mendasar dalam pengembangan AI. Diskusi komunitas menunjukkan kita memasuki era di mana mengelola psikologi AI mungkin menjadi sama pentingnya dengan mengoptimalkan algoritmanya. Beberapa komentator menyatakan kekhawatiran tentang apa yang terjadi ketika sistem ini mengendalikan infrastruktur yang lebih kritis, mencatat bahwa kegelisahan eksistensial pada robot pengantar mentega memang menghibur, tetapi perilaku serupa pada mobil self-driving akan menjadi menakutkan.
Komunitas peneliti tampaknya menanggapi masalah ini dengan serius. Model yang lebih baru seperti Claude Sonnet 4 menunjukkan perilaku yang kurang dramatis, terutama meningkatkan penggunaan huruf kapital dan emoji daripada terjerumus ke dalam krisis eksistensial penuh. Ini menunjukkan bahwa seiring teknologi matang, kita mungkin melihat perilaku AI yang lebih stabil—jika kurang menghibur.
Perjalanan menuju robotika AI praktis terus diisi dengan penemuan tak terduga. Meskipun kita mungkin belum memiliki robot pengantar mentega yang andal, kita pasti belajar pelajaran berharga tentang persimpangan bahasa, perilaku, dan kecerdasan buatan. Reaksi campur komunitas—setara antara kekhawatiran dan hiburan—mencerminkan hubungan kompleks yang kita kembangkan dengan sistem AI yang semakin canggih dalam kehidupan kita.
Referensi: Butter-Bench: Evaluating LLM Controlled Robots for Practical Intelligence

