LLM Kesulitan dengan Petualangan Teks Klasik Meski Dilatih dengan Data Game Puluhan Tahun

Tim Komunitas BigGo
LLM Kesulitan dengan Petualangan Teks Klasik Meski Dilatih dengan Data Game Puluhan Tahun

Sebuah evaluasi baru mengungkapkan bahwa bahkan model bahasa besar paling canggih menunjukkan performa yang mengejutkan buruk dalam game petualangan berbasis teks, meskipun kemungkinan memiliki akses ke panduan dan solusi game dalam data pelatihan mereka. Penelitian ini menguji model-model populer seperti GPT-5 , Claude , dan Gemini di berbagai judul fiksi interaktif klasik, dan menemukan bahwa tidak ada yang mencapai hasil yang mengesankan.

Metodologi Evaluasi

  • Sesi permainan dengan batasan giliran dan pencapaian yang telah ditentukan sebelumnya
  • Penilaian pencapaian dikelompokkan berdasarkan progres awal permainan
  • Penyesuaian regresi linear untuk variasi tingkat kesulitan permainan
  • Pengujian dilakukan pada 7 judul fiksi interaktif klasik termasuk " Lost Pig ", " Plundered Hearts ", dan " 9:05 "

Kesenjangan Kecerdasan Fundamental

Performa buruk ini menyoroti perbedaan krusial antara pemrosesan bahasa dan kemampuan penalaran sejati. LLM saat ini berfungsi sebagai sistem pencocokan pola yang canggih daripada mesin pemodelan dunia yang mampu memahami hubungan spasial, rantai sebab-akibat, dan mekanika game. Keterbatasan ini menjadi jelas ketika model menghadapi lingkungan interaktif yang memerlukan perencanaan multi-langkah dan pelacakan status.

Melihat evaluasi ini cukup menarik bagaimana buruknya performa model-model ini bahkan pada game berusia puluhan tahun yang hampir pasti memiliki panduan yang tersebar di seluruh data pelatihan mereka.

Penelitian ini menggunakan sistem penilaian berbasis pencapaian, menetapkan batas giliran dan mengukur berapa banyak tujuan yang telah ditentukan sebelumnya yang dapat dicapai oleh setiap model. Game seperti Lost Pig dan Plundered Hearts terbukti lebih cocok untuk evaluasi karena urutan pembukaan yang linear, sementara judul dengan opsi eksplorasi ekstensif menunjukkan variasi tinggi antar percobaan.

Wawasan Kinerja Utama

  • Variasi tinggi dalam skor untuk game yang banyak eksplorasi seperti " So Far "
  • Game pembuka linear seperti " Lost Pig " memberikan metrik evaluasi yang lebih konsisten
  • Tidak ada model yang mencapai hasil yang konsisten mengesankan di semua game yang diuji
  • Signifikansi statistik terbatas oleh ukuran sampel kecil di berbagai model

Analisis Biaya-Performa Mengungkap Pemenang yang Jelas

Di antara model yang diuji, Gemini 2.5 Flash muncul sebagai pemain terdepan ketika mempertimbangkan efisiensi kemampuan dan biaya. Model ini menyamai atau melampaui performa alternatif yang jauh lebih mahal sambil mempertahankan waktu respons yang lebih cepat. Temuan ini menantang asumsi bahwa model tingkat premium secara otomatis memberikan hasil superior untuk tugas interaktif.

Metodologi evaluasi disesuaikan untuk tingkat kesulitan game menggunakan regresi linear, memberikan koefisien yang memperhitungkan tingkat tantangan yang bervariasi di berbagai judul yang berbeda. Sebagian besar perbedaan performa model tidak memiliki signifikansi statistik karena ukuran sampel yang terbatas, tetapi hasilnya menawarkan wawasan arah yang berharga untuk pemilihan model.

Model Berkinerja Terbaik (Disesuaikan dengan Biaya)

  • Gemini 2.5 Flash : Rasio kinerja-biaya terbaik
  • Claude 4 Sonnet : Kinerja kuat namun biaya lebih tinggi
  • GPT-5 Chat : Referensi kinerja dasar
  • Sebagian besar model premium tidak menunjukkan keunggulan signifikan dibanding alternatif yang lebih murah

Implikasi untuk Pengembangan AI

Evaluasi petualangan teks ini mengekspos keterbatasan kritis dalam kemampuan sistem AI saat ini untuk mempertahankan model dunia yang koheren dan menjalankan tugas penalaran berurutan. Tidak seperti benchmark statis yang berpotensi dapat dihafal oleh model, game interaktif memerlukan adaptasi real-time terhadap status yang berubah dan situasi baru.

Penelitian ini menambah bukti yang berkembang bahwa mencapai kecerdasan buatan umum memerlukan lebih dari sekadar meningkatkan skala model bahasa. Ketidakmampuan untuk unggul dalam game yang dirancang untuk hiburan manusia - meskipun berpotensi memiliki akses ke solusi selama pelatihan - menunjukkan kesenjangan fundamental dalam cara sistem ini memproses dan menerapkan pengetahuan dalam konteks dinamis.

Temuan ini memiliki implikasi praktis untuk menerapkan LLM dalam aplikasi yang memerlukan penalaran berkelanjutan selama beberapa siklus interaksi, seperti layanan pelanggan, pemecahan masalah teknis, atau skenario tutorial pendidikan.

Referensi: Evaluating LLMs Playing Text Adventures