LLM Kesulitan dengan Penalaran Spasial dalam Game Puzzle Meskipun Memiliki Kemampuan Canggih

Tim Komunitas BigGo
LLM Kesulitan dengan Penalaran Spasial dalam Game Puzzle Meskipun Memiliki Kemampuan Canggih

Para peneliti telah mengubah game puzzle populer Baba is You menjadi sebuah benchmark AI yang disebut Baba is Eval untuk menguji seberapa baik large language model menangani tugas penalaran spasial yang kompleks. Hasilnya mengungkapkan keterbatasan signifikan dalam sistem AI saat ini, bahkan model canggih seperti Claude, ketika berhadapan dengan pemecahan puzzle berbasis grid.

Proyek ini mendemonstrasikan tantangan fundamental yang dihadapi AI modern: meskipun sistem-sistem ini unggul dalam tugas bahasa dan bahkan dapat menghasilkan kode, mereka kesulitan luar biasa dengan masalah penalaran spasial yang manusia anggap intuitif. Keterbatasan ini menjadi sangat jelas dalam game puzzle di mana memahami hubungan 2D dan merencanakan solusi multi-langkah adalah hal yang esensial.

Hasil Performa Claude:

  • Berhasil menyelesaikan Level 0 (8 gerakan ke kanan)
  • Gagal pada semua level berikutnya
  • Tidak dapat melacak aturan permainan dengan andal
  • Kesulitan dalam mengidentifikasi jalur yang terblokir
  • Buruk dalam perencanaan multi-langkah
  • Kesulitan mengenali kondisi menang/kalah

Masalah Representasi Grid Teks

Salah satu isu yang paling banyak dibahas dalam komunitas berpusat pada bagaimana LLM memproses informasi spasial yang disajikan sebagai grid teks. Pendekatan saat ini dalam merepresentasikan state game sebagai grid ASCII tampaknya menciptakan hambatan signifikan bagi pemahaman AI. Model-model tampak memiliki kesulitan khusus dalam mendeteksi kolom dibandingkan baris, kemungkinan karena pelatihan mereka memperlakukan segala sesuatu sebagai teks berurutan daripada susunan spasial.

Keterbatasan arsitektural ini menunjukkan bahwa model transformer standar, yang memproses informasi secara linear, mungkin secara fundamental tidak cocok untuk tugas yang memerlukan pemahaman spasial sejati. Beberapa peneliti mengusulkan solusi seperti embedding teks 2D yang menambahkan informasi posisional untuk koordinat X dan Y, meskipun ini masih sebagian besar eksperimental.

Solusi yang Diusulkan untuk Penalaran Spasial:

  • Embedding teks 2D (menambahkan encoding posisi X,Y)
  • Struktur koordinat berbasis JSON
  • Representasi berbasis graf
  • Deskripsi koordinat semantik
  • Tokenisasi khusus untuk data spasial
  • Alat abstraksi gerakan (misalnya, fungsi move_to())

Perdebatan Memorisasi vs. Penalaran

Kekhawatiran signifikan yang diangkat oleh komunitas melibatkan apakah LLM benar-benar memecahkan puzzle melalui penalaran atau hanya mengingat solusi dari data pelatihan mereka. Karena solusi Baba is You tersedia luas secara online, ada kekhawatiran yang sah bahwa kesuksesan yang tampak mungkin mencerminkan memorisasi daripada kemampuan pemecahan masalah yang asli.

Namun, bahkan ketika diuji pada level dengan solusi yang diketahui, model saat ini seperti Claude gagal memecahkan puzzle dasar di luar level tutorial yang paling sederhana. Ini menunjukkan bahwa bahkan memorisasi tidak bekerja secara efektif, menyoroti masalah yang lebih dalam tentang bagaimana sistem-sistem ini memproses dan menerapkan penalaran spasial.

Perbandingan dengan Sistem AI Khusus Game

Diskusi mengungkapkan kontras menarik antara LLM tujuan umum dan sistem AI khusus. Meskipun neural network khusus yang dilatih secara spesifik pada game puzzle kemungkinan dapat mengungguli Claude secara signifikan, tujuannya bukan hanya memecahkan game tetapi menguji kemampuan kecerdasan umum.

Neural network feed-forward sederhana dengan pelatihan yang cukup dapat memecahkan level jauh lebih baik daripada Claude.

Observasi ini menggarisbawahi poin kunci: tantangannya bukan menciptakan AI yang dapat mengalahkan game puzzle, tetapi mengembangkan sistem yang mendemonstrasikan kecerdasan umum sejati dengan menangani tugas beragam tanpa pelatihan khusus.

Detail Implementasi Teknis:

  • Status permainan diambil melalui hook mod Lua
  • Perintah dieksekusi dengan latensi 50-150ms
  • Menggunakan server MCP ( Model Context Protocol )
  • Representasi grid teks untuk data spasial
  • Navigasi level melalui simulasi penekanan tombol
  • Ukuran biner permainan: 8MB dengan skrip Lua

Implikasi untuk Benchmarking AI

Proyek Baba is Eval bergabung dengan koleksi benchmark yang berkembang yang dirancang untuk menguji kemampuan AI di luar tugas bahasa tradisional. Tidak seperti beberapa benchmark yang ada, game puzzle menawarkan keuntungan memiliki aturan yang terdefinisi dengan baik dan kriteria sukses yang jelas, menjadikannya alat yang berpotensi berharga untuk mengukur kemajuan AI.

Diskusi komunitas menunjukkan bahwa tantangan penalaran spasial ini mungkin merepresentasikan tes kecerdasan yang lebih fundamental daripada benchmark saat ini. Kemampuan untuk memahami dan memanipulasi hubungan spasial, merencanakan solusi multi-langkah, dan beradaptasi dengan set aturan yang berubah mencerminkan banyak skenario pemecahan masalah dunia nyata.

Penelitian ini menyoroti kesenjangan krusial antara kemampuan AI saat ini dan penalaran seperti manusia. Meskipun LLM terus berkembang pada tugas berbasis bahasa, perjuangan mereka dengan penalaran spasial menunjukkan bahwa mencapai kecerdasan buatan umum yang sesungguhnya mungkin memerlukan perubahan arsitektural fundamental daripada hanya menskalakan pendekatan yang ada.

Referensi: Baba is Eval