Peneliti AI Berselisih Mengenai Apakah Penalaran Chain-of-Thought Itu Nyata atau Hanya Pencocokan Pola

Tim Komunitas BigGo
Peneliti AI Berselisih Mengenai Apakah Penalaran Chain-of-Thought Itu Nyata atau Hanya Pencocokan Pola

Komunitas AI terlibat dalam perdebatan sengit tentang apakah penalaran chain-of-thought dalam model bahasa besar merepresentasikan penalaran sejati atau pencocokan pola yang canggih. Diskusi ini semakin menguat menyusul makalah penelitian terbaru yang mempertanyakan sifat fundamental dari kemampuan penalaran AI.

Ketidaksepakatan Inti: Apa yang Dianggap sebagai Penalaran Nyata?

Perdebatan berpusat pada pertanyaan fundamental yang telah membagi para peneliti dan praktisi. Sebuah makalah terbaru dari Arizona State University melatih model kecil dengan 600.000 parameter pada tugas transformasi alfabet sederhana, menemukan bahwa model tersebut kesulitan ketika menghadapi operasi di luar data pelatihannya. Para peneliti menyimpulkan bahwa penalaran chain-of-thought mungkin adalah fatamorgana - tampak nyata tetapi sebenarnya hanya pola yang dihafal.

Namun, para kritikus berargumen bahwa kesimpulan ini cacat. Mereka menunjukkan bahwa studi tersebut menggunakan tugas yang pada dasarnya adalah komputasi daripada penalaran. Penalaran sejati memerlukan kemampuan untuk mengubah arah, mundur, dan mempertimbangkan berbagai pendekatan - kemampuan yang tidak diuji oleh transformasi alfabet sederhana.

Parameter Studi Arizona State University:

  • Ukuran model: ~600.000 parameter (4 lapisan)
  • Jenis tugas: Operasi transformasi alfabet (contoh: "A B C D [M1]" → "B C D E")
  • Data pelatihan: Berbagai jenis operasi dengan contoh chain-of-thought
  • Temuan utama: Performa menurun secara signifikan dengan kombinasi operasi yang belum pernah dilihat atau perubahan format

Masalah Perbandingan dengan Manusia

Salah satu argumen tandingan yang paling meyakinkan berfokus pada bagaimana penalaran manusia sebenarnya bekerja dalam praktik. Para kritikus mencatat bahwa manusia juga sangat bergantung pada pola yang dipelajari, menyertakan detail yang tidak relevan dalam penalaran mereka, dan kesulitan ketika bekerja di luar bidang keahlian mereka. Penalar berprinsip yang ideal yang dibandingkan dengan model AI dalam beberapa makalah sama sekali tidak ada dalam kenyataan.

LLM membangun rantai logika superfisial berdasarkan asosiasi token yang dipelajari, sering gagal pada tugas yang menyimpang dari heuristik akal sehat atau template yang familiar

Kritik ini berlaku sama untuk penalar manusia, menimbulkan pertanyaan apakah kita menerapkan standar yang mustahil untuk AI.

Keterbatasan Teknis dari Studi Saat Ini

Komunitas telah mengidentifikasi beberapa masalah teknis dengan studi penalaran terbaru. Penelitian Arizona State menggunakan model yang sangat kecil yang tidak memiliki kapasitas untuk penalaran canggih. Kemampuan penalaran modern tampaknya merupakan properti emergen yang hanya muncul pada model yang jauh lebih besar.

Selain itu, tugas yang digunakan dalam banyak studi tidak memerlukan penalaran aktual. Transformasi sederhana seperti memajukan setiap huruf satu langkah adalah tugas komputasi dengan jalur tunggal yang benar, tidak seperti masalah penalaran sejati yang melibatkan eksplorasi berbagai solusi potensial.

Keterbatasan Studi yang Diidentifikasi Komunitas:

  • Model terlalu kecil untuk kemampuan penalaran yang muncul
  • Tugas-tugas bersifat komputasional daripada berbasis penalaran
  • Tidak ada perbandingan dengan kinerja penalaran manusia
  • Tidak memiliki mekanisme untuk mundur atau mengubah arah
  • Tidak ada definisi filosofis yang jelas tentang penalaran "nyata" yang diberikan

Perpecahan Filosofi vs. Praktik

Diskusi mengungkapkan ketegangan yang lebih dalam antara definisi filosofis penalaran dan aplikasi praktis. Beberapa anggota komunitas berargumen untuk fokus pada penalaran kausal daripada korelasi statistik, sementara yang lain mempertanyakan apakah perbedaan seperti itu penting jika outputnya berguna.

Perdebatan juga menyentuh pertanyaan fundamental tentang kesadaran dan kecerdasan yang telah diperjuangkan filsafat selama berabad-abad. Tanpa definisi yang jelas tentang apa yang merupakan penalaran nyata, menjadi hampir mustahil untuk secara definitif menjawab apakah sistem AI memiliki kemampuan ini.

Usulan Perbaikan untuk Penelitian Masa Depan:

  • Gunakan model yang lebih besar (1B+ parameter) di mana kemampuan penalaran muncul
  • Rancang tugas yang memerlukan beberapa jalur solusi dan kemampuan backtracking
  • Sertakan perbandingan baseline manusia untuk tugas penalaran
  • Fokus pada masalah yang memerlukan eksplorasi alternatif daripada komputasi jalur tunggal
  • Integrasikan model matematika berdasarkan penelitian ilmu kognitif

Arah Penelitian Masa Depan

Komunitas menyerukan pendekatan yang lebih canggih untuk mempelajari penalaran AI. Saran termasuk mengembangkan model yang dapat memproses informasi dari waktu ke waktu dalam ruang laten daripada dibatasi pada generasi token-demi-token, dan menciptakan benchmark yang lebih baik yang benar-benar memerlukan penalaran daripada komputasi.

Ada juga minat yang berkembang pada model matematika penalaran berdasarkan ilmu kognitif, yang dapat memberikan kerangka kerja yang lebih ketat untuk memahami dan meningkatkan kemampuan penalaran AI.

Perdebatan pada akhirnya menyoroti bagaimana pengembangan AI memaksa kita untuk mempertimbangkan kembali asumsi fundamental tentang kecerdasan, penalaran, dan kesadaran - pertanyaan yang mungkin memerlukan baik inovasi teknis maupun kejelasan filosofis untuk diselesaikan.

Referensi: Is chain-of-thought AI reasoning a mirage?