Peneliti Menantang Klaim "Penalaran" AI dengan Tes Model Kecil, Memicu Perdebatan Tentang Validitas Studi

Tim Komunitas BigGo
Peneliti Menantang Klaim "Penalaran" AI dengan Tes Model Kecil, Memicu Perdebatan Tentang Validitas Studi

Sebuah makalah penelitian baru yang mengklaim bahwa model AI hanya mensimulasikan penalaran daripada benar-benar memahami logika telah memicu perdebatan sengit di komunitas teknologi. Meskipun para peneliti dari University of Arizona menyimpulkan bahwa penalaran chain-of-thought adalah fatamorgana yang rapuh, banyak ahli mempertanyakan apakah temuan mereka yang berdasarkan model eksperimental kecil dapat memberikan informasi bermakna tentang sistem AI yang kuat saat ini.

Masalah Model Mainan Membagi Para Ahli

Penelitian ini menggunakan model yang sangat kecil dengan hanya 4 lapisan dan 32 dimensi tersembunyi - sebagian kecil dari ukuran sistem AI produksi. Hal ini telah memicu kritik keras dari komunitas, dengan banyak pihak berargumen bahwa menarik kesimpulan tentang kemampuan AI modern dari eksperimen yang begitu terbatas adalah menyesatkan. Para peneliti menguji model-model mini ini pada transformasi teks sederhana seperti rotasi huruf dan pergeseran siklis, kemudian mengukur seberapa baik mereka dapat menggeneralisasi ke tugas yang sedikit berbeda.

Para kritikus menunjukkan bahwa pendekatan ini memiliki cacat fundamental. Model kecil telah diketahui berperilaku sangat berbeda dari rekan-rekan mereka yang lebih besar, dan tugas-tugas spesifik yang dipilih - seperti memutar huruf dalam teks - adalah area lemah yang dikenal untuk model bahasa berbasis token. Beberapa anggota komunitas mencatat bahwa kekhawatiran serupa muncul dengan penelitian sebelumnya tentang melatih model AI pada output mereka sendiri, di mana headline mengkhawatirkan tentang keruntuhan katastrofik kemudian terbukti tidak berlaku untuk sistem dunia nyata.

Spesifikasi Model Penelitian:

  • Arsitektur: Model decoder-only GPT-2
  • Lapisan: 4 (dibandingkan dengan ratusan pada model produksi)
  • Dimensi tersembunyi: 32
  • Attention heads: 4
  • Tugas pelatihan: Sandi ROT dan pergeseran siklis

Kinerja Dunia Nyata Bertentangan dengan Temuan Laboratorium

Ketidaksesuaian antara hasil laboratorium dan pengalaman praktis telah menjadi titik perdebatan utama. Banyak pengembang melaporkan berhasil menggunakan model AI untuk tugas penalaran kompleks yang jauh melampaui pencocokan pola sederhana. Ini termasuk menghasilkan kode untuk kerangka kerja khusus yang tidak pernah ditemui model sebelumnya dan memecahkan masalah baru yang memerlukan sintesis beberapa konsep yang tidak familiar.

Saya telah menggunakan LLM untuk menghasilkan kode untuk kerangka kerja serverless khusus yang saya tulis dari awal yang tidak pernah dilihatnya sebelumnya... Saya tahu pasti bahwa mereka dapat mensintesis dan menggabungkan konsep-konsep yang tidak familiar dalam cara logis yang kompleks untuk memberikan kemampuan baru.

Kesuksesan praktis ini sangat kontras dengan temuan penelitian, membuat beberapa pihak mempertanyakan apakah lingkungan laboratorium yang terkontrol menangkap kemampuan sebenarnya dari sistem AI modern.

Pertanyaan Skala dan Kemunculan

Ketidaksepakatan fundamental telah muncul tentang apakah ukuran model hanya mewakili perubahan parameter sepele atau lompatan kualitatif dalam kemampuan. Beberapa pihak berargumen bahwa kemampuan penalaran sistem AI muncul hanya pada skala tertentu, membuat penelitian model kecil tidak relevan untuk memahami sistem produksi. Yang lain berpendapat bahwa keterbatasan dasar harus konsisten di seluruh ukuran model, dan bahwa klaim tentang efek ambang batas magis tidak berdasar.

Perdebatan ini menyentuh pertanyaan yang lebih dalam tentang bagaimana sistem AI bekerja. Penelitian terbaru menunjukkan bahwa model transformer dengan terlalu sedikit lapisan relatif terhadap panjang urutan menghadapi keterbatasan fundamental, dengan beberapa tugas menjadi tidak mungkin ketika jumlah lapisan tidak mencukupi. Ini menimbulkan pertanyaan tentang apakah model 4-lapisan yang digunakan dalam studi tersebut bahkan mampu melakukan tugas penalaran yang diminta untuk mereka lakukan.

Implikasi Industri dan Arah Masa Depan

Meskipun ada perdebatan akademis, implikasi praktis tetap signifikan. Penelitian ini menyoroti pertanyaan penting tentang keandalan AI, terutama dalam aplikasi berisiko tinggi seperti kedokteran dan keuangan. Namun, konsensus komunitas tampaknya bergeser ke arah pendekatan yang lebih bernuansa yang menggabungkan jaringan saraf dengan sistem penalaran simbolis.

Kontroversi ini juga mencerminkan ketegangan yang lebih luas dalam penelitian AI antara studi laboratorium yang terkontrol dan penerapan dunia nyata. Meskipun eksperimen yang dikontrol dengan hati-hati memberikan wawasan berharga, mereka mungkin tidak menangkap kompleksitas penuh tentang bagaimana sistem ini berperilaku dalam praktik. Saat bidang ini terus berkembang dengan cepat, para peneliti menghadapi tantangan untuk mengembangkan metode evaluasi yang dapat mengimbangi kemampuan yang terus berkembang sambil memberikan wawasan bermakna bagi pengembang dan pengguna.

Referensi: LLMs' simulated reasoning abilities are a brittle mirage, researchers find