Model Kecil 7 Juta Parameter Diklaim Mengungguli Large Language Model dalam Tugas Penalaran Kompleks

Tim Komunitas BigGo

Model Kecil 7 Juta Parameter Diklaim Mengungguli Large Language Model dalam Tugas Penalaran Kompleks

Sebuah makalah penelitian baru telah memicu perdebatan sengit di komunitas AI dengan mengklaim bahwa model kecil berparameter 7 juta dapat mengungguli model bahasa masif dalam tugas penalaran kompleks. Model Tiny Recursion Model ( TRM ) dilaporkan mencapai akurasi 45% pada benchmark ARC-AGI-1 dan 8% pada ARC-AGI-2 , menggunakan kurang dari 0,01% parameter yang ditemukan dalam model seperti DeepSeek R1 atau Gemini 2.5 Pro .

Perbandingan Performa TRM vs Large Language Models

Model	Parameter	Akurasi ARC-AGI-1	Akurasi ARC-AGI-2
TRM	7M	45%	8%
DeepSeek R1	~70B+	Lebih rendah dari TRM*	Lebih rendah dari TRM*
Gemini 2.5 Pro	~1.5T+	Lebih rendah dari TRM*	Lebih rendah dari TRM*
o3-mini	Tidak diketahui	Lebih rendah dari TRM*	Lebih rendah dari TRM*

*Skor spesifik tidak disediakan dalam materi sumber


Sebuah makalah penelitian yang membahas Tiny Recursion Model ( TRM ) dan kinerjanya yang mengejutkan pada tugas penalaran kompleks dengan hanya 7 juta parameter

Skeptisisme Komunitas terhadap Kondisi Benchmark

Komunitas penelitian AI telah mengangkat kekhawatiran signifikan tentang metode evaluasi yang digunakan dalam studi ini. Kritikus menunjuk pada analisis detail oleh penyelenggara ARC-AGI yang mengungkapkan klaim terobosan serupa dari Hierarchical Reasoning Model ( HRM ) sebelumnya ternyata menyesatkan. Ketika diuji dalam kondisi standar yang digunakan oleh model bahasa komersial, peningkatan performa sebagian besar menghilang. Komunitas mencatat bahwa baik HRM maupun TRM menggunakan pengaturan pelatihan khusus termasuk augmentasi data dan pelatihan test-time yang biasanya tidak tersedia untuk model tujuan umum.

Benchmark ARC-AGI , yang berfokus pada tugas penalaran spasial, telah menjadi sumber kontroversi karena apa yang dilihat beberapa pihak sebagai klaim yang dilebih-lebihkan. Salah satu anggota komunitas mencatat bahwa ketika transformer standar diuji dalam kondisi khusus yang sama seperti HRM , ia mencapai performa yang sebanding, menunjukkan bahwa arsitektur itu sendiri bukanlah faktor kunci.

Ruang Lingkup Terbatas dan Aplikasi Praktis

Meskipun hasilnya tampak mengesankan di atas kertas, para ahli menyoroti keterbatasan signifikan yang membatasi kegunaan dunia nyata. Model ini unggul secara khusus dalam puzzle penalaran spasial tetapi belum menunjukkan kemampuan luas yang diperlukan untuk aplikasi AI umum. Tidak seperti large language model yang dapat menangani tugas beragam dari menulis hingga pertanyaan faktual, model rekursif kecil ini akan memerlukan sistem memori eksternal dan tidak dapat mengandalkan pengetahuan tersimpan.

Ini tidak akan bagus untuk pertanyaan faktual, sebagai permulaan; ini akan bergantung pada memori eksternal. Semuanya harus dipikirkan dari prinsip pertama, tanpa pengetahuan.

Keterbatasan ini berarti pendekatan tersebut mungkin bekerja paling baik sebagai modul penalaran khusus daripada pengganti sistem AI tujuan umum. Komunitas menyarankan model-model ini dapat berfungsi sebagai alat khusus untuk tugas logis spesifik sementara model yang lebih besar menangani pengambilan pengetahuan dan generasi bahasa.

Spesifikasi Teknis Utama

Arsitektur: Jaringan kecil tunggal dengan hanya 2 lapisan
Data Pelatihan: Dataset kecil (~1000 contoh)
Proses Rekursif: Hingga K langkah perbaikan dengan pembaruan status laten
Spesialisasi: Tugas penalaran spasial (benchmark ARC-AGI )
Keterbatasan: Tidak ada penyimpanan pengetahuan faktual, memerlukan sistem memori eksternal

Implikasi Ekonomi dan Teknis

Meskipun ada skeptisisme, beberapa anggota komunitas melihat potensi perubahan dramatis dalam ekonomi AI jika pendekatan ini terbukti layak dalam skala besar. Kemungkinan mencapai performa penalaran yang kuat dengan sumber daya komputasi minimal dapat mengubah investasi pusat data dan membuat AI lebih mudah diakses. Namun, yang lain berpendapat bahwa bahkan dengan model yang lebih efisien, permintaan untuk daya komputasi akan bergeser ke aplikasi lain seperti generasi video.

Diskusi ini mengungkapkan ketegangan yang lebih luas dalam pengembangan AI antara meningkatkan arsitektur yang ada dan mengeksplorasi pendekatan yang secara fundamental berbeda. Sementara model bahasa saat ini mengandalkan dataset masif dan daya komputasi, metode penalaran rekursif ini mencoba mencapai kecerdasan melalui inovasi arsitektur daripada penskalaan brute force.

Penelitian ini mewakili arah yang menarik untuk pengembangan AI, tetapi konsensus komunitas menunjukkan evaluasi yang lebih ketat dalam kondisi standar diperlukan sebelum menarik kesimpulan tentang potensi sebenarnya.

Referensi: Less is More: Recursive Reasoning with Tiny Networks

Berita Terkait

‌

‌
‌

‌

‌
‌

‌