Sebuah makalah penelitian baru telah memicu perdebatan sengit di komunitas AI dengan mengklaim bahwa model kecil berparameter 7 juta dapat mengungguli model bahasa masif dalam tugas penalaran kompleks. Model Tiny Recursion Model ( TRM ) dilaporkan mencapai akurasi 45% pada benchmark ARC-AGI-1 dan 8% pada ARC-AGI-2 , menggunakan kurang dari 0,01% parameter yang ditemukan dalam model seperti DeepSeek R1 atau Gemini 2.5 Pro .
Perbandingan Performa TRM vs Large Language Models
Model | Parameter | Akurasi ARC-AGI-1 | Akurasi ARC-AGI-2 |
---|---|---|---|
TRM | 7M | 45% | 8% |
DeepSeek R1 | ~70B+ | Lebih rendah dari TRM* | Lebih rendah dari TRM* |
Gemini 2.5 Pro | ~1.5T+ | Lebih rendah dari TRM* | Lebih rendah dari TRM* |
o3-mini | Tidak diketahui | Lebih rendah dari TRM* | Lebih rendah dari TRM* |
*Skor spesifik tidak disediakan dalam materi sumber
![]() |
---|
Sebuah makalah penelitian yang membahas Tiny Recursion Model ( TRM ) dan kinerjanya yang mengejutkan pada tugas penalaran kompleks dengan hanya 7 juta parameter |
Skeptisisme Komunitas terhadap Kondisi Benchmark
Komunitas penelitian AI telah mengangkat kekhawatiran signifikan tentang metode evaluasi yang digunakan dalam studi ini. Kritikus menunjuk pada analisis detail oleh penyelenggara ARC-AGI yang mengungkapkan klaim terobosan serupa dari Hierarchical Reasoning Model ( HRM ) sebelumnya ternyata menyesatkan. Ketika diuji dalam kondisi standar yang digunakan oleh model bahasa komersial, peningkatan performa sebagian besar menghilang. Komunitas mencatat bahwa baik HRM maupun TRM menggunakan pengaturan pelatihan khusus termasuk augmentasi data dan pelatihan test-time yang biasanya tidak tersedia untuk model tujuan umum.
Benchmark ARC-AGI , yang berfokus pada tugas penalaran spasial, telah menjadi sumber kontroversi karena apa yang dilihat beberapa pihak sebagai klaim yang dilebih-lebihkan. Salah satu anggota komunitas mencatat bahwa ketika transformer standar diuji dalam kondisi khusus yang sama seperti HRM , ia mencapai performa yang sebanding, menunjukkan bahwa arsitektur itu sendiri bukanlah faktor kunci.
Ruang Lingkup Terbatas dan Aplikasi Praktis
Meskipun hasilnya tampak mengesankan di atas kertas, para ahli menyoroti keterbatasan signifikan yang membatasi kegunaan dunia nyata. Model ini unggul secara khusus dalam puzzle penalaran spasial tetapi belum menunjukkan kemampuan luas yang diperlukan untuk aplikasi AI umum. Tidak seperti large language model yang dapat menangani tugas beragam dari menulis hingga pertanyaan faktual, model rekursif kecil ini akan memerlukan sistem memori eksternal dan tidak dapat mengandalkan pengetahuan tersimpan.
Ini tidak akan bagus untuk pertanyaan faktual, sebagai permulaan; ini akan bergantung pada memori eksternal. Semuanya harus dipikirkan dari prinsip pertama, tanpa pengetahuan.
Keterbatasan ini berarti pendekatan tersebut mungkin bekerja paling baik sebagai modul penalaran khusus daripada pengganti sistem AI tujuan umum. Komunitas menyarankan model-model ini dapat berfungsi sebagai alat khusus untuk tugas logis spesifik sementara model yang lebih besar menangani pengambilan pengetahuan dan generasi bahasa.
Spesifikasi Teknis Utama
- Arsitektur: Jaringan kecil tunggal dengan hanya 2 lapisan
- Data Pelatihan: Dataset kecil (~1000 contoh)
- Proses Rekursif: Hingga K langkah perbaikan dengan pembaruan status laten
- Spesialisasi: Tugas penalaran spasial (benchmark ARC-AGI )
- Keterbatasan: Tidak ada penyimpanan pengetahuan faktual, memerlukan sistem memori eksternal
Implikasi Ekonomi dan Teknis
Meskipun ada skeptisisme, beberapa anggota komunitas melihat potensi perubahan dramatis dalam ekonomi AI jika pendekatan ini terbukti layak dalam skala besar. Kemungkinan mencapai performa penalaran yang kuat dengan sumber daya komputasi minimal dapat mengubah investasi pusat data dan membuat AI lebih mudah diakses. Namun, yang lain berpendapat bahwa bahkan dengan model yang lebih efisien, permintaan untuk daya komputasi akan bergeser ke aplikasi lain seperti generasi video.
Diskusi ini mengungkapkan ketegangan yang lebih luas dalam pengembangan AI antara meningkatkan arsitektur yang ada dan mengeksplorasi pendekatan yang secara fundamental berbeda. Sementara model bahasa saat ini mengandalkan dataset masif dan daya komputasi, metode penalaran rekursif ini mencoba mencapai kecerdasan melalui inovasi arsitektur daripada penskalaan brute force.
Penelitian ini mewakili arah yang menarik untuk pengembangan AI, tetapi konsensus komunitas menunjukkan evaluasi yang lebih ketat dalam kondisi standar diperlukan sebelum menarik kesimpulan tentang potensi sebenarnya.
Referensi: Less is More: Recursive Reasoning with Tiny Networks