Komunitas kecerdasan buatan sedang bergulat dengan pertanyaan yang meresahkan: apakah mengerahkan komputasi dalam jumlah besar pada reinforcement learning benar-benar berhasil? Perdebatan ini semakin menguat menyusul laporan tentang performa Grok 4 , yang tampaknya hanya menunjukkan peningkatan marjinal meskipun upaya scaling yang signifikan.
Diskusi ini berpusat pada tantangan fundamental dalam pengembangan AI - apakah scaling reinforcement learning ke tingkat kekuatan komputasi yang belum pernah ada sebelumnya, khususnya 10^26 FLOPs, dapat memberikan kemajuan yang bermakna. FLOPs, atau floating-point operations per second, berfungsi sebagai ukuran standar untuk intensitas komputasi dalam model machine learning.
Referensi Skala Komputasi:
- Skala Target: 10^26 FLOPs (operasi floating-point)
- Model Menarik Saat Ini: Rentang 10-20K FLOPs
- Peningkatan Skala: Dibutuhkan lompatan beberapa orde magnitudo
- Pengukuran: FLOPs berfungsi sebagai tolok ukur standar untuk ukuran model
Hasil Dunia Nyata Menantang Teori Scaling
Bukti paling mencolok berasal dari data performa Grok 4 . Menurut diskusi komunitas, Grok 4 merepresentasikan scaling reinforcement learning yang masif dibandingkan pendahulunya, Grok 3 . Namun, peningkatan pada benchmark standar sangat kecil dan mengecewakan, serta pengguna melaporkan perbedaan pengalaman yang minimal.
Hal ini menimbulkan pertanyaan serius tentang apakah manfaat teoretis dari scaling dapat diterjemahkan menjadi peningkatan praktis. Kesenjangan antara investasi komputasi dan peningkatan performa aktual menunjukkan bahwa sekadar menambah kekuatan pemrosesan mungkin bukan solusi ajaib yang diharapkan banyak orang.
Perbandingan Model Grok:
- Grok 3: Model dasar dengan implementasi RL standar
- Grok 4: Versi RL yang diperbesar secara masif dari Grok 3
- Kesenjangan Performa: Peningkatan minimal pada benchmark meskipun scaling yang signifikan
- Pengalaman Pengguna: Dilaporkan tidak ada perbedaan pengalaman yang berarti
Pendekatan Teknis Dalam Sorotan
Komunitas penelitian AI sedang mengeksplorasi berbagai solusi teknis untuk membuat scaling RL lebih efektif. Salah satu pendekatan yang menjanjikan melibatkan membiarkan model berpikir sebelum membuat prediksi selama pelatihan. Metode ini akan membiarkan model menggunakan token komputasi tambahan untuk penalaran internal, dengan penalti yang diterapkan untuk mencegah penggunaan berlebihan dari sumber daya pemikiran ini.
Cara yang sangat panjang untuk mengatakan selama pretraining biarkan model berpikir sebelum melanjutkan prediksi next-token dan kemudian terapkan kerugian tersebut pada gradien thinking token juga.
Teknik ini dapat membantu model memanfaatkan anggaran komputasi mereka dengan lebih baik, berpotensi menghasilkan peningkatan yang lebih bermakna saat scaling up.
Hambatan Data Muncul Sebagai Tantangan Utama
Selain scaling komputasi, peneliti menghadapi masalah yang lebih fundamental: di mana menemukan data pelatihan berkualitas tinggi dalam jumlah yang cukup. Pendekatan tradisional membuat lingkungan pelatihan khusus, baik yang dibuat secara manual maupun otomatis, terbukti tidak memadai untuk kebutuhan data masif dari sistem RL yang di-scale.
Masalah kelangkaan data ini menjadi lebih kritis seiring model yang semakin besar. Tanpa data pelatihan yang memadai, bahkan sumber daya komputasi yang paling kuat mungkin gagal memberikan peningkatan yang diharapkan.
Tantangan Teknis yang Teridentifikasi:
- Kelangkaan data untuk pelatihan dalam skala besar
- Efektivitas terbatas dari generasi lingkungan (manual/otomatis)
- Kesenjangan antara investasi komputasi dan peningkatan performa
- Kebutuhan akan algoritma yang lebih baik di luar penskalaan mentah
Komunitas Mencari Kejelasan tentang Perbedaan Model
Perdebatan scaling juga telah menyoroti betapa sedikitnya yang diketahui publik tentang perbedaan teknis antara model AI utama. Anggota komunitas meminta lebih banyak transparansi tentang bagaimana berbagai model berbeda dalam pendekatan mereka terhadap scaling dan teknik spesifik apa yang digunakan masing-masing.
Kurangnya informasi yang jelas membuat sulit untuk menilai apakah kegagalan scaling disebabkan oleh keterbatasan teoretis atau masalah implementasi. Ketidakpastian ini memperumit upaya untuk menentukan jalan terbaik ke depan untuk pengembangan RL.
Situasi saat ini menunjukkan bahwa bidang AI mungkin perlu memikirkan kembali pendekatan mereka terhadap scaling. Daripada sekadar meningkatkan kekuatan komputasi, peneliti mungkin perlu fokus pada algoritma yang lebih efisien, pemanfaatan data yang lebih baik, dan teknik pelatihan baru yang dapat memberikan peningkatan bermakna tanpa memerlukan sumber daya yang meningkat secara eksponensial.
Referensi: How to scale RL to 10^26 FLOPs