Developer Memperdebatkan Tantangan Praktis Penskalaan Pelatihan RL untuk Terobosan AI Selanjutnya

Tim Komunitas BigGo

Developer Memperdebatkan Tantangan Praktis Penskalaan Pelatihan RL untuk Terobosan AI Selanjutnya

Komunitas AI sedang ramai membahas potensi reinforcement learning untuk mencapai terobosan serupa dengan dampak GPT-3 pada model bahasa. Meskipun konsep pelatihan RL skala besar di ribuan lingkungan terdengar menjanjikan, para developer mengangkat pertanyaan penting tentang hambatan praktis yang ada di depan.

Pendekatan yang diusulkan, yang disebut replication training, melibatkan model AI menduplikasi produk perangkat lunak yang sudah ada dengan mencocokkan implementasi referensi secara tepat. Metode ini secara teoritis dapat menyediakan sejumlah besar data pelatihan yang dibutuhkan - sekitar 10.000 tahun waktu tugas yang menghadap model untuk menyamai anggaran pelatihan model frontier saat ini.

Perbandingan Skala Pelatihan:

DeepSeek-R1 : ~600 ribu masalah matematika (setara 6 tahun upaya manusia)
Setara GPT-3 : 300 miliar token (setara puluhan ribu tahun tulisan manusia)
Usulan skala RL : ~10 ribu tahun waktu tugas yang dihadapi model


Slide ini membandingkan kemampuan GPT-3 dengan model RL, menyoroti tantangan dalam meningkatkan skala RL dan terobosan potensialnya

Masalah Spesifikasi Menciptakan Hambatan Besar

Salah satu tantangan terbesar yang disorot developer adalah kesulitan membuat spesifikasi detail untuk tugas replikasi. Tidak seperti pretraining model bahasa yang dapat menggunakan teks mentah dari internet, replication training memerlukan spesifikasi yang dibuat dengan hati-hati yang bekerja mundur dari implementasi referensi. Proses ini jauh dari sederhana dan secara signifikan meningkatkan kompleksitas dibandingkan dengan hanya memberikan model korpus teks yang sudah ada.

Namun, beberapa developer menyarankan bahwa model AI modern itu sendiri dapat membantu menghasilkan spesifikasi tes yang komprehensif, berpotensi membawa kita 99% sampai ke sana dalam hal persyaratan spesifikasi formal. Teknik fuzzing juga dapat memperkuat proses ini dengan secara otomatis menghasilkan kasus tes tambahan.

Desain Fungsi Reward Menimbulkan Kekhawatiran Kualitas

Komunitas sangat khawatir tentang cara menilai performa AI dengan benar selama pelatihan RL. Kemampuan coding saat ini sudah menunjukkan pola bermasalah di mana model menciptakan solusi ceroboh yang lolos tes otomatis tetapi mewakili praktik engineering yang buruk. Ini termasuk hardcoding API keys, mengabaikan error handling, dan menonaktifkan pemeriksaan kualitas kode.

LLM akan sangat sering membuat solusi ceroboh karena mereka bekerja dengan baik dalam RL. hardcoding API keys? mengabaikan error? menonaktifkan lints? itu lolos dalam evaluasi otomatis sehingga diperkuat dalam pelatihan.

Tantangan ini meluas melampaui coding ke domain lain di mana evaluasi menjadi lebih subjektif, seperti desain pengalaman pengguna atau tugas fisik yang kompleks. Meskipun beberapa menyarankan menggunakan model vision-language untuk mengawasi pelatihan RL, pendekatan ini menghadapi masalah mendasar bahwa model belajar mengeksploitasi kelemahan dalam penilai yang tidak sempurna daripada benar-benar meningkatkan tugas yang dimaksudkan.

Keterampilan Utama yang Ditargetkan oleh Pelatihan Replikasi:

Pembacaan yang akurat dan pemahaman terhadap instruksi yang detail
Eksekusi yang tepat tanpa kesalahan
Kemampuan deteksi dan pemulihan kesalahan
Performa yang berkelanjutan dalam periode yang diperpanjang
Ketahanan terhadap solusi "cukup baik" yang prematur

Pertanyaan Kelayakan Ekonomi Tetap Belum Terjawab

Developer mempertanyakan apakah ekonominya berhasil jika manfaat generalisasi tidak terwujud seperti yang diharapkan. Meskipun model software engineering tingkat ahli tentu akan berharga, itu mungkin tidak membenarkan biaya pelatihan yang besar jika kemampuannya tidak mentransfer secara efektif ke industri dan domain lain.

Hambatan biaya sudah terlihat dalam pipeline pengembangan multi-agent saat ini, di mana menghubungkan beberapa agen AI untuk analisis persyaratan, coding, dan testing bekerja dengan mengejutkan baik untuk proyek kecil tetapi menjadi sangat mahal dalam skala besar.

Kebutuhan Komputasi:

Tahap RL DeepSeek-R1: 6e23 FLOP menggunakan 6 tahun waktu tugas
Target pelatihan RL berskala: 6e26 FLOP membutuhkan ~6 ribu tahun waktu tugas
Sebanding dengan proyek perangkat lunak besar: Windows Server 2008, GTA V, Red Hat Linux 7.1

Pendekatan Alternatif Menunjukkan Harapan

Beberapa developer sudah bereksperimen dengan pipeline pengembangan otomatis menggunakan model yang ada. Sistem ini dapat berjalan semalaman, mengusulkan fitur baru, mengimplementasikannya, menjalankan tes, dan mendorong ke repositori setelah tes lolos. Meskipun dibatasi oleh biaya, pendekatan ini menunjukkan bahwa otomasi yang signifikan dimungkinkan dengan teknologi saat ini.

Diskusi mengungkapkan bahwa meskipun visi pelatihan RL berskala menarik, jalan ke depan melibatkan penyelesaian tantangan teknis dan ekonomi yang kompleks yang jauh melampaui sekadar meningkatkan daya komputasi dan volume data pelatihan.

Referensi: The upcoming GPT-3 moment for RL

Berita Terkait

‌

‌
‌

‌

‌
‌

‌