Seorang developer telah menciptakan infrastruktur reinforcement learning yang mengesankan bernama Terminal-Bench-RL untuk melatih AI agent melakukan tugas-tugas terminal, namun proyek ini menyoroti tantangan yang berkembang dalam pengembangan AI: biaya yang sangat mahal untuk benar-benar melatih model yang kompetitif.
Proyek ini menampilkan pencapaian teknis dalam membangun infrastruktur pelatihan yang dapat diskalakan dan mampu menangani lebih dari 1 juta langkah per detik di berbagai compute node. Namun, diskusi komunitas mengungkap perbedaan penting yang awalnya membingungkan banyak pengamat.
Spesifikasi Infrastruktur Pelatihan:
- Skalabilitas: >1 juta langkah/detik di lebih dari 8 node
- Algoritma: Group Relative Policy Optimization ( GRPO )
- Dukungan Perangkat Keras: Konfigurasi 4-32 GPU
- Panjang Urutan: Maksimum 12.710 token
- Durasi Pelatihan: 15 menit per satu kali pemrosesan dataset
- Memori: Tensor 1,5 GB per instance
Pencapaian Sebenarnya vs Klaim Marketing
Anggota komunitas dengan cepat mengklarifikasi apa yang sebenarnya dicapai versus apa yang tampak diklaim oleh proyek tersebut. Developer tersebut membangun infrastruktur pelatihan yang canggih namun tidak benar-benar menggunakannya untuk melatih model karena keterbatasan biaya. Sebaliknya, mereka mencapai skor 13,75% pada Terminal-Bench menggunakan prompt engineering dan scaffolding khusus dengan model Qwen3-32B - tanpa melibatkan pelatihan sama sekali.
Perbedaan ini penting karena menunjukkan perbedaan antara memiliki kemampuan teknis untuk membangun sistem pelatihan dan memiliki sumber daya untuk benar-benar menjalankannya. Infrastruktur itu sendiri merepresentasikan pekerjaan engineering yang signifikan, mencakup berbagai keahlian dari distributed computing hingga reinforcement learning.
Hasil Performa:
- Skor Terminal-Bench: 13,75% (hanya menggunakan prompt engineering)
- Model Dasar: Qwen3-32B
- Metode: Scaffolding khusus dan system prompts
- Biaya Pelatihan: Ribuan USD rendah (hanya infrastruktur)
- Pelatihan Aktual: Tidak ada yang diselesaikan karena keterbatasan biaya
Masalah GPU Poverty
Proyek ini mengekspos apa yang disebut beberapa pihak dalam komunitas sebagai GPU poverty - realitas bahwa developer individu dan tim kecil sering kekurangan sumber daya komputasi untuk bersaing dengan lab AI yang lebih besar. Meskipun developer tersebut menghabiskan apa yang tampaknya ribuan dolar Amerika Serikat untuk proyek ini, hal itu tidak cukup untuk melakukan training run yang bermakna.
Bahwa Anda telah menghabiskan ribuan dolar (dari tampilannya), dan berhasil mengalahkan GPT4.1 adalah wawasan yang menakjubkan tentang moat dari lab AI besar.
Komentar ini menyoroti bagaimana hambatan biaya menciptakan moat yang signifikan di sekitar perusahaan AI besar, yang berpotensi membatasi inovasi hanya pada organisasi yang didanai dengan baik.
![]() |
---|
Metrik performa untuk GPU NVIDIA H100, menggambarkan tantangan ketersediaan sumber daya dalam pelatihan AI |
Infrastruktur Teknis dan Minat Komunitas
Meskipun ada keterbatasan biaya, pekerjaan teknis ini telah menghasilkan minat yang genuine. Sistem ini menggunakan VERL ( Volcengine 's reinforcement learning framework) di bawahnya dan mengimplementasikan Group Relative Policy Optimization ( GRPO ) untuk pelatihan. Infrastruktur ini mendukung berbagai konfigurasi hardware dan mencakup sistem monitoring dan evaluasi yang komprehensif.
Beberapa anggota komunitas menyarankan crowdfunding sebagai solusi potensial, dengan estimasi bahwa 30.000-50.000 dolar Amerika Serikat mungkin cukup untuk training run yang bermakna. Saran ini mencerminkan minat yang berkembang dalam mendemokratisasi akses ke sumber daya pelatihan AI.
Perkiraan Biaya:
- Pengeluaran Saat Ini: Ribuan USD rendah
- Perkiraan Biaya Pelatihan: $30,000-50,000 USD
- Infrastruktur: Integrasi framework VERL
- Deployment: Manajemen lingkungan berbasis Docker
![]() |
---|
Antarmuka pemantauan yang menampilkan status dan metrik kinerja dari beberapa GPU, menyoroti infrastruktur di balik pelatihan AI |
Implikasi untuk Pengembangan AI
Proyek ini menggambarkan tren yang lebih luas di mana developer individu dapat membangun infrastruktur AI yang canggih namun kesulitan untuk mampu menggunakannya secara efektif. Ini menciptakan sistem dua tingkat di mana inovasi teknis dimungkinkan tetapi aplikasi praktis tetap dibatasi oleh sumber daya finansial.
Pekerjaan ini juga mendemonstrasikan bahwa peningkatan performa yang signifikan masih dapat dicapai melalui prompt engineering yang cerdas dan desain sistem, bahkan tanpa training run yang mahal. Ini menunjukkan bahwa inovasi dalam AI tidak selalu memerlukan anggaran komputasi yang besar, meskipun hal itu membatasi batas atas dari apa yang dapat dicapai.
Referensi: Terminal-Bench-RL: Training Long-Horizon Terminal Agents with Reinforcement Learning
![]() |
---|
Grafik yang menampilkan perkembangan skor selama langkah-langkah, menyoroti peningkatan performa yang dapat dicapai tanpa sumber daya pelatihan yang ekstensif |