Sebuah eksperimen menarik telah menarik perhatian para peneliti dan penggemar AI: apa model bahasa terkuat yang bisa Anda latih di laptop biasa hanya dalam lima menit? Meskipun ini mungkin terdengar seperti pertanyaan konyol pada awalnya, hasilnya telah memicu diskusi bermakna tentang aksesibilitas AI, efisiensi, dan masa depan pelatihan model lokal.
Tantangan ini muncul dari rasa ingin tahu sederhana namun telah mengungkap wawasan penting tentang pengembangan AI skala kecil. Di era di mana model-model masif mendominasi berita utama, eksperimen ini mempertanyakan apakah perangkat keras sehari-hari masih dapat berkontribusi secara bermakna pada penelitian dan pengembangan AI.
Titik Manis: 1,8 Juta Parameter
Konfigurasi pemenang ternyata adalah model transformer kompak dengan sekitar 1,8 juta parameter, dilatih pada 20 juta token dari dataset TinyStories. Pengaturan ini mencapai skor perplexity 9,6, menghasilkan cerita yang koheren meskipun sederhana yang mengikuti aturan tata bahasa dasar dan struktur naratif.
Pilihan dataset terbukti krusial. Eksperimen awal dengan Simple English Wikipedia menghasilkan output yang membingungkan secara faktual, dengan model yang terobsesi pada kata benda khusus dan menghasilkan kalimat seperti Paris, France adalah kota di North Carolina. Dataset TinyStories, yang berisi cerita-cerita sederhana yang ditulis pada tingkat bacaan anak 4 tahun, memberikan hasil yang jauh lebih baik untuk dipelajari model kecil.
TinyStories: Dataset sintetis berisi cerita-cerita pendek dan sederhana yang dirancang khusus untuk melatih model bahasa kecil
Konfigurasi Pelatihan Optimal 5 Menit
- Ukuran model: ~1,8 juta parameter
- Dataset: TinyStories (20 juta token)
- Arsitektur: transformer bergaya GPT dengan aktivasi SwiGLU
- Layer: 2-3 layer optimal
- Learning rate: 0,001-0,002
- Perplexity akhir: ~9,6
- Kecepatan pelatihan: ~56 ribu token/detik untuk model 2,5 juta parameter
Keterbatasan Perangkat Keras Mendorong Inovasi
Batasan lima menit memaksa strategi optimisasi yang kreatif. Peningkatan performa tradisional seperti akumulasi gradien dan optimisasi matematis justru memperlambat pelatihan pada skala ini. Hambatan terbesar ternyata adalah peluncuran GPU - overhead memberitahu prosesor grafis apa yang harus dilakukan.
Diskusi komunitas telah menyoroti bagaimana batasan ini mencerminkan skenario dunia nyata di mana peneliti memiliki anggaran komputasi terbatas atau memerlukan siklus iterasi yang cepat. Eksperimen ini menunjukkan bahwa penelitian AI yang bermakna tidak selalu memerlukan sumber daya komputasi cloud yang mahal.
Perbandingan Performa Hardware
- MacBook Pro (MPS): ~3000 token/detik sebagai baseline
- MLX vs PyTorch : Tidak ada perbedaan performa yang signifikan
- Akumulasi gradien: Memperlambat pelatihan hingga satu tingkat magnitude
- torch.compile dan float16: Tidak ada peningkatan yang berarti pada skala kecil
- Bottleneck utama: Overhead peluncuran GPU, bukan kapasitas komputasi
Hukum Penskalaan Berlaku Bahkan pada Skala Kecil
Mungkin yang paling mengejutkan, hukum penskalaan Chinchilla yang terkenal tetap berlaku bahkan pada skala miniatur ini. Hukum-hukum ini memprediksi ukuran model optimal berdasarkan token pelatihan yang tersedia, dan hasil eksperimen sangat sesuai dengan prediksi teoretis. Untuk model yang dilatih dengan sekitar 30 juta token dalam lima menit, ukuran optimal berada antara 1-1,5 juta parameter.
Temuan ini menunjukkan bahwa prinsip-prinsip AI fundamental tetap konsisten di berbagai skala yang sangat berbeda, dari model berparameter miliaran hingga eksperimen berukuran laptop.
Validasi Hukum Penskalaan Chinchilla
- Ukuran model optimal = Total token pelatihan ÷ 20
- Model 2,5M parameter: 56k token/detik → 16,8M token dalam 5 menit → Ukuran optimal: 0,84M parameter
- Model 1M parameter: 100k token/detik → 30M token dalam 5 menit → Ukuran optimal: 1,5M parameter
- Hasil eksperimen sangat sesuai dengan prediksi teoretis
Implikasi yang Lebih Luas
Eksperimen ini bergema dengan komunitas AI karena beberapa alasan di luar sekadar rasa ingin tahu. Para peneliti membandingkan studi model kecil dengan menggunakan organisme sederhana seperti ragi dalam penelitian biologi - mereka menyediakan lingkungan terkontrol untuk memahami perilaku fundamental yang mungkin tersamarkan dalam sistem yang lebih besar dan kompleks.
Pelatihan model kecil yang dioptimalkan tidak hanya penting untuk ketersediaan tetapi juga untuk studi ilmiah LLM. Kita juga perlu mempelajari transformer paling sederhana yang menunjukkan perilaku menarik dari model yang lebih besar jika kita berharap dapat memahami LLM dan memiliki kontrol lebih besar atas perilaku mereka.
Faktor aksesibilitas juga sangat penting. Meskipun komputasi cloud menawarkan alternatif yang lebih kuat, pelatihan lokal menghilangkan kekhawatiran tentang privasi data, biaya tak terduga, dan proses persetujuan perusahaan. Bagi banyak peneliti dan penggemar, kemampuan bereksperimen langsung pada perangkat keras yang tersedia menghilangkan hambatan penting untuk masuk.
Energi vs Waktu: Perspektif Baru
Diskusi ini juga menimbulkan pertanyaan tentang bagaimana kita mengukur efisiensi pelatihan AI. Beberapa anggota komunitas menyarankan bahwa konsumsi energi mungkin merupakan batasan yang lebih bermakna daripada waktu, karena akan menciptakan perbandingan yang lebih adil antara konfigurasi perangkat keras yang berbeda dan mendorong pendekatan yang benar-benar efisien.
Perspektif ini dapat mengarah pada arah penelitian baru yang berfokus pada metode pelatihan hemat energi, yang akan menguntungkan baik pengguna laptop maupun pusat data skala besar yang peduli dengan dampak lingkungan.
Melihat ke Depan
Meskipun pelatihan laptop lima menit jelas tidak dapat bersaing dengan pengembangan AI skala industri, eksperimen ini menunjukkan bahwa penelitian dan eksperimen yang bermakna tetap mungkin dilakukan pada perangkat keras konsumen. Seiring prosesor laptop menjadi lebih kuat dan teknik pelatihan lebih efisien, kemampuan pelatihan lokal cepat kemungkinan akan terus meningkat.
Eksperimen ini berfungsi sebagai pengingat bahwa inovasi dalam AI tidak selalu memerlukan anggaran terbesar atau perangkat keras paling kuat. Terkadang wawasan paling menarik datang dari bekerja dalam batasan ketat dan menemukan solusi kreatif untuk tantangan yang tampaknya mustahil.
Referensi: What's the strongest AI model you can train on a laptop in five minutes?