Sebuah makalah penelitian terobosan yang dipublikasikan di ICLR 2023 telah memberikan pencerahan baru tentang salah satu misteri paling membingungkan dalam deep learning: mengapa jaringan neural berhasil dilatih meskipun beroperasi di wilayah yang secara matematis tidak stabil. Studi ini memperkenalkan konsep yang disebut central flows yang menjelaskan bagaimana gradient descent - algoritma fundamental di balik pelatihan AI - sebenarnya bekerja dalam praktik.
Realitas Mengejutkan dari Pelatihan Jaringan Neural
Teori optimisasi tradisional menyarankan bahwa gradient descent seharusnya menggunakan langkah-langkah kecil dan hati-hati untuk menghindari ketidakstabilan. Namun, penelitian ini mengungkapkan bahwa deep learning yang sukses sengaja beroperasi pada apa yang disebut para ilmuwan sebagai edge of stability. Alih-alih mengikuti jalur mulus yang diprediksi teori matematika, jaringan neural berosilasi dengan liar selama pelatihan, membuat lompatan yang tampak terlalu besar dan kacau untuk bekerja secara efektif.
Komunitas sangat antusias dengan temuan ini karena menantang asumsi yang telah lama dipegang tentang optimisasi. Seperti yang dicatat oleh seorang peneliti, teori optimisasi klasik tentang tetap berada di wilayah stabil pada dasarnya adalah apa yang tidak dilakukan deep learning - model benar-benar belajar dengan menjadi tidak stabil, berosilasi, dan kemudian menggunakan energi tersebut untuk mengoreksi diri.
Temuan Penelitian Utama:
- Deep learning beroperasi di "tepi stabilitas" daripada di wilayah yang stabil
- Pelatihan melibatkan perilaku osilasi yang tampak kacau namun mengikuti "aliran sentral" yang mendasarinya
- Aliran sentral menggabungkan gradient descent dengan pengurangan ketajaman
- Ketidakstabilan yang tampak sebenarnya sangat penting untuk pembelajaran yang efektif
- Teori optimisasi tradisional tidak sepenuhnya menjelaskan kesuksesan deep learning
![]() |
|---|
| Memahami dinamika gradient descent dalam pelatihan jaringan saraf |
Memahami Central Flows
Para peneliti mengembangkan kerangka matematis yang disebut central flows untuk menjelaskan perilaku yang tampak kacau ini. Bayangkan seperti sungai yang mengalir melalui lembah yang curam. Meskipun gradient descent tampak melompat secara tidak menentu bolak-balik melintasi dinding lembah, sebenarnya ada arus halus yang mengalir di tengah yang mewakili arah pembelajaran yang sebenarnya.
Central flow ini tidak hanya mengikuti jalur menurun yang jelas. Sebaliknya, ia bergerak ke arah yang menggabungkan gradient (kecuraman) dengan sesuatu yang disebut sharpness reduction - pada dasarnya menemukan jalur yang mengarah ke solusi yang lebih datar dan lebih stabil. Ekspresi matematis menunjukkan bahwa algoritma mengurangi komponen-komponen yang akan menyebabkan ketidakstabilan, menciptakan proses pembelajaran yang lebih terkontrol di bawah kekacauan yang tampak.
Catatan: Gradient mengacu pada arah peningkatan paling curam dalam fungsi loss. Sharpness mengukur seberapa cepat loss berubah dalam arah yang berbeda.
Ekspresi Matematis Central Flow:
-1/η *dw/dt = ∇L - ∇S* ⟨∇L, ∇S⟩/‖∇S‖²
Di mana:
- η = tingkat pembelajaran
- ∇L = gradien dari fungsi kerugian
- ∇S = gradien dari ukuran ketajaman
- S = jumlah nilai eigen dari Hessian yang lebih besar dari 2/η
![]() |
|---|
| Ilustrasi aliran sentral yang merepresentasikan proses gradient descent dalam optimasi |
Implikasi Praktis untuk Pengembangan AI
Penelitian ini telah memicu diskusi tentang apakah wawasan ini dapat mengarah pada metode pelatihan yang lebih baik. Meskipun para penulis menekankan bahwa central flows terutama merupakan alat teoretis untuk memahami daripada metode optimisasi praktis, komunitas melihat potensi aplikasi. Beberapa peneliti sedang mengeksplorasi apakah menyimpan rata-rata dari iterasi terbaru alih-alih menggunakan momentum tradisional dapat mengurangi lag dan meningkatkan konvergensi.
Temuan ini juga menjelaskan mengapa optimizer tertentu seperti RMSProp bekerja dengan baik dalam praktik, memberikan dukungan matematis untuk teknik yang sebelumnya hanya dipahami melalui trial and error. Ini merupakan langkah maju yang signifikan dari penjelasan hand-waving biasa yang telah mendominasi bidang ini.
![]() |
|---|
| Perbandingan perilaku gradient descent terhadap aliran sentral dan gradient |
Dampak Lebih Luas pada Teori Machine Learning
Penelitian ini secara fundamental mengubah cara kita berpikir tentang pelatihan jaringan neural. Daripada memandang osilasi dan ketidakstabilan yang tampak sebagai masalah yang harus dipecahkan, kita sekarang memahaminya sebagai fitur penting dari bagaimana deep learning sebenarnya bekerja. Kekacauan itu bukan bug - itu adalah fitur yang memungkinkan sistem mengeksplorasi ruang solusi lebih efektif daripada metode yang murni stabil.
Karya ini juga menarik paralel menarik dengan teknik optimisasi lain seperti simulated annealing, di mana keacakan terkontrol membantu melepaskan diri dari minima lokal. Ini menunjukkan bahwa prinsip-prinsip yang ditemukan di sini mungkin berlaku lebih luas di berbagai jenis algoritma machine learning dan masalah optimisasi.
Referensi: Part I. how does gradient descent work?



