Sejarah kecerdasan buatan dipenuhi dengan terobosan tak terduga dan penelitian yang diabaikan yang akhirnya membentuk teknologi yang kita gunakan saat ini. Meskipun model bahasa besar seperti ChatGPT terlihat seperti kemajuan yang tak terelakkan, jalan menuju AI modern sesungguhnya tidaklah linear, dengan wawasan kunci yang muncul dari penelitian yang awalnya ditolak atau diremehkan oleh komunitas AI arus utama.
Perintis yang Terabaikan dalam Penyesuaian Halus Model Bahasa
Jauh sebelum ChatGPT menangkap imajinasi publik, para peneliti diam-diam meletakkan fondasi untuk sistem AI modern. Komentar mengungkapkan bahwa ULMFiT, yang dikembangkan pada tahun 2018, merintis pendekatan tiga tahap yang kemudian menjadi praktik standar: pra-latih model bahasa pada korpus umum, menyempurnakannya pada data khusus, dan kemudian mengadaptasinya untuk tugas klasifikasi spesifik. Metodologi ini, yang terlihat jelas dalam retrospeksi, awalnya disambut dengan skeptisisme.
ULMFiT juga merintis pendekatan 3 tahap untuk menyempurnakan model bahasa menggunakan tujuan LM kausal dan kemudian menyempurnakannya dengan tujuan klasifikasi, yang jauh kemudian digunakan di GPT 3.5 instruct, dan hari ini digunakan hampir di mana-mana.
Bahkan lebih awal, karya Dai dan Le pada tahun 2015 mengeksplorasi penyempurnaan model bahasa untuk tugas-tugas hilir, meskipun mereka melewatkan wawasan kritis bahwa pra-latih tujuan umum pada korpus masif adalah langkah pertama yang penting. Kontribusi fondasional ini menunjukkan bagaimana kemajuan dalam AI sering kali dibangun di atas ide-ide yang awalnya tidak mendapat perhatian.
Model AI Historis Kunci dan Dampaknya:
- ULMFiT (2018): Mempelopori pendekatan fine-tuning 3 tahap yang kemudian digunakan dalam GPT-3.5 Instruct
- Dai dan Le (2015): Eksplorasi awal fine-tuning model bahasa, mendahului ULMFiT
- BERT (2018): Merevolusi tugas pemahaman NLP dengan 145K+ kutipan
- GPT-1 (2018): Model generatif awal dengan 16K kutipan, fondasi untuk model GPT selanjutnya
- ModernBERT (2024): Arsitektur BERT yang diperbarui dengan 1.5M+ unduhan dan 2K+ varian
![]() |
|---|
| Ilustrasi mekanisme attention, aspek fundamental dari model bahasa modern dan proses fine-tuning mereka |
Kemunculan Tak Terduga dari Kemampuan Modern
Mungkin aspek paling mengejutkan dari pengembangan AI adalah kemunculan kemampuan yang tidak diantisipasi oleh para peneliti. Bertentangan dengan kepercayaan populer, model bahasa canggih masa kini bukanlah hasil dari peta jalan yang direncanakan dengan hati-hati, melainkan muncul dari peningkatan skala arsitektur yang ada dan penemuan perilaku tak terduga.
Diskusi komunitas menyoroti bahwa ketika para peneliti OpenAI mengamati GPT-2 menghasilkan teks yang lancar, tujuan awal mereka hanyalah membuatnya lebih baik dalam menghasilkan teks acak. Kemampuan luar biasa yang menyusul—menjawab pertanyaan, menerjemahkan bahasa, menunjukkan kreativitas—sebagian besar tidak terduga. Pola kemampuan yang muncul ini terus membingungkan para peneliti, karena alasan mendasar mengapa peningkatan skala menghasilkan perilaku yang begitu canggih masih belum dipahami dengan baik.
Kronologi Kemunculan Kemampuan AI:
- 2014-2015: Memory Networks dan Neural Turing Machines mengeksplorasi attention dan memori
- 2018: BERT dan GPT-1 mendemonstrasikan pendekatan berbeda terhadap pemodelan bahasa
- 2018: ULMFiT menetapkan metodologi fine-tuning modern
- 2019-2020: GPT-2/GPT-3 menunjukkan kemampuan emergent yang tidak terduga melalui scaling
- 2022: ChatGPT mempopulerkan pendekatan fine-tuning yang dipelopori bertahun-tahun sebelumnya
![]() |
|---|
| Diagram yang mengilustrasikan word embeddings, menyoroti bagaimana model bahasa memperoleh kemampuan canggih melalui arsitektur yang diskalakan |
Evolusi Paralel dari Pendekatan AI yang Berbeda
Sementara percakapan hari ini berpusat pada AI generatif, komentar mengungkapkan bahwa berbagai pendekatan berkembang secara bersamaan, masing-masing dengan kekuatannya sendiri. BERT, yang diperkenalkan sekitar waktu yang sama dengan model GPT awal, mengambil jalur berbeda dengan berfokus pada pemahaman daripada generasi. Dengan lebih dari 145.000 kutipan, dampak BERT pada pemrosesan bahasa alami langsung dan mendalam, membuat pendekatan sebelumnya untuk tugas seperti pengenalan entitas bernama dan klasifikasi dokumen menjadi usang secara instan.
Keberlangsungan model gaya BERT untuk tugas NLP spesifik menunjukkan bahwa lanskap AI bukanlah perkembangan linear yang sederhana, melainkan ekosistem yang beragam di mana arsitektur berbeda unggul dalam aplikasi yang berbeda. Perkembangan terkini seperti ModernBERT, dengan lebih dari 1,5 juta unduhan dan 2.000 varian di Hugging Face, menunjukkan bahwa pendekatan ini terus berkembang dan menemukan aplikasi baru.
![]() |
|---|
| Konsep aljabar vektor yang mengilustrasikan hubungan antara berbagai arsitektur model AI dan fungsinya |
Visioner Awal dan Prediksi Mereka yang Tidak Populer
Di tengah kejutan kolektif atas kemajuan pesat AI, beberapa peneliti melihat potensinya sejak dini. Komentar mencatat bahwa Phil Blunsom, yang memimpin pemodelan bahasa di DeepMind selama hampir satu dekade, berargumen di Oxford bahwa memecahkan prediksi kata berikutnya bisa menjadi jalan yang layak menuju kecerdasan buatan umum. Pada saat itu, perspektif ini jelas merupakan pandangan minoritas, dengan sebagian besar peneliti menganggap pendekatan tersebut tidak menjanjikan.
Demikian pula, karya tentang jaringan memori dan mesin Turing neural di pertengahan 2010-an mengeksplorasi penggabungan perhatian dengan memori dengan cara yang kemudian menjadi pusat arsitektur transformer. Eksplorasi awal ini menunjukkan kemampuan dasar menjawab pertanyaan yang mengantisipasi sistem AI modern, meskipun implementasinya masih primitif menurut standar saat ini.
Perjalanan menuju AI modern telah ditandai oleh inovasi yang disengaja dan kecelakaan yang beruntung. Saat para peneliti terus mendorong batas dari apa yang mungkin, sejarah perkembangan ini berfungsi sebagai pengingat bahwa kemajuan teknologi sering kali mengikuti jalur yang tidak terduga, dengan penelitian yang diabaikan hari ini berpotensi menjadi teknologi fondasional di masa depan.
Referensi: A History of Large Language Models



