Gelombang terbaru arsitektur model bahasa besar telah menarik perhatian para pengembang dan peneliti, dengan model seperti DeepSeek V3 dan GLM-2 memperkenalkan peningkatan efisiensi yang revolusioner. Namun, diskusi komunitas mengungkapkan kekhawatiran yang semakin meningkat bahwa kemajuan arsitektur ini, meskipun mengesankan, belum menyelesaikan tantangan fundamental akurasi faktual dalam konten yang dihasilkan AI.
Terobosan Arsitektur Mendorong Peningkatan Efisiensi
Model-model terbaru telah membuat kemajuan signifikan dalam efisiensi komputasi melalui pilihan desain yang inovatif. Model V3 dari DeepSeek menggabungkan arsitektur Mixture-of-Experts (MoE) dengan Multi-Head Latent Attention (MLA) untuk mengurangi biaya komputasi dari kompleksitas kuadratik menjadi linear. Pendekatan ini memungkinkan hanya sebagian dari para ahli model yang diaktifkan untuk setiap token input, secara dramatis mengurangi kebutuhan pemrosesan sambil mempertahankan kualitas performa. Demikian pula, GLM-2 mengimplementasikan sliding window attention dan penempatan lapisan normalisasi strategis untuk mencapai konvergensi yang lebih cepat dan pelatihan yang lebih stabil.
Multi-Head Latent Attention (MLA): Varian transformer yang menggunakan variabel laten untuk memperkirakan matriks attention, mengurangi kompleksitas komputasi sambil mempertahankan kualitas attention.
Mixture-of-Experts (MoE): Arsitektur di mana beberapa sub-model khusus (ahli) menangani aspek yang berbeda dari input, dengan hanya ahli yang relevan yang diaktifkan untuk setiap token.
Komponen Arsitektur DeepSeek V3:
- Router: Mengarahkan token input ke expert yang sesuai
- Expert weights: Menentukan probabilitas pemilihan expert
- Gate Controller: Mengoptimalkan pemilihan expert untuk efisiensi
- Multi-Head Latent Attention (MLA): Mengurangi kompleksitas kuadratik menjadi linear
- Mixture-of-Experts (MoE): 236B parameter dengan aktivasi selektif
Tantangan Halusinasi Tetap Belum Terpecahkan
Meskipun ada inovasi arsitektur ini, komunitas tetap terbagi mengenai apakah peningkatan teknis mengatasi isu inti reliabilitas faktual. Masalah fundamental berasal dari melatih model untuk memprediksi pola teks daripada menanamkan kemampuan penalaran logis yang kuat. Keterbatasan ini menjadi sangat jelas ketika model dengan percaya diri menghasilkan informasi yang terdengar masuk akal tetapi salah.
Model tidak dapat mengetahui kapan mereka tidak boleh melakukan ekstrapolasi dan hanya membutuhkan informasi lebih banyak. Aturan mana yang dapat digeneralisasi dan mana yang tidak.
Diskusi tersebut menyoroti bagaimana pendekatan pelatihan saat ini mungkin secara tidak sengaja mendorong halusinasi dengan memaksa model untuk memberikan jawaban bahkan ketika informasi yang tersedia tidak mencukupi. Beberapa anggota komunitas berpendapat bahwa pendekatan teks prediktif itu sendiri mungkin menjadi hambatan, sementara yang lain menyarankan bahwa perubahan arsitektur saja telah menunjukkan peningkatan yang dapat diukur dalam akurasi faktual.
Tantangan Integrasi untuk Solusi yang Ada
Sementara Retrieval Augmented Generation (RAG) dan teknik serupa membantu mengurangi masalah halusinasi, komunitas mempertanyakan mengapa solusi ini belum diintegrasikan langsung ke dalam model dasar. Perdebatan berpusat pada apakah sifat eksternal RAG merupakan keterbatasan fundamental atau pilihan praktis. Beberapa berpendapat bahwa menggabungkan kemampuan ingesti dokumen dan fine-tuning sementara langsung ke dalam model yang diterapkan dapat menghilangkan kebutuhan untuk implementasi RAG terpisah.
Diskusi juga menyentuh kompleksitas pengambilan informasi dunia nyata, di mana data yang relevan sering tersebar di beberapa dokumen dan memerlukan pemahaman kontekstual yang melampaui pencocokan kata kunci sederhana. Kompleksitas ini menunjukkan bahwa pengecekan fakta yang efektif dan sintesis informasi mungkin memerlukan pendekatan yang lebih canggih daripada yang disediakan arsitektur saat ini.
Melihat ke Depan
Antusiasme komunitas terhadap inovasi arsitektur diimbangi dengan ekspektasi realistis tentang keterbatasannya. Sementara peningkatan efisiensi dan keuntungan performa benchmark merupakan pencapaian yang patut dicatat, tantangan persisten dalam menghasilkan informasi faktual yang dapat diandalkan menunjukkan bahwa terobosan masa depan mungkin perlu secara fundamental memikirkan kembali bagaimana model memproses dan memverifikasi informasi daripada hanya mengoptimalkan pendekatan yang ada.
Referensi: The Big LLM Architecture Comparison