Matematika SMA Sudah Cukup untuk Memahami Cara Kerja LLM, Klaim Developer

Tim Komunitas BigGo
Matematika SMA Sudah Cukup untuk Memahami Cara Kerja LLM, Klaim Developer

Sebuah postingan blog baru memicu perdebatan di komunitas teknologi tentang pengetahuan matematika apa yang sebenarnya diperlukan untuk memahami Large Language Models. Penulis mengklaim bahwa matematika dasar SMA - vektor, matriks, dan aljabar sederhana - memberikan fondasi yang cukup untuk memahami cara kerja sistem AI ini di balik layar.

Postingan tersebut secara khusus berfokus pada inferensi LLM, yaitu menggunakan model AI yang sudah ada daripada melatihnya dari awal. Perbedaan ini penting karena pelatihan melibatkan konsep matematika yang lebih kompleks, tetapi memahami bagaimana model yang sudah dilatih memproses informasi ternyata memerlukan keterampilan matematika yang sangat dasar.

Blok Bangunan Matematika Inti

Diskusi berpusat pada tiga konsep matematika utama yang membentuk tulang punggung operasi LLM. Pertama, vektor dan ruang berdimensi tinggi membantu merepresentasikan makna dengan cara yang dapat diproses komputer. Ketika LLM memproses teks, ia mengonversi kata-kata menjadi vektor numerik yang ada dalam ruang dengan ribuan dimensi - jauh lebih banyak daripada yang dapat divisualisasikan manusia, tetapi secara konseptual mirip dengan ruang 2D dan 3D yang diajarkan di sekolah.

Kedua, perkalian matriks berfungsi sebagai alat utama untuk mengubah vektor-vektor ini di antara ruang representasi yang berbeda. Setiap lapisan dalam jaringan saraf pada dasarnya melakukan perkalian matriks untuk memproyeksikan informasi dari satu ruang dimensi ke ruang lainnya, mirip dengan bagaimana grafik 3D diproyeksikan ke layar 2D.

Ketiga, fungsi softmax mengonversi output numerik mentah menjadi distribusi probabilitas, membantu model memutuskan kata mana yang harus muncul selanjutnya dalam urutan. Operasi matematika ini mengambil skor kemungkinan yang berantakan dan mengubahnya menjadi probabilitas yang bersih yang berjumlah 100%.

Catatan: Softmax adalah fungsi matematika yang mengonversi vektor angka menjadi distribusi probabilitas di mana semua nilai berada di antara 0 dan 1 dan berjumlah 1.

Konsep Matematika untuk Pemahaman LLM

  • Vektor: Susunan angka yang merepresentasikan jarak dan arah dalam ruang n-dimensi
  • Perkalian matriks: Memproyeksikan data antara ruang dimensi yang berbeda
  • Fungsi softmax: Mengubah skor kemungkinan menjadi distribusi probabilitas (nilai 0-1, jumlah=1)
  • Vektor one-hot: Vektor probabilitas dimana satu nilai=1, semua lainnya=0
  • Embeddings: Ruang berdimensi tinggi dimana konsep-konsep serupa berkelompok bersama

Penolakan Komunitas terhadap Penyederhanaan Berlebihan

Namun, banyak praktisi berpengalaman menolak pandangan yang disederhanakan ini. Kritikus berargumen bahwa meskipun operasi dasar memang berupa perkalian matriks sederhana, penjelasan ini melewatkan gambaran besar tentang apa yang membuat LLM modern begitu kuat.

Matematika untuk memahami LLM, yaitu yang menjelaskan dengan ketelitian matematika mengapa LLM bekerja, belum sepenuhnya dikembangkan. Itulah yang dimaksud dengan LLM Explainability, upaya untuk memahami dan memperjelas proses pengambilan keputusan yang kompleks dan seperti kotak hitam.

Kontroversi berasal dari ketidaksepakatan mendasar tentang apa arti pemahaman. Beberapa orang berargumen bahwa mengetahui operasi matematika seperti memahami mobil dengan mempelajari kimia bensin - secara teknis benar tetapi tidak praktis berguna bagi kebanyakan orang yang hanya ingin tahu bagaimana mobil bekerja.

Masalah Skala

Poin utama perdebatan adalah apakah fokus pada matematika dasar mengaburkan kompleksitas sebenarnya dari LLM modern. Sementara model bahasa awal mungkin hanya berupa prediktor kata statistik sederhana, sistem hari ini seperti GPT-4 mengandung lebih dari satu triliun parameter yang bekerja sama dengan cara yang masih belum sepenuhnya dipahami peneliti.

Jaringan besar ini tampaknya mengembangkan representasi internal dari konsep, hubungan, dan bahkan kemampuan penalaran yang muncul dari proses pelatihannya. Operasi matematika tetap sederhana, tetapi perilaku yang muncul jauh lebih kompleks daripada jumlah bagian-bagiannya.

Spesifikasi Model GPT-2

  • Ukuran kosakata: 50.257 token
  • Token 464 merepresentasikan: "The"
  • Panjang setiap vektor logits: 50.257 item
  • Dimensi embedding yang disebutkan: 768

Pendekatan Pembelajaran Praktis

Meskipun ada perdebatan, banyak developer menemukan nilai dalam pendekatan pembelajaran langsung. Tutorial video dan latihan coding interaktif yang mengimplementasikan versi sederhana dari konsep-konsep ini dari awal terbukti populer untuk membangun pemahaman intuitif.

Konsensusnya tampaknya adalah bahwa meskipun aljabar linear dasar tidak akan membuat seseorang menjadi peneliti AI, itu memang memberikan fondasi yang solid untuk memahami bagaimana sistem ini memproses informasi pada tingkat fundamental.

Sumber Belajar yang Direkomendasikan

  • Seri video Andrej Karpathy tentang neural networks
  • "Build a Large Language Model (from Scratch)" oleh Sebastian Raschka
  • Mathematics for Machine Learning and Data Science Specialization ( Coursera )
  • Buku "Math and Architectures of Deep Learning"
  • Repositori GitHub : LLMs-from-scratch oleh rasbt

Kesimpulan

Perdebatan ini menyoroti tantangan yang lebih luas dalam pendidikan AI: menyeimbangkan ketelitian matematika dengan pemahaman praktis. Sementara matematika SMA mungkin memang memberikan alat dasar yang diperlukan untuk mengikuti operasi LLM langkah demi langkah, benar-benar memahami mengapa sistem ini bekerja dengan sangat baik tetap menjadi pertanyaan penelitian terbuka.

Untuk developer dan teknolog yang ingin tahu, memulai dengan konsep aljabar linear dasar tampaknya menjadi titik masuk yang masuk akal, meskipun tidak memberikan gambaran lengkap tentang kemampuan AI modern.

Referensi: The maths you need to start understanding LLMs