Komunitas teknologi sedang ramai membicarakan penemuan yang menakjubkan: model bahasa besar ( LLMs ) pada dasarnya adalah algoritma kompresi yang kuat yang dapat memadatkan sejumlah besar pengetahuan manusia ke dalam file yang sangat kecil. Penemuan ini telah memicu diskusi intens tentang bagaimana sistem AI ini bekerja dan apa artinya bagi masa depan penyimpanan informasi.
Pencapaian Kompresi yang Menakjubkan
Yang menarik perhatian semua orang adalah seberapa banyak informasi yang dapat dikemas oleh model-model ini ke dalam ruang yang relatif kecil. Ambil contoh model 12 miliar parameter yang hanya berukuran 8,1 GB - kira-kira sebesar beberapa film di ponsel Anda. Namun file tunggal ini berisi pengetahuan terkompresi yang cukup untuk menjawab pertanyaan tentang sejarah, sains, video game terbaru, dan topik lainnya yang tak terhitung jumlahnya. Rasio kompresinya sangat mengejutkan ketika Anda mempertimbangkan bahwa Wikipedia bahasa Inggris saja membutuhkan sekitar 24 GB ketika dikompresi, dan itu hanya satu sumber pengetahuan manusia.
Memang tidak sempurna, tetapi astaga luasnya informasi yang tertanam dalam file 8,1 GB sangat luar biasa! Memang lossy, tetapi cara yang cukup menakjubkan untuk mengompresi semua pengetahuan manusia ke dalam sesuatu yang sangat terkandung.
Rahasianya terletak pada bagaimana model-model ini mempelajari pola dan hubungan dalam bahasa. Tidak seperti kompresi tradisional yang mencari karakter atau urutan yang berulang, LLMs mengompresi makna itu sendiri. Mereka belajar bahwa banyak cara berbeda untuk mengatakan hal yang sama ada, dan mereka dapat merekonstruksi informasi dengan memahami konteks dan hubungan antara konsep.
Konteks Efisiensi Kompresi
- Wikipedia bahasa Inggris terkompresi: ~24 GB
- Estimasi semua buku yang didigitalisasi: Beberapa TB
- Model 12B parameter pada umumnya: 8,1 GB (dengan kuantisasi 8-bit)
- Estimasi teks bahasa Inggris yang berguna: 10-100 TB
- Model besar saat ini menggunakan: 1-10% dari semua data teks yang tersedia
Aturan praktis untuk kebutuhan VRAM: ~4x jumlah parameter
- Model 2B ≈ 8 GB VRAM yang dibutuhkan
- Model 20B ≈ 80 GB VRAM yang dibutuhkan
Mengapa Kompresi Tradisional Tidak Cukup
Metode kompresi biasa seperti file ZIP bekerja dengan baik untuk melestarikan data yang tepat, tetapi mereka melewatkan sesuatu yang krusial - hubungan semantik yang membuat informasi bermakna. Ketika Anda mengompresi file teks dengan ZIP, Anda hanya mencari pola berulang dalam karakter. Tetapi LLMs lebih dalam, mempelajari logika dan koneksi yang mendasari yang digunakan manusia ketika berkomunikasi.
Ini menjelaskan mengapa komunikasi sehari-hari kita sangat berlebihan. Kita menggunakan banyak kata untuk menyiapkan konteks, menambahkan sentuhan kreatif untuk menjaga perhatian, dan mengulangi ide dengan cara yang berbeda agar jelas. Para ahli memperkirakan bahwa 95% atau lebih dari komunikasi kita mungkin merupakan redundansi murni ketika Anda menghilangkan informasi inti.
Semantik: berkaitan dengan makna dalam bahasa Redundansi: pengulangan informasi yang tidak perlu
Perdebatan tentang Kompresi Lossy vs Lossless
Komunitas terbagi tentang apakah menyebut LLMs sebagai kompresi sama sekali. Kritikus menunjukkan bahwa tidak seperti kompresi tradisional, Anda tidak dapat dengan sempurna menciptakan kembali teks asli dari LLM. Model mungkin memberi Anda informasi yang akurat, detail yang benar-benar salah, atau sesuatu yang masuk akal tetapi salah - dan tidak ada cara yang dapat diandalkan untuk mengetahui mana yang mana.
Namun, pendukung berargumen bahwa ini melewatkan poinnya. LLMs tidak mencoba menciptakan kembali teks yang tepat - mereka mengompresi pengetahuan dan kemampuan untuk bernalar tentangnya. Ketika Anda meminta LLM untuk 50 sinonim atau menjelaskan topik yang kompleks, Anda mengakses pemahaman terkompresi, bukan hanya teks yang disimpan.
Beberapa peneliti telah menemukan bahwa LLMs sebenarnya dapat bekerja sebagai algoritma kompresi lossless juga, menggunakan teknik seperti arithmetic coding. Tetapi ini memerlukan pengirim dan penerima untuk memiliki model yang sama, membuatnya tidak praktis untuk sebagian besar penggunaan.
Perbandingan Ukuran Model
Model | Parameter | Ukuran Penyimpanan | Data Pelatihan |
---|---|---|---|
GPT-2 XL (2019) | 1,6B | ~3,2 GB | ~10B token |
GPT-3 (2020) | 175B | ~350 GB | 400B token |
Llama 405B (2024) | 405B | ~810 GB | 3,67T token |
DeepSeek V3 (2024) | 671B total, 37B aktif | ~1,4 TB | 14,8T token |
Catatan: Ukuran penyimpanan mengasumsikan bobot 16-bit; dapat dikurangi dengan kuantisasi
Apa Artinya untuk Masa Depan
Terobosan kompresi ini membantu menjelaskan mengapa kita mungkin mencapai batas dalam pengembangan AI. Jika semua pengetahuan teks manusia yang berguna cocok dengan sekitar 10-100 terabyte, dan model besar saat ini sudah menggunakan 1-10% dari skala itu, kita mungkin mendekati titik di mana hanya menambahkan lebih banyak data teks tidak akan meningkatkan kinerja banyak.
Fokusnya bergeser ke pendekatan lain: menambahkan data gambar dan video, membiarkan sistem AI menjelajahi dan berinteraksi dengan dunia nyata, dan menggunakan model penalaran yang menghabiskan lebih banyak waktu memikirkan masalah. Wawasan kompresi juga menunjukkan bahwa sistem AI masa depan mungkin tidak memerlukan sejumlah besar perangkat keras - komputer konsumen kelas atas saat ini mungkin cukup kuat untuk menjalankan sistem superintelligen setelah kita menemukan arsitektur yang tepat.
Memahami LLMs sebagai mesin kompresi daripada hanya generator teks membuka cara berpikir baru tentang kecerdasan buatan dan bagaimana membuatnya lebih efisien dan mampu.
Referensi: How large are large language models? (2025)