Sebuah studi komprehensif yang melibatkan lebih dari setengah juta evaluasi telah membuktikan bahwa model bahasa besar (LLM) yang dikuantisasi dengan cermat dapat berkinerja setara dengan model presisi penuh mereka di berbagai tolok ukur. Temuan ini menjawab kekhawatiran terkini di komunitas pembelajaran mesin tentang kelayakan model terkuantisasi untuk aplikasi dunia nyata.
Studi ini berfokus pada seri model Llama 3.1, menguji versi 8-bit, 4-bit, dan baseline 16-bit di berbagai ukuran model (8B, 70B, dan 405B parameter). Para peneliti mengevaluasi model-model ini menggunakan tolok ukur akademis seperti OpenLLM Leaderboard dan pengujian dunia nyata seperti ArenaHard dan tantangan coding.
Temuan utama meliputi:
- Model terkuantisasi mencapai lebih dari 99% dari skor rata-rata yang dicapai oleh model dasar tidak terkuantisasi pada tolok ukur OpenLLM Leaderboard v1.
- Pada OpenLLM Leaderboard v2 yang lebih menantang, model terkuantisasi mempertahankan minimal 96% kinerja dari baseline.
- Dalam tolok ukur dunia nyata seperti Arena-Hard-Auto, model terkuantisasi menunjukkan kinerja yang secara statistik tidak dapat dibedakan dari versi presisi penuh.
- Tolok ukur coding menunjukkan kinerja luar biasa, dengan model 8-bit mencapai pemulihan akurasi 99,9% dan model 4-bit memulihkan 98,9% pada HumanEval dan HumanEval+.
Studi ini juga meneliti metrik kesamaan teks untuk memastikan model terkuantisasi mempertahankan makna dan struktur output dibandingkan dengan model presisi penuh. Hasil menunjukkan tingkat kesamaan yang tinggi, terutama untuk model yang lebih besar.
Temuan ini memiliki implikasi signifikan untuk penerapan LLM dalam lingkungan produksi. Kuantisasi menawarkan manfaat substansial dalam hal efisiensi komputasi, kecepatan inferensi yang lebih cepat, dan pengurangan konsumsi energi tanpa mengorbankan integritas model atau kualitas output.
Seiring pertumbuhan LLM dalam ukuran dan kompleksitas, teknik kuantisasi kemungkinan akan memainkan peran yang semakin penting dalam membuat model mutakhir lebih mudah diakses dan hemat biaya untuk berbagai aplikasi dan organisasi.
Tim peneliti telah menyediakan hasil detail dan perbandingan model mereka melalui demo interaktif, memungkinkan pengguna untuk membandingkan secara langsung output dari model terkuantisasi dan presisi penuh secara berdampingan.
Studi ini memberikan bukti kuat bahwa kuantisasi yang diimplementasikan dengan cermat dapat menjadi alat yang ampuh untuk mengoptimalkan penerapan LLM tanpa mengorbankan kinerja, membuka jalan bagi sistem AI yang lebih efisien dan terukur.
![]() |
---|
Representasi futuristik dari kemajuan teknologi dalam AI, yang melambangkan terobosan dalam model terkuantisasi yang dapat menyamai kinerja presisi penuh |