Tim peneliti dari CMU , UIUC , Berkeley , NVIDIA , dan Tsinghua University telah mengembangkan sistem kompiler terobosan yang secara dramatis meningkatkan kecepatan inferensi model bahasa besar. Sistem Mirage Persistent Kernel ( MPK ) secara otomatis mengubah operasi LLM menjadi satu megakernel yang berjalan sepenuhnya pada perangkat keras GPU , memberikan peningkatan performa 1,2 hingga 1,7 kali lebih cepat dibandingkan sistem yang ada.
Inovasi ini mengatasi ketidakefisienan mendasar dalam sistem LLM saat ini, di mana beberapa operasi GPU terpisah menciptakan hambatan dan membuang daya pemrosesan. Alih-alih meluncurkan puluhan kernel individual untuk tugas yang berbeda, MPE menggabungkan semuanya menjadi satu operasi berkelanjutan yang tidak pernah berhenti berjalan di GPU .
Perbandingan Performa pada NVIDIA A100 (40GB)
- Sistem tradisional ( vLLM , SGLang ): 51,5ms per token
- Sistem MPE : 33,1ms per token
- Minimum teoritis: 30ms per token
- Peningkatan performa: 1,2-1,7x lebih cepat
Kernel Fusion Revolusioner Menghilangkan Hambatan Performa
Sistem inferensi LLM tradisional menderita cacat kritis: mereka memperlakukan setiap operasi sebagai tugas terpisah dan lengkap yang harus selesai sebelum yang berikutnya dimulai. Ini menciptakan periode menunggu yang tidak perlu di mana perangkat keras GPU yang kuat menganggur. Komunitas telah mengakui ini sebagai masalah yang sudah lama ada, dengan pengembang mencatat bahwa solusi yang ada seperti CUDA Graphs masih mempertahankan batasan kaku antara operasi.
Pendekatan MPE memecah hambatan buatan ini dengan menciptakan tugas-tugas berbutir halus yang dapat tumpang tindih dan berjalan secara bersamaan. Misalnya, sementara satu bagian GPU memproses perhitungan matriks, bagian lain dapat segera memulai tugas komunikasi dengan hasil parsial, daripada menunggu seluruh perhitungan selesai.
Sistem ini bekerja dengan secara otomatis menganalisis kebutuhan komputasi LLM dan membangun kembali sebagai jaringan tugas-tugas kecil yang saling terhubung. Setiap tugas berjalan pada streaming multiprosesor GPU individual, dengan penjadwal bawaan yang mengoordinasikan alur kerja tanpa intervensi eksternal.
Komponen Arsitektur Sistem MPE
- Workers: Menjalankan tugas pada streaming multiprocessor (SM) GPU individual
- Schedulers: Berjalan pada warp tunggal, hingga 4 per SM, mengelola antrian tugas
- Task Graph: Unit berbutir halus yang menggantikan model kernel-per-operator tradisional
- Events: Titik sinkronisasi antar tugas yang memungkinkan tumpang tindih pipeline
Peningkatan Performa Mengesankan di Konfigurasi GPU Tunggal dan Multi-GPU
Pengujian pada perangkat keras NVIDIA A100 menunjukkan peningkatan luar biasa dalam skenario dunia nyata. Untuk konfigurasi GPU tunggal, MPE mengurangi waktu generasi per-token dari 51,5 milidetik menjadi 33,1 milidetik, mendekati kecepatan maksimum teoretis yang mungkin mengingat keterbatasan bandwidth memori.
Keunggulan performa menjadi lebih menonjol dengan beberapa GPU . Sementara sistem tradisional berjuang dengan overhead koordinasi antara kartu grafis terpisah, pendekatan terpadu MPE memungkinkan tumpang tindih yang mulus antara komputasi dan komunikasi antar- GPU . Ini membuat teknologi tersebut sangat berharga untuk deployment skala besar di mana beberapa GPU bekerja sama.
Umpan balik komunitas sangat positif, dengan pengembang yang bekerja erat dengan sistem yang ada seperti vLLM dan SGLang menyatakan kegembiraan tentang pendekatan analisis grafik dependensi.
Tantangan Teknis dan Pengembangan Masa Depan
Meskipun hasil yang mengesankan, MPE saat ini menghadapi keterbatasan yang sedang diatasi secara aktif oleh tim peneliti. Sistem ini bekerja paling baik dengan grafik komputasi statis, membuatnya tidak kompatibel dengan model dinamis seperti arsitektur Mixture-of-Experts yang mengubah perilaku mereka berdasarkan konten input.
Tim juga sedang mengerjakan dukungan untuk arsitektur GPU generasi berikutnya seperti NVIDIA Blackwell , yang menyajikan peluang dan tantangan optimisasi baru. Kebijakan penjadwalan lanjutan dapat lebih meningkatkan performa untuk kasus penggunaan spesifik seperti aplikasi sensitif latensi atau skenario batching hibrid.
Proyek ini dari CMU . Hazy Research di Stanford juga membicarakan tentang megakernel... Bagus melihat kompetisi di area ini.
Lanskap kompetitif mencakup upaya paralel dari institusi penelitian lain, khususnya grup Hazy Research Stanford , meskipun fokus MPE pada kompilasi otomatis membedakannya dari pendekatan optimisasi manual.
Kompiler MPE mewakili langkah signifikan menuju membuat inferensi LLM berperforma tinggi dapat diakses oleh pengembang tanpa memerlukan keahlian pemrograman GPU yang mendalam. Dengan hanya beberapa puluh baris kode Python , pengembang sekarang dapat mengkompilasi model mereka menjadi megakernel yang dioptimalkan, mendemokratisasi akses ke optimisasi performa mutakhir yang sebelumnya memerlukan pengetahuan khusus.
Referensi: Compiling LLMs into a MegaKernel: A Path to Low-Latency Inference