Para peneliti telah mendemonstrasikan penggunaan kecerdasan buatan untuk secara otomatis menghasilkan kernel Metal untuk perangkat Apple , mengklaim peningkatan performa hingga 87% dalam inferensi PyTorch . Namun, komunitas teknologi mengajukan pertanyaan penting tentang metodologi dan implikasi praktis dari pendekatan ini.
Penelitian ini dibangun di atas KernelBench , sebuah dataset yang dirilis pada November 2024 yang berisi sekitar 250 modul PyTorch untuk pengujian generasi kernel. Tim menggunakan berbagai model AI , termasuk GPT-5 , untuk menerjemahkan kernel CUDA yang sudah ada menjadi kernel Metal yang dapat berjalan secara efisien pada ekosistem perangkat keras Apple .
Klaim Performa dan Metodologi:
- Peningkatan yang dilaporkan: Hingga 87% lebih cepat untuk inferensi PyTorch
- Baseline: Inferensi PyTorch yang tidak dioptimalkan vs. kernel Metal kustom
- Dataset: ~250 modul PyTorch dari KernelBench (dirilis November 2024)
- Manfaat kompilasi offline: ~20% peningkatan waktu eksekusi
- Optimasi sumber daya GPU: ~25% pengurangan latensi dan biaya agen
![]() |
---|
Gambaran umum kernel Metal yang dihasilkan AI meningkatkan performa inferensi PyTorch pada perangkat Apple |
Konteks Deployment Memicu Perdebatan
Titik diskusi utama berpusat pada perbandingan baseline yang digunakan dalam penelitian. Kritikus berargumen bahwa membandingkan inferensi PyTorch yang tidak dioptimalkan dengan kernel khusus menciptakan keuntungan yang tidak adil, karena PyTorch biasanya digunakan untuk prototyping daripada deployment produksi. Dalam skenario dunia nyata, pengembang biasanya mengekspor model ke format seperti ONNX sebelum mengkompilasinya untuk perangkat tertentu.
Namun, pendukung membantah bahwa pendekatan ini mengatasi kebutuhan nyata dalam alur kerja pengembangan. Banyak proyek open-source, khususnya dalam generative AI , memang sangat bergantung pada PyTorch untuk pengembangan dan deployment karena fleksibilitas dan kemudahan penggunaannya.
Kekhawatiran Akurasi Teknis
Penelitian ini mengungkapkan beberapa masalah akurasi yang mengkhawatirkan dengan kernel yang dihasilkan AI . Meskipun GPT-5 berhasil menerjemahkan kernel 97% dari waktu untuk operasi sederhana dan 88% untuk arsitektur kompleks, mayoritas kernel yang dihasilkan sebenarnya berkinerja lebih lambat daripada implementasi referensi.
Yang lebih mengkhawatirkan adalah toleransi longgar yang digunakan untuk pengujian kebenaran. Para peneliti memungkinkan toleransi 0,01 dalam pengukuran kesalahan relatif dan absolut ketika membandingkan output. Untuk kernel komputasi numerik, toleransi ini tampak luar biasa tinggi dan berpotensi menutupi kesalahan komputasi yang signifikan.
Untuk kernel numerik, ini tampak terlalu longgar, tetapi ternyata batas-batas tersebut berasal langsung dari KernelBench , yang hanya menguji kebenaran pada 5 input acak secara default dalam harness mereka, bukan 100 yang mereka gunakan di sini.
Tingkat Keberhasilan Model AI untuk Generasi Metal Kernel:
- Level 1 (Operasi tunggal): 97% terjemahan berhasil
- Level 3 (Arsitektur kompleks): 88% terjemahan berhasil
- Pengujian ketepatan: toleransi 0,01 untuk kesalahan relatif dan absolut
- Metodologi pengujian: 100 input acak per kernel (vs. 5 dalam KernelBench asli)
Pendekatan Alternatif dan Arah Masa Depan
Diskusi komunitas juga menyentuh solusi alternatif untuk optimisasi lintas platform. Beberapa pengembang menyarankan bahwa alat seperti Tinygrad atau bahasa seperti Mojo , JAX , atau Julia mungkin menawarkan solusi jangka panjang yang lebih baik untuk generasi dan optimisasi kernel otomatis.
Pendekatan agentic swarm yang disebutkan dalam penelitian, di mana beberapa model AI menghasilkan kernel secara paralel sebelum memilih yang berkinerja terbaik, menuai beberapa skeptisisme. Kritikus mencatat bahwa hanya menjalankan delapan model berbeda dan memilih hasil tercepat, meskipun secara teknis merupakan pendekatan swarm, mungkin tidak membenarkan terminologi tersebut.
Pertanyaan Implementasi Praktis
Meskipun ada kekhawatiran teknis, penelitian ini mendemonstrasikan bahwa AI dapat berhasil menghasilkan kernel Metal yang fungsional untuk perangkat Apple . Pendekatan ini menunjukkan potensi khusus untuk kernel Level 2, yang melibatkan penggabungan beberapa operasi - area di mana mungkin ada lebih banyak peluang optimisasi dibandingkan dengan operasi tunggal sederhana atau arsitektur penuh yang kompleks.
Para peneliti belum merilis kernel yang dihasilkan atau kode implementasi mereka, meskipun tingkat keberhasilan yang tinggi dengan GPT-5 menunjukkan bahwa pengembang berpotensi dapat mereproduksi hasil serupa menggunakan dataset KernelBench yang tersedia untuk publik.
Meskipun penelitian ini merupakan langkah menarik menuju optimisasi kernel otomatis, respons komunitas menyoroti kebutuhan akan standar akurasi yang lebih ketat dan perbandingan yang lebih jelas dengan praktik deployment yang sudah ada. Pendekatan ini mungkin terbukti paling berharga sebagai alat pengembangan daripada pengganti untuk pipeline optimisasi yang sudah mapan.
Referensi: Speeding up PyTorch Inference by 87% on Apple devices with AI-generated Metal kernels