Proyek ANEMLL Mengungkap Kinerja Campuran Apple Neural Engine untuk Inferensi LLM

Tim Editorial BigGo

Proyek ANEMLL Mengungkap Kinerja Campuran Apple Neural Engine untuk Inferensi LLM

Apple Neural Engine (ANE) telah lama menjadi komponen misterius dalam chip Apple Silicon, dengan dokumentasi dan aksesibilitas yang terbatas bagi pengembang. Proyek open-source baru ANEMLL (diucapkan animal) bertujuan mengubah hal tersebut dengan menyediakan alat untuk memindahkan Large Language Models ke ANE, namun pengujian komunitas mengungkap baik keunggulan maupun keterbatasan signifikan.

Pertukaran Performa: Kecepatan vs Efisiensi Daya

Pengujian oleh anggota komunitas menunjukkan bahwa meskipun model yang dioptimalkan ANE berjalan lebih lambat daripada implementasi GPU, mereka menawarkan efisiensi daya yang luar biasa. Seorang pengguna melaporkan bahwa pada M4 Pro, model Llama 3.2 1B mencapai sekitar 62 token per detik sambil hanya menggunakan daya 2,8 watt. Sebagai perbandingan, implementasi GPU bisa dua kali lebih cepat tetapi mengkonsumsi sekitar 20 watt—hampir 10 kali lipat daya. Efisiensi ini membuat ANE sangat berharga untuk perangkat mobile di mana masa pakai baterai sangat penting.

Namun, perbandingan langsung antara ANEMLL dan framework lain seperti MLX menunjukkan kesenjangan kinerja yang signifikan. Sebuah benchmark yang menjalankan DeepSeek R1-8B pada M4 Max menunjukkan ANEMLL hanya mencapai 9,3 token per detik dibandingkan dengan 31,33 token per detik MLX untuk versi terkuantisasi 8-bit. Perbedaan kinerja ini menimbulkan pertanyaan apakah penghematan daya membenarkan pengurangan kecepatan untuk sebagian besar kasus penggunaan.

Perbandingan Kinerja: ANEMLL vs MLX pada M4 Max

Framework	Model	Kinerja	Penggunaan Memori
ANEMLL	DeepSeek R1-8B	9,3 tok/detik	~500MB
MLX (8-bit)	DeepSeek R1-8B	31,33 tok/detik	~8,5GB
MLX (bf16)	DeepSeek R1-8B	27,17 tok/detik	~15,7GB

Perbandingan Efisiensi Daya

Perangkat Keras	Model	Kinerja	Penggunaan Daya
M1 Max (ANE)	Llama 3.2-1B	47 tok/detik	~1,8 watt
M4 Pro (ANE)	Llama 3.2-1B	62 tok/detik	~2,8 watt
Implementasi GPU	Model serupa	~2x lebih cepat	~20 watt

Efisiensi Memori dan Keterbatasan Teknis

Salah satu keunggulan mengejutkan dari ANEMLL tampaknya adalah efisiensi memori. Benchmark yang sama yang menunjukkan kinerja lebih lambat juga mengungkapkan penggunaan memori yang jauh lebih rendah—sekitar 500MB untuk ANEMLL dibandingkan dengan 8,5GB untuk model 8-bit MLX. Efisiensi ini dapat membuat implementasi ANE sangat berharga untuk menjalankan model pada perangkat dengan memori terbatas, seperti iPhone dan iPad.

Tantangan teknis bekerja dengan ANE berasal dari batasan perangkat kerasnya. Tidak seperti GPU, ANE memerlukan bentuk input/output yang tetap, membuat operasi dinamis seperti pertumbuhan cache perhatian menjadi sulit. Ini juga hanya mendukung presisi FP16 (bukan BF16), yang dapat menyebabkan masalah overflow aktivasi. Pengembang harus mengimplementasikan solusi kreatif, seperti menggunakan operasi conv2d alih-alih layer linear dan mengembangkan pendekatan jendela geser untuk cache key-value.

Pendekatan Ekosistem Tertutup Apple

Diskusi komunitas mengungkapkan frustrasi dengan pendekatan Apple terhadap akselerasi AI. Meskipun makalah penelitian Apple sendiri mengklaim peningkatan kinerja yang signifikan untuk model yang dioptimalkan ANE, perusahaan telah menyediakan dokumentasi dan alat yang terbatas bagi pengembang. Bahkan framework MLX milik Apple sendiri tidak mendukung ANE, menimbulkan pertanyaan tentang strategi perusahaan.

Beberapa komentator telah membuat perbandingan dengan NPU Qualcomm di laptop Snapdragon X, menunjukkan bahwa produsen perangkat keras sering melebih-lebihkan kemampuan unit pemrosesan neural mereka untuk beban kerja AI. Kenyataannya adalah bahwa chip khusus ini unggul dalam tugas-tugas spesifik dan terbatas tetapi mungkin tidak memberikan kinerja yang dijanjikan untuk model besar yang sebenarnya ingin dijalankan pengguna.

Seperti yang dicatat oleh seorang anggota komunitas:

Manfaat utamanya adalah penggunaan daya yang jauh lebih rendah. Benchmark llama3.2-1B pada mesin saya; M1 Max (47t/s, ~1,8 watt), M4 Pro (62t/s, ~2,8 watt). GPU dua kali lebih cepat (bahkan lebih cepat pada Max), tetapi menggunakan daya jauh lebih banyak (~20 watt) dibandingkan ANE.

Proyek ANEMLL merupakan langkah penting untuk membuat Apple Neural Engine lebih mudah diakses oleh pengembang, tetapi karakteristik kinerja saat ini menunjukkan bahwa mungkin paling berharga untuk kasus penggunaan spesifik yang memprioritaskan efisiensi daya daripada kecepatan murni. Seiring Apple terus mengembangkan perangkat kerasnya dengan chip M-series yang lebih baru, keseimbangan antara kemampuan ANE, CPU, dan GPU mungkin bergeser, berpotensi membuat Neural Engine lebih kompetitif untuk beban kerja AI umum.

Referensi: ANEMLL

Berita Terkait

‌

‌
‌

‌

‌
‌

‌