Google baru-baru ini meluncurkan Gemma 3n , sebuah model AI on-device baru yang menjanjikan kemampuan multimodal yang mengesankan untuk smartphone dan perangkat edge. Perusahaan mengklaim model ini dapat memproses hingga 60 frame per detik pada perangkat Google Pixel , memungkinkan analisis video real-time dan pengalaman interaktif. Namun, pengujian komunitas mengungkap kesenjangan signifikan antara janji pemasaran dan performa aktual.
![]() |
---|
Memperkenalkan Gemma 3n : model AI on-device baru Google untuk smartphone |
Klaim Performa Tidak Sesuai dengan Pengujian Dunia Nyata
Ketika pengembang mengunduh aplikasi demo resmi Google dan mengujinya pada perangkat Pixel aktual, hasilnya sangat berbeda dari spesifikasi yang diiklankan. Alih-alih 60 frame per detik yang dijanjikan, pengujian dunia nyata menunjukkan model memproses hanya 0,16 frame per detik - sekitar 375 kali lebih lambat dari yang diklaim. Seorang penguji menemukan bahwa model 2B membutuhkan 6,2 hingga 7,5 detik hanya untuk mulai merespons input gambar, dengan kecepatan generasi hanya 4-5 token per detik.
Perbedaan ini tampaknya berasal dari keterbatasan teknis yang tidak dikomunikasikan dengan jelas oleh Google . Sementara sistem internal Google dapat mengakses unit pemrosesan Tensor secara langsung melalui proses sistem yang memiliki hak istimewa, pengembang pihak ketiga dan bahkan aplikasi demo publik Google sendiri dibatasi pada inferensi CPU saja. Ini menciptakan kesenjangan performa yang sangat besar yang membuat kemampuan real-time yang diiklankan pada dasarnya tidak dapat digunakan untuk sebagian besar pengembang.
Perbandingan Performa: Klaim vs Aktual
- Klaim Google: 60 frame per detik pada Google Pixel
- Pengujian Dunia Nyata: 0,16 frame per detik (375x lebih lambat)
- Waktu Respons: 6,2-7,5 detik untuk mulai memproses
- Generasi Token: 4-5 token per detik
![]() |
---|
Performa MMLU vs Ukuran Model: Menyoroti kekhawatiran performa Gemma 3n |
Inovasi Arsitektur Menunjukkan Potensi Meski Ada Masalah Performa
Meskipun ada kekhawatiran performa, Gemma 3n memperkenalkan beberapa inovasi teknis yang menarik. Model ini menggunakan arsitektur MatFormer berdasarkan konsep boneka Matryoshka - di mana model yang lebih kecil dan fungsional disarangkan dalam model yang lebih besar. Ini memungkinkan pengembang untuk mengekstrak model berukuran berbeda dari satu proses pelatihan, menawarkan fleksibilitas dalam menyeimbangkan performa dan kemampuan.
Model ini juga menampilkan teknologi Per-Layer Embeddings ( PLE ), yang membantu mengurangi penggunaan memori dengan menyimpan parameter tertentu di CPU daripada di memori akselerator. Untuk varian E2B , ini berarti hanya sekitar 1 miliar parameter yang perlu dimuat ke memori berkecepatan tinggi, meskipun total model berisi 5 miliar parameter.
MatFormer: Arsitektur transformer bersarang di mana model yang lebih kecil terkandung dalam model yang lebih besar, mirip dengan boneka bersarang Rusia Per-Layer Embeddings (PLE): Teknik yang membagi parameter model antara memori CPU dan akselerator untuk mengurangi kebutuhan memori
Inovasi Teknis
- Arsitektur MatFormer: Transformer bersarang dengan model yang lebih kecil terkandung dalam model yang lebih besar
- Per-Layer Embeddings (PLE): Membagi parameter antara memori CPU dan akselerator
- KV Cache Sharing: Peningkatan performa prefill 3x lipat dibanding Gemma 3 4B
- MobileNet-V5: Encoder visi baru yang mendukung resolusi 256x256, 512x512, dan 768x768
Adopsi Komunitas dan Kompatibilitas
Komunitas pengembang telah dengan cepat mengadaptasi Gemma 3n untuk berbagai platform dan kasus penggunaan. Beberapa pengembang telah membuat versi yang dioptimalkan untuk framework yang berbeda, termasuk format GGUF untuk llama.cpp dan varian MLX untuk perangkat Apple Silicon . Model ini menunjukkan kompatibilitas yang baik dengan alur kerja fine-tuning yang ada, dengan beberapa pengembang melaporkan integrasi yang berhasil ke dalam skrip mereka yang sudah ada tanpa modifikasi.
Namun, komunitas juga telah menyuarakan kekhawatiran tentang konvensi penamaan Google dan kebingungan antara Gemma (open weights) dan Gemini Nano ( Android API). Kebingungan ini meluas ke pertanyaan lisensi, karena beberapa pengembang memperdebatkan apakah bobot model AI benar-benar dapat dilindungi hak cipta di bawah hukum AS saat ini.
![]() |
---|
Peringkat Skor Elo LMArena yang menyoroti performa Gemma 3n di antara para pesaing |
Aplikasi Praktis Tetap Terbatas
Sementara Google mempromosikan Gemma 3n untuk aplikasi real-time seperti pengenalan suara, analisis video, dan interaksi multimodal, keterbatasan performa aktual secara signifikan membatasi kasus penggunaan praktis. Model ini bekerja lebih baik untuk tugas offline seperti pemrosesan dokumen, analisis data pribadi, dan situasi di mana konektivitas jaringan terbatas atau privasi menjadi perhatian.
Bagi saya? Menangani data seperti memo suara pribadi, gambar, video, informasi kalender, email, beberapa kode dll. Hal-hal yang tidak ingin saya bagikan di internet.
Kesenjangan antara klaim pemasaran Google dan performa yang dapat diberikan menimbulkan pertanyaan tentang bagaimana perusahaan harus mengkomunikasikan kemampuan AI, terutama ketika keterbatasan teknis mencegah pengembang pihak ketiga mencapai hasil yang sama dengan demonstrasi internal.
Spesifikasi Model Gemma 3n
- Model E2B: Total 5 miliar parameter, ~1 miliar dalam memori akselerator
- Model E4B: Total 6 miliar parameter, ~4 miliar dalam memori akselerator
- Kebutuhan Memori: 2GB (E2B) dan 5GB (E4B)
- Input yang Didukung: Gambar, audio, video, dan teks
- Dukungan Bahasa: 145 bahasa untuk teks, 35 untuk multimodal
Kesimpulan
Gemma 3n mewakili langkah maju yang menarik dalam teknologi AI on-device, dengan arsitektur inovatif dan kemampuan multimodal. Namun, ketidaksesuaian signifikan antara klaim performa Google dan apa yang sebenarnya dapat dicapai pengembang menyoroti tantangan berkelanjutan dalam industri AI seputar transparansi dan ekspektasi yang realistis. Sampai Google menyediakan akses yang lebih baik ke akselerasi perangkat keras untuk pengembang pihak ketiga, kemampuan real-time yang dijanjikan sebagian besar tetap teoretis untuk sebagian besar kasus penggunaan.
Referensi: Introducing Gemma 3n: The developer guide