Proyek open-source llama.cpp telah secara signifikan memperluas kemampuannya dengan menambahkan dukungan visi multimodal yang komprehensif untuk server dan alat antarmuka baris perintah (CLI). Integrasi ini memungkinkan pengguna menjalankan model bahasa-visi secara lokal di perangkat keras mereka sendiri, memungkinkan deskripsi dan analisis gambar tanpa bergantung pada layanan cloud.
Implementasi Multimodal Terpadu
Implementasi baru ini mengkonsolidasikan fungsi visi yang sebelumnya terpisah di bawah kerangka kerja terpadu. Menurut diskusi komunitas, pengembang ngxson memainkan peran kunci dalam upaya ini, pertama menambahkan dukungan untuk berbagai model visi dengan program CLI individual, kemudian menyatukannya di bawah satu alat baris perintah bernama llama-mtmd-cli, dan akhirnya membawa kemampuan ini ke komponen server. Dukungan multimodal bekerja melalui pustaka bernama libmtmd
yang menangani pra-pemrosesan gambar-ke-embedding secara terpisah dari model bahasa utama.
Pendekatan arsitektur ini mencerminkan bagaimana pra-pemrosesan teks berkembang dalam ekosistem transformer, dengan pustaka khusus yang menangani tokenisasi secara terpisah dari model inti. Pemisahan ini memungkinkan optimasi khusus untuk pemrosesan gambar sambil mempertahankan kompatibilitas dengan kerangka kerja llama.cpp yang lebih luas.
Model yang Didukung dan Kinerja
Implementasi ini mendukung berbagai model multimodal yang mengesankan, termasuk Gemma 3 (dalam varian 4B, 12B, dan 27B), model SmolVLM, Pixtral 12B, Qwen2 VL, Qwen2.5 VL, dan Mistral Small 3.1. Pengguna melaporkan pengalaman yang sangat baik dengan model Gemma 3 4B, yang meskipun ukurannya relatif kecil memberikan deskripsi gambar yang mengesankan.
Laporan kinerja dari komunitas menunjukkan bahwa pada MacBook Pro M1 dengan RAM 64GB, model Gemma 3 4B memproses prompt dengan kecepatan sekitar 25 token per detik dan menghasilkan token dengan kecepatan 63 per detik. Pemrosesan gambar membutuhkan waktu sekitar 15 detik terlepas dari ukuran gambar. Tingkat kinerja ini membuat model-model ini praktis untuk aplikasi dunia nyata pada perangkat keras konsumen.
Model Multimodal yang Didukung
-
Seri Gemma 3
- ggml-org/gemma-3-4b-it-GGUF
- ggml-org/gemma-3-12b-it-GGUF
- ggml-org/gemma-3-27b-it-GGUF
-
Seri SmolVLM
- ggml-org/SmolVLM-Instruct-GGUF
- ggml-org/SmolVLM-256M-Instruct-GGUF
- ggml-org/SmolVLM-500M-Instruct-GGUF
- ggml-org/SmolVLM2-2.2B-Instruct-GGUF
- ggml-org/SmolVLM2-256M-Video-Instruct-GGUF
- ggml-org/SmolVLM2-500M-Video-Instruct-GGUF
-
Pixtral
- ggml-org/pixtral-12b-GGUF
-
Qwen 2 VL
- ggml-org/Qwen2-VL-2B-Instruct-GGUF
- ggml-org/Qwen2-VL-7B-Instruct-GGUF
-
Qwen 2.5 VL
- ggml-org/Qwen2.5-VL-3B-Instruct-GGUF
- ggml-org/Qwen2.5-VL-7B-Instruct-GGUF
- ggml-org/Qwen2.5-VL-32B-Instruct-GGUF
- ggml-org/Qwen2.5-VL-72B-Instruct-GGUF
-
Mistral Small
- ggml-org/Mistral-Small-3.1-24B-Instruct-2503-GGUF
Aplikasi Dunia Nyata
Anggota komunitas telah mulai memanfaatkan kemampuan ini untuk penggunaan praktis. Seorang pengguna menjelaskan tentang pembuatan sistem untuk menghasilkan kata kunci dan deskripsi untuk foto liburan, mencatat bahwa model Gemma 3 4B mampu mengekstrak informasi bermakna termasuk OCR (optical character recognition) dasar dari gambar yang berisi teks dan mengidentifikasi informasi lokasi kontekstual.
Seri model SmolVLM telah disorot sebagai model yang sangat cocok untuk aplikasi real-time seperti pengawasan video rumah karena ukurannya yang kecil dan waktu respons yang cepat. Model-model ini berkisar dari hanya 256MB hingga 2,2GB, menjadikannya dapat diakses bahkan pada perangkat dengan sumber daya terbatas.
Metrik Kinerja (Gemma 3 4B pada M1 MacBook Pro 64GB)
- Pemrosesan prompt: 25 token/detik
- Generasi token: 63 token/detik
- Waktu pemrosesan gambar: ~15 detik per gambar (terlepas dari ukuran)
Instalasi dan Penggunaan
Memulai dengan kemampuan multimodal cukup mudah. Pengguna dapat mengunduh biner yang telah dikompilasi dari halaman rilis GitHub llama.cpp atau menginstal melalui pengelola paket seperti Homebrew. Alat-alat ini dapat dijalankan dengan perintah sederhana yang menentukan model yang akan digunakan, dengan opsi untuk mengontrol offloading GPU untuk meningkatkan kinerja.
Bagi pengguna macOS yang menggunakan Homebrew, paket akan diperbarui untuk menyertakan kemampuan baru ini, memungkinkan pengguna cukup menjalankan brew upgrade llama.cpp
untuk mendapatkan fitur terbaru. Implementasi ini secara otomatis memanfaatkan akselerasi GPU jika tersedia, dengan pengguna backend Metal mendapatkan keuntungan dari offloading layer otomatis.
Pengembangan ini merupakan langkah maju yang signifikan untuk kemampuan AI edge, membawa model bahasa-visi yang kuat ke perangkat lokal tanpa memerlukan konektivitas cloud atau layanan berlangganan. Seiring dengan kematangan alat-alat ini, kita dapat mengharapkan peningkatan jumlah aplikasi yang memanfaatkan AI multimodal untuk kasus penggunaan pribadi dan profesional.
Referensi: Multimodal