Sebuah library Python baru bernama OLLM sedang mencuri perhatian di komunitas AI dengan memungkinkan pengguna menjalankan model bahasa berukuran besar pada perangkat keras dengan budget terbatas. Tool ini memungkinkan menjalankan model dengan hingga 80 miliar parameter pada GPU konsumen dengan memori hanya 8GB - sesuatu yang normalnya memerlukan perangkat keras tingkat enterprise yang berharga ribuan dolar Amerika Serikat.
Perbandingan Penggunaan Memori OLLM pada NVIDIA 3060 Ti 8GB:
Model | Ukuran Model | Panjang Konteks | VRAM Baseline | VRAM GPU OLLM | Penggunaan Disk OLLM |
---|---|---|---|---|---|
qwen3-next-80B | 160 GB | 10k token | ~170 GB | ~5.4 GB | 162 GB |
gpt-oss-20B | 13 GB | 10k token | ~40 GB | ~7.3 GB | 15 GB |
Llama3-8B-chat | 16 GB | 100k token | ~71 GB | ~6.6 GB | 69 GB |
![]() |
---|
Tangkapan layar repositori GitHub OLLM, menampilkan berkas-berkas proyek dan detail tentang kemampuannya |
Muncul Kekhawatiran Kompatibilitas Apple Silicon
Meskipun OLLM menunjukkan hasil yang mengesankan pada GPU NVIDIA, pengguna Apple Silicon mendapati diri mereka dikecualikan dari terobosan ini. Diskusi komunitas mengungkapkan bahwa pengguna Mac dengan chip M-series tidak dapat memanfaatkan kemampuan disk offloading OLLM, memaksa mereka bergantung pada model terkuantisasi tradisional yang sepenuhnya muat di RAM. Keterbatasan ini sangat membuat frustrasi pengguna dengan RAM 32GB yang berharap dapat menggunakan SSD offloading OLLM untuk menjalankan model yang lebih besar saat keadaan darurat atau tugas khusus.
Situasi ini menyoroti kesenjangan yang semakin melebar dalam aksesibilitas AI antara ekosistem perangkat keras NVIDIA dan Apple. Meskipun pengguna Mac masih dapat menjalankan model besar menggunakan versi yang dioptimalkan MLX dengan kecepatan yang layak (sekitar 30-40 token per detik), mereka kehilangan inovasi kunci OLLM yaitu menjalankan model yang melebihi kapasitas RAM sistem mereka.
Kompatibilitas Perangkat Keras:
- Didukung: NVIDIA Ampere ( RTX 30xx , A30 , A4000 , A10 ), Ada Lovelace ( RTX 40xx , L4 ), Hopper ( H100 )
- Dukungan Terbatas: Chip Apple Silicon M-series (memerlukan model yang dioptimalkan MLX , tanpa disk offloading)
- Performa: qwen3-next-80B mencapai 1 token/2 detik pada perangkat keras konsumen
Trade-off Performa Memicu Perdebatan
OLLM mencapai efisiensi memori melalui teknik offloading yang agresif, menyimpan bobot model dan cache attention pada penyimpanan SSD daripada menyimpan semuanya di memori GPU. Namun, pendekatan ini datang dengan penalti kecepatan yang signifikan. Model Qwen3-Next 80 miliar parameter berjalan hanya pada 1 token setiap 2 detik - kecepatan yang membuat beberapa pengguna mempertanyakan apakah GPU memberikan keuntungan yang berarti dibandingkan pemrosesan CPU pada kecepatan seperti itu.
CPU jauh lebih lambat daripada GPU. Anda sebenarnya dapat menggunakan keduanya dengan mem-offload beberapa layer ke CPU... Lebih cepat memuat dari RAM daripada dari SSD.
Pendekatan hybrid library ini memungkinkan pengguna menyimpan beberapa layer di memori CPU untuk akses yang lebih cepat sambil mem-offload yang lain ke disk, memberikan jalan tengah antara kecepatan dan penggunaan memori.
Fitur Teknis OLLM:
- Pemuatan bobot layer demi layer dari SSD ke GPU
- Offloading cache KV ke penyimpanan disk tanpa kuantisasi
- Implementasi FlashAttention-2 dengan softmax online
- Pemrosesan MLP chunked untuk layer menengah yang besar
- Distribusi layer hybrid CPU/GPU untuk optimasi kecepatan
- Dukungan untuk presisi fp16/bf16 tanpa kuantisasi
Aplikasi Diffusion Model Masih Belum Jelas
Selain model bahasa, anggota komunitas sedang mengeksplorasi apakah teknik OLLM dapat menguntungkan aplikasi AI lainnya seperti generasi gambar. Meskipun konsep inti dari pemuatan bobot layer-by-layer secara teoritis dapat diterapkan pada diffusion model, arsitektur yang berbeda berarti codebase saat ini tidak akan bekerja secara langsung. Ini merepresentasikan peluang yang belum dimanfaatkan untuk memperluas inferensi AI yang efisien memori di luar generasi teks.
Rilis ini mendemonstrasikan bagaimana rekayasa kreatif dapat mendemokratisasi akses ke model AI mutakhir, bahkan ketika keterbatasan spesifik platform terus memfragmentasi pengalaman pengguna di berbagai ekosistem perangkat keras yang berbeda.
Referensi: OLLM: LLM Inference for Large-Context Offline Workloads