OLLM Memungkinkan Model 80B Parameter Berjalan di GPU Konsumen 8GB, Namun Pengguna Apple Silicon Tertinggal

Tim Komunitas BigGo

OLLM Memungkinkan Model 80B Parameter Berjalan di GPU Konsumen 8GB, Namun Pengguna Apple Silicon Tertinggal

Sebuah library Python baru bernama OLLM sedang mencuri perhatian di komunitas AI dengan memungkinkan pengguna menjalankan model bahasa berukuran besar pada perangkat keras dengan budget terbatas. Tool ini memungkinkan menjalankan model dengan hingga 80 miliar parameter pada GPU konsumen dengan memori hanya 8GB - sesuatu yang normalnya memerlukan perangkat keras tingkat enterprise yang berharga ribuan dolar Amerika Serikat.

Perbandingan Penggunaan Memori OLLM pada NVIDIA 3060 Ti 8GB:

Model	Ukuran Model	Panjang Konteks	VRAM Baseline	VRAM GPU OLLM	Penggunaan Disk OLLM
qwen3-next-80B	160 GB	10k token	~170 GB	~5.4 GB	162 GB
gpt-oss-20B	13 GB	10k token	~40 GB	~7.3 GB	15 GB
Llama3-8B-chat	16 GB	100k token	~71 GB	~6.6 GB	69 GB


Tangkapan layar repositori GitHub OLLM, menampilkan berkas-berkas proyek dan detail tentang kemampuannya

Muncul Kekhawatiran Kompatibilitas Apple Silicon

Meskipun OLLM menunjukkan hasil yang mengesankan pada GPU NVIDIA, pengguna Apple Silicon mendapati diri mereka dikecualikan dari terobosan ini. Diskusi komunitas mengungkapkan bahwa pengguna Mac dengan chip M-series tidak dapat memanfaatkan kemampuan disk offloading OLLM, memaksa mereka bergantung pada model terkuantisasi tradisional yang sepenuhnya muat di RAM. Keterbatasan ini sangat membuat frustrasi pengguna dengan RAM 32GB yang berharap dapat menggunakan SSD offloading OLLM untuk menjalankan model yang lebih besar saat keadaan darurat atau tugas khusus.

Situasi ini menyoroti kesenjangan yang semakin melebar dalam aksesibilitas AI antara ekosistem perangkat keras NVIDIA dan Apple. Meskipun pengguna Mac masih dapat menjalankan model besar menggunakan versi yang dioptimalkan MLX dengan kecepatan yang layak (sekitar 30-40 token per detik), mereka kehilangan inovasi kunci OLLM yaitu menjalankan model yang melebihi kapasitas RAM sistem mereka.

Kompatibilitas Perangkat Keras:

Didukung: NVIDIA Ampere ( RTX 30xx , A30 , A4000 , A10 ), Ada Lovelace ( RTX 40xx , L4 ), Hopper ( H100 )
Dukungan Terbatas: Chip Apple Silicon M-series (memerlukan model yang dioptimalkan MLX , tanpa disk offloading)
Performa: qwen3-next-80B mencapai 1 token/2 detik pada perangkat keras konsumen

Trade-off Performa Memicu Perdebatan

OLLM mencapai efisiensi memori melalui teknik offloading yang agresif, menyimpan bobot model dan cache attention pada penyimpanan SSD daripada menyimpan semuanya di memori GPU. Namun, pendekatan ini datang dengan penalti kecepatan yang signifikan. Model Qwen3-Next 80 miliar parameter berjalan hanya pada 1 token setiap 2 detik - kecepatan yang membuat beberapa pengguna mempertanyakan apakah GPU memberikan keuntungan yang berarti dibandingkan pemrosesan CPU pada kecepatan seperti itu.

CPU jauh lebih lambat daripada GPU. Anda sebenarnya dapat menggunakan keduanya dengan mem-offload beberapa layer ke CPU... Lebih cepat memuat dari RAM daripada dari SSD.

Pendekatan hybrid library ini memungkinkan pengguna menyimpan beberapa layer di memori CPU untuk akses yang lebih cepat sambil mem-offload yang lain ke disk, memberikan jalan tengah antara kecepatan dan penggunaan memori.

Fitur Teknis OLLM:

Pemuatan bobot layer demi layer dari SSD ke GPU
Offloading cache KV ke penyimpanan disk tanpa kuantisasi
Implementasi FlashAttention-2 dengan softmax online
Pemrosesan MLP chunked untuk layer menengah yang besar
Distribusi layer hybrid CPU/GPU untuk optimasi kecepatan
Dukungan untuk presisi fp16/bf16 tanpa kuantisasi

Aplikasi Diffusion Model Masih Belum Jelas

Selain model bahasa, anggota komunitas sedang mengeksplorasi apakah teknik OLLM dapat menguntungkan aplikasi AI lainnya seperti generasi gambar. Meskipun konsep inti dari pemuatan bobot layer-by-layer secara teoritis dapat diterapkan pada diffusion model, arsitektur yang berbeda berarti codebase saat ini tidak akan bekerja secara langsung. Ini merepresentasikan peluang yang belum dimanfaatkan untuk memperluas inferensi AI yang efisien memori di luar generasi teks.

Rilis ini mendemonstrasikan bagaimana rekayasa kreatif dapat mendemokratisasi akses ke model AI mutakhir, bahkan ketika keterbatasan spesifik platform terus memfragmentasi pengalaman pengguna di berbagai ekosistem perangkat keras yang berbeda.

Referensi: OLLM: LLM Inference for Large-Context Offline Workloads

Berita Terkait

‌

‌
‌

‌

‌
‌

‌