Normalizing Flows, yang dulu dianggap sebagai pendekatan yang menjanjikan namun terabaikan dalam generasi gambar AI, kini mengalami kebangkitan yang dramatis. Model TarFlow baru dari Apple telah mencapai sesuatu yang banyak orang anggap mustahil: menyamai kualitas model difusi populer sambil menetapkan rekor baru untuk estimasi kemungkinan pada gambar.
Terobosan ini merepresentasikan pergeseran signifikan dalam cara kita memandang generasi gambar AI. Sementara sebagian besar kemajuan terkini berfokus pada model difusi, TarFlow menunjukkan bahwa normalizing flows dapat bersaing di level tertinggi ketika diberikan skala yang tepat dan teknik modern.
Perbandingan Performa:
- TarFlow : Normalizing flow pertama yang mencapai di bawah 3,2 bit per dimensi pada ImageNet 64×64
- Terbaik sebelumnya: 2,99 bit per dimensi (model difusi hibrid)
- Kualitas sampel sebanding dengan model difusi untuk pertama kalinya dengan normalizing flow mandiri
![]() |
---|
Tangkapan layar dari makalah penelitian berjudul " Normalizing Flows are Capable Generative Models ," yang menyoroti fokus pada metodologi generasi gambar AI |
Skala Membuat Perbedaan
Wawasan kunci yang mendorong kesuksesan TarFlow adalah skala. Model normalizing flow sebelumnya ternyata berukuran kecil dibandingkan dengan rekan-rekan model difusi mereka. Model-model sebelumnya seperti DenseFlow dan MaCow menggunakan kurang dari 200 juta parameter, sementara model difusi modern secara rutin menggunakan beberapa miliar parameter. TarFlow menjembatani kesenjangan ini dengan model yang berkisar dari 472 juta hingga 820 juta parameter, dengan penelitian lanjutan yang mendorong hingga 3,8 miliar parameter.
Revelasi skala ini menunjukkan bahwa normalizing flows tidak secara inheren terbatas - mereka hanya kurang terlatih dan kurang mendapat sumber daya dibandingkan pendekatan lain.
Ukuran Model TarFlow:
- Model AFHQ-256: ~472M parameter
- Model ImageNet: ~820M parameter
- Follow-up StarFlow: 3.8B parameter
- Normalizing flows sebelumnya ( DenseFlow , MaCow ): <200M parameter
Keunggulan Teknis dan Trade-offs
TarFlow menggabungkan arsitektur transformer dengan generasi autoregresif, memproses patch gambar secara berurutan sambil bergantian arah antar layer. Pendekatan ini menawarkan beberapa keuntungan unik dibandingkan model difusi, terutama dalam generasi deterministik dan komputasi kemungkinan yang tepat.
Namun, sifat berurutan ini menciptakan tantangan kinerja. Model ini memerlukan ukuran batch yang besar untuk memanfaatkan paralelisme GPU secara efektif, membuatnya kurang efisien untuk generasi gambar tunggal dibandingkan model difusi yang dapat memproses seluruh gambar secara bersamaan.
Potensi Implementasi AI Lokal
Diskusi seputar TarFlow telah memicu percakapan yang lebih luas tentang menjalankan model AI secara lokal pada perangkat. Meskipun perangkat keras mobile saat ini kesulitan dengan model yang memerlukan setara dengan kartu grafis seharga 400 dolar Amerika untuk kinerja yang nyaman, sifat deterministik dari normalizing flows dapat menawarkan keuntungan untuk deployment perangkat.
Lokal tidak menghabiskan biaya perusahaan apa pun, dan meningkatkan perangkat keras minimum yang perlu dibeli pelanggan.
Manfaat privasi dari pemrosesan lokal tetap menarik, meskipun persyaratan perangkat keras menghadirkan tantangan untuk adopsi luas dalam jangka pendek.
Kebutuhan Hardware untuk AI Lokal:
- Inferensi lokal yang nyaman: setara kartu grafis ~$400 USD
- Kemampuan mobile saat ini: model 3B-5B parameter
- Contoh performa: pemrosesan prompt 35 token/detik, decode 7-8 token/detik pada Android flagship
![]() |
---|
Diskusi kolaboratif tentang implementasi AI, menyoroti potensi solusi pemrosesan AI lokal |
Respons Komunitas Penelitian
Komunitas machine learning telah merespons secara positif demonstrasi TarFlow bahwa arsitektur alternatif layak mendapat perhatian yang diperbaharui. Para peneliti sudah mengimplementasikan pendekatan ini dalam berbagai framework dan mengeksplorasi ekstensi ke algoritma lain seperti GLOW.
Karya ini berfungsi sebagai pengingat bahwa fokus bidang ini pada model difusi mungkin telah menyebabkan pendekatan menjanjikan lainnya ditinggalkan secara prematur. Kesuksesan TarFlow menunjukkan bahwa dengan sumber daya yang tepat dan teknik modern, banyak metode yang sudah usang mungkin terbukti mengejutkan kompetitif.
Catatan: Normalizing flows adalah model machine learning yang mengubah distribusi probabilitas sederhana menjadi yang kompleks melalui transformasi yang dapat dibalik. Generasi autoregresif berarti model menciptakan output langkah demi langkah, dengan setiap langkah bergantung pada langkah-langkah sebelumnya.