Krea telah merilis bobot terbuka untuk FLUX | Krea, sebuah model generasi gambar berparameter 12 miliar yang dirancang untuk mengatasi salah satu masalah paling persisten dalam citra yang dihasilkan AI: tampilan AI yang khas yang membuat gambar sintetis mudah diidentifikasi. Model ini, dikembangkan bekerja sama dengan Black Forest Labs, merupakan upaya terfokus untuk menciptakan gambar yang dihasilkan dengan tampilan lebih alami melalui kurasi data yang cermat dan pilihan estetika yang berpendirian.
Spesifikasi Model:
- Parameter: 12 miliar (12B)
- Ukuran file: 23,8 GB
- Presisi: bfloat16 (16 bit per parameter)
- Kebutuhan VRAM: ~24 GB
- Arsitektur: Model rectified flow, kompatibel dengan FLUX
- Data pelatihan: <1M sampel untuk post-training
| |
|:--:|
| Gambaran umum peluncuran model FLUX | Krea dari Krea, menyoroti komitmennya terhadap fotorealisme dan estetika |
Melepaskan Diri dari Tampilan AI
Perusahaan ini mengidentifikasi beberapa tanda yang melanda generator gambar AI saat ini: latar belakang yang terlalu buram, tekstur kulit seperti lilin, dan komposisi yang membosankan. Masalah-masalah ini telah menjadi begitu umum sehingga secara kolektif membentuk apa yang sekarang disebut industri sebagai tampilan AI. Pendekatan Krea menantang fokus umum pada tolok ukur teknis dan kepatuhan prompt, dengan berargumen bahwa metode evaluasi yang ada tidak selaras dengan apa yang sebenarnya diinginkan pengguna dari alat generasi gambar.
Tim menemukan bahwa model penilaian estetika populer seperti LAION Aesthetics, yang umum digunakan untuk menyaring data pelatihan, sebenarnya memperkenalkan bias yang merugikan. Model-model ini lebih menyukai gambar yang menggambarkan wanita, latar belakang buram, dan tekstur yang terlalu lembut - tepat karakteristik yang berkontribusi pada penampilan buatan yang ingin dihindari pengguna.
![]() |
---|
Close-up burung yang unik dan mencolok melambangkan tujuan Krea untuk mencapai citra yang dihasilkan AI yang lebih natural dan menarik secara visual |
Arsitektur Teknis dan Kompatibilitas
FLUX | Krea dibangun sebagai model guidance-distilled yang sepenuhnya kompatibel dengan ekosistem FLUX yang ada. Kompatibilitas ini berarti bahwa pengembang dapat mengintegrasikannya dengan mulus ke dalam alur kerja yang ada, kode fine-tuning, dan alat yang awalnya dirancang untuk FLUX.1 dev. File model berukuran 23,8 GB, menggunakan presisi floating point 16-bit yang diterjemahkan menjadi sekitar 2 GB per miliar parameter.
Tim pengembang menekankan bahwa mereka memulai dengan model dasar mentah dari Black Forest Labs yang disebut flax-deit-v3-large. Model pra-latih ini memberikan pengetahuan dunia yang penting sambil tetap unbaked - bebas dari bias estetika yang melanda banyak model open-weight yang ada yang telah menjalani post-training ekstensif.
Pendekatan Kualitas Data Daripada Kuantitas
Salah satu temuan paling signifikan dari proses pengembangan Krea adalah bahwa hasil berkualitas tinggi dapat dicapai dengan dataset yang mengejutkan kecil. Tim menggunakan kurang dari satu juta sampel untuk post-training, fokus intensif pada kualitas data daripada skala. Pendekatan dua tahap mereka melibatkan supervised fine-tuning diikuti oleh reinforcement learning dari umpan balik manusia menggunakan teknik yang mereka sebut TPO (varian mereka dari optimisasi preferensi).
Anda sebenarnya dapat menggunakan kurang dari < 1 juta sampel untuk secara signifikan meningkatkan estetika. Kualitas sangat penting.
Perusahaan mengambil pendekatan yang sengaja berpendirian terhadap preferensi estetika, berargumen menentang praktik umum pelatihan pada preferensi pengguna global. Mereka menemukan bahwa mencoba memuaskan selera estetika yang beragam secara bersamaan menghasilkan model yang encer yang tidak sepenuhnya memuaskan siapa pun.
Metodologi Pelatihan:
- Fokus pra-pelatihan: Cakupan mode dan pemahaman dunia
- Fokus pasca-pelatihan: Kolaps mode menuju estetika yang diinginkan
- Tahap 1: Supervised Fine-tuning (SFT) dengan gambar berkualitas tinggi yang dikurasi
- Tahap 2: Reinforcement Learning from Human Feedback (RLHF) menggunakan teknik TPO
- Model dasar: flax-deit-v3-large dari Black Forest Labs
Penerimaan Komunitas dan Aplikasi Bisnis
Umpan balik komunitas awal telah beragam namun terlibat. Pengguna telah mencatat beberapa keanehan, seperti kecenderungan model untuk menghasilkan tangan mirip manusia dalam konteks yang tidak terduga, mencerminkan sifat berpendirian yang dijelaskan tim. Model memerlukan sumber daya komputasi yang substansial, dengan jumlah parameter 12 miliar menuntut sekitar 24 GB VRAM untuk operasi.
Aplikasi bisnis mencakup berbagai industri, dari e-commerce dan fashion untuk citra produk yang konsisten hingga desain UI/UX untuk membuat ikon dan tata letak. Perusahaan telah melihat adopsi dalam tim pemasaran dan agensi, dengan aplikasi masa depan potensial dalam fotografi menu restoran dan sektor lain yang memerlukan citra berkualitas profesional tanpa biaya fotografi tradisional.
Rilis ini mewakili pergeseran yang lebih luas dalam generasi gambar AI menuju pengembangan yang berfokus pada estetika daripada kemajuan kemampuan teknis murni. Dengan membuat bobot tersedia secara bebas di bawah lisensi yang sama dengan FLUX.1-dev, Krea memungkinkan komunitas open-source untuk membangun di atas pendekatan yang berfokus pada estetika mereka sambil berpotensi menginspirasi upaya serupa di seluruh industri.
Referensi: Releasing Open Weights for FLUX | Krea
![]() |
---|
Momen tenang antara ayah dan anak mewakili potensi bercerita emosional dari aplikasi generasi gambar AI Krea di berbagai industri |