Misteri di balik mengapa generator gambar AI menciptakan karya seni orisinal alih-alih hanya menyalin data pelatihannya telah terpecahkan. Penelitian baru mengungkapkan bahwa apa yang kita sebut kreativitas dalam sistem-sistem ini sebenarnya adalah hasil dari keterbatasan teknis, bukan kecerdasan buatan.
Paradoks Generasi Seni AI
Model difusi seperti DALL-E dan Stable Diffusion dirancang untuk mereproduksi gambar dari data pelatihan mereka. Namun mereka secara konsisten menghasilkan karya seni baru yang bermakna yang menggabungkan elemen-elemen dengan cara yang tak terduga. Hal ini membingungkan para peneliti selama bertahun-tahun - jika sistem-sistem ini bekerja dengan merakit ulang pola-pola yang dipelajari, bagaimana mereka bisa menciptakan sesuatu yang benar-benar baru?
Jawabannya terletak pada dua jalan pintas teknis yang diambil model-model ini. Pertama, mereka fokus pada patch kecil piksel pada satu waktu daripada melihat keseluruhan gambar. Kedua, mereka secara otomatis menyesuaikan output mereka ketika input bergeser posisi. Fitur-fitur ini, yang disebut lokalitas dan ekuivarian translasi, sebelumnya dianggap hanya sebagai keterbatasan belaka.
Sistem AI yang Disebutkan
- Generator Gambar: DALL-E, Imagen, Stable Diffusion
- Model Bahasa: ChatGPT (dirilis 2022)
- Fokus Penelitian: Model difusi menggunakan proses denoising
- Keterbatasan: Temuan tidak menjelaskan kreativitas dalam model bahasa besar atau sistem AI lainnya
Perdebatan Komunitas tentang Kreativitas Sejati
Penelitian ini telah memicu diskusi sengit tentang apakah sistem AI benar-benar menciptakan atau hanya meremiks konten yang sudah ada. Para kritikus berargumen bahwa menyebut proses ini kreativitas adalah berlebihan dalam menilai kemampuan AI, menunjukkan perbedaan mendasar antara proses manusia dan mesin.
Kreativitas manusia dan AI mungkin tidak begitu berbeda. Kita merakit hal-hal berdasarkan apa yang kita alami, apa yang kita amati, apa yang kita lihat, dengar, atau inginkan. AI juga hanya merakit blok-blok bangunan dari apa yang telah dilihatnya dan apa yang diminta untuk dilakukan.
Namun, banyak dalam komunitas teknologi menolak perbandingan ini. Mereka menyoroti bahwa manusia tidak perlu memproses seluruh internet untuk menghasilkan ide, dapat memulai tindakan tanpa prompt, dan memiliki pemahaman sejati daripada pencocokan pola.
![]() |
|---|
| Seorang akademisi yang tengah merenungkan batasan-batasan kreativitas dalam AI versus kemampuan manusia |
Matematika di Balik Kreativitas Mesin
Peneliti Stanford Marten Kard dan Surya Ganguli menciptakan model matematika yang disebut mesin Equivariant Local Scorer (ELS). Sistem ini hanya menggunakan prinsip lokalitas dan ekuivarian - tanpa data pelatihan apa pun - namun mencocokkan output model difusi yang kuat dengan akurasi 90%.
Terobosan ini menunjukkan bahwa kreativitas dalam generasi gambar AI adalah konsekuensi matematika yang dapat diprediksi dari cara sistem-sistem ini memproses informasi. Batasan-batasan yang membatasi perhatian model-model ini pada patch gambar kecil justru yang memungkinkan kreativitas mereka yang tampak.
Perbedaan antara halusinasi AI dan kreativitas juga tetap kontroversial. Banyak yang berargumen bahwa perbedaannya terletak pada konteks dan niat - kreativitas menghasilkan sesuatu yang baru dan berharga, sementara halusinasi menghasilkan informasi palsu yang disajikan sebagai fakta.
Metodologi Penelitian
- Akurasi Mesin ELS: 90% kecocokan dengan model difusi yang telah dilatih
- Model yang Diuji: Sistem difusi Kushlets dan lVers
- Fitur Teknis Utama: Lokalitas (pemrosesan berbasis patch) dan ekuivarian translasional (penyesuaian posisi)
- Timeline Penelitian: Studi dilakukan 2022-2024, dipresentasikan di International Conference on Machine Learning 2024
Implikasi untuk Memahami Kecerdasan
Meskipun penelitian ini menjelaskan kreativitas dalam generator gambar, ini tidak mengatasi perilaku serupa dalam model bahasa atau sistem AI lainnya. Mekanisme di balik kreativitas mereka yang tampak tetap misterius, menunjukkan jalur-jalur ganda menuju apa yang kita persepsikan sebagai kreativitas buatan.
Temuan ini menantang pemahaman kita tentang kreativitas buatan dan manusia. Jika kreativitas AI muncul dari pemrosesan informasi yang tidak lengkap dan pengisian celah, mungkin kreativitas manusia beroperasi dengan cara yang serupa - kita semua bekerja dengan pengetahuan terbatas dan sesekali menghasilkan sesuatu yang baru dan bermakna.
Catatan: Model difusi bekerja dengan mengubah gambar menjadi noise digital, kemudian secara bertahap menghilangkan noise tersebut untuk merekonstruksi atau menghasilkan gambar baru. Ekuivarian translasi berarti sistem mempertahankan hubungan spasial yang konsisten ketika elemen gambar dipindahkan.
Referensi: Researchers Uncover Hidden Ingredients Behind AI Creativity
![]() |
|---|
| Sebuah lengan robotik yang siap menciptakan karya seni, mewakili perpaduan teknologi dan kreativitas dalam sistem AI |


