Komunitas teknologi telah aktif menguji apakah model bahasa AI terbaru dapat menceritakan lelucon yang benar-benar lucu, memicu diskusi yang lebih luas tentang keterbatasan fundamental sistem AI saat ini. Meskipun beberapa pengguna melaporkan peningkatan yang sederhana pada model yang lebih baru seperti GPT-5 dan Gemini 2.5, hasilnya masih sebagian besar mengecewakan bagi mereka yang mencari humor setingkat manusia.
Pengujian Dunia Nyata Menunjukkan Kemajuan Bertahap
Anggota komunitas telah melakukan eksperimen mereka sendiri dengan berbagai model AI. Seorang pengguna menguji ChatGPT-5 pada lelucon festival komedi Edinburgh Fringe terbaru, memberikan skor hanya 2 dari 10 untuk respons yang benar-benar lucu. Namun, yang lain mencatat bahwa model yang lebih baru seperti Gemini 2.5 kadang-kadang menghasilkan konten yang benar-benar menghibur dan dapat bermain dalam skenario humor dengan lebih alami dibandingkan versi yang lebih lama.
Pengujian tersebut mengungkapkan pola yang menarik. Ketika pengguna memberikan prompt yang lebih detail yang menjelaskan teori di balik lelucon yang bagus - bahwa lelucon harus mengejutkan namun terasa tak terhindarkan ketika melihat ke belakang - beberapa model menghasilkan hasil yang jauh lebih baik. Prompt sederhana seperti ceritakan lelucon secara konsisten menghasilkan hasil yang buruk di semua model yang diuji.
Hasil Tes Performa Komedi Model AI:
- ChatGPT-5 pada lelucon Edinburgh Fringe: tingkat keberhasilan 2/10
- GPT-4.5: Mencatat peningkatan dalam kemampuan humor
- Gemini 2.5: Sesekali menghasilkan tawa yang tulus, keterlibatan skenario yang lebih baik
- Penyesuaian temperature: Peningkatan kualitas lelucon yang tidak konsisten
Tantangan Arsitektur di Balik Humor AI
Masalah inti tampaknya berasal dari cara sistem AI ini dilatih. Model bahasa belajar dengan memprediksi kata yang paling mungkin berikutnya dalam sebuah urutan, pada dasarnya melatih mereka untuk meminimalkan kejutan. Ini menciptakan ketegangan fundamental dengan humor, yang bergantung pada twist yang tidak terduga yang entah bagaimana terasa tak terhindarkan setelah terungkap.
Humor tingkat profesional adalah, seperti banyak latihan kreatif, lebih tentang menghasilkan banyak ide dan menyaring yang terbaik daripada menghasilkan hanya ide-ide bagus.
Pendekatan pelatihan ini berarti sistem AI secara alami cenderung ke respons yang paling umum dan paling tidak mengejutkan ketika diminta untuk lelucon. Mereka cenderung menghasilkan apa yang mungkin dianggap sedikit menghibur oleh mayoritas orang daripada membuat humor yang benar-benar pintar atau orisinal.
Keterbatasan Teknis Utama yang Teridentifikasi:
- Pelatihan prediksi token berikutnya meminimalkan kejutan
- Penyesuaian keamanan membatasi pengambilan risiko kreatif
- Kecenderungan terhadap humor berbasis konsensus daripada orisinal
- Kesulitan menyeimbangkan kejutan dengan koherensi logis
Fitur Keamanan Mungkin Menghambat Performa Komedi
Komplikasi tambahan datang dari langkah-langkah keamanan yang dibangun ke dalam sistem AI komersial. Model-model ini disetel dengan baik untuk memprioritaskan akurasi faktual dan menghindari konten yang berpotensi menyinggung - kualitas yang dapat bekerja melawan penceritaan lelucon yang efektif. Banyak lelucon yang berhasil bergantung pada bermain dengan ekspektasi, menggunakan permainan kata, atau menyentuh topik yang mungkin dihindari oleh sistem yang berfokus pada keamanan.
Beberapa pengguna mencatat bahwa meminta model AI untuk meningkatkan temperature (memungkinkan pilihan kata yang lebih tidak terduga) atau menggunakan teknik prompting yang lebih eksperimental dapat menghasilkan hasil komedi yang lebih baik, meskipun ini tetap tidak konsisten.
Melihat ke Depan: Pendekatan Hibrida Mungkin Menjanjikan
Diskusi tersebut telah mengarah pada spekulasi tentang arsitektur AI masa depan yang mungkin lebih baik menangani tugas kreatif yang memerlukan kejutan yang terkontrol. Daripada hanya meningkatkan skala model bahasa saat ini, peneliti mungkin perlu mengembangkan sistem hibrida yang dapat secara sengaja mencari jenis kejutan yang tepat sambil mempertahankan koherensi.
Untuk saat ini, konsensus di antara penguji menunjukkan bahwa meskipun kemampuan humor AI perlahan membaik dengan setiap generasi model, mereka masih jauh dari menyamai komedian manusia. Model-model tersebut menunjukkan lebih banyak harapan sebagai alat brainstorming untuk komedian manusia daripada sebagai sumber hiburan yang mandiri.
Referensi: LLMs generate slop because they avoid surprises by design