Pada Mei 2023, ilmuwan komputer legendaris Donald Knuth menguji ChatGPT dengan 20 pertanyaan menantang, mengungkap kelemahan signifikan dalam kemampuan penalaran sistem AI tersebut. Kini, hampir dua tahun kemudian, komunitas teknologi kembali mengunjungi pertanyaan-pertanyaan yang sama dengan GPT-5 , mengungkap peningkatan dramatis dalam kemampuan AI.
Timeline Tantangan Asli Knuth
- Mei 2023: Donald Knuth menerbitkan 20 pertanyaan menantang untuk ChatGPT
- 626 komentar dan 927 poin pada diskusi asli
- GPT-3.5 digunakan secara utama dalam pengujian asli
- 2025: Komunitas meninjau kembali pertanyaan-pertanyaan dengan GPT-5
GPT-5 Memberikan Penalaran Matematika yang Lebih Akurat
Model baru ini menunjukkan kemajuan substansial pada masalah matematika yang sebelumnya membuat versi-versi sebelumnya bingung. Satu peningkatan yang sangat mencolok melibatkan definisi matematika kompleks dan kasus-kasus khusus. Ketika ditanya tentang koefisien binomial dengan bilangan bulat negatif, GPT-5 memberikan penjelasan bernuansa tentang bagaimana Wolfram mendefinisikan objek-objek matematika ini, mengakui konvensi yang berbeda dan pertukaran manfaatnya. Ini merupakan lompatan signifikan dari jawaban-jawaban yang membingungkan atau salah yang menjadi ciri khas model-model sebelumnya.
Namun, beberapa keterbatasan fundamental masih bertahan. Model ini masih kesulitan dengan tugas penghitungan huruf dasar, gagal membangun kalimat yang hanya menggunakan kata-kata lima huruf. Kelemahan ini berasal dari cara sistem AI ini memproses bahasa melalui potongan kata daripada huruf individual, membuat tugas tingkat karakter menjadi sangat sulit.
Keterbatasan yang Persisten
- Penghitungan huruf dan tugas-tugas tingkat karakter
- Konstruksi kalimat dengan persyaratan panjang kata tertentu
- Masalah tokenisasi dengan BPE ( Byte Pair Encoding )
- Kesalahan halus yang mungkin lebih sulit dideteksi
Performa Coding Menunjukkan Peningkatan Luar Biasa
Mungkin keuntungan paling mengesankan muncul dalam tugas pemrograman. GPT-5 menunjukkan pemahaman yang jauh lebih kuat tentang pengembangan perangkat lunak, menghasilkan kode yang tidak hanya benar tetapi juga terstruktur dengan baik dan praktis. Pengguna melaporkan bahwa model ini dapat menghasilkan program-program canggih dengan fitur-fitur berguna yang tidak diminta secara eksplisit, menunjukkan pemahaman yang lebih baik tentang apa yang membuat kode benar-benar membantu.
Notebook yang dihasilkannya 100% benar, sangat berguna, dan dibangun dengan cara umum sehingga saya dapat dengan mudah mengubah pemetaan untuk mengeksplorasi berbagai jenis fungsi.
Peningkatan coding ini meluas melampaui kebenaran sintaks sederhana hingga mencakup keputusan arsitektur yang lebih baik dan struktur kode yang lebih dapat dipelihara.
Area Peningkatan Utama dalam GPT-5
- Penalaran matematis dengan kasus-kasus tepi yang kompleks
- Generasi kode dan arsitektur perangkat lunak
- Berkurangnya frekuensi jawaban yang jelas-jelas salah
- Penanganan yang lebih baik untuk tugas-tugas pemrograman Wolfram / Mathematica
Kekhawatiran Kepercayaan dan Keandalan Tetap Ada
Meskipun ada kemajuan ini, komunitas terus bergulat dengan pertanyaan fundamental tentang keandalan AI. Beberapa pengguna mencatat bahwa meskipun GPT-5 memberikan lebih sedikit jawaban yang jelas salah, peningkatan ini mungkin justru membuat sistem lebih berbahaya dengan membuat kesalahan kurang dapat dideteksi. Kekhawatiran berpusat pada ketidakakuratan halus yang bisa lolos dari tinjauan manusia, terutama di domain di mana pengguna tidak memiliki keahlian mendalam.
Diskusi ini mengungkap tantangan berkelanjutan dalam pengembangan AI: menyeimbangkan peningkatan kemampuan dengan kepercayaan. Saat sistem-sistem ini menjadi lebih canggih, mereka mungkin menjadi lebih baik dalam menghasilkan informasi yang meyakinkan tetapi salah, membuat verifikasi manusia menjadi lebih penting dan lebih sulit.
Melihat ke Depan
Kemajuan dari GPT-3.5 ke GPT-5 merepresentasikan kemajuan signifikan dalam kemampuan AI, khususnya dalam penalaran matematika dan generasi kode. Namun, tantangan yang persisten dengan tugas-tugas dasar seperti penghitungan huruf berfungsi sebagai pengingat bahwa sistem-sistem ini masih memiliki keterbatasan fundamental. Saat teknologi terus berkembang, keseimbangan antara kemampuan dan keandalan tetap menjadi pertimbangan kritis bagi pengembang dan pengguna.
Referensi: DAIKIN.AI Q&A