Sebuah tes terbaru terhadap tiga LLM komersial utama mengungkap kelemahan mengejutkan dalam melakukan tugas yang seharusnya mudah. Ketika diminta mengidentifikasi domain tingkat atas (TLD) mana yang memiliki nama sama dengan elemen HTML5 yang valid, ChatGPT , Google Gemini , dan Claude semuanya menghasilkan hasil yang tidak lengkap atau salah, menyoroti kesenjangan mendasar antara janji pemasaran AI dan kinerja dunia nyata.
Tugas Sederhana yang Membingungkan AI
Tantangannya tampak mudah: membandingkan dua daftar dan menemukan kecocokan antara nama TLD dan elemen HTML5 . Jenis tugas ini memerlukan akses ke data terkini, referensi silang informasi, dan memberikan hasil lengkap. Namun, ketiga sistem AI tersebut mengalami kesulitan signifikan.
ChatGPT memberikan enam kecocokan tetapi salah memasukkan .code sebagai TLD padahal yang ada hanya .codes. Google Gemini sepenuhnya salah memahami tugas tersebut, mencantumkan elemen HTML tanpa perbandingan TLD apa pun. Claude berkinerja terbaik dengan tujuh kecocokan yang benar tetapi masih melewatkan beberapa kombinasi valid dan mencoba menjelaskan berlebihan dengan kecocokan tambahan yang meragukan.
Perbandingan Performa LLM pada Tugas Pencocokan Elemen TLD-HTML5:
| Sistem AI | Kecocokan yang Ditemukan dengan Benar | Kesalahan Besar | Rating Performa |
|---|---|---|---|
| ChatGPT | 6 kecocokan | Menyertakan TLD ".code" yang tidak ada | Buruk |
| Google Gemini | 0 kecocokan | Sepenuhnya salah memahami tugas | Gagal |
| Claude | 7 kecocokan | Melewatkan beberapa kecocokan yang valid | Terbaik dari tiga |
| ChatGPT (Advanced) | 8+ kecocokan | Melewatkan elemen ".search" | Baik dengan prompting yang tepat |
Komunitas Mengungkap Masalah Sebenarnya
Respons komunitas teknologi menyoroti wawasan penting tentang bagaimana sistem-sistem ini sebenarnya bekerja. Tidak seperti memiliki akses ke daftar komprehensif dan terkini, LLM menghasilkan respons berdasarkan pola yang dipelajari selama pelatihan. Mereka tidak memelihara basis data TLD atau elemen HTML terkini yang dapat diandalkan untuk dikueri.
Beberapa anggota komunitas menunjukkan bahwa hasil yang lebih baik dapat dicapai dengan meminta AI menulis kode yang mengunduh dan membandingkan daftar sebenarnya, daripada mengandalkan pengetahuan internal sistem. Pendekatan ini memperlakukan LLM sebagai asisten pemrograman daripada orakel informasi.
LLM ditambah alat/kode sangat menakjubkan. LLM sendiri adalah profesor dengan masalah heroin yang intermiten.
Perdebatan Prompting
Diskusi signifikan muncul tentang apakah hasil buruk berasal dari teknik prompting yang tidak memadai. Beberapa orang berargumen bahwa menggunakan model yang lebih canggih dengan kemampuan pencarian dan fitur penalaran akan menyelesaikan masalah. Yang lain membantah bahwa jika pengaturan default menghasilkan hasil yang tidak dapat diandalkan, teknologi tersebut belum siap untuk penggunaan mainstream.
Pengujian dengan prompting yang lebih canggih memang menghasilkan hasil yang lebih baik dalam beberapa kasus, tetapi ini menimbulkan pertanyaan tentang kegunaan. Sebagian besar pengguna hanya membuka alat-alat ini dan mengajukan pertanyaan tanpa menyesuaikan pengaturan atau menyusun prompt yang rumit. Ekspektasi bahwa pengguna harus menjadi ahli rekayasa prompt untuk mendapatkan jawaban yang dapat diandalkan bertentangan dengan pesan pemasaran asisten AI yang ajaib.
Implikasi Lebih Luas untuk Keandalan AI
Contoh ini menggambarkan pola yang lebih luas di mana LLM unggul dalam tugas yang memerlukan respons yang terdengar masuk akal tetapi kesulitan dengan presisi dan kelengkapan. Sistem-sistem tersebut dirancang untuk menghasilkan teks yang terdengar otoritatif, bahkan ketika informasi yang mendasarinya tidak lengkap atau salah.
Diskusi komunitas mengungkapkan bahwa banyak profesional berhasil menggunakan alat-alat ini dengan memahami keterbatasannya dan merancang alur kerja yang sesuai. Daripada mengharapkan jawaban langsung untuk pertanyaan faktual, pengguna berpengalaman memanfaatkan LLM untuk pembuatan kode, transformasi teks, dan tugas kreatif di mana akurasi sempurna tidak kritis.
Keterbatasan Teknis Utama yang Teridentifikasi:
- Tidak Ada Akses Data Real-time: LLM tidak memelihara basis data terkini dari TLD atau elemen HTML
- Generasi Berbasis Pola: Respons berdasarkan pola data pelatihan, bukan pencarian faktual
- Masalah Kelengkapan: Kesulitan dengan generasi daftar lengkap dan tugas perbandingan
- Masalah Tokenisasi: Kesulitan dengan analisis tingkat karakter (misalnya, menghitung huruf dalam kata)
- Keracunan Konteks: Kesalahan di awal percakapan mempengaruhi respons selanjutnya
- Keterbatasan Model Default: Model dasar sering kali tidak memadai untuk tugas presisi
Kesimpulan
Meskipun LLM telah terbukti berharga untuk banyak aplikasi, tes ini menunjukkan pentingnya memahami keterbatasan mendasar mereka. Kesenjangan antara janji pemasaran dan kemampuan aktual tetap signifikan, terutama untuk tugas yang memerlukan informasi terkini, lengkap, dan akurat. Pengguna yang mencapai hasil terbaik memperlakukan sistem-sistem ini sebagai generator teks canggih daripada sumber pengetahuan yang dapat diandalkan, merancang alur kerja mereka untuk memperhitungkan kelemahan inheren teknologi tersebut.
Referensi: LLMs are still surprisingly bad at some simple tasks
