LLM Gagal dalam Tugas Perbandingan Daftar Sederhana Meski Memiliki Kemampuan Canggih

Tim Komunitas BigGo

LLM Gagal dalam Tugas Perbandingan Daftar Sederhana Meski Memiliki Kemampuan Canggih

Sebuah tes terbaru terhadap tiga LLM komersial utama mengungkap kelemahan mengejutkan dalam melakukan tugas yang seharusnya mudah. Ketika diminta mengidentifikasi domain tingkat atas (TLD) mana yang memiliki nama sama dengan elemen HTML5 yang valid, ChatGPT , Google Gemini , dan Claude semuanya menghasilkan hasil yang tidak lengkap atau salah, menyoroti kesenjangan mendasar antara janji pemasaran AI dan kinerja dunia nyata.

Tugas Sederhana yang Membingungkan AI

Tantangannya tampak mudah: membandingkan dua daftar dan menemukan kecocokan antara nama TLD dan elemen HTML5 . Jenis tugas ini memerlukan akses ke data terkini, referensi silang informasi, dan memberikan hasil lengkap. Namun, ketiga sistem AI tersebut mengalami kesulitan signifikan.

ChatGPT memberikan enam kecocokan tetapi salah memasukkan .code sebagai TLD padahal yang ada hanya .codes. Google Gemini sepenuhnya salah memahami tugas tersebut, mencantumkan elemen HTML tanpa perbandingan TLD apa pun. Claude berkinerja terbaik dengan tujuh kecocokan yang benar tetapi masih melewatkan beberapa kombinasi valid dan mencoba menjelaskan berlebihan dengan kecocokan tambahan yang meragukan.

Perbandingan Performa LLM pada Tugas Pencocokan Elemen TLD-HTML5:

Sistem AI	Kecocokan yang Ditemukan dengan Benar	Kesalahan Besar	Rating Performa
ChatGPT	6 kecocokan	Menyertakan TLD ".code" yang tidak ada	Buruk
Google Gemini	0 kecocokan	Sepenuhnya salah memahami tugas	Gagal
Claude	7 kecocokan	Melewatkan beberapa kecocokan yang valid	Terbaik dari tiga
ChatGPT (Advanced)	8+ kecocokan	Melewatkan elemen ".search"	Baik dengan prompting yang tepat

Komunitas Mengungkap Masalah Sebenarnya

Respons komunitas teknologi menyoroti wawasan penting tentang bagaimana sistem-sistem ini sebenarnya bekerja. Tidak seperti memiliki akses ke daftar komprehensif dan terkini, LLM menghasilkan respons berdasarkan pola yang dipelajari selama pelatihan. Mereka tidak memelihara basis data TLD atau elemen HTML terkini yang dapat diandalkan untuk dikueri.

Beberapa anggota komunitas menunjukkan bahwa hasil yang lebih baik dapat dicapai dengan meminta AI menulis kode yang mengunduh dan membandingkan daftar sebenarnya, daripada mengandalkan pengetahuan internal sistem. Pendekatan ini memperlakukan LLM sebagai asisten pemrograman daripada orakel informasi.

LLM ditambah alat/kode sangat menakjubkan. LLM sendiri adalah profesor dengan masalah heroin yang intermiten.

Perdebatan Prompting

Diskusi signifikan muncul tentang apakah hasil buruk berasal dari teknik prompting yang tidak memadai. Beberapa orang berargumen bahwa menggunakan model yang lebih canggih dengan kemampuan pencarian dan fitur penalaran akan menyelesaikan masalah. Yang lain membantah bahwa jika pengaturan default menghasilkan hasil yang tidak dapat diandalkan, teknologi tersebut belum siap untuk penggunaan mainstream.

Pengujian dengan prompting yang lebih canggih memang menghasilkan hasil yang lebih baik dalam beberapa kasus, tetapi ini menimbulkan pertanyaan tentang kegunaan. Sebagian besar pengguna hanya membuka alat-alat ini dan mengajukan pertanyaan tanpa menyesuaikan pengaturan atau menyusun prompt yang rumit. Ekspektasi bahwa pengguna harus menjadi ahli rekayasa prompt untuk mendapatkan jawaban yang dapat diandalkan bertentangan dengan pesan pemasaran asisten AI yang ajaib.

Implikasi Lebih Luas untuk Keandalan AI

Contoh ini menggambarkan pola yang lebih luas di mana LLM unggul dalam tugas yang memerlukan respons yang terdengar masuk akal tetapi kesulitan dengan presisi dan kelengkapan. Sistem-sistem tersebut dirancang untuk menghasilkan teks yang terdengar otoritatif, bahkan ketika informasi yang mendasarinya tidak lengkap atau salah.

Diskusi komunitas mengungkapkan bahwa banyak profesional berhasil menggunakan alat-alat ini dengan memahami keterbatasannya dan merancang alur kerja yang sesuai. Daripada mengharapkan jawaban langsung untuk pertanyaan faktual, pengguna berpengalaman memanfaatkan LLM untuk pembuatan kode, transformasi teks, dan tugas kreatif di mana akurasi sempurna tidak kritis.

Keterbatasan Teknis Utama yang Teridentifikasi:

Tidak Ada Akses Data Real-time: LLM tidak memelihara basis data terkini dari TLD atau elemen HTML
Generasi Berbasis Pola: Respons berdasarkan pola data pelatihan, bukan pencarian faktual
Masalah Kelengkapan: Kesulitan dengan generasi daftar lengkap dan tugas perbandingan
Masalah Tokenisasi: Kesulitan dengan analisis tingkat karakter (misalnya, menghitung huruf dalam kata)
Keracunan Konteks: Kesalahan di awal percakapan mempengaruhi respons selanjutnya
Keterbatasan Model Default: Model dasar sering kali tidak memadai untuk tugas presisi

Kesimpulan

Meskipun LLM telah terbukti berharga untuk banyak aplikasi, tes ini menunjukkan pentingnya memahami keterbatasan mendasar mereka. Kesenjangan antara janji pemasaran dan kemampuan aktual tetap signifikan, terutama untuk tugas yang memerlukan informasi terkini, lengkap, dan akurat. Pengguna yang mencapai hasil terbaik memperlakukan sistem-sistem ini sebagai generator teks canggih daripada sumber pengetahuan yang dapat diandalkan, merancang alur kerja mereka untuk memperhitungkan kelemahan inheren teknologi tersebut.

Referensi: LLMs are still surprisingly bad at some simple tasks

Berita Terkait

‌

‌
‌

‌

‌
‌

‌