Teknik LLM-Deflate Mendapat Kritik Karena Akumulasi Halusinasi dan Kurangnya Validasi

Tim Komunitas BigGo
Teknik LLM-Deflate Mendapat Kritik Karena Akumulasi Halusinasi dan Kurangnya Validasi

Sebuah teknik baru yang disebut LLM-Deflate mengklaim dapat mengekstrak dataset terstruktur dari model bahasa yang telah dilatih dengan membalikkan proses kompresinya. Namun, metode ini mendapat skeptisisme dari komunitas AI karena kekhawatiran mendasar tentang kualitas data dan validasi.

Proses Teknis:

  • Menggunakan eksplorasi topik hierarkis yang dimulai dengan kategori luas
  • Secara rekursif menghasilkan subtopik yang lebih spesifik dalam struktur pohon
  • Memerlukan ribuan panggilan inferensi model per topik
  • Mengekstrak pengetahuan faktual dan pola penalaran

Akumulasi Halusinasi Menimbulkan Kekhawatiran Kualitas

Kritik utama berpusat pada bagaimana kesalahan bertumpuk selama proses generasi rekursif. Teknik ini menggunakan eksplorasi topik hierarkis, di mana setiap langkah generasi membangun dari output sebelumnya. Para kritikus khawatir ini menciptakan efek kaskade di mana ketidakakuratan kecil berkembang menjadi distorsi signifikan saat sistem bergerak lebih dalam ke dalam pohon topik.

Anggota komunitas menunjukkan bahwa tidak seperti transformasi matematika yang terdefinisi dengan baik seperti kompresi JPEG, model bahasa melibatkan beberapa lapisan transformasi non-linear yang membuat propagasi kesalahan sulit diprediksi atau dikontrol. Ketidakpastian ini membuat sulit untuk menilai keandalan data yang diekstrak, terutama di cabang-cabang yang lebih dalam dari hierarki topik.

Keterbatasan Utama yang Teridentifikasi:

  • Akumulasi halusinasi dalam generasi rekursif
  • Tidak ada mekanisme validasi untuk pengetahuan yang diekstrak
  • Biaya komputasi tinggi untuk cakupan komprehensif
  • Potensi degradasi kualitas pada cabang topik yang lebih dalam

Kerangka Validasi yang Hilang Melemahkan Klaim

Kekhawatiran besar lainnya adalah tidak adanya bukti bahwa dekompresi yang bermakna benar-benar telah terjadi. Teknik ini menghasilkan dataset dari tiga model open-source - Qwery-Coder , GPT-OS , dan Llama 2 - tetapi tidak menyediakan mekanisme validasi untuk memverifikasi bahwa pengetahuan yang diekstrak secara akurat mewakili data pelatihan asli.

Tidak ada bukti bahwa sesuatu telah didekompresi

Komunitas mencatat bahwa meskipun metafora dekompresi menarik, model bahasa pada dasarnya adalah sistem kompresi yang lossy. Tidak seperti kompresi lossless di mana data asli dapat direkonstruksi dengan sempurna, LLM membuang informasi yang tidak membantu memprediksi token berikutnya selama pelatihan.

Model yang Diuji:

  • Qwery-Coder : Khusus untuk pembuatan kode dan tugas pemrograman
  • GPT-OS : Model bahasa tujuan umum
  • Llama 2 : Dioptimalkan untuk mengikuti instruksi
  • Masing-masing menghasilkan lebih dari 10.000 contoh pelatihan terstruktur

Keterbatasan Praktis dan Kekhawatiran Biaya

Teknik ini memerlukan ribuan panggilan inferensi model per topik, membuatnya mahal secara komputasi bahkan dengan infrastruktur yang dioptimalkan. Ini menimbulkan pertanyaan tentang skalabilitas praktis, terutama ketika mempertimbangkan potensi diminishing returns saat sistem mengeksplorasi subtopik yang semakin sempit.

Beberapa peneliti menyarankan bahwa siklus berulang pelatihan pada data yang diekstrak dan kemudian mengekstrak lagi dapat menyebabkan degradasi cepat, mirip dengan bagaimana berulang kali menyalin fotokopi akhirnya menghasilkan hasil yang tidak dapat digunakan. Namun, melakukan eksperimen semacam itu akan sangat mahal.

Pendekatan Alternatif Menunjukkan Harapan

Meskipun ada kritik terhadap ekstraksi model murni, komunitas melihat nilai dalam pendekatan hibrid yang menggabungkan generasi LLM dengan validasi eksternal. Metode-metode ini melibatkan menghasilkan konten dari model tetapi kemudian memverifikasi akurasi melalui eksekusi kode, sumber eksternal, atau umpan balik manusia daripada hanya mengandalkan pengetahuan internal model.

Diskusi ini menyoroti tantangan yang lebih luas dalam penelitian AI: membedakan antara ekstraksi pengetahuan yang asli dan pencocokan pola yang canggih yang mungkin tidak mencerminkan pemahaman sejati atau retensi informasi yang akurat.

Referensi: LLM-Deflate: Extracting LLMs Into Datasets