Metode Active Learning Google Mengurangi Data Pelatihan LLM Hingga 10.000 Kali Lipat, Namun Komunitas Mempertanyakan Efektivitas di Dunia Nyata

Tim Komunitas BigGo

Metode Active Learning Google Mengurangi Data Pelatihan LLM Hingga 10.000 Kali Lipat, Namun Komunitas Mempertanyakan Efektivitas di Dunia Nyata

Para peneliti Google telah mengungkap pendekatan active learning yang secara dramatis memangkas jumlah data pelatihan yang diperlukan untuk fine-tuning large language model (LLM) dalam aplikasi keamanan iklan. Metode ini dilaporkan mengurangi kebutuhan pelatihan dari 100.000 contoh menjadi kurang dari 500 sambil meningkatkan keselarasan model dengan para ahli manusia hingga 65%. Namun, komunitas teknologi mengajukan pertanyaan penting tentang implikasi praktis dan efektivitas di dunia nyata dari klaim-klaim ini.

Hasil Pengurangan Data Pelatihan:

Pendekatan tradisional: ~100.000 contoh pelatihan
Metode active learning baru: Di bawah 500 contoh pelatihan
Faktor pengurangan: Hingga 10.000x (4 orde magnitude)
Peningkatan penyelarasan model: Hingga 65% peningkatan

Skeptisisme Komunitas Terhadap Klaim Kualitas Iklan

Pernyataan makalah penelitian bahwa kurang dari 1% iklan produksi adalah clickbait telah memicu perdebatan yang cukup besar di antara para developer dan pengguna. Banyak anggota komunitas merasa statistik ini sulit dipercaya berdasarkan pengalaman browsing web harian mereka. Ketidaksesuaian antara data internal Google dan pengalaman pengguna telah mengarah pada diskusi yang lebih luas tentang bagaimana perusahaan teknologi mengukur dan mendefinisikan konten yang bermasalah.

Beberapa pengguna telah berbagi anekdot yang mengkhawatirkan tentang menemui penipuan yang jelas dalam sistem iklan Google , terutama di platform seperti Facebook di mana iklan penjualan alat musik palsu dan iklan giveaway penipuan muncul secara teratur. Laporan-laporan ini menyoroti potensi kesenjangan antara apa yang diklasifikasikan sistem otomatis sebagai bermasalah versus apa yang sebenarnya dihadapi pengguna.

Implementasi Teknis Menimbulkan Pertanyaan

Metodologi clustering yang dijelaskan dalam penelitian telah menghasilkan diskusi teknis yang signifikan. Anggota komunitas mempertanyakan bagaimana sistem dapat menghasilkan cluster yang tumpang tindih ketika contoh-contoh yang diberi label seharusnya terpisah. Makalah tersebut kurang detail spesifik tentang model embedding mana yang digunakan untuk clustering dan jenis algoritma clustering apa yang menggerakkan sistem.

Beberapa praktisi berpengalaman telah mencatat bahwa LLM tipikal tidak menghasilkan embedding yang efektif untuk tugas clustering, menunjukkan bahwa model embedding khusus tambahan mungkin terlibat. Ambiguitas teknis ini telah membuat beberapa orang bertanya-tanya apakah detail implementasi penting sengaja dikaburkan.

Pengaturan Eksperimen:

Model yang diuji: Gemini Nano-1 (1,8 miliar parameter), Nano-2 (3,25 miliar parameter)
Iterasi yang diperlukan: 5-6 putaran
Sampel pelatihan akhir: 250-400 contoh
Sampel evaluasi akhir: 150-250 contoh
Keseimbangan kelas yang dicapai: ~40% contoh positif (vs. 5% asli)


Ilustrasi ini menggambarkan proses clustering titik-titik data, mencerminkan kekhawatiran dan diskusi teknis seputar metodologi clustering Google

Rekam Jejak Active Learning yang Beragam

Komunitas penelitian telah mengekspresikan skeptisisme yang terukur tentang pendekatan active learning secara umum. Beberapa praktisi telah melakukan studi empiris menyeluruh yang menunjukkan bahwa random sampling terkadang dapat mengungguli strategi active learning yang canggih dalam tugas klasifikasi teks. Temuan ini menantang premis fundamental bahwa contoh pelatihan yang dipilih dengan hati-hati selalu menghasilkan hasil yang lebih baik.

Namun, yang lain telah melaporkan kesuksesan dengan pipeline active learning yang mengkuantifikasi ketidakpastian aleatoric dan epistemic untuk memandu upaya pelabelan. Pendekatan-pendekatan ini cenderung lebih kompleks tetapi dapat memberikan skor kepercayaan yang berharga untuk pengguna akhir.

Active Learning adalah area yang sangat rumit untuk dikuasai ... selama bertahun-tahun saya memiliki keberuntungan yang beragam dengan klasifikasi teks, sampai pada titik di mana kolega saya dan saya memutuskan untuk melakukan studi empiris menyeluruh yang menormalisasi berbagai pengaturan eksperimen yang telah dilaporkan makalah individual. Kami mengamati bahwa setelah normalisasi, memilih instance secara acak untuk diberi label lebih baik!

Metrik Performa Model:

Keselarasan internal ahli (Cohen's Kappa): 0,81 (kompleksitas rendah), 0,78 (kompleksitas tinggi)
Keselarasan model-ahli: 0,59 (kompleksitas rendah), 0,41 (kompleksitas tinggi)
Ambang batas Kappa yang dapat diterima: Di atas 0,4
Ambang batas Kappa yang luar biasa: Di atas 0,8

Implikasi yang Lebih Luas untuk Pelatihan AI

Penelitian ini menyentuh tantangan kritis dalam pengembangan AI: kebutuhan akan data pelatihan berkualitas tinggi sambil mengelola biaya dan beradaptasi dengan persyaratan yang berubah. Kemampuan untuk melatih ulang model dengan contoh baru yang minimal bisa sangat berharga dalam domain yang berkembang pesat seperti moderasi konten dan deteksi penipuan.

Pendekatan ini menggabungkan kemampuan cakupan luas LLM dengan keahlian terfokus dari annotator manusia pada kasus-kasus tepi yang menantang. Metodologi hibrida ini mewakili jalur potensial ke depan untuk membuat pelatihan AI lebih efisien dan responsif terhadap kebutuhan dunia nyata.

Diskusi komunitas mengungkapkan baik kegembiraan tentang potensi pelatihan AI yang lebih efisien maupun skeptisisme yang sehat tentang apakah peningkatan yang dilaporkan akan diterjemahkan menjadi pengalaman pengguna yang lebih baik. Ketika sistem AI menjadi lebih umum dalam aplikasi moderasi konten dan keamanan, kesenjangan antara metrik teknis dan kepuasan pengguna tetap menjadi tantangan kunci bagi industri.

Referensi: Achieving 10,000x training data reduction with high-fidelity labels


Gambar ini menyoroti penelitian Google dalam mencapai pengurangan data pelatihan yang signifikan untuk model AI, menekankan potensi untuk meningkatkan efisiensi AI dalam aplikasi dunia nyata

Berita Terkait

‌

‌
‌

‌

‌
‌

‌