ZeroEntropy, sebuah startup YC W23, baru-baru ini merilis model rerank-v3 mereka yang menggunakan prinsip skor Elo catur untuk meningkatkan akurasi hasil pencarian. Pengumuman ini telah menghasilkan diskusi teknis yang signifikan di komunitas developer, khususnya seputar tantangan mendasar dalam menilai relevansi dokumen.
Pendekatan perusahaan ini mengatasi masalah inti dalam sistem pencarian: bagaimana cara mengukur secara akurat seberapa relevan sebuah dokumen terhadap kueri pengguna. Metode tradisional meminta manusia atau sistem AI untuk memberikan skor absolut (seperti memberi rating 7 dari 10), tetapi ini menciptakan data yang tidak konsisten dan berisik.
Keunggulan Perbandingan Berpasangan
Anggota komunitas menunjukkan minat yang kuat terhadap pergeseran ZeroEntropy dari absolute scoring ke pairwise comparisons. Alih-alih bertanya Seberapa relevan dokumen ini?, sistem mereka bertanya Mana dari kedua dokumen ini yang lebih relevan? Pendekatan ini tampaknya menghasilkan hasil yang jauh lebih konsisten.
Beberapa developer dalam diskusi telah berbagi pengalaman serupa dengan metode pairwise. Salah satunya mencatat bahwa ketika menggunakan large language model sebagai penilai dengan kriteria khusus, pendekatan binary judgment bekerja jauh lebih baik daripada mencoba mendapatkan skor numerik. Alasannya sederhana: jauh lebih mudah bagi manusia dan AI untuk membandingkan dua hal secara langsung daripada memberikan nilai absolut secara terpisah.
Komunitas teknis juga menyoroti bahwa perbandingan berpasangan membuat asumsi yang lebih sedikit tentang struktur data yang mendasari, membuatnya lebih robust untuk aplikasi dunia nyata.
Perbandingan Teknis: Penilaian Berpasangan vs Absolut
- Penilaian absolut: Memberikan nilai numerik (0-1) pada dokumen individual
- Penilaian berpasangan: Membandingkan dua dokumen secara langsung untuk relevansi relatif
- Akurasi: Konsensus LLM dengan manusia >95% vs pemeringkat ulang tradisional 60-70%
- Pengurangan noise: Perbandingan berpasangan secara signifikan mengurangi variabilitas penilaian
Pendekatan Alternatif dan Fondasi Matematika
Diskusi telah mengungkap beberapa metode alternatif yang sedang dijelajahi developer. Beberapa anggota komunitas menunjuk algoritma sorting 2AFC (Two-Alternative Forced Choice) sebagai solusi lain untuk masalah yang sama. Metode ini, yang awalnya dikembangkan untuk evaluasi medical imaging, menggunakan comparison-based sorting alih-alih kalkulasi Elo.
AFC memperbaiki semua itu. Oke kamu memberi rating snack ini 8/10. Berdasarkan apa? Dan kemudian mereka kembali dan berkata 'sebenarnya saya akan mengubahnya menjadi 7'.
Tim ZeroEntropy memberikan wawasan detail tentang pendekatan matematika mereka, menjelaskan bahwa sistem mereka memodelkan skor relevansi fundamental untuk setiap dokumen, kemudian memperhitungkan noise alami yang terjadi saat membuat penilaian. Mereka menggunakan Maximum Likelihood Estimation untuk menemukan hidden score yang paling mungkin yang menjelaskan preferensi berpasangan yang diamati.
Gambaran Umum Pipeline Pelatihan
- Pengambilan sampel triplet dengan 500 triplet acak per kueri
- Pelatihan pairwise reranker menggunakan ensemble dari 3 LLM
- Komputasi rating Elo (n=100 dokumen per kueri)
- Pelatihan pointwise reranker dengan loss MSE
- Fine-tuning reinforcement learning
Performa dan Aplikasi Praktis
Diskusi komunitas telah menyentuh kekhawatiran implementasi praktis, khususnya seputar latensi dan dukungan multibahasa. ZeroEntropy melaporkan reranker mereka memproses sekitar 12.665 bytes dalam waktu sekitar 149 milidetik, yang tampak kompetitif dengan solusi yang ada.
Beberapa developer telah berbagi pengalaman mereka sendiri menggunakan pendekatan reranking serupa untuk aplikasi yang berbeda, dari filtering rekrutmen hingga cold outbound marketing. Kasus penggunaan dunia nyata ini mendemonstrasikan penerapan yang lebih luas dari metode perbandingan berpasangan di luar skenario pencarian tradisional.
Perdebatan teknis seputar pendekatan ZeroEntropy mencerminkan pergeseran yang lebih luas dalam cara developer berpikir tentang relevance scoring. Seiring sistem pencarian menjadi lebih canggih, komunitas tampak semakin tertarik pada metode yang dapat menangkap preferensi yang bernuansa sambil mempertahankan efisiensi komputasi. Sistem Elo yang terinspirasi catur mewakili satu arah yang menjanjikan, meskipun diskusi menunjukkan beberapa pendekatan yang layak sedang muncul di ruang ini.
Catatan: Elo merujuk pada sistem rating yang dibuat oleh Arpad Elo, bukan akronim. 2AFC adalah singkatan dari Two-Alternative Forced Choice, sebuah metode di mana subjek harus memilih antara tepat dua opsi.
Referensi: Improving Retrieval with ELO Scores