Evaluasi dunia nyata seorang developer terhadap 11 model bahasa besar menggunakan 130 pertanyaan personal telah memicu diskusi komunitas tentang apa yang benar-benar penting saat memilih alat AI untuk penggunaan sehari-hari. Berbeda dengan benchmark akademis yang fokus pada tugas penalaran kompleks, evaluasi ini menguji model pada pertanyaan praktis tentang pemrograman, administrasi sistem, dan pengetahuan umum.
Kategori Model yang Diuji:
- Pemrograman: Scripting Bash , coding Python
- Administrasi Sistem: Port forwarding , konfigurasi jaringan
- Penjelasan Teknis: Konsep jaringan data center
- Pengetahuan Umum: Permintaan resep, tugas penulisan kreatif
![]() |
---|
Dokumen ini merangkum evaluasi LLMs untuk penggunaan pribadi, menyoroti kategori-kategori penting dan contoh-contoh yang dinilai dalam penelitian |
Kecepatan Muncul sebagai Pembeda Utama
Evaluasi menemukan bahwa Gemini 1.5 Flash milik Google secara konsisten memberikan respons tercepat di semua kategori. Anggota komunitas telah menggemakan temuan ini, dengan pengguna memuji kombinasi kecepatan, keterjangkauan, dan kemampuan multimodal Flash. Kemampuan model untuk menangani 1 juta token konteks sambil mempertahankan latensi rendah membuatnya sangat menarik untuk tugas pemrosesan dokumen.
Beberapa pengguna melaporkan menjalankan puluhan ribu kueri melalui Flash untuk proyek skala besar, dengan satu pengguna menyelesaikan tugas klasifikasi dokumen besar menggunakan 100.000 kueri hanya dalam waktu lebih dari sehari dengan biaya sekitar 30 Euro. Ini menunjukkan nilai praktis dari memprioritaskan kecepatan dan efisiensi biaya daripada metrik kinerja teoretis.
Peringkat Kecepatan (Tercepat ke Terlambat):
- Google Gemini 1.5 Flash (tercepat)
- Moonshot AI v1-0528
- OpenAI GPT-OSB-128k
- DeepSeek Chat v1-0528
- OpenAI GPT-3.5 Turbo
- OpenAI GPT-3.5 Turbo Thinking (terlambat)
- Google Gemini 2.5 Pro (terlambat)
Model Tertutup Berkinerja Buruk Meski Biaya Lebih Tinggi
Mungkin temuan paling mengejutkan adalah model tertutup mahal dari penyedia besar tidak secara konsisten mengungguli alternatif yang lebih murah. Gemini 2.5 Pro milik Google dan Claude Sonnet 4.0 milik Anthropic mendapat peringkat buruk dalam evaluasi meski harganya premium. Ini beresonansi dengan anggota komunitas yang mempertanyakan apakah perbedaan biaya yang signifikan membenarkan peningkatan marjinal yang mungkin ditawarkan model-model ini.
Evaluasi juga menyoroti persyaratan Know Your Customer baru OpenAI untuk mengakses model terbaik mereka melalui API, yang dianggap terlalu membatasi oleh banyak developer untuk penggunaan kasual. Hambatan ini telah mendorong pengguna menuju platform alternatif dan solusi open-source.
Peringkat Biaya (Termurah hingga Termahal):
- Moonshot AI v1-0528 (termurah)
- OpenAI GPT-OSB-128k
- DeepSeek Chat v1-0528
- Google Gemini 1.5 Flash
- Google Gemini 2.5 Pro (termahal)
- Anthropic Claude Sonnet 4.0 (termahal)
![]() |
---|
Grafik batang ini mengilustrasikan total biaya yang terkait dengan berbagai model bahasa besar, menyoroti implikasi finansial dari penggunaan model tertutup |
Fitur Penalaran Menunjukkan Nilai Terbatas untuk Tugas Sederhana
Studi menemukan bahwa kemampuan penalaran, meski mengesankan untuk masalah kompleks seperti menulis puisi, jarang membantu dengan pertanyaan pemrograman dan teknis sehari-hari. Sebagian besar pengguna mengonfirmasi pengamatan ini, mencatat bahwa latensi tambahan dari model penalaran tidak sepadan untuk kueri rutin.
Namun, beberapa anggota komunitas menunjukkan bahwa efektivitas penalaran sangat bergantung pada bagaimana pertanyaan disusun. Memecah tugas kompleks menjadi pertanyaan ya-atau-tidak sederhana dapat secara dramatis meningkatkan tingkat akurasi dari sekitar 50% menjadi 85% untuk model dasar yang sama.
Strategi Multi-Model yang Direkomendasikan:
- Query cepat: DeepSeek Chat v3.1 (90% penggunaan harian)
- Pendapat kedua: Layar terpisah dengan model cepat tambahan
- Penalaran kompleks: Pengaturan tiga panel dengan model berpikir termasuk Claude Sonnet untuk validasi
Strategi Multi-Model Mendapat Daya Tarik
Alih-alih memilih satu model terbaik, evaluasi mengarah pada pendekatan menarik: menggunakan beberapa model secara bersamaan untuk skenario berbeda. Strategi ini melibatkan menjalankan kueri cepat pada model cepat dan murah seperti DeepSeek Chat, kemudian berkonsultasi dengan model tambahan untuk pendapat kedua atau tugas penalaran yang lebih kompleks.
Diskusi komunitas mengungkapkan pendekatan multi-model ini menjadi semakin populer, dengan platform seperti Perplexity dan Kagi menawarkan akses mudah ke beberapa model. Pengguna menghargai kemampuan untuk membandingkan respons dan memilih jawaban yang paling sesuai untuk kebutuhan spesifik mereka.
Penekanan evaluasi pada pola penggunaan dunia nyata daripada benchmark sintetis telah menyentuh hati para developer yang membutuhkan alat AI praktis daripada kemampuan demo yang mengesankan. Seperti yang dicatat seorang anggota komunitas, kuncinya adalah membangun intuisi tentang jenis pertanyaan apa yang bekerja dengan baik dengan model berbeda, meski pengetahuan ini tetap sulit ditransfer antar pengguna.
Referensi: Evaluating LLMs for my personal use case