Studi Mengungkap Kesenjangan Akurasi Besar dalam Pemrosesan Tabel LLM, Memicu Perdebatan Komunitas tentang Metode Pengujian

Tim Komunitas BigGo
Studi Mengungkap Kesenjangan Akurasi Besar dalam Pemrosesan Tabel LLM, Memicu Perdebatan Komunitas tentang Metode Pengujian

Sebuah studi terbaru yang meneliti seberapa baik large language model memahami berbagai format tabel telah memicu diskusi intens di komunitas AI, dengan para peneliti mempertanyakan baik temuan maupun pendekatan pengujian yang digunakan.

Lingkup Pengujian Terbatas Menuai Kritik Keras

Studi asli hanya menguji model GPT-4.1 nano dari OpenAI pada 11 format data yang berbeda, meskipun judulnya mengklaim mengevaluasi LLM secara umum. Anggota komunitas dengan cepat menunjukkan keterbatasan besar ini, dengan banyak yang berargumen bahwa menguji satu model saja - dan bahkan bukan yang umum digunakan - membuat kesimpulannya sangat meragukan. Beberapa peneliti kemudian melakukan pengujian mereka sendiri menggunakan model yang lebih mumpuni seperti GPT-5 dan Gemini 2.5 Pro, menemukan hasil yang sangat berbeda dengan tingkat akurasi yang hampir sempurna.

Pilihan GPT-4.1 nano telah dikritik secara khusus karena dianggap sebagai salah satu model yang lebih lemah yang tersedia. Ketika anggota komunitas menjalankan pengujian serupa pada model-model terdepan, mereka menemukan tingkat akurasi yang mendekati 100%, menunjukkan bahwa temuan asli mungkin tidak mencerminkan kinerja dunia nyata dengan sistem AI saat ini.

Hasil Tindak Lanjut Komunitas (Model Tingkat Lanjut)

Performa GPT-5 :

  • Markdown Key-Value: 100% (100 sampel)
  • CSV: 100% (100 sampel)
  • JSON: 100% (100 sampel)

Rata-rata Multi-Model (30 model, 500 baris):

  • CSV: 84,25%
  • Markdown Table: 82,65%
  • YAML: 81,85%
  • JSON Lines: 79,85%
  • Pipe-delimited: 79,45%
  • JSON: 77,73%
  • HTML table: 75,80%
  • XML: 73,80%
Postingan blog ini mengeksplorasi keandalan AI dalam memproses berbagai format tabel, menyoroti diskusi seputar performa LLM
Postingan blog ini mengeksplorasi keandalan AI dalam memproses berbagai format tabel, menyoroti diskusi seputar performa LLM

Kinerja yang Mengejutkan Buruk di Semua Format

Mungkin yang paling mencolok dari hasil asli adalah bahkan format dengan kinerja terbaik - struktur key-value markdown kustom - hanya mencapai akurasi 56,7%. Hal ini telah membuat banyak orang mempertanyakan apakah LLM harus digunakan untuk pemrosesan tabel sama sekali, mengingat pendekatan pemrograman tradisional dapat mencapai akurasi sempurna untuk tugas-tugas seperti itu.

Semua format dibaca dengan sangat buruk sehingga semuanya secara efektif tidak berguna.

Studi menemukan bahwa format seperti CSV dan JSON, yang umumnya diasumsikan ramah LLM, berkinerja sangat buruk dengan akurasi masing-masing 44,8% dan 52,5%. Namun, komunitas telah mencatat bahwa skor rendah ini mungkin lebih mencerminkan model spesifik dan ukuran dataset yang dipilih daripada keterbatasan inheren LLM.

Hasil Studi Asli ( GPT-4.1 nano )

Format Akurasi Token
Markdown Key-Value 56,7% 52.354
Arrow 55,7% 50.301
XLSX 53,8% 46.359
HTML 52,7% 51.504
JSON 52,5% 66.596
Markdown Table 48,6% 33.541
Natural Language 46,9% 43.871
XML 45,5% 54.691
CSV 44,8% 13.524
Pipe Delimited 41,7% 43.584

Pendekatan Alternatif Mendapat Perhatian

Diskusi telah menyoroti beberapa pendekatan yang lebih praktis untuk pemrosesan tabel dengan sistem AI. Banyak praktisi mengadvokasi penggunaan LLM untuk menghasilkan kode yang memproses data daripada meminta mereka untuk langsung mem-parsing tabel. Pendekatan ini memanfaatkan kemampuan coding model sambil menghindari kelemahan mereka yang tampak dalam manipulasi data langsung.

Yang lain menyarankan menggunakan pendekatan agentic di mana LLM menyusun query SQL atau menggunakan tools seperti pandas untuk menganalisis data, daripada mencoba memproses konten tabel mentah. Metode-metode ini dapat mencapai akurasi yang jauh lebih tinggi sambil tetap mendapat manfaat dari kemampuan LLM untuk memahami query bahasa alami.

Ukuran Dataset dan Kualitas Model Paling Penting

Pengujian lanjutan oleh anggota komunitas telah mengungkapkan bahwa baik ukuran dataset maupun kemampuan model memiliki dampak yang sangat besar pada akurasi. Sementara studi asli menggunakan 1.000 record untuk sengaja mengurangi akurasi untuk tujuan pengujian, dataset yang lebih kecil dengan 100-500 record menunjukkan kinerja yang jauh lebih baik di semua format.

Lebih penting lagi, pengujian dengan model-model canggih seperti GPT-5 dan Gemini 2.5 Flash telah menunjukkan akurasi yang hampir sempurna terlepas dari pilihan format. Hal ini menunjukkan bahwa untuk aplikasi praktis, memilih model yang mumpuni mungkin lebih penting daripada mengoptimalkan format data.

Kesimpulan

Meskipun studi asli mengangkat pertanyaan penting tentang optimisasi format tabel, respons komunitas telah menyoroti keterbatasan signifikan dalam metodologi pengujian. Perbedaan dramatis dalam hasil antara model dasar dan canggih menunjukkan bahwa pilihan format mungkin menjadi kurang kritis seiring dengan meningkatnya kemampuan AI. Untuk aplikasi saat ini, praktisi disarankan untuk fokus menggunakan model yang mumpuni dan mempertimbangkan pendekatan code-generation daripada parsing tabel langsung untuk akurasi yang mission-critical.

Referensi: Which Table Format Do LLMs Understand Best? (Results for 11 Formats)