GPT-5 Menunjukkan Hasil Beragam dalam Benchmark AI Medis, Memicu Perdebatan tentang Konfigurasi Model dan Performa

Tim Komunitas BigGo
GPT-5 Menunjukkan Hasil Beragam dalam Benchmark AI Medis, Memicu Perdebatan tentang Konfigurasi Model dan Performa

Evaluasi baru terhadap GPT-5 menggunakan benchmark AI medis MedHELM telah mengungkap gambaran kompleks tentang kemajuan dan kemunduran, memicu diskusi sengit tentang optimisasi model dan metodologi pengujian di komunitas AI.

Studi ini mengintegrasikan GPT-5 ke dalam MedHELM, suite evaluasi AI medis komprehensif yang menguji kemampuan di berbagai bidang seperti perhitungan medis, ingatan faktual, analisis bukti, dan langkah-langkah keamanan. Meskipun hasilnya menunjukkan beberapa peningkatan yang menonjol, hasil tersebut juga menyoroti area yang mengkhawatirkan di mana model terbaru ini tampak mengalami kemunduran.

Performa Kuat dalam Pengetahuan Medis Inti

GPT-5 menunjukkan keunggulan yang jelas dalam penalaran berbasis numerik dan ingatan faktual yang luas. Model ini mencapai rekor baru pada benchmark HeadQA dan Medbullets, serta menyamai hasil terbaik sebelumnya pada MedCalc-Bench. Peningkatan ini menunjukkan bahwa GPT-5 memiliki kemampuan yang lebih baik untuk menangani perhitungan medis dan mengambil fakta medis yang sudah mapan - kompetensi inti untuk sistem AI medis mana pun.

Namun, peningkatan tersebut tidak universal di semua tugas medis, yang menimbulkan pertanyaan apakah ini merepresentasikan kemajuan yang sesungguhnya atau hanya pilihan optimisasi yang berbeda.

Ringkasan Performa Benchmark Medis GPT-5 :

Kategori Benchmark Performa Tes Spesifik
Meningkat Rekor baru/seri HeadQA , Medbullets , MedCalc-Bench
Menurun Regresi EHRSQL , RaceBias , MedHallu
Efisiensi Hasil beragam Lebih cepat pada tugas panjang, lebih lambat pada kueri pendek

Kemunduran yang Mengkhawatirkan di Area Kritis

Evaluasi mengungkap penurunan yang meresahkan di beberapa area penting. GPT-5 menunjukkan kemunduran dalam tugas generasi terbatas skema seperti EHRSQL, penalaran sensitif keadilan termasuk skenario RaceBias, dan gagal mencapai performa terdepan dalam penekanan halusinasi pada tes MedHallu.

Kemunduran ini sangat mengkhawatirkan mengingat pentingnya penanganan data terstruktur dan mitigasi bias dalam aplikasi medis. Hasil yang beragam telah membuat beberapa pengguna mempertanyakan apakah GPT-5 merepresentasikan kemajuan yang sesungguhnya atau optimisasi biaya dengan mengorbankan kemampuan tertentu.

Kontroversi Konfigurasi dan Metodologi Pengujian

Sebagian besar diskusi komunitas berfokus pada metodologi pengujian itu sendiri. Banyak pengguna mencatat bahwa evaluasi tampaknya menggunakan pengaturan default daripada mode upaya penalaran tinggi GPT-5, yang dapat berdampak signifikan pada performa. Model ini menawarkan beberapa konfigurasi termasuk tingkat upaya penalaran yang berbeda dan varian khusus seperti GPT-5 mini.

Siapa pun yang serius dalam mengukur kemampuan model akan memilih konfigurasi terbaik, terutama dalam bidang kedokteran.

Ini telah memicu perdebatan yang lebih luas tentang bagaimana model AI seharusnya dievaluasi dan apakah peneliti secara memadai mengeksplorasi kemampuan penuh sistem baru sebelum menarik kesimpulan.

Varian dan Konfigurasi Model GPT-5:

  • GPT-5 Standard: Model dasar dengan upaya penalaran sedang (default)
  • GPT-5 Mini: Varian ringan untuk tugas-tugas yang lebih sederhana
  • GPT-5 Nano: Versi paling kompak
  • Level Upaya Penalaran: Konfigurasi Tinggi, Sedang, Rendah tersedia
  • Parameter Khusus: Pengaturan temperature, verbosity, dan upaya penalaran mempengaruhi performa

Pengalaman Pengguna Dunia Nyata Sangat Bervariasi

Umpan balik komunitas mengungkap pengalaman yang sangat berbeda dengan GPT-5 di berbagai kasus penggunaan. Sementara beberapa pengguna melaporkan peningkatan signifikan dalam tugas coding kompleks, yang lain menggambarkan menghadapi death loop dan masalah sistematis di mana model melakukan tindakan yang tidak diminta.

Performa yang tidak konsisten telah membuat beberapa profesional medis beralih ke model alternatif seperti Grok4 untuk pertanyaan medis, dengan alasan kekhawatiran tentang kecenderungan GPT-5 menjadi terlalu berhati-hati atau samar ketika membahas topik medis.

Trade-off Efisiensi Menimbulkan Pertanyaan

Evaluasi menemukan pola efisiensi yang heterogen, dengan GPT-5 berjalan lebih cepat pada tugas penalaran yang lebih panjang tetapi mengalami penalti latensi pada kueri terstruktur pendek tanpa manfaat akurasi yang sesuai. Ini menunjukkan model mungkin dioptimalkan untuk pola penggunaan yang berbeda dari pendahulunya.

Trade-off efisiensi ini sejalan dengan spekulasi bahwa GPT-5 merepresentasikan rekayasa biaya daripada kemajuan kemampuan murni, yang berpotensi menjelaskan mengapa beberapa kemampuan meningkat sementara yang lain menurun.

Hasil yang beragam dari evaluasi AI medis ini menyoroti kompleksitas mengukur kemajuan dalam model bahasa besar dan menggarisbawahi pentingnya pengujian komprehensif di berbagai skenario sebelum menerapkan sistem AI dalam aplikasi kritis seperti perawatan kesehatan.

Referensi: From GPT-4 to GPT-5: Measuring Progress in Medical Language Understanding Through MedHELM