Model AI Gagal Meraih Medali Perunggu di Olimpiade Matematika Internasional 2025 Meski Menghabiskan Biaya Komputasi 400 Dolar AS

Tim Komunitas BigGo

Model AI Gagal Meraih Medali Perunggu di Olimpiade Matematika Internasional 2025 Meski Menghabiskan Biaya Komputasi 400 Dolar AS

Evaluasi terbaru terhadap model kecerdasan buatan pada Olimpiade Matematika Internasional 2025 telah mengungkap kesenjangan signifikan antara kemampuan AI saat ini dengan penalaran matematika manusia. Meskipun menggunakan teknik komputasi canggih dan sumber daya finansial yang besar, model AI dengan performa terbaik hanya mencapai akurasi 31%, masih jauh dari ambang batas medali perunggu.

Hasil Performa Menunjukkan Keterbatasan yang Jelas

Gemini 2.5 Pro muncul sebagai yang terdepan di antara lima model yang diuji, meraih skor 13 dari 42 poin. Ini mewakili sekitar sepertiga dari masalah yang berhasil diselesaikan dengan benar, namun masih jauh di bawah 19 poin yang dibutuhkan untuk medali perunggu. Evaluasi ini menghabiskan biaya sekitar 400 dolar AS hanya untuk 24 jawaban dari Gemini, menyoroti mahalnya inferensi AI saat ini dalam skala besar.

Model-model besar lainnya berkinerja bahkan lebih buruk. Grok-4 dan DeepSeek-R1 tertinggal jauh, dengan banyak respons yang hanya terdiri dari jawaban akhir tanpa justifikasi matematika. Komunitas telah mencatat pola ini di berbagai benchmark, menunjukkan masalah fundamental dengan pendekatan model-model ini terhadap penalaran matematika.

Perbandingan Performa Model

Gemini 2.5 Pro : 13/42 poin (31% akurasi) - Performa terbaik
Grok-4 : Performa jauh lebih rendah, sering memberikan jawaban tanpa justifikasi
DeepSeek-R1 : Performa di bawah ekspektasi dibandingkan benchmark lainnya
o3 dan o4-mini : Performa tidak dijelaskan secara spesifik namun berada di bawah ambang batas medali perunggu
Persyaratan medali perunggu: 19/42 poin (45% akurasi)

Kekuatan Komputasi Tidak Menjembatani Kesenjangan

Peneliti menggunakan strategi seleksi best-of-32, menghasilkan 32 respons berbeda untuk setiap masalah dan menggunakan model AI itu sendiri untuk menilai jawaban mana yang terkuat. Pendekatan bergaya turnamen ini secara signifikan meningkatkan hasil dibandingkan dengan percobaan tunggal, namun tetap tidak dapat mencapai performa tingkat medali.

Kebutuhan komputasi sangat besar. Setiap jawaban akhir menghabiskan biaya setidaknya 3 dolar AS untuk dihasilkan secara rata-rata, dengan respons Grok-4 menghabiskan lebih dari 20 dolar AS masing-masing. Hal ini menimbulkan pertanyaan tentang skalabilitas praktis penalaran matematika AI saat ini, terutama ketika hasilnya masih jauh dari performa ahli manusia.

Biaya Komputasi

Biaya rata-rata per jawaban akhir: $3+ USD
Biaya Grok-4 per jawaban: $20+ USD
Total biaya untuk evaluasi Gemini 2.5 Pro: $400 USD untuk 24 jawaban
Metode: Seleksi best-of-32 dengan penilaian gaya turnamen
Batas token: Maksimum 64.000 token per model

Masalah Kualitas Bertahan dalam Penalaran Matematika AI

Evaluasi mengungkap beberapa pola yang mengkhawatirkan dalam perilaku AI. Gemini 2.5 Pro terus mengutip teorema matematika yang tidak ada ketika kesulitan dengan pembuktian, meskipun perilaku ini muncul lebih jarang dibandingkan evaluasi sebelumnya. Fabrikasi otoritas matematika semacam ini merusak kepercayaan pada konten matematika yang dihasilkan AI.

Menariknya, model-model tersebut sering mendapat kredit parsial karena mengidentifikasi strategi yang benar namun gagal mengeksekusi pembuktian yang tepat. Juri manusia mencatat bahwa respons AI sering mengandung celah logis yang relatif mudah dihindari oleh matematikawan manusia. Ini menunjukkan bahwa model-model tersebut memahami konsep matematika di tingkat permukaan namun kesulitan dengan penalaran logis yang ketat.

Komunitas Memperdebatkan Standar Evaluasi AI

Hasil ini telah memicu diskusi tentang benchmark yang tepat untuk kemampuan AI. Beberapa anggota komunitas berpendapat bahwa membandingkan AI dengan manusia berkinerja tertinggi dalam domain khusus melewatkan poin aplikasi AI praktis. Sebagian besar masalah sehari-hari tidak memerlukan kreativitas matematika tingkat olimpiade.

Namun, yang lain berpendapat bahwa penalaran matematika mewakili tes krusial kecerdasan sejati daripada pencocokan pola. Fakta bahwa model-model ini dapat mengakses jutaan masalah serupa melalui data pelatihan mereka namun tetap gagal pada tantangan matematika baru menunjukkan keterbatasan fundamental dalam arsitektur AI saat ini.

Rata-rata orang buruk dalam hampir segala hal. Jika saya ingin sesuatu dikerjakan, saya akan mencari seseorang dengan keahlian yang sesuai dengan masalahnya.

Metodologi Evaluasi

Model yang diuji: 5 LLM tercanggih ( o3 , o4-mini , Gemini-2.5-Pro , Grok-4 , DeepSeek-R1 )
Penilaian: 4 ahli manusia dengan keahlian matematika tingkat IMO
Sistem skor: maksimal 7 poin per soal, total 42 poin
Proses seleksi: 32 respons dihasilkan, eliminasi gaya turnamen menggunakan penilaian mandiri model
Waktu evaluasi: Segera setelah rilis soal IMO 2025 untuk mencegah kontaminasi


Gambar podium dengan pemenang manusia dan robot yang bingung melambangkan perdebatan yang sedang berlangsung tentang kemampuan penalaran matematika AI dibandingkan dengan kinerja manusia

Klaim yang Bertentangan Menambah Ketidakpastian

Menambah kompleksitas evaluasi, OpenAI mengumumkan bahwa model eksperimental yang belum dirilis mencapai performa medali emas pada masalah yang sama. Namun, klaim ini tidak memiliki verifikasi independen dan melibatkan sumber daya komputasi tak terbatas, membuat perbandingan langsung menjadi sulit.

Komunitas tetap skeptis terhadap klaim yang tidak terverifikasi, terutama mengingat insentif finansial yang besar dalam industri AI. Tanpa metodologi transparan dan hasil yang dapat direproduksi, pengumuman semacam itu berkontribusi sedikit untuk memahami kemampuan AI yang sebenarnya.

Evaluasi IMO 2025 menunjukkan bahwa meskipun ada kemajuan mengesankan dalam generasi bahasa, model AI saat ini masih kesulitan dengan jenis penalaran kreatif dan logis yang diperlukan pemecahan masalah matematika. Meskipun mereka menunjukkan harapan dalam mengidentifikasi strategi yang relevan, eksekusi pembuktian matematika yang ketat tetap menjadi tantangan signifikan bagi sistem kecerdasan buatan.

Referensi: Not Even Bronze: Evaluating LLMs on 2025 International Math Olympiad

Berita Terkait

‌

‌
‌

‌

‌
‌

‌