Gemini dari Google DeepMind Meraih Medali Emas Resmi di Olimpiade Matematika Internasional, Memicu Perdebatan AI vs Kompetisi Manusia

Tim Komunitas BigGo
Gemini dari Google DeepMind Meraih Medali Emas Resmi di Olimpiade Matematika Internasional, Memicu Perdebatan AI vs Kompetisi Manusia

Google DeepMind telah mencapai pencapaian signifikan dengan meraih performa medali emas pertama secara resmi untuk sistem AI di International Mathematical Olympiad (IMO). Model canggih mereka Gemini Deep Think berhasil menyelesaikan 5 dari 6 soal, meraih skor 35 dari 42 poin - memenuhi ambang batas medali emas. Pencapaian ini datang hanya beberapa hari setelah OpenAI membuat klaim serupa, namun hasil Google mendapat pengakuan resmi dari koordinator IMO.

Perbandingan Performa:

  • Google Gemini Deep Think : 35/42 poin (5 masalah terpecahkan)
  • OpenAI o3 : 35/42 poin (5 masalah terpecahkan)
  • Kedua sistem gagal pada Masalah 6 (yang paling menantang)
  • Ambang batas medali emas: 35/42 poin
  • Batas waktu kompetisi: 4,5 jam

Perlombaan Supremasi AI Matematika

Waktu pengumuman ini telah menciptakan kontroversi di komunitas AI. OpenAI merilis hasil IMO mereka pada hari yang sama dengan upacara penutupan kompetisi, meskipun ada permintaan dari penyelenggara untuk menunggu seminggu agar peserta siswa bisa mendapat pengakuan yang layak terlebih dahulu. Google, sebaliknya, berpartisipasi dalam program resmi dengan koordinator IMO dan menghormati jadwal yang diminta. Perbedaan pendekatan ini telah menarik kritik terhadap penanganan situasi oleh OpenAI, dengan banyak pihak melihatnya sebagai memprioritaskan publisitas daripada menghormati matematikawan muda yang berkompetisi.

Pencapaian teknis itu sendiri luar biasa. Kedua sistem AI menyelesaikan lima soal yang sama dan gagal pada soal keenam - yang paling menantang dan biasanya memerlukan kreativitas signifikan. Namun, pendekatan Google mewakili pergeseran besar dari metode tahun lalu, beralih dari bahasa matematika formal seperti Lean untuk bekerja sepenuhnya dalam bahasa alami dalam batas waktu kompetisi 4,5 jam.

Perbedaan Pendekatan Teknis:

  • Google 2025: Bahasa alami end-to-end, 4,5 jam, koordinasi resmi IMO
  • Google 2024: Memerlukan terjemahan manual ke bahasa formal Lean, komputasi 2-3 hari
  • OpenAI 2025: Evaluasi mandiri oleh mantan peraih medali IMO, tanpa koordinasi resmi

Pertanyaan tentang Keadilan dan Metodologi

Komunitas secara aktif memperdebatkan apa arti sebenarnya dari hasil ini untuk kemampuan AI. Matematikawan terkenal Terence Tao telah mengajukan pertanyaan penting tentang membandingkan performa AI dengan kontestan manusia, mencatat bahwa kondisinya bisa sangat berbeda. Sistem AI berpotensi menggunakan sumber daya komputasi yang masif, pemrosesan paralel, dan data pelatihan khusus - keuntungan yang tidak tersedia bagi peserta manusia.

Sangat menggoda untuk melihat kemampuan teknologi AI saat ini sebagai kuantitas tunggal: entah tugas X tertentu berada dalam kemampuan alat saat ini, atau tidak. Namun, sebenarnya ada penyebaran yang sangat luas dalam kemampuan (beberapa urutan besaran) tergantung pada sumber daya dan bantuan apa yang diberikan kepada alat tersebut.

Kurangnya transparansi seputar biaya komputasi sangat mengkhawatirkan para pengamat. Baik Google maupun OpenAI tidak mengungkapkan berapa banyak daya komputasi yang diperlukan untuk mencapai hasil ini, yang mengarah pada spekulasi bahwa biaya finansialnya bisa sangat besar - berpotensi ribuan dolar Amerika Serikat per soal yang diselesaikan.

Dampak yang Lebih Luas pada Matematika

Meskipun pencapaian ini secara teknis mengesankan, matematikawan mengungkapkan perasaan campur aduk tentang signifikansinya. Banyak yang menunjukkan bahwa matematika kompetisi berbeda secara signifikan dari matematika penelitian, di mana tujuannya adalah pemahaman daripada hanya menemukan jawaban yang benar. Ketakutannya bukan bahwa AI akan menggantikan matematikawan, tetapi bahwa AI mungkin mengubah cara pengetahuan matematika diciptakan dan divalidasi.

Perdebatan juga menyentuh apakah AI harus menggunakan alat verifikasi formal. Beberapa pihak berpendapat bahwa alat seperti pembuktian teorema Lean akan membuat solusi lebih dapat diandalkan, sementara yang lain melihat nilai dalam mendemonstrasikan kemampuan penalaran murni tanpa bantuan eksternal. Pilihan Google untuk bekerja dalam bahasa alami mewakili taruhan bahwa pendekatan kecerdasan umum pada akhirnya akan terbukti lebih berharga daripada metode formal khusus.

Konteks Kompetisi IMO:

  • Kompetisi tahunan sejak 1959
  • 6 siswa pra-universitas terbaik per negara
  • 6 soal mencakup aljabar, kombinatorik, geometri, teori bilangan
  • ~8% dari kontestan meraih medali emas
  • Soal dirancang agar dapat diselesaikan oleh manusia dalam kerangka waktu kompetisi

Melihat ke Depan

Perkembangan ini menandai titik balik yang jelas dalam kemampuan matematika AI, bergerak dari alat khusus ke sistem penalaran yang lebih umum. Namun, pertanyaan signifikan tetap ada tentang biaya, skalabilitas, dan aplikasi dunia nyata. Kontroversi seputar waktu pengumuman juga menyoroti ketegangan yang lebih luas dalam industri AI antara ketelitian ilmiah dan kompetisi komersial.

Saat sistem AI terus menyamai dan melampaui performa manusia dalam domain khusus, komunitas matematika menghadapi keputusan penting tentang cara mengintegrasikan alat-alat ini sambil mempertahankan elemen manusia yang membuat matematika bermakna. Hasil IMO memang mengesankan, tetapi ini hanya awal dari percakapan yang jauh lebih besar tentang peran AI dalam upaya intelektual manusia.

Referensi: Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad