Kode Claude Menunjukkan Potensi dalam Pembuktian Teorema Formal, Namun Komunitas Memperingatkan Tentang "Masalah 90%"

Tim Komunitas BigGo

Kode Claude Menunjukkan Potensi dalam Pembuktian Teorema Formal, Namun Komunitas Memperingatkan Tentang "Masalah 90%"

Pembuktian teorema interaktif telah lama dianggap sebagai salah satu bidang paling menantang dalam ilmu komputer. Alat seperti Lean mengharuskan pengguna menulis bukti matematika dalam bahasa formal yang dapat diverifikasi komputer dengan kepastian absolut. Tidak seperti pemrograman biasa di mana bug mungkin lolos, pembuktian teorema baik menerima bukti Anda sebagai sesuatu yang secara matematis benar atau menolaknya sepenuhnya. Sifat semua-atau-tidak-sama-sekali ini membuat bidang ini hanya dapat diakses oleh para ahli dengan pelatihan matematika yang mendalam.

Eksperimen terbaru dengan Claude Code, agen pengkodean AI dari Anthropic, menunjukkan bahwa hambatan ini mungkin mulai berkurang. AI tersebut telah menunjukkan kemampuan yang mengejutkan dalam menulis bukti Lean, menyelesaikan tugas formalisasi matematika kompleks yang biasanya memerlukan pengetahuan khusus. Keunggulan utamanya tampaknya adalah sistem umpan balik ketat Lean - ketika AI membuat kesalahan, ia menerima informasi terperinci dan dapat ditindaklanjuti tentang apa yang salah, memungkinkannya untuk beriterasi dan meningkatkan pendekatannya.

Alat Interactive Theorem Proving: Lean disorot sebagai alat utama, dengan hampir setengah juta baris kode matematika yang telah diformalkan

Pola Familiar dari Keterbatasan Kemajuan AI

Namun, komunitas telah mengangkat kekhawatiran signifikan tentang pola yang berulang kali mereka lihat dengan alat AI. Banyak pengembang melaporkan bahwa AI dapat menangani 80% awal dari sebuah proyek dengan brilian, tetapi sangat kesulitan dengan 20% terakhir. Fenomena ini, yang kadang disebut masalah 90%, menjadi semakin menonjol ketika proyek bertambah kompleks dan memerlukan solusi yang semakin spesifik.

Siapa pun yang telah menggunakan alat AI pernah melihat kasus di mana 80% pertama dari sebuah proyek terwujud seperti sambaran petir, tetapi 20% terakhir hampir mustahil untuk diselesaikan oleh AI, bahkan jika tampaknya tidak lebih kompleks daripada sisa kode.

Kekhawatiran ini sangat relevan untuk pembuktian teorema, di mana pekerjaan yang tidak lengkap tidak memiliki nilai. Tidak seperti pengembangan perangkat lunak di mana solusi parsial masih bisa berguna, bukti matematika harus lengkap untuk menjadi bermakna. Ini menciptakan lingkungan berisiko tinggi di mana kecenderungan AI untuk kesulitan dengan detail akhir bisa terbukti sangat bermasalah.

Pola Pengembangan AI: Komunitas melaporkan "aturan 80/20" yang konsisten di mana AI menyelesaikan 80% proyek dengan mudah tetapi kesulitan dengan 20% terakhir

Tantangan Spesifikasi Tetap Ada

Di luar masalah penyelesaian terdapat isu yang lebih dalam yang belum dipecahkan AI: tantangan menciptakan spesifikasi yang tepat. Seperti yang dicatat oleh salah satu anggota komunitas, menulis program bukanlah bagian yang sulit - mencari tahu dengan tepat apa yang seharusnya dilakukan program adalah tempat kesulitan sebenarnya terletak. Masalah ini menjadi lebih kritis dalam verifikasi formal, di mana Anda harus secara tepat menangkap bukan hanya apa yang dilakukan kode Anda, tetapi apa yang seharusnya dilakukan secara matematis.

Risikonya adalah bahwa pengguna mungkin berakhir dengan bukti yang diverifikasi secara formal yang sebenarnya tidak mewakili masalah yang ingin mereka selesaikan. Bahkan jika Claude Code dapat menulis sintaks Lean yang sempurna, seseorang masih memerlukan keahlian untuk memastikan pernyataan matematika yang dibuktikan adalah yang benar. Ini menunjukkan bahwa meskipun AI mungkin menurunkan beberapa hambatan masuk, pengetahuan domain yang mendalam tetap penting.

Arah yang Menjanjikan Meskipun Ada Keterbatasan

Meskipun ada kekhawatiran ini, kombinasi AI dan verifikasi formal merupakan perkembangan yang menarik. Pembuktian teorema menyediakan persis apa yang dibutuhkan AI untuk meningkat: umpan balik langsung dan terperinci tentang kesalahan. Ketika Claude Code membuat kesalahan dalam Lean, ia mendapat informasi tepat tentang apa yang salah dan dapat beriterasi menuju solusi. Ini menciptakan loop pembelajaran alami yang tidak ada di banyak domain lain.

Komunitas tampak berhati-hati optimis tentang arah ini, terutama untuk pengguna yang sudah memahami konsep matematika yang ingin mereka formalisasikan. Untuk para ahli ini, bantuan AI dapat secara signifikan mengurangi aspek membosankan dari penulisan bukti sambil tetap memerlukan pengawasan manusia untuk pekerjaan konseptual. Teknologi ini mungkin tidak menghilangkan kebutuhan akan keahlian matematika, tetapi dapat membuat keahlian tersebut lebih produktif.

Kuncinya adalah mengelola ekspektasi dan memahami keterbatasan alat. Seperti halnya aplikasi AI lainnya, pengguna yang paling sukses kemungkinan akan menjadi mereka yang menggunakannya untuk menambah keterampilan yang sudah ada daripada menggantikan kebutuhan mereka untuk memahami domain yang mendasari.

Referensi: Claude Can (Sometimes) Prove It

Berita Terkait

‌

‌
‌

‌

‌
‌

‌