Apple telah merilis SimpleFold, sebuah model pelipatan protein yang menggunakan arsitektur transformer standar alih-alih desain khusus yang kompleks yang biasanya diperlukan untuk masalah ilmiah yang menantang ini. Model ini merepresentasikan perubahan signifikan dalam pendekatan, menunjukkan bahwa metode yang lebih sederhana dapat mencapai hasil yang kompetitif dalam memprediksi bagaimana protein terlipat menjadi struktur tiga dimensi mereka.
Spesifikasi Model SimpleFold
- Ukuran parameter: 100M, 360M, 700M, 1.1B, 1.6B, 3B
- Data pelatihan: 8,6M+ struktur protein (92% dari prediksi yang dihasilkan AI)
- Arsitektur: Layer transformer standar tanpa modul khusus
- Backend: Dukungan PyTorch dan MLX
- Kompatibilitas perangkat keras: Berjalan secara lokal pada Apple M2 Max 64GB
![]() |
---|
Tangkapan layar repositori GitHub SimpleFold , mendemonstrasikan model pelipatan protein baru Apple |
Pelatihan pada Data Sintetis Menimbulkan Pertanyaan tentang Kesederhanaan Sejati
Komunitas telah mengangkat kekhawatiran penting tentang metodologi pelatihan SimpleFold. Meskipun arsitektur model itu sendiri lebih sederhana, model ini sangat bergantung pada data sintetis yang dihasilkan oleh model yang lebih kompleks seperti AlphaFold. Lebih dari 90% data pelatihan SimpleFold berasal dari prediksi yang dibuat oleh sistem AI canggih yang menggunakan multiple sequence alignments (MSA) dan arsitektur khusus.
Bukan berarti kita bisa membuang semua bias induktif dan mesin MSA, seseorang di hulu masih harus membangun dan menjalankan model-model tersebut untuk menciptakan korpus pelatihan.
Ketergantungan ini berarti bahwa meskipun arsitektur SimpleFold lebih efisien, kompleksitasnya pada dasarnya telah dipindahkan dari desain model ke fase persiapan data. Pendekatan ini menyerupai bagaimana model bahasa yang lebih kecil didistilasi dari yang lebih besar, mewarisi pengetahuan tanpa memerlukan sumber daya komputasi yang sama selama inferensi.
Sumber Data Pelatihan
- Struktur PDB eksperimental: ~8% dari data pelatihan
- Prediksi AlphaFold SwissProt : ~270K target
- Prediksi AFESM : ~1,9M target
- Extended AFESM ( AFESM-E ): ~8,6M target total
- Pemrosesan data: Menggunakan objektif flow-matching untuk pelatihan generatif
Potensi Penskalaan dan Implikasi Masa Depan
Meskipun ada pertanyaan tentang ketergantungan data, arsitektur SimpleFold menawarkan keunggulan signifikan untuk penskalaan dan deployment. Model ini berkisar dari 100 juta hingga 3 miliar parameter dan dapat berjalan secara lokal pada perangkat keras konsumen, termasuk sistem M2 Max Apple. Aksesibilitas ini dapat mendemokratisasi prediksi pelipatan protein untuk laboratorium penelitian yang lebih kecil dan perusahaan biotek yang sebelumnya tidak mampu membeli sumber daya komputasi yang diperlukan oleh model yang lebih kompleks.
Komunitas penelitian melihat ini sebagai bagian dari pola yang lebih luas dalam pembelajaran mesin di mana arsitektur yang lebih sederhana akhirnya menyamai atau melampaui kinerja sistem yang lebih kompleks. Tren ini telah diamati di berbagai domain, dari computer vision hingga natural language processing, menunjukkan bahwa SimpleFold mungkin merepresentasikan batu loncatan penting daripada tujuan akhir.
Tolok Ukur Kinerja
- CASP14 : Kompetitif dengan baseline terdepan
- CAMEO22 : Mempertahankan kinerja di berbagai ukuran model
- Apo/CoDNaS : Mendemonstrasikan kemampuan prediksi ensemble
- Kecepatan inferensi: Dioptimalkan untuk deployment perangkat keras lokal
- Evaluasi: Menggunakan metrik OpenStructure 2.9.1 dan TMscore
Aplikasi Praktis dan Manfaat Inferensi Lokal
Kemampuan SimpleFold untuk berjalan pada perangkat keras lokal mengatasi hambatan dunia nyata dalam penelitian farmasi. Perusahaan biotek kecil sekarang dapat melakukan prediksi struktur protein tanpa bergantung pada layanan cloud atau kluster komputasi yang mahal. Model ini mendukung backend PyTorch dan MLX, dengan optimisasi khusus untuk perangkat keras Apple.
Pergeseran menuju inferensi lokal menghilangkan ketergantungan pada layanan eksternal dan mengurangi biaya yang terkait dengan prediksi pelipatan protein. Aksesibilitas ini dapat mempercepat penelitian dalam penemuan obat dan rekayasa protein, di mana iterasi cepat dan pengujian hipotesis sangat penting untuk kemajuan.
Keterbatasan dan Perdebatan yang Sedang Berlangsung
Meskipun SimpleFold mencapai kinerja yang kompetitif pada benchmark standar, model ini masih menghadapi keterbatasan fundamental dari semua metode pelipatan berbasis AI saat ini. Pendekatan statistik ini bekerja dengan baik untuk protein yang mirip dengan yang ada dalam data pelatihan tetapi kesulitan dengan keluarga protein baru atau yang tidak memiliki kerabat evolusioner yang dekat.
Bidang pelipatan protein terus memperdebatkan apakah MSA dan arsitektur kompleks merepresentasikan bias induktif yang diperlukan atau hanya titik optimisasi lokal yang dapat diatasi dengan data yang lebih baik dan model yang lebih sederhana. SimpleFold berkontribusi pada diskusi ini dengan menunjukkan bahwa kompleksitas arsitektural tidak selalu penting untuk kinerja yang baik.
Referensi: SimpleFold: Folding Proteins is Simpler than You Think