XBOW , sebuah perusahaan pengujian penetrasi otonom, telah mengembangkan pendekatan baru yang disebut model alloys yang secara dramatis meningkatkan tingkat keberhasilan deteksi kerentanan agen AI mereka dari 25% menjadi lebih dari 50%. Teknik ini melibatkan perpindahan antara model bahasa besar yang berbeda selama satu thread percakapan, memungkinkan setiap model untuk berkontribusi dengan kekuatan uniknya terhadap tantangan keamanan siber yang kompleks.
Peningkatan Performa berdasarkan Kombinasi Model:
- Claude Sonnet + Google Gemini : Peningkatan performa tertinggi (koefisien korelasi terendah: 0,43)
- Kombinasi penyedia yang sama (misalnya, Sonnet 3.7 + Sonnet 4.0 ): Peningkatan minimal
- Progres tingkat keberhasilan: 25% → 40% → 50%+ pada tugas deteksi kerentanan
![]() |
---|
Grafik yang menggambarkan peningkatan tingkat keberhasilan deteksi kerentanan di XBOW menggunakan model alloys |
Inovasi Inti di Balik Model Alloys
Pendekatan alloy bekerja dengan mempertahankan satu percakapan chat sambil secara acak bergantian antara model AI yang berbeda seperti Claude Sonnet dari Anthropic dan Gemini dari Google . Setiap model percaya bahwa mereka yang menulis semua respons sebelumnya dalam percakapan, menciptakan perpaduan yang mulus dari kemampuan AI yang berbeda. Teknik ini terbukti sangat efektif untuk tugas-tugas yang memerlukan wawasan terobosan berganda daripada kemajuan bertahap yang stabil.
Komunitas telah menunjukkan minat yang kuat terhadap pendekatan ini, dengan banyak pengembang yang sudah bereksperimen dengan teknik serupa dalam alur kerja mereka sendiri. Seorang pengguna mencatat bahwa mereka secara rutin beralih antar model selama sesi brainstorming, sementara yang lain menyebutkan menggunakan metode ini dalam lingkungan coding seperti Cursor untuk mendapatkan perspektif yang berbeda tentang masalah kompleks.
Model alloys: Sebuah teknik di mana model AI yang berbeda bergiliran merespons dalam thread percakapan yang sama, masing-masing tidak menyadari kontribusi yang lain.
Pertimbangan Implementasi:
- Menggandakan biaya caching prompt (penyimpanan terpisah per model)
- Terbaik dengan model dari penyedia yang berbeda
- Strategi pergantian acak vs bergantian sama-sama efektif
- Thread percakapan tunggal dipertahankan di seluruh pergantian model
![]() |
---|
Perbandingan Gemini 25 pro dan Sonnet 40 dalam berbagai tantangan untuk menunjukkan performa model |
Peningkatan Performa Lintas Kombinasi Model Berbeda
Pengujian XBOW mengungkapkan bahwa keragaman model adalah kunci kesuksesan. Kombinasi paling efektif memasangkan model dari penyedia yang berbeda, seperti Claude Sonnet dengan Google Gemini , yang menunjukkan korelasi terendah dalam pendekatan pemecahan masalah. Menariknya, menggabungkan model dari penyedia yang sama menghasilkan peningkatan yang jauh lebih kecil, menunjukkan bahwa perbedaan pelatihan antar perusahaan menciptakan kekuatan yang lebih saling melengkapi.
Teknik ini secara konsisten mengungguli baik model individual maupun pendekatan pengujian paralel sederhana. Bahkan menjalankan beberapa agen terisolasi dengan model berbeda tidak dapat menyamai performa agen alloy tunggal, menyoroti nilai konteks bersama dan pemecahan masalah kolaboratif.
Kapan Model Alloys Bekerja Paling Baik
Diskusi komunitas mengungkapkan bahwa pendekatan ini bersinar dalam skenario spesifik. Ini paling efektif untuk tugas iteratif yang memerlukan puluhan panggilan model, di mana wawasan kreatif berganda harus dikombinasikan untuk memecahkan masalah kompleks. Pengujian keamanan siber, desain arsitektur, dan sesi debugging kompleks mewakili kasus penggunaan yang ideal.
Namun, teknik ini memiliki keterbatasan. Tugas yang memerlukan kemajuan stabil daripada momen terobosan mungkin tidak mendapat manfaat signifikan. Selain itu, pendekatan ini menggandakan biaya prompt caching karena setiap penyedia model memerlukan penyimpanan konteks terpisah, membuatnya kurang ekonomis untuk aplikasi yang berat prompt.
Kasus Penggunaan Optimal untuk Alloy Model:
- Tugas yang memerlukan 10+ panggilan model berulang
- Masalah yang membutuhkan beberapa terobosan kreatif
- Tantangan berbasis pencarian dengan banyak jalan buntu
- Skenario di mana model yang berbeda unggul pada subtugas yang berbeda
![]() |
---|
Grafik yang menunjukkan bagaimana variasi proporsi paduan mempengaruhi tingkat keberhasilan dalam pengujian model AI |
Implikasi Lebih Luas untuk Pengembangan AI
Perkembangan ini mencerminkan tren yang berkembang menuju pendekatan AI hibrid yang menggabungkan kekuatan model yang berbeda daripada mengandalkan satu model terbaik. Keberhasilan model alloys menunjukkan bahwa keragaman dalam sistem AI, seperti halnya dalam tim manusia, dapat menghasilkan hasil yang superior daripada keunggulan individual saja.
Membuktikan bahwa keragaman pemikiran adalah hal yang baik. Sebuah pengamatan kontroversial di Amerika Serikat tahun 2025 ;) Serius, ketika saya memulai sebuah proyek, saya biasanya meminta Gemini 2.5 untuk merancang arsitektur dan mengimplementasikan tahap pertama, kemudian Claude untuk melakukan iterasi.
Kesederhanaan teknik ini membuatnya dapat diakses oleh pengembang yang bekerja dengan API AI yang ada, hanya memerlukan manajemen percakapan dasar daripada sistem orkestrasi yang kompleks. Seiring model AI terus berspesialisasi dalam area yang berbeda, model alloys mungkin menjadi teknik standar untuk memaksimalkan performa di berbagai domain masalah.
Referensi: Alloy