Meka Agent Menimbulkan Kekhawatiran Keamanan Meski Meraih Skor Benchmark WebArena 72,7%

Tim Komunitas BigGo

Meka Agent Menimbulkan Kekhawatiran Keamanan Meski Meraih Skor Benchmark WebArena 72,7%

Peluncuran Meka Agent , sebuah agen otonom sumber terbuka yang dapat menggunakan komputer, telah memicu diskusi intens di komunitas teknologi tentang keseimbangan antara kemampuan dan keamanan. Meskipun agen ini mencapai hasil benchmark yang mengesankan dengan meraih 72,7% pada tes WebArena , kemampuan akses penuh komputernya telah menimbulkan kekhawatiran keamanan yang signifikan di kalangan pengembang dan pengguna.

Performa Benchmark

Skor WebArena Benchmark: 72,7%
Mencapai hasil terdepan dalam otomasi penjelajahan web
Menggunakan sistem verifikasi multi-model untuk akurasi

Ketakutan Keamanan Atas Akses Sistem Penuh

Perdebatan paling sengit berpusat pada kontrol tingkat OS milik Meka , yang jauh melampaui alat otomasi browser pada umumnya. Tidak seperti solusi sandbox yang bekerja dalam lingkungan browser, Meka dapat berinteraksi dengan dialog sistem, menangani unggahan file, dan melakukan tindakan di tingkat sistem operasi. Kemampuan ini telah memicu alarm di komunitas, dengan pengguna menunjuk pada insiden terkini di mana alat AI menyebabkan kerusakan serius pada sistem perusahaan.

Salah satu co-founder, Edward , dengan cepat menanggapi kekhawatiran ini dengan mengklarifikasi bahwa agen beroperasi dalam lingkungan yang segar dan terbatas daripada di komputer pribadi atau perusahaan. Namun, penjelasan ini belum sepenuhnya memuaskan para skeptis yang khawatir tentang potensi penyalahgunaan atau kerusakan yang tidak disengaja.

Fitur Teknis Utama

Kontrol tingkat OS (bukan hanya browser)
Berbasis TypeScript dengan API yang aman secara tipe
Framework yang dapat diperluas mendukung berbagai penyedia
Open source di bawah Lisensi MIT
Kredit gratis $10 USD tersedia melalui Meka App

Trade-off Performa vs Biaya

Umpan balik komunitas mengungkapkan perasaan campur aduk tentang nilai praktis agen ini. Meskipun pengguna mengakui pencapaian teknis yang mengesankan, banyak yang mempertanyakan apakah biaya token membenarkan manfaat otomasi. Agen ini memerlukan model visi yang kuat seperti O3 milik OpenAI atau Claude Sonnet 4 , yang bisa mahal untuk dijalankan pada tugas-tugas rutin.

Sangat menarik bahwa kualitasnya mendekati level manusia, tetapi saya masih berpikir kita menghabiskan terlalu banyak token, dan percepatan otomasi belum benar-benar sebanding dengan total harga token

Para pengembang mengakui keterbatasan ini tetapi berargumen bahwa tugas-tugas bernilai tinggi dan membosankan seperti pengisian formulir, prospek penjualan, dan pemantauan harga membenarkan biaya saat ini. Mereka juga mengharapkan harga token akan menurun seiring berkembangnya model visi.

Model yang Direkomendasikan

OpenAI O3
Claude Sonnet 4
Claude Opus 4
Memerlukan model visi dengan kemampuan visual grounding yang baik

Arsitektur Teknis dan Performa Dunia Nyata

Pendekatan Meka berbeda dari pesaing dengan menggunakan beberapa model yang memverifikasi pekerjaan satu sama lain, mirip dengan pair programming dalam pengembangan perangkat lunak. Sistem ini mencakup model evaluator yang memeriksa apakah tugas diselesaikan dengan benar, yang dikreditkan tim untuk performa benchmark yang kuat.

Namun, pengujian dunia nyata telah mengungkapkan tantangan. Pengguna melaporkan masalah dengan situs pemesanan maskapai, error timeout, dan tugas yang tidak lengkap. Seorang penguji menemukan bahwa kedua situs web maskapai menjadi tidak dapat digunakan selama sesi mereka, menimbulkan pertanyaan apakah agen penggunaan komputer saat ini siap untuk aplikasi dunia nyata yang kompleks.

Tantangan Infrastruktur dan Deployment

Diskusi komunitas juga menyoroti kekhawatiran deployment praktis. Meskipun tim awalnya mengeksplorasi solusi containerized, mereka menemukan layanan VM berbasis cloud lebih cepat dan mudah diimplementasikan. Sistem ini memerlukan penyedia infrastruktur khusus yang menawarkan kontrol tingkat OS, membatasi opsi deployment dibandingkan dengan solusi browser-only yang lebih sederhana.

Pengguna telah meminta fitur seperti dukungan proxy untuk situs yang diblokir, kompatibilitas ekstensi browser, dan kemampuan menyelesaikan CAPTCHA. Tim telah mengonfirmasi dukungan proxy tersedia, dengan rencana untuk ekstensi browser, meskipun mereka mengakui penyelesaian CAPTCHA akan tetap menjadi tantangan berkelanjutan.

Perdebatan seputar Meka Agent mencerminkan pertanyaan yang lebih luas tentang keamanan AI dan deployment praktis. Meskipun pencapaian teknisnya mengesankan, penerimaan komunitas yang beragam menunjukkan bahwa menyeimbangkan kekuatan, keamanan, dan efektivitas biaya tetap menjadi tantangan signifikan untuk agen penggunaan komputer otonom.

Referensi: Meka Agent

Berita Terkait

‌

‌
‌

‌

‌
‌

‌