Agensi AI Gagal Total dalam Pekerjaan Freelance, Hanya Raih USD 1.810 dalam Tes Tolok Ukur

Tim Editorial BigGo
Agensi AI Gagal Total dalam Pekerjaan Freelance, Hanya Raih USD 1.810 dalam Tes Tolok Ukur

Di tengah spekulasi tentang kecerdasan buatan yang menggantikan pekerja manusia yang mencapai puncaknya, sebuah tolok ukur baru memberikan kenyataan yang menyejukkan. Remote Labor Index, yang dikembangkan oleh Scale AI dan Center for AI Safety, mengungkapkan bahwa bahkan agensi AI paling canggih pun sangat kesulitan menangani tugas-tugas kompleks dan multi-tahap yang mendefinisikan pekerjaan freelance modern, sehingga menantang prediksi optimis tentang otomatisasi tenaga kerja yang akan segera terjadi.

Remote Labor Index Menguji Kemampuan AI

Para peneliti menciptakan tolok ukur komprehensif dengan menghasilkan tugas-tugas freelance dunia nyata melalui pekerja terverifikasi di Upwork, yang mencakup desain grafis, penyuntingan video, pengembangan game, dan pekerjaan administratif seperti pengikisan data. Setiap tugas dilengkapi dengan deskripsi pekerjaan, file yang diperlukan, dan contoh pekerjaan yang diselesaikan manusia. Metodologi ini memberikan simulasi yang realistis tentang ekonomi freelance, menguji kemampuan AI dalam menangani pekerjaan yang bernilai ekonomi di luar tugas pengkodean atau penalaran sederhana.

Kategori Tugas yang Diuji: Desain produk, desain grafis, pengembangan game, produksi audio/video, operasional, pemasaran, analisis data, riset, penulisan, dan pekerjaan administratif

Kinerja Jauh di Bawah Ekspektasi

Hasilnya sangat buruk di semua sistem AI yang diuji. Bahkan agensi AI paling mampu, Manus dari startup China dengan nama yang sama, hanya dapat menyelesaikan 2,5-3% dari pekerjaan yang tersedia. Dalam hal finansial, AI dengan kinerja terbaik hanya menghasilkan USD 1.810 dari potensi USD 143.991. Mengikuti Manus dalam peringkat adalah Grok dari xAI, Claude dari Anthropic, ChatGPT dari OpenAI, dan Gemini dari Google, yang semuanya menunjukkan keterbatasan serupa dalam otomatisasi pekerjaan praktis.

Peringkat Performa Agen AI pada Remote Labor Index:

  1. Manus (startup China) - Berkinerja terbaik
  2. Grok (xAI)
  3. Claude (Anthropic)
  4. ChatGPT (OpenAI)
  5. Gemini (Google)

Mengapa AI Kesulitan dengan Tugas Dunia Nyata

Menurut Dan Hendrycks, direktur CAIS, keterbatasan mendasar berasal dari ketidakmampuan AI untuk menggunakan berbagai alat secara efektif dan melakukan tugas-tugas kompleks yang terdiri dari banyak langkah. Mereka tidak memiliki penyimpanan memori jangka panjang dan tidak dapat melakukan pembelajaran berkelanjutan dari pengalaman. Mereka tidak dapat mempelajari keterampilan di tempat kerja seperti manusia, jelasnya. Meskipun model AI telah membuat kemajuan signifikan dalam pengkodean, matematika, dan penalaran logis, kemampuan ini tidak diterjemahkan dengan baik ke dalam kebutuhan dinamis pekerjaan freelance yang melibatkan kreativitas, integrasi alat, dan pemecahan masalah yang adaptif.

Menantang Prediksi Otomatisasi yang Terlalu Optimis

Temuan ini memberikan kontras yang mencolok dengan tolok ukur lain, seperti GDPval dari OpenAI, yang menyatakan bahwa model AI terdepan mendekati kemampuan manusia di 220 tugas kantor. Remote Labor Index menawarkan perspektif yang lebih membumi, menunjukkan bahwa meskipun AI unggul di domain tertentu, penggantian pekerjaan secara menyeluruh masih jauh. Ini menantang prediksi terbaru, termasuk saran CEO Anthropic Dario Amodei bahwa 90% pekerjaan pengkodean akan diotomatisasi dalam hitungan bulan.

Dampak Dunia Nyata pada Tren Ketenagakerjaan

Terlepas dari keterbatasan AI saat ini, teknologi ini sudah mempengaruhi keputusan ketenagakerjaan. Amazon baru-baru ini mengumumkan pemutusan hubungan kerja terhadap 14.000 orang, sebagian mengaitkan langkah ini dengan potensi transformatif AI generatif. Beth Galetti, wakil presiden senior Amazon, menyebut generasi AI ini sebagai teknologi paling transformatif yang pernah kita lihat sejak Internet. Namun, jika Remote Labor Index akurat, AI tidak akan langsung mengisi peran yang ditinggalkan ini dalam waktu dekat.

Kinerja Finansial: AI dengan performa terbaik menghasilkan USD 1.810 dari potensi USD 143.991 (tingkat keberhasilan sekitar 1,3%)

Masa Depan yang Lebih Nuansa untuk AI dan Pekerjaan

Penelitian ini menunjukkan bahwa peran AI dalam jangka pendek mungkin lebih sebagai alat produktivitas daripada pekerja pengganti. Bing Liu, direktur penelitian di Scale AI, mencatat bahwa banyak pekerja freelance juga kemungkinan akan menggunakan AI sebagai alat yang dapat mengamplifikasi produktivitas mereka. Ini sejalan dengan pola historis di mana teknologi baru meningkatkan kemampuan manusia daripada langsung menggantikannya. Tolok ukur ini memberikan koreksi realitas yang berharga terhadap ketakutan penggantian pekerjaan yang distopis dan jadwal otomatisasi yang terlalu optimis, menunjukkan bahwa kolaborasi manusia-AI merupakan jalan yang paling mungkin ke depan dalam ekonomi freelance.