Klaim Robotika V-JEPA 2 Hadapi Skeptisisme Terkait Akurasi dan Terobosan yang Dilebih-lebihkan

Tim Komunitas BigGo
Klaim Robotika V-JEPA 2 Hadapi Skeptisisme Terkait Akurasi dan Terobosan yang Dilebih-lebihkan

Sebuah artikel terbaru yang mengklaim bahwa robotika telah terpecahkan secara tidak sengaja melalui V-JEPA 2 , sebuah model AI berbasis video yang dilatih menggunakan jutaan jam konten YouTube , telah memicu perdebatan sengit di komunitas teknologi. Meskipun penelitian tersebut menampilkan kemajuan menarik dalam kontrol robot, para ahli mempertanyakan baik akurasi klaim maupun apakah terobosan tersebut benar-benar revolusioner seperti yang dipresentasikan.

Spesifikasi Model:

  • Encoder: ViT-g dengan 1 miliar parameter
  • Predictor: transformer 300M parameter (varian V-JEPA 2-AC)
  • Data pelatihan: 22 juta video + 1 juta gambar
  • Pelatihan robot: 62 jam rekaman lengan Franka

Akurasi Teknis Dikritik

Anggota komunitas telah mengidentifikasi berbagai kesalahan faktual dan inkonsistensi dalam laporan asli. Satu masalah yang sangat mencolok melibatkan data yang bertentangan tentang ukuran dataset pelatihan - artikel tersebut menyebutkan baik 22 juta video maupun satu miliar video YouTube tanpa klarifikasi. Seperti yang ditunjukkan salah satu pembaca, kebingungan tersebut berasal dari kesalahpahaman bahwa YT-Temporal-1B merujuk pada satu miliar frame video, bukan satu miliar video terpisah.

Gaya penulisan itu sendiri telah menimbulkan kekhawatiran di antara pembaca, dengan beberapa mencatat bahwa penggunaan meme internet yang ketinggalan zaman dan penjelasan teknis yang tidak konsisten menunjukkan artikel tersebut mungkin telah banyak dihasilkan atau diedit oleh alat AI . Kehadiran frasa seperti ngmi (not gonna make it) dan referensi meme doge di tahun 2025 terasa banyak yang menganggapnya sebagai sisipan buatan daripada penulisan teknis yang natural.

Klaim Performa Dipertanyakan

Meskipun V-JEPA 2 menunjukkan hasil yang menjanjikan dalam tugas kontrol robot, komunitas menolak narasi robotika terpecahkan. Tingkat keberhasilan yang dilaporkan sebesar 65% untuk menggenggam cangkir dan 65-80% untuk operasi ambil-dan-letakkan, meskipun patut dicatat, masih jauh dari terobosan revolusioner yang disarankan oleh judul.

Mereka mencapai 65% keberhasilan pada tugas-tugas yang sangat sederhana.

Kritikus juga mencatat bahwa performa serupa atau lebih baik telah dicapai oleh pendekatan lain, termasuk model pembelajaran imitasi flow-matching dan model fondasi dunia NVIDIA . Wawasan inti tentang prediksi dalam ruang representasi daripada piksel mentah telah menjadi praktik standar dalam computer vision sejak 2014, membuat klaim kebaruan menjadi dipertanyakan.

Metrik Performa V-JEPA 2:

  • Tugas jangkauan: tingkat keberhasilan 100%
  • Menggenggam cangkir: tingkat keberhasilan 65%
  • Mengambil dan menempatkan: tingkat keberhasilan 65-80%
  • Kecepatan perencanaan: 16 detik per tindakan (vs 4 menit untuk model difusi)

Keterbatasan Dunia Nyata Diabaikan

Penelitian tersebut mengungkap keterbatasan praktis yang signifikan yang tidak ditekankan secara memadai dalam liputan asli. Sistem menunjukkan sensitivitas ekstrem terhadap posisi kamera - memindahkan kamera hanya 10 derajat dapat menyebabkan robot bingung dengan arah dasar. Selain itu, model tersebut kesulitan dengan perencanaan jangka panjang, mengalami drift ketika mencoba merencanakan lebih dari beberapa langkah ke depan.

Mungkin yang paling membatasi adalah kebutuhan saat ini untuk spesifikasi tujuan visual. Pengguna harus menyediakan gambar hasil yang diinginkan daripada perintah bahasa natural, yang sangat membatasi aplikasi praktis. Ketidakmampuan untuk memahami perintah seperti buatkan saya sandwich tanpa demonstrasi visual yang menyertainya menyoroti kesenjangan antara kemampuan saat ini dan robotika yang benar-benar terpecahkan.

Keterbatasan Utama:

  • Sensitivitas posisi kamera (pergerakan 10 derajat menyebabkan kebingungan)
  • Drift perencanaan jangka panjang
  • Memerlukan spesifikasi tujuan visual (tidak ada perintah bahasa alami)
  • Terbatas pada tugas manipulasi sederhana

Konteks yang Lebih Luas Hilang

Diskusi tersebut juga menyoroti kekhawatiran tentang sumber data dan implikasi hukum. Syarat layanan YouTube umumnya melarang scraping skala besar, meskipun keberlakuan hukum dari pembatasan tersebut untuk pelatihan AI masih belum jelas. Ini mencerminkan ketegangan yang lebih luas di industri AI seputar hak cipta dan penggunaan wajar untuk data pelatihan.

Reaksi komunitas menggarisbawahi kelelahan yang berkembang dengan pengumuman AI yang dilebih-lebihkan. Meskipun V-JEPA 2 mewakili kemajuan nyata dalam pembelajaran robot berbasis video, kesenjangan antara kemajuan penelitian bertahap dan terobosan transformatif terus disalahrepresentasikan dalam liputan populer.

Penelitian itu sendiri tampak solid dan memberikan wawasan berharga untuk bidang robotika dan computer vision . Namun, respons kritis komunitas berfungsi sebagai pengingat bahwa klaim luar biasa memerlukan bukti luar biasa - dan pelaporan yang hati-hati dan akurat.

Referensi: how we accidentally solved robotics by watching 1 million hours of YouTube