Meta Merilis V-JEPA 2 World Model dengan Performa 30x Lebih Cepat dari Cosmos Nvidia

Tim Editorial BigGo

Meta Merilis V-JEPA 2 World Model dengan Performa 30x Lebih Cepat dari Cosmos Nvidia

Meta telah mengungkap model dunia paling canggih hingga saat ini, memposisikan kecerdasan buatan untuk lebih memahami dan menavigasi dunia fisik melalui penalaran intuitif daripada pembelajaran brute-force. V-JEPA 2 merupakan lompatan signifikan dalam membantu agen AI mengembangkan pemahaman fisika dan hubungan spasial yang mirip manusia.

Arsitektur Revolusioner Memungkinkan Pemahaman Fisik yang Intuitif

V-JEPA 2 menggunakan Joint Embedding Predictive Architecture yang secara fundamental berbeda dari model prediksi piksel tradisional. Alih-alih menghasilkan konten visual, sistem ini berfokus pada pemahaman fisika dan hubungan yang mendasari dalam data video. Pendekatan ini memungkinkan agen AI memahami konsep seperti gravitasi, momentum, dan interaksi objek tanpa memerlukan jutaan iterasi pelatihan untuk setiap keterampilan baru.

Model ini menunjukkan kemampuan luar biasa dalam memprediksi skenario kompleks. Misalnya, model dapat mengantisipasi bahwa seseorang yang memegang spatula di dekat kompor kemungkinan akan memindahkan telur yang sudah dimasak ke piring, atau memahami gerakan rumit seorang atlet yang melakukan rutinitas menyelam. Prediksi ini berasal dari kemampuan model untuk membangun representasi internal tentang bagaimana dunia fisik beroperasi.

Arsitektur Teknis:

Jenis model: Joint Embedding Predictive Architecture ( JEPA )
Metode pelatihan: Self-supervised learning
Komponen utama: Encoder (memproses video mentah) + Predictor (meramalkan kondisi masa depan)
Fokus: Memahami fisika dan hubungan vs. prediksi piksel


Diagram yang menampilkan pengkodean dan pemrosesan data visual untuk prediksi tindakan robotik menggunakan arsitektur V-JEPA 2

Dataset Pelatihan Masif Mendukung Kemampuan Canggih

Meta melatih V-JEPA 2 menggunakan lebih dari satu juta jam konten video melalui teknik pembelajaran terawasi mandiri. Dataset ekstensif ini membantu model memahami interaksi manusia-objek, pola gerakan fisik, dan aturan fundamental yang mengatur bagaimana objek berperilaku dalam ruang tiga dimensi. Pendekatan pelatihan ini menghilangkan kebutuhan akan data berlabel manual sambil membangun pemahaman yang kuat tentang prinsip-prinsip fisik.

Arsitektur model terdiri dari dua komponen utama: encoder yang memproses input video mentah dan menghasilkan embedding yang bermakna, dan prediktor yang menggunakan embedding ini untuk meramalkan keadaan masa depan. Desain ini memungkinkan sistem memahami dinamika temporal dan pola gerakan kompleks yang penting untuk aplikasi AI dunia nyata.

Peningkatan Performa Dramatis Dibanding Model Pesaing

Menurut pengujian internal Meta , V-JEPA 2 mencapai kecepatan perencanaan yang 30 kali lebih cepat dari model Cosmos Nvidia sambil mempertahankan tingkat keberhasilan yang lebih tinggi di berbagai tugas. Model ini menunjukkan performa mengesankan dalam aplikasi robotik, mencapai 100% keberhasilan dalam tugas pencapaian, 45% dalam operasi pegangan, dan 73% dalam aktivitas ambil-dan-letakkan tanpa memerlukan data pelatihan khusus robot yang ekstensif.

Keunggulan performa ini berasal dari kemampuan model untuk memahami fisika yang mendasari daripada menghafal skenario spesifik. Sistem AI tradisional sering memerlukan dataset masif untuk setiap tugas baru, sementara V-JEPA 2 dapat menggeneralisasi pemahamannya di berbagai domain dan aplikasi dengan pelatihan tambahan yang minimal.

Perbandingan Performa:

Kecepatan perencanaan V-JEPA 2: 30x lebih cepat dari model Nvidia Cosmos
Data pelatihan: Lebih dari 1 juta jam konten video
Tingkat keberhasilan tugas robotik: 100% (menjangkau), 45% (menggenggam), 73% (mengambil-dan-menempatkan)


Perbandingan waktu perencanaan per langkah antara V-JEPA 2 dan Cosmos, menunjukkan efisiensi superior V-JEPA 2

Aplikasi Luas di Berbagai Industri

Meta membayangkan V-JEPA 2 memungkinkan aplikasi transformatif di berbagai sektor. Teknologi ini dapat membantu individu dengan gangguan penglihatan dengan menyediakan pemahaman lingkungan yang lebih baik, mendukung pengalaman mixed reality yang lebih canggih dengan konten edukasi yang dipersonalisasi, dan meningkatkan asisten pemrograman AI yang benar-benar memahami bagaimana perubahan kode mempengaruhi keadaan sistem.

Sistem otonom merupakan area aplikasi signifikan lainnya. Kendaraan self-driving dan sistem robotik dapat memanfaatkan kemampuan model untuk memprediksi dan memahami interaksi fisik kompleks tanpa pelatihan khusus domain yang ekstensif. Meta menyarankan teknologi ini dapat mengantarkan era baru robot rumah tangga yang mampu melakukan tugas domestik tanpa memerlukan jumlah data pelatihan yang astronomis.


Lengan robotik Franka sedang melakukan tugas-tugas, mendemonstrasikan kemampuan V-JEPA 2 dalam interaksi fisik dan robotika

Benchmark Baru Memajukan Komunitas Penelitian

Bersamaan dengan rilis model, Meta memperkenalkan tiga tes benchmark khusus untuk membantu peneliti mengevaluasi kemampuan sistem AI dalam memahami prinsip fisik dari konten video. Ini termasuk IntPhys 2 untuk menguji pemahaman fisika intuitif dalam lingkungan sintetis kompleks, benchmark video question-answering yang sadar jalan pintas, dan CausalVQA untuk evaluasi penalaran kausal berdasar fisik.

Benchmark ini menyediakan metode standar untuk mengukur kemajuan dalam pengembangan model dunia dan memastikan kriteria evaluasi yang konsisten di berbagai upaya penelitian. Alat-alat ini akan membantu komunitas AI yang lebih luas memajukan pemahaman tentang bagaimana mesin dapat lebih memahami dan berinteraksi dengan dunia fisik.

Tes Benchmark Baru:

IntPhys 2: Menguji pemahaman fisika intuitif dalam lingkungan sintetis yang kompleks
Shortcut-aware Video-QA: Pemahaman fisik melalui pasangan video minimal
CausalVQA: Penalaran kausal berbasis fisik untuk model video

Waktu Strategis di Tengah Ekspansi AI Meta

Pengumuman V-JEPA 2 datang saat Meta secara signifikan memperluas kemampuan penelitian AI-nya. Laporan terbaru menunjukkan perusahaan sedang mendirikan laboratorium AI baru dan telah berkomitmen 14,8 miliar dolar Amerika untuk mengakuisisi 49% saham di Scale AI . Peran menonjol Chief AI Scientist Yann LeCun dalam mempromosikan model baru menunjukkan Meta secara aktif memposisikan diri sebagai pemimpin dalam penelitian AI canggih sambil berpotensi menarik talenta terbaik ke tim yang berkembang.

Dorongan strategis ke model dunia ini merepresentasikan visi Meta yang lebih luas untuk mencapai Artificial General Intelligence melalui sistem yang dapat bernalar tentang dan berinteraksi dengan dunia fisik secara alami seperti manusia.

Berita Terkait

‌

‌
‌

‌

‌
‌

‌