Meta Melancarkan Model Dunia V-JEPA 2 dengan Prestasi 30 Kali Lebih Pantas Daripada Cosmos Nvidia

BigGo Editorial Team
Meta Melancarkan Model Dunia V-JEPA 2 dengan Prestasi 30 Kali Lebih Pantas Daripada Cosmos Nvidia

Meta telah memperkenalkan model dunia paling canggih setakat ini, memposisikan kecerdasan buatan untuk lebih memahami dan menavigasi dunia fizikal melalui penaakulan intuitif berbanding pembelajaran kasar. V-JEPA 2 mewakili lonjakan ketara ke hadapan dalam membantu ejen AI mengembangkan pemahaman seperti manusia tentang fizik dan hubungan spatial.

Seni Bina Revolusioner Membolehkan Pemahaman Fizikal Intuitif

V-JEPA 2 menggunakan Seni Bina Ramalan Pembenaman Bersama yang berbeza secara asas daripada model ramalan piksel tradisional. Daripada menghasilkan kandungan visual, sistem ini memberi tumpuan kepada memahami fizik asas dan hubungan dalam data video. Pendekatan ini membolehkan ejen AI memahami konsep seperti graviti, momentum, dan interaksi objek tanpa memerlukan jutaan iterasi latihan untuk setiap kemahiran baharu.

Model ini menunjukkan keupayaan yang luar biasa dalam meramalkan senario kompleks. Sebagai contoh, ia boleh menjangka bahawa seseorang yang memegang spatula berhampiran dapur berkemungkinan akan memindahkan telur yang dimasak ke pinggan, atau memahami pergerakan rumit atlet yang melakukan rutin terjun. Ramalan ini berpunca daripada keupayaan model untuk membina representasi dalaman tentang cara dunia fizikal beroperasi.

Seni Bina Teknikal:

  • Jenis model: Joint Embedding Predictive Architecture ( JEPA )
  • Kaedah latihan: Pembelajaran terawasi kendiri
  • Komponen utama: Encoder (memproses video mentah) + Predictor (meramal keadaan masa depan)
  • Fokus: Memahami fizik dan hubungan berbanding ramalan piksel
Rajah yang mempamerkan pengekodan dan pemprosesan data visual untuk ramalan tindakan robotik menggunakan seni bina  V-JEPA 2
Rajah yang mempamerkan pengekodan dan pemprosesan data visual untuk ramalan tindakan robotik menggunakan seni bina V-JEPA 2

Dataset Latihan Besar-besaran Memacu Keupayaan Canggih

Meta melatih V-JEPA 2 menggunakan lebih sejuta jam kandungan video melalui teknik pembelajaran terawasi sendiri. Dataset yang luas ini membantu model memahami interaksi manusia-objek, corak pergerakan fizikal, dan peraturan asas yang mengawal bagaimana objek berkelakuan dalam ruang tiga dimensi. Pendekatan latihan ini menghapuskan keperluan untuk data berlabel manual sambil membina pemahaman kukuh tentang prinsip fizikal.

Seni bina model terdiri daripada dua komponen utama: enkoder yang memproses input video mentah dan menghasilkan pembenaman bermakna, dan peramal yang menggunakan pembenaman ini untuk meramalkan keadaan masa depan. Reka bentuk ini membolehkan sistem memahami dinamik temporal dan corak gerakan kompleks yang penting untuk aplikasi AI dunia sebenar.

Peningkatan Prestasi Dramatik Berbanding Model Pesaing

Menurut ujian dalaman Meta , V-JEPA 2 mencapai kelajuan perancangan yang 30 kali lebih pantas daripada model Cosmos Nvidia sambil mengekalkan kadar kejayaan yang lebih tinggi merentas pelbagai tugas. Model ini menunjukkan prestasi yang mengagumkan dalam aplikasi robotik, mencapai 100% kejayaan dalam tugas mencapai, 45% dalam operasi menggenggam, dan 73% dalam aktiviti ambil-dan-letak tanpa memerlukan data latihan khusus robot yang ekstensif.

Kelebihan prestasi ini berpunca daripada keupayaan model untuk memahami fizik asas berbanding menghafal senario khusus. Sistem AI tradisional sering memerlukan dataset besar untuk setiap tugas baharu, manakala V-JEPA 2 boleh mengeneralisasi pemahamannya merentas domain dan aplikasi berbeza dengan latihan tambahan yang minimum.

Perbandingan Prestasi:

  • Kelajuan perancangan V-JEPA 2: 30 kali ganda lebih pantas daripada model Nvidia Cosmos
  • Data latihan: Lebih 1 juta jam kandungan video
  • Kadar kejayaan tugasan robotik: 100% (mencapai), 45% (menggenggam), 73% (ambil-dan-letak)
Perbandingan masa perancangan setiap langkah antara V-JEPA 2 dan Cosmos, menggambarkan kecekapan unggul V-JEPA 2
Perbandingan masa perancangan setiap langkah antara V-JEPA 2 dan Cosmos, menggambarkan kecekapan unggul V-JEPA 2

Aplikasi Luas Merentas Pelbagai Industri

Meta membayangkan V-JEPA 2 membolehkan aplikasi transformatif merentas pelbagai sektor. Teknologi ini boleh membantu individu cacat penglihatan dengan menyediakan pemahaman persekitaran yang dipertingkat, memacu pengalaman realiti campuran yang lebih canggih dengan kandungan pendidikan yang diperibadikan, dan meningkatkan pembantu pengaturcaraan AI yang benar-benar memahami bagaimana perubahan kod mempengaruhi keadaan sistem.

Sistem autonomi mewakili satu lagi kawasan aplikasi yang penting. Kenderaan pandu sendiri dan sistem robotik boleh mendapat manfaat daripada keupayaan model untuk meramal dan memahami interaksi fizikal yang kompleks tanpa latihan khusus domain yang ekstensif. Meta mencadangkan teknologi ini boleh membawa era baharu robot rumah yang mampu melakukan tugas domestik tanpa memerlukan jumlah data latihan yang astronomi.

Lengan robotik Franka melaksanakan tugasan, menunjukkan keupayaan V-JEPA 2 dalam interaksi fizikal dan robotik
Lengan robotik Franka melaksanakan tugasan, menunjukkan keupayaan V-JEPA 2 dalam interaksi fizikal dan robotik

Penanda Aras Baharu Memajukan Komuniti Penyelidikan

Bersama-sama dengan pelepasan model, Meta memperkenalkan tiga ujian penanda aras khusus untuk membantu penyelidik menilai keupayaan sistem AI untuk memahami prinsip fizikal daripada kandungan video. Ini termasuk IntPhys 2 untuk menguji pemahaman fizik intuitif dalam persekitaran sintetik yang kompleks, penanda aras soal jawab video yang sedar pintasan, dan CausalVQA untuk penilaian penaakulan kausal berasaskan fizikal.

Penanda aras ini menyediakan kaedah piawai untuk mengukur kemajuan dalam pembangunan model dunia dan memastikan kriteria penilaian yang konsisten merentas usaha penyelidikan yang berbeza. Alat ini akan membantu komuniti AI yang lebih luas memajukan pemahaman tentang bagaimana mesin boleh lebih memahami dan berinteraksi dengan dunia fizikal.

Ujian Penanda Aras Baharu:

  • IntPhys 2: Menguji pemahaman fizik intuitif dalam persekitaran sintetik yang kompleks
  • Shortcut-aware Video-QA: Pemahaman fizikal melalui pasangan video minimal
  • CausalVQA: Penaakulan kausal berasaskan fizik untuk model video

Masa Strategik Di Tengah Pengembangan AI Meta

Pengumuman V-JEPA 2 datang ketika Meta mengembangkan keupayaan penyelidikan AI secara ketara. Laporan terkini menunjukkan syarikat sedang menubuhkan makmal AI baharu dan telah komited 14.8 bilion dolar Amerika untuk memperoleh 49% kepentingan dalam Scale AI . Peranan menonjol Ketua Saintis AI Yann LeCun dalam mempromosikan model baharu menunjukkan Meta secara aktif memposisikan dirinya sebagai pemimpin dalam penyelidikan AI canggih sambil berpotensi menarik bakat terbaik kepada pasukan yang berkembang.

Dorongan strategik ke dalam model dunia ini mewakili visi Meta yang lebih luas untuk mencapai Kecerdasan Buatan Am melalui sistem yang boleh berfikir tentang dan berinteraksi dengan dunia fizikal secara semula jadi seperti manusia.