Dakwaan Robotik V-JEPA 2 Menghadapi Keraguan Mengenai Ketepatan dan Terobosan yang Dilebih-lebihkan

Pasukan Komuniti BigGo
Dakwaan Robotik V-JEPA 2 Menghadapi Keraguan Mengenai Ketepatan dan Terobosan yang Dilebih-lebihkan

Sebuah artikel terkini yang mendakwa bahawa robotik telah diselesaikan secara tidak sengaja melalui V-JEPA 2 , sebuah model AI berasaskan video yang dilatih menggunakan berjuta-juta jam kandungan YouTube , telah mencetuskan perdebatan sengit dalam komuniti teknologi. Walaupun penyelidikan ini menunjukkan kemajuan menarik dalam kawalan robot, pakar mempersoalkan ketepatan dakwaan tersebut dan sama ada terobosan ini sebenar-benarnya revolusioner seperti yang dipersembahkan.

Spesifikasi Model:

  • Encoder: ViT-g dengan 1 bilion parameter
  • Predictor: transformer 300M parameter (varian V-JEPA 2-AC)
  • Data latihan: 22 juta video + 1 juta imej
  • Latihan robot: 62 jam rakaman lengan Franka

Ketepatan Teknikal Dikritik

Ahli komuniti telah mengenal pasti banyak kesilapan fakta dan ketidakkonsistenan dalam laporan asal. Satu isu yang ketara melibatkan data yang bercanggah mengenai saiz set data latihan - artikel tersebut menyebut kedua-dua 22 juta video dan satu bilion video YouTube tanpa penjelasan. Seperti yang ditunjukkan oleh seorang pembaca, kekeliruan ini berpunca daripada salah faham bahawa YT-Temporal-1B merujuk kepada satu bilion bingkai video, bukan satu bilion video berasingan.

Gaya penulisan itu sendiri telah menimbulkan tanda amaran dalam kalangan pembaca, dengan sesetengahnya menyatakan bahawa penggunaan meme internet yang lapuk dan penjelasan teknikal yang tidak konsisten menunjukkan artikel tersebut mungkin telah dijana atau disunting secara besar-besaran oleh alat AI . Kehadiran frasa seperti ngmi (not gonna make it) dan rujukan kepada meme doge pada tahun 2025 dianggap ramai sebagai dimasukkan secara buatan dan bukannya penulisan teknikal yang semula jadi.

Dakwaan Prestasi Dipersoalkan

Walaupun V-JEPA 2 menunjukkan hasil yang menjanjikan dalam tugas kawalan robot, komuniti menolak naratif robotik yang diselesaikan. Kadar kejayaan yang dilaporkan sebanyak 65% untuk menggenggam cawan dan 65-80% untuk operasi ambil-dan-letak, walaupun ketara, masih belum mencapai terobosan revolusioner yang dicadangkan oleh tajuk utama.

Mereka mencapai 65% kejayaan pada tugas yang sangat mudah.

Pengkritik juga menyatakan bahawa prestasi yang sama atau lebih baik telah dicapai oleh pendekatan lain, termasuk model pembelajaran tiruan padanan aliran dan model asas dunia NVIDIA . Wawasan teras untuk meramal dalam ruang perwakilan dan bukannya piksel mentah telah menjadi amalan standard dalam penglihatan komputer sejak 2014, menjadikan dakwaan kebaharuan ini dipersoalkan.

Metrik Prestasi V-JEPA 2:

  • Tugasan mencapai: 100% kadar kejayaan
  • Menggenggam cawan: 65% kadar kejayaan
  • Mengambil dan meletakkan: 65-80% kadar kejayaan
  • Kelajuan perancangan: 16 saat setiap tindakan (berbanding 4 minit untuk model difusi)

Had Dunia Sebenar Diabaikan

Penyelidikan ini mendedahkan had praktikal yang ketara yang tidak ditekankan secukupnya dalam liputan asal. Sistem ini menunjukkan kepekaan yang melampau terhadap kedudukan kamera - menggerakkan kamera hanya 10 darjah boleh menyebabkan robot keliru dengan arah asas. Selain itu, model ini bergelut dengan perancangan jangka panjang, mengalami hanyutan apabila cuba merancang lebih daripada beberapa langkah ke hadapan.

Mungkin yang paling mengehadkan ialah keperluan semasa untuk spesifikasi matlamat visual. Pengguna mesti menyediakan gambar hasil yang diingini dan bukannya arahan bahasa semula jadi, yang sangat mengehadkan aplikasi praktikal. Ketidakupayaan untuk memahami arahan seperti buatkan saya sandwic tanpa demonstrasi visual yang mengiringi menyerlahkan jurang antara keupayaan semasa dan robotik yang benar-benar diselesaikan.

Batasan Utama:

  • Sensitiviti kedudukan kamera (pergerakan 10 darjah menyebabkan kekeliruan)
  • Hanyutan perancangan jangka panjang
  • Memerlukan spesifikasi matlamat visual (tiada arahan bahasa semula jadi)
  • Terhad kepada tugas manipulasi mudah

Konteks Luas Hilang

Perbincangan ini juga telah menyerlahkan kebimbangan mengenai sumber data dan implikasi undang-undang. Terma perkhidmatan YouTube secara amnya melarang pengikisan berskala besar, walaupun kebolehkuatkuasaan undang-undang sekatan tersebut untuk latihan AI masih tidak jelas. Ini mencerminkan ketegangan yang lebih luas dalam industri AI mengenai hak cipta dan penggunaan adil untuk data latihan.

Reaksi komuniti menggariskan keletihan yang semakin meningkat dengan pengumuman AI yang terlalu dipromosikan. Walaupun V-JEPA 2 mewakili kemajuan tulen dalam pembelajaran robot berasaskan video, jurang antara kemajuan penyelidikan berperingkat dan terobosan transformatif terus disalahgambarkan dalam liputan popular.

Penyelidikan itu sendiri nampaknya kukuh dan menyumbang wawasan berharga kepada bidang robotik dan penglihatan komputer. Walau bagaimanapun, respons kritikal komuniti berfungsi sebagai peringatan bahawa dakwaan luar biasa memerlukan bukti luar biasa - dan pelaporan yang teliti dan tepat.

Rujukan: how we accidentally solved robotics by watching 1 million hours of YouTube