Industri AI Menghadapi Kekurangan Data Kritikal Apabila Syarikat Kehabisan Sumber Latihan Internet

Pasukan Komuniti BigGo
Industri AI Menghadapi Kekurangan Data Kritikal Apabila Syarikat Kehabisan Sumber Latihan Internet

Industri kecerdasan buatan sedang berhadapan dengan cabaran asas yang boleh membentuk semula keseluruhan bidang ini. Selepas bertahun-tahun pertumbuhan pesat yang didorong oleh set data besar-besaran, syarikat AI kehabisan data latihan berkualiti tinggi. Kekurangan ini mengancam pendekatan tradisional untuk meningkatkan model dengan kuasa pengkomputeran yang lebih banyak dan set data yang lebih besar.

Penghujung Penskalaan Mudah

Masalah ini berpunca daripada salah faham terhadap esei terkenal Rich Sutton iaitu Bitter Lesson . Walaupun ramai yang mentafsirkannya sebagai seruan untuk mengutamakan kuasa pengkomputeran di atas segala-galanya, kesesakan sebenar ternyata adalah ketersediaan data. Undang-undang penskalaan semasa menunjukkan bahawa menggandakan kapasiti GPU memerlukan kira-kira 1.4 kali lebih banyak data latihan untuk mengekalkan kecekapan. Walau bagaimanapun, syarikat-syarikat pada dasarnya telah kehabisan kandungan berasaskan teks internet untuk tujuan latihan.

Ini mewujudkan kekangan matematik yang tidak dapat diselesaikan dengan wang. Hubungan antara bajet pengkomputeran, parameter model, dan data latihan mengikut nisbah tertentu. Apabila satu elemen mencapai hadnya, keseluruhan pendekatan penskalaan akan runtuh. Syarikat tidak lagi boleh hanya menambah lebih banyak perkakasan pada masalah tanpa peningkatan yang sepadan dalam bahan latihan berkualiti.

Hubungan Hukum Penskalaan: Belanjawan pengkomputeran C ~ 6N × D, di mana N = parameter model dan D = token data latihan. Menggandakan pengkomputeran memerlukan ~1.41x lebih banyak data untuk mengekalkan kecekapan.

Dua Laluan Ke Hadapan untuk Pembangunan AI

Industri menghadapi pilihan kritikal antara dua pendekatan yang berbeza. Laluan pertama memfokuskan pada penambahbaikan seni bina - membangunkan reka bentuk model yang lebih cekap yang boleh mencapai prestasi yang lebih baik dengan data sedia ada. Ini termasuk inovasi seperti State Space Models dan rangka kerja penaakulan baharu yang boleh memberikan peningkatan prestasi yang stabil sebanyak 20-30%.

Pendekatan kedua melibatkan penciptaan data latihan sintetik melalui apa yang penyelidik panggil kaedah alkimia. Ini termasuk teknik seperti pembelajaran pengukuhan daripada maklum balas manusia, senario bermain sendiri, dan sistem AI yang menghasilkan contoh latihan mereka sendiri. Walaupun berpotensi revolusioner, laluan ini membawa risiko yang lebih tinggi dan hasil yang tidak pasti.

Jika anda boleh mencari cara untuk menghasilkan ganjaran yang boleh disahkan tentang dunia sasaran, anda pada dasarnya boleh menghasilkan jumlah data yang tidak terhad dan berkemungkinan meningkat melepasi kesesakan semasa.

Laluan Peningkatan Prestasi: Penambahbaikan seni bina menawarkan keuntungan stabil 20-30%, manakala pendekatan data sintetik menawarkan variasi yang lebih tinggi dengan potensi untuk peningkatan 300%.

Interaksi Dunia Sebenar sebagai Bahagian yang Hilang

Ramai penyelidik percaya penyelesaiannya terletak pada menghubungkan sistem AI secara lebih langsung dengan dunia fizikal. Model bahasa semasa dilatih terutamanya pada teks - pada dasarnya bayangan di dinding pengetahuan manusia dan bukannya pengalaman langsung. Manusia belajar melalui interaksi pelbagai mod dengan persekitaran mereka, memproses maklumat visual, pendengaran, dan sentuhan secara serentak.

Kekayaan data interaksi dunia sebenar jauh melebihi apa yang ditangkap dalam teks bertulis. Satu detik pengalaman manusia mengandungi maklumat yang jauh lebih banyak daripada yang boleh disampaikan melalui bahasa sahaja. Ini menunjukkan bahawa sistem AI memerlukan akses kepada aliran data deria, maklum balas robotik, dan persekitaran interaktif untuk terus maju.

Jurang Garis Masa Pembangunan: Model AI robotik dianggarkan ketinggalan ~5 tahun berbanding model bahasa dari segi keupayaan dan ketersediaan data.

Implikasi Industri dan Pandangan Masa Depan

Kekurangan data ini mempunyai implikasi yang mendalam untuk syarikat AI dan pelabur. Buku panduan tradisional untuk mendapatkan lebih banyak sumber pengkomputeran dan mengharapkan penambahbaikan berkadar tidak lagi berfungsi. Syarikat kini mesti membangunkan strategi data yang canggih bersama rancangan pengkomputeran mereka.

Cabaran ini amat akut untuk aplikasi robotik, yang ketinggalan kira-kira lima tahun di belakang model bahasa dalam pembangunan. Data dunia fizikal adalah lebih mahal untuk dikumpul dan lebih kompleks untuk diproses berbanding maklumat berasaskan teks. Walau bagaimanapun, ia mungkin mewakili laluan yang paling menjanjikan ke arah kecerdasan buatan yang benar-benar umum.

Industri berada di persimpangan jalan di mana kejuruteraan yang bijak dan pendekatan novel lebih penting daripada kuasa pengkomputeran mentah. Kejayaan berkemungkinan akan datang daripada syarikat yang boleh sama ada meningkatkan kecekapan data secara dramatik atau mencari cara inovatif untuk menghasilkan bahan latihan sintetik berkualiti tinggi. Era penskalaan mudah mungkin berakhir, tetapi zaman pembangunan AI yang canggih baru sahaja bermula.

Rujukan: The Bitter Lesson Is Misunderstood