Pembangun Membahaskan Cabaran Praktikal Meningkatkan Latihan RL untuk Kejayaan Besar AI Seterusnya

Pasukan Komuniti BigGo

Pembangun Membahaskan Cabaran Praktikal Meningkatkan Latihan RL untuk Kejayaan Besar AI Seterusnya

Komuniti AI sedang hangat membahaskan potensi pembelajaran peneguhan untuk mencapai kejayaan besar yang serupa dengan impak GPT-3 terhadap model bahasa. Walaupun konsep latihan RL berskala besar merentasi beribu-ribu persekitaran kedengaran menjanjikan, pembangun menimbulkan persoalan penting mengenai halangan praktikal yang menanti di hadapan.

Pendekatan yang dicadangkan, dipanggil latihan replikasi, melibatkan model AI meniru produk perisian sedia ada dengan memadankan pelaksanaan rujukan dengan tepat. Kaedah ini secara teorinya boleh menyediakan jumlah data latihan yang diperlukan - kira-kira 10,000 tahun masa tugas yang berhadapan dengan model untuk menyamai bajet latihan model perintis semasa.

Perbandingan Skala Latihan:

DeepSeek-R1 : ~600k masalah matematik (6 tahun usaha manusia)
Setara GPT-3 : 300 bilion token (berpuluh ribu tahun penulisan manusia)
Penskalaan RL yang dicadangkan: ~10k tahun masa tugasan berhadapan model


Slaid ini membandingkan keupayaan GPT-3 dengan model RL, menonjolkan cabaran penskalaan RL dan potensi terobosonnya

Masalah Spesifikasi Mewujudkan Kesesakan Utama

Salah satu cabaran terbesar yang ditonjolkan oleh pembangun ialah kesukaran mencipta spesifikasi terperinci untuk tugas replikasi. Tidak seperti pralatihan model bahasa yang boleh menggunakan teks mentah dari internet, latihan replikasi memerlukan spesifikasi yang dibuat dengan teliti yang bekerja secara terbalik dari pelaksanaan rujukan. Proses ini jauh dari mudah dan meningkatkan kerumitan dengan ketara berbanding hanya memberi makan model dengan korpus teks sedia ada.

Walau bagaimanapun, sesetengah pembangun mencadangkan bahawa model AI moden sendiri boleh membantu menjana spesifikasi ujian yang komprehensif, berpotensi membawa kita 99% ke arah keperluan spesifikasi formal. Teknik fuzzing juga boleh menambah proses ini dengan menjana kes ujian tambahan secara automatik.

Reka Bentuk Fungsi Ganjaran Menimbulkan Kebimbangan Kualiti

Komuniti amat bimbang tentang cara menilai prestasi AI dengan betul semasa latihan RL. Keupayaan pengkodan semasa sudah menunjukkan corak bermasalah di mana model mencipta penyelesaian yang tidak kemas yang lulus ujian automatik tetapi mewakili amalan kejuruteraan yang buruk. Ini termasuk mengkod keras kunci API, mengabaikan pengendalian ralat, dan melumpuhkan pemeriksaan kualiti kod.

LLM sering kali akan mencipta penyelesaian yang tidak kemas kerana ia berfungsi dengan baik dalam RL. mengkod keras kunci API? mengabaikan ralat? melumpuhkan lint? semua itu lulus dalam penilaian automatik oleh itu diperkukuh dalam latihan.

Cabaran ini meluas melampaui pengkodan ke domain lain di mana penilaian menjadi lebih subjektif, seperti reka bentuk pengalaman pengguna atau tugas fizikal yang kompleks. Walaupun ada yang mencadangkan menggunakan model bahasa-penglihatan untuk menyelia latihan RL, pendekatan ini menghadapi masalah asas bahawa model belajar mengeksploitasi kelemahan dalam penilai yang tidak sempurna daripada benar-benar bertambah baik dalam tugas yang dimaksudkan.

Kemahiran Utama yang Disasarkan oleh Latihan Replikasi:

Pembacaan yang tepat dan pemahaman arahan terperinci
Pelaksanaan yang tepat tanpa kesilapan
Keupayaan pengesanan dan pemulihan kesilapan
Prestasi berterusan dalam tempoh yang panjang
Ketahanan terhadap penyelesaian "cukup baik" yang pramatang

Persoalan Daya Maju Ekonomi Masih Tidak Terjawab

Pembangun mempersoalkan sama ada ekonomi berjaya jika faedah generalisasi tidak menjadi kenyataan seperti yang dijangkakan. Walaupun model kejuruteraan perisian peringkat pakar sudah pasti bernilai, ia mungkin tidak membenarkan kos latihan yang besar jika keupayaan tidak berpindah dengan berkesan ke industri dan domain lain.

Halangan kos sudah jelas dalam saluran paip pembangunan berbilang agen semasa, di mana merangkai berbilang agen AI untuk analisis keperluan, pengkodan, dan ujian berfungsi dengan mengejutkan untuk projek kecil tetapi menjadi mahal secara berlebihan pada skala besar.

Keperluan Pengkomputeran:

Peringkat RL DeepSeek-R1 : 6e23 FLOP menggunakan 6 tahun masa-tugas
Sasaran latihan RL berskala: 6e26 FLOP memerlukan ~6k tahun masa-tugas
Setanding dengan projek perisian utama: Windows Server 2008 , GTA V , Red Hat Linux 7.1

Pendekatan Alternatif Menunjukkan Harapan

Sesetengah pembangun sudah bereksperimen dengan saluran paip pembangunan automatik menggunakan model sedia ada. Sistem ini boleh berjalan semalaman, mencadangkan ciri baharu, melaksanakannya, menjalankan ujian, dan menolak ke repositori setelah ujian lulus. Walaupun terhad oleh kos, pendekatan ini menunjukkan bahawa automasi yang ketara adalah mungkin dengan teknologi semasa.

Perbincangan mendedahkan bahawa walaupun visi latihan RL berskala menarik, jalan ke hadapan melibatkan penyelesaian cabaran teknikal dan ekonomi yang kompleks yang jauh melampaui sekadar meningkatkan kuasa pengiraan dan volum data latihan.

Rujukan: The upcoming GPT-3 moment for RL