Komuniti AI Mencabar "The Bitter Lesson" Ketika Kos Kurasi Data Melonjak Kepada Berbilion

Pasukan Komuniti BigGo
Komuniti AI Mencabar "The Bitter Lesson" Ketika Kos Kurasi Data Melonjak Kepada Berbilion

Komuniti penyelidikan AI sedang giat membahaskan salah satu teori paling berpengaruh dalam bidang ini ketika kos pelaksanaan dunia sebenar mendedahkan kerumitan yang tidak dijangka. The Bitter Lesson oleh Rich Sutton , yang berhujah bahawa penskalaan pengkomputeran dan data secara konsisten mengatasi pendekatan berasaskan pengetahuan manusia, kini menghadapi penelitian daripada pengamal yang melihat realiti yang lebih bernuansa sedang muncul.

Teori asal mencadangkan pembahagian yang jelas antara dua pendekatan pembangunan AI: kaedah berasaskan pengetahuan manusia berbanding kaedah yang berskala dengan data dan kuasa pengkomputeran. Sutton mempunyai hujah yang meyakinkan - dari segi sejarah, kejayaan terbesar datang daripada melontarkan lebih banyak sumber pengkomputeran kepada masalah berbanding mencipta wawasan manusia dengan teliti ke dalam sistem.

Kos Tersembunyi Penskalaan Data Tulen

Walau bagaimanapun, perbincangan komuniti mendedahkan apa yang dipanggil sebagai Realiti Keras di sebalik The Bitter Lesson . Walaupun penskalaan mungkin berfungsi secara teori, syarikat AI terkemuka semasa membelanjakan berbilion dolar untuk kurasi data dan kawalan kualiti. Ini bukan sekadar tentang mengumpul lebih banyak data - tetapi tentang memilih, menyemak, dan memproses maklumat berkualiti tinggi dengan pengawasan manusia yang meluas dengan teliti.

Peralihan menjadi jelas apabila membandingkan sistem AI lama dengan yang moden. Model terdahulu untuk tugas seperti pengesanan wajah boleh berfungsi dengan mana-mana imej wajah, tanpa mengira kualiti. Sistem AI perbualan hari ini memerlukan set data yang sangat dikurasi untuk mengelakkan menghasilkan output yang berbahaya atau tidak berguna. Perbezaannya terletak pada perpindahan daripada pengecaman corak mudah kepada mencipta pembantu AI yang benar-benar berguna.

Perbandingan Kos: Pelaburan Kurasi Data

  • AI Tradisional (sebelum 2020): Kos kurasi data yang minimum, bergantung pada set data mentah
  • LLM Moden (2023-2024): Berbilion hingga puluhan bilion USD dilaburkan dalam pengumpulan, semakan, dan pemprosesan data
  • Projek berskala kecil: Model ringkas sering mengatasi prestasi rangkaian neural apabila data adalah terhad

Masalah Dikotomi Palsu

Pengkritik berhujah bahawa The Bitter Lesson mencipta pilihan buatan antara pengetahuan manusia dan penskalaan pengkomputeran. Dalam praktik, tiada model pembelajaran mesin wujud tanpa pengetahuan manusia - manusia mereka bentuk seni bina, memilih kaedah latihan, dan menilai keputusan. Begitu juga, tiada sistem AI berguna bergantung semata-mata pada pengetahuan manusia terkod keras tanpa sebarang komponen pembelajaran.

Evolusi enjin catur memberikan contoh yang sempurna. Stockfish pada asalnya menggunakan pengetahuan catur yang luas yang dibina oleh pakar. Leela Chess Zero kemudian mengalahkannya menggunakan pembelajaran peneguhan tulen tanpa pengetahuan catur. Tetapi kelainan terakhir datang apabila Stockfish menggabungkan kedua-dua pendekatan - menambah rangkaian neural kepada pangkalan pengetahuan sedia ada mereka - dan dengan mudah merebut semula kedudukan teratas.

Garis Masa Evolusi Enjin Catur

  1. Era Stockfish: Pengetahuan catur manusia + algoritma tradisional
  2. Leela Chess Zero: Pembelajaran peneguhan tulen, tiada pengetahuan catur → Mengalahkan Stockfish
  3. Stockfish Moden: Pendekatan gabungan (rangkaian neural + pengetahuan manusia) → Merebut semula kedudukan teratas

Pendekatan Spektrum

Daripada melihat ini sebagai pilihan sama ada atau, pengamal menggunakan pendekatan spektrum. Mereka bermula dengan kaedah umum dan luas pada awal pembangunan, kemudian secara beransur-ansur menambah pengetahuan dan bimbingan manusia yang lebih khusus mengikut keperluan. Ini mungkin bermula dengan pembelajaran terawasi kendiri pada set data besar-besaran, kemudian beralih kepada data terkurasi dalam domain khusus, dan akhirnya memasukkan maklum balas dan penilaian manusia.

Keseluruhan proses pembinaan model dipandu oleh pengetahuan domain. Kaedah yang menggunakan pengetahuan ini terdiri daripada 'langsung' hingga 'berpengaruh.'

Pendekatan ini mengiktiraf bahawa peringkat pembangunan AI yang berbeza mendapat manfaat daripada keseimbangan automasi dan wawasan manusia yang berbeza. Kuncinya ialah memilih titik operasi yang betul pada spektrum ini untuk setiap bahagian proses pembangunan.

Pendekatan Spektrum Pembangunan AI

  • Peringkat Awal: Penyeliaan kendiri pada set data yang besar dan pelbagai (pendekatan berpengaruh)
  • Peringkat Pertengahan: Set data yang dipilih khas dalam domain tertentu
  • Peringkat Akhir: Maklum balas manusia, penilaian, dan penalaan halus (pendekatan langsung)
  • Hasil: Peningkatan beransur-ansur dalam integrasi pengetahuan manusia sepanjang kitaran hayat pembangunan

Implikasi Praktikal untuk Pasukan Kecil

Perdebatan ini mempunyai kaitan khusus untuk pasukan di luar syarikat teknologi utama. Walaupun Google , OpenAI , dan organisasi serupa mampu melontarkan sumber pengkomputeran besar-besaran kepada masalah, pasukan kecil sering mendapati bahawa menggabungkan pengetahuan domain dengan sumber pengkomputeran yang lebih sederhana menghasilkan keputusan yang lebih baik.

Ramai pengamal melaporkan bahawa model mudah dan boleh difahami sering mengatasi rangkaian neural yang kompleks apabila data terhad. Triknya ialah memadankan kerumitan model anda dengan maklumat yang tersedia - menggunakan kecanggihan yang cukup untuk menangkap corak tanpa overfitting kepada data yang jarang.

Perbincangan mencadangkan bahawa walaupun The Bitter Lesson mungkin benar pada tahap terdepan penyelidikan AI, realiti praktikal untuk kebanyakan aplikasi melibatkan keseimbangan teliti antara wawasan manusia dengan kuasa pengkomputeran. Ketika bidang ini matang, kejayaan semakin bergantung pada mengetahui bila hendak menggunakan setiap pendekatan berbanding memilih pihak dalam pertempuran buatan antara pengetahuan manusia dan pembelajaran mesin.

Rujukan: The Bitter Lesson is wrong. Well... sort of.