Bagaimana Penemuan Tidak Sengaja dan Penyelidikan Terabai Membentuk AI Moden

Pasukan Komuniti BigGo
Bagaimana Penemuan Tidak Sengaja dan Penyelidikan Terabai Membentuk AI Moden

Sejarah kecerdasan buatan dipenuhi dengan penemuan tidak terduga dan penyelidikan yang diabaikan yang akhirnya membentuk teknologi yang kita gunakan hari ini. Walaupun model bahasa besar semasa seperti ChatGPT kelihatan seperti kemajuan yang tidak dapat dielakkan, laluan sebenar menuju AI moden adalah jauh daripada mudah, dengan wawasan utama muncul daripada penyelidikan yang pada mulanya ditolak atau dipandang rendah oleh komuniti AI arus perdana.

Perintis Terabai Penalaan Halus Model Bahasa

Lama sebelum ChatGPT menawan imaginasi orang ramai, para penyelidik telah meletakkan asas untuk sistem AI moden secara senyap-senyap. Komen-komen mendedahkan bahawa ULMFiT, yang dibangunkan pada tahun 2018, merintis pendekatan tiga peringkat yang kemudiannya menjadi amalan standard: pra-latihan model bahasa pada korpus umum, menala halusnya pada data khusus, dan kemudian menyesuaikannya untuk tugas klasifikasi tertentu. Metodologi ini, yang kelihatan jelas secara retrospektif, pada mulanya diterima dengan keraguan.

ULMFiT juga merintis pendekatan 3 peringkat menala halus model bahasa menggunakan objektif LM kausal dan kemudian menala halusnya dengan objektif klasifikasi, yang lebih lama kemudiannya digunakan dalam GPT 3.5 instruct, dan hari ini digunakan hampir di mana-mana.

Malah lebih awal, kerja Dai dan Le pada tahun 2015 meneroka penalaan halus model bahasa untuk tugas hiliran, walaupun mereka terlepas pandangan kritikal bahawa pra-latihan tujuan umum pada korpus besar adalah langkah pertama yang penting. Sumbangan asas ini menunjukkan bagaimana kemajuan dalam AI sering dibina di atas idea yang pada mulanya tidak mendapat perhatian.

Model AI Bersejarah Utama dan Impaknya:

  • ULMFiT (2018): Merintis pendekatan fine-tuning 3-peringkat yang kemudiannya digunakan dalam GPT-3.5 Instruct
  • Dai dan Le (2015): Penerokaan awal fine-tuning model bahasa, mendahului ULMFiT
  • BERT (2018): Merevolusikan tugas pemahaman NLP dengan 145K+ petikan
  • GPT-1 (2018): Model generatif awal dengan 16K petikan, asas kepada model GPT kemudian
  • ModernBERT (2024): Seni bina BERT yang dikemas kini dengan 1.5 juta+ muat turun dan 2K+ varian
Ilustrasi mekanisme perhatian, aspek asas model bahasa moden dan proses penalaan halusnya
Ilustrasi mekanisme perhatian, aspek asas model bahasa moden dan proses penalaan halusnya

Kemunculan Tidak Terduga Keupayaan Moden

Mungkin aspek paling mengejutkan dalam pembangunan AI ialah kemunculan keupayaan yang tidak dijangka oleh para penyelidik. Bertentangan dengan kepercayaan popular, model bahasa canggih hari ini bukanlah hasil daripada peta jalan yang dirancang dengan teliti tetapi sebaliknya muncul daripada penskalaan seni bina sedia ada dan penemuan tingkah laku tidak dijangka.

Perbincangan komuniti menekankan bahawa apabila penyelidik OpenAI memerhatikan GPT-2 menghasilkan teks yang lancar, matlamat awal mereka hanyalah untuk menjadikannya lebih baik dalam menghasilkan teks rawak. Keupayaan luar biasa yang menyusul—menjawab soalan, menterjemah bahasa, menunjukkan kreativiti—sebahagian besarnya tidak dijangka. Corak keupayaan muncul ini terus membingungkan para penyelidik, kerana sebab asas mengapa penskalaan menghasilkan tingkah laku canggih sedemikian masih kurang difahami.

Garis Masa Kemunculan Keupayaan AI:

  • 2014-2015: Memory Networks dan Neural Turing Machines meneroka perhatian dan ingatan
  • 2018: BERT dan GPT-1 menunjukkan pendekatan berbeza terhadap pemodelan bahasa
  • 2018: ULMFiT mewujudkan metodologi penalaan halus moden
  • 2019-2020: GPT-2/GPT-3 menunjukkan keupayaan timbul yang tidak dijangka melalui penskalaan
  • 2022: ChatGPT mempopularkan pendekatan penalaan halus yang dipelopori beberapa tahun sebelumnya
Rajah yang menggambarkan pembenaman perkataan, menonjolkan bagaimana model bahasa memperoleh keupayaan canggih melalui seni bina berskala
Rajah yang menggambarkan pembenaman perkataan, menonjolkan bagaimana model bahasa memperoleh keupayaan canggih melalui seni bina berskala

Evolusi Selari Pendekatan AI Berbeza

Walaupun perbualan hari ini berpusat pada AI generatif, komen-komen mendedahkan bahawa pelbagai pendekatan berkembang serentak, masing-masing dengan kekuatan tersendiri. BERT, diperkenalkan sekitar masa yang sama dengan model GPT awal, mengambil laluan berbeza dengan memberi tumpuan kepada pemahaman dan bukannya penjanaan. Dengan lebih 145,000 petikan, kesan BERT terhadap pemprosesan bahasa semula jadi adalah serta-merta dan mendalam, menjadikan pendekatan sebelumnya kepada tugas seperti pengenalpastian entiti bernama dan klasifikasi dokumen serta-merta usang.

Ketahanan model gaya BERT untuk tugas NLP tertentu menunjukkan bahawa landskap AI bukanlah perkembangan linear yang mudah tetapi sebaliknya ekosistem pelbagai di mana seni bina berbeza cemerlang dalam aplikasi berbeza. Perkembangan terkini seperti ModernBERT, dengan lebih 1.5 juta muat turun dan 2,000 varian di Hugging Face, menunjukkan bahawa pendekatan ini terus berkembang dan mencari aplikasi baharu.

Konsep algebra vektor yang menggambarkan hubungan antara seni bina model AI yang berbeza dan fungsi mereka
Konsep algebra vektor yang menggambarkan hubungan antara seni bina model AI yang berbeza dan fungsi mereka

Peramal Awal dan Ramalan Tidak Popular Mereka

Di tengah-tengah kejutan kolektif terhadap kemajuan pesat AI, beberapa penyelidik melihat potensi itu lebih awal. Komen-komen menyatakan bahawa Phil Blunsom, yang mengetuai pemodelan bahasa di DeepMind selama hampir sedekad, berhujah di Oxford bahawa menyelesaikan ramalan perkataan seterusnya boleh menjadi laluan yang sesuai ke arah kecerdasan buatan umum. Pada masa itu, perspektif ini adalah pandangan minoriti, dengan kebanyakan penyelidik menganggap pendekatan itu tidak menjanjikan.

Begitu juga, kerja pada rangkaian memori dan mesin Turing neural pada pertengahan 2010-an meneroka gabungan perhatian dengan memori dengan cara yang kemudiannya menjadi pusat kepada seni bina transformer. Penerokaan awal ini menunjukkan keupayaan asas menjawab soalan yang membayangkan sistem AI moden, walaupun pelaksanaannya adalah primitif mengikut piawaian hari ini.

Perjalanan ke AI moden telah ditandai dengan kedua-dua inovasi sengaja dan kemalangan yang bernas. Semasa para penyelidik terus menolak sempadan apa yang mungkin, sejarah perkembangan ini berfungsi sebagai peringatan bahawa kemajuan teknologi sering mengikuti laluan yang tidak dapat diramalkan, dengan penyelidikan yang diabaikan hari ini berpotensi menjadi teknologi asas esok.

Rujukan: Sejarah Model Bahasa Besar