Sebuah artikel terbaru yang mendakwa bahawa hipotesis tiket loteri menjelaskan mengapa model AI yang besar berfungsi telah mencetuskan perdebatan sengit dalam komuniti teknologi, dengan pakar-pakar mempersoalkan kedua-dua dakwaan sejarah dan penjelasan teknikal yang dikemukakan.
Dakwaan Sejarah Dikritik
Dakwaan artikel tersebut bahawa penyelidikan AI mempunyai sejarah 300 tahun telah menarik keraguan segera daripada komuniti. Walaupun beberapa konsep statistik seperti regresi linear memang bermula sekitar 220 tahun yang lalu dengan karya Legendre pada tahun 1805, pakar-pakar menunjukkan bahawa pertukaran bias-varians itu sendiri adalah lebih terkini. Dakwaan menyeluruh bahawa prinsip ini mengawal setiap sistem pembelajaran selama tiga abad nampaknya merupakan kenyataan berlebihan yang mengelirukan konsep pembelajaran mesin moden dengan kaedah statistik yang jauh lebih lama.
Garis Masa Sejarah:
- ~1805: Legendre menerangkan regresi linear (~220 tahun yang lalu)
- 2018: Hipotesis tiket loteri diperkenalkan oleh Frankle dan Carbin di MIT
- 2019: Fenomena penurunan berganda didokumentasikan oleh Belkin dan rakan-rakan
- Masa Kini: Model campuran pakar melaksanakan pengaktifan parameter terpilih
Penjelasan Alternatif Untuk Kejayaan Model AI
Ahli-ahli komuniti mencadangkan penjelasan yang lebih mudah mengapa model bahasa yang besar berfungsi dengan baik. Hujah balas utama mencadangkan bahawa kejayaan tersebut bukanlah mengenai saiz model sahaja, tetapi mengenai merangka masalah sebagai tugas ramalan perkataan seterusnya. Pendekatan ini mewujudkan akses kepada set data berskala internet dengan trilion contoh berlabel, menyediakan struktur kaya yang diperlukan untuk menjadikan model besar berguna.
LLM tidak menafikan pertukaran bias-varians; kita hanya menemui lebih banyak data dan GPU untuk belajar daripadanya.
Peranan kemajuan pengkomputeran tidak boleh dipandang remeh. Peningkatan besar dalam kuasa pengkomputeran yang tersedia sepanjang dekad yang lalu menjadikan latihan yang akan mengambil masa seumur hidup tiba-tiba boleh dilaksanakan, membuka kemungkinan yang sama sekali baru untuk penskalaan model.
Kebimbangan Teknikal Mengenai Penjelasan Tiket Loteri
Beberapa isu teknikal telah muncul dalam perbincangan komuniti mengenai penjelasan hipotesis tiket loteri. Seorang pakar menyatakan bahawa artikel tersebut memberikan penjelasan yang sangat buruk/salah mengenai hipotesis tiket loteri sebenar, merujuk kepada kertas penyelidikan asal untuk perbandingan.
Persoalan overfitting kekal kontroversi. Ada yang berpendapat bahawa apa yang kita lihat bukanlah ketiadaan overfitting, tetapi overfitting tersembunyi yang hanya menjadi jelas apabila model menghadapi contoh adversarial - input yang direka khas yang mendedahkan hafalan model berbanding pemahaman sebenar.
Implikasi Praktikal dan Kecekapan Model
Jika hipotesis tiket loteri adalah tepat seperti yang dikemukakan, ia akan menimbulkan persoalan penting mengenai kecekapan model. Ahli-ahli komuniti menunjukkan bahawa jika 99% daripada berat model mewakili tiket loteri yang gagal, ini sepatutnya menjadikan kebanyakan pengkomputeran inferens tidak perlu. Walau bagaimanapun, realitinya lebih bernuansa - subset berat yang berbeza aktif untuk jenis masalah yang berbeza, menjadikan rangkaian penuh diperlukan untuk prestasi tujuan umum.
Teknik moden seperti model campuran pakar sudah melaksanakan prinsip ini pada tahap tertentu, dengan hanya bahagian kecil daripada jumlah parameter aktif untuk sebarang input yang diberikan, menunjukkan bidang ini telah bergerak ke arah seni bina yang lebih cekap.
Perbandingan Skala Model:
- Evolusi siri GPT : 117 juta → 175 bilion parameter
- Model Kimi K2 : 32B parameter aktif daripada 1T jumlah keseluruhan (3.2% aktif)
- Keupayaan pemangkasan: Sehingga 96% parameter boleh dibuang tanpa kehilangan ketepatan
Persoalan Kecerdasan Kekal Terbuka
Mungkin perdebatan paling asas berpusat pada apa maksud semua ini untuk memahami kecerdasan itu sendiri. Beberapa ahli komuniti mencadangkan bahawa jika penjelasan itu betul, ia mungkin menunjukkan sistem-sistem ini tidak benar-benar pintar sama sekali - mereka hanyalah sistem padanan corak yang sangat canggih dengan pengetahuan latar belakang yang luas.
Perbincangan mendedahkan ketegangan yang lebih mendalam dalam penyelidikan AI antara mereka yang melihat model besar semasa sebagai batu loncatan kepada kecerdasan tulen dan mereka yang melihatnya sebagai sistem yang terhad secara asas yang cemerlang dalam pengecaman corak statistik tanpa pemahaman sebenar.
Ketika bidang AI terus berkembang pesat, perdebatan ini menyerlahkan kepentingan analisis yang ketat dan semakan rakan sebaya dalam memahami mengapa sistem paling berkuasa kita berfungsi - dan apakah batasan mereka.
Rujukan: How Al researchers accidentally discovered that everything they thought about learning was wrong