Sebuah kertas penyelidikan baharu yang mendakwa model AI hanya mensimulasikan penaakulan dan bukannya benar-benar memahami logik telah mencetuskan perdebatan sengit dalam komuniti teknologi. Walaupun penyelidik University of Arizona menyimpulkan bahawa penaakulan rantaian pemikiran adalah fatamorgana yang rapuh, ramai pakar mempersoalkan sama ada penemuan mereka berdasarkan model eksperimen kecil boleh memberitahu kita sesuatu yang bermakna tentang sistem AI yang berkuasa pada hari ini.
Masalah Model Mainan Memecahbelahkan Pakar
Penyelidikan ini menggunakan model yang sangat kecil dengan hanya 4 lapisan dan 32 dimensi tersembunyi - sebahagian kecil daripada saiz sistem AI pengeluaran. Ini telah mencetuskan kritikan hebat daripada komuniti, dengan ramai yang berhujah bahawa membuat kesimpulan tentang keupayaan AI moden daripada eksperimen yang terhad sedemikian adalah mengelirukan. Para penyelidik menguji model miniatur ini pada transformasi teks mudah seperti putaran huruf dan anjakan kitaran, kemudian mengukur sejauh mana mereka boleh menggeneralisasikan kepada tugas yang sedikit berbeza.
Pengkritik menunjukkan bahawa pendekatan ini mempunyai kelemahan asas. Model kecil telah diketahui berkelakuan sangat berbeza daripada model yang lebih besar, dan tugas khusus yang dipilih - seperti memutar huruf dalam teks - adalah kawasan lemah yang diketahui untuk model bahasa berasaskan token. Beberapa ahli komuniti menyatakan bahawa kebimbangan serupa timbul dengan penyelidikan terdahulu mengenai melatih model AI pada output mereka sendiri, di mana tajuk utama yang membimbangkan tentang keruntuhan bencana kemudiannya ditunjukkan tidak terpakai pada sistem dunia sebenar.
Spesifikasi Model Penyelidikan:
- Seni bina: Model dekoder sahaja GPT-2
- Lapisan: 4 (berbanding beratus-ratus dalam model pengeluaran)
- Dimensi tersembunyi: 32
- Kepala perhatian: 4
- Tugas latihan: Sifer ROT dan anjakan kitaran
Prestasi Dunia Sebenar Bercanggah dengan Penemuan Makmal
Ketidakselarasan antara keputusan makmal dan pengalaman praktikal telah menjadi titik perbalahan utama. Ramai pembangun melaporkan berjaya menggunakan model AI untuk tugas penaakulan kompleks yang melampaui pemadanan corak mudah. Ini termasuk menjana kod untuk rangka kerja tersuai yang tidak pernah ditemui oleh model dan menyelesaikan masalah novel yang memerlukan sintesis berbilang konsep yang tidak biasa.
Saya telah menggunakan LLM untuk menjana kod bagi rangka kerja serverless tersuai yang saya tulis dari awal yang tidak pernah dilihatnya sebelum ini... Saya tahu dengan pasti bahawa mereka boleh mensintesis dan menggabungkan konsep asing yang berbeza dengan cara logik yang kompleks untuk menyampaikan keupayaan baharu.
Kejayaan praktikal ini sangat berbeza dengan penemuan penyelidikan, menyebabkan sesetengah pihak mempersoalkan sama ada persekitaran makmal terkawal menangkap keupayaan sebenar sistem AI moden.
Persoalan Skala dan Kemunculan
Perselisihan faham asas telah muncul mengenai sama ada saiz model mewakili hanya perubahan parameter remeh atau lonjakan kualitatif dalam keupayaan. Sesetengah pihak berhujah bahawa keupayaan penaakulan sistem AI muncul hanya pada skala tertentu, menjadikan penyelidikan model kecil tidak relevan untuk memahami sistem pengeluaran. Yang lain berpendapat bahawa batasan asas sepatutnya konsisten merentas saiz model, dan dakwaan kesan ambang ajaib adalah tidak berasas.
Perdebatan ini menyentuh persoalan yang lebih mendalam tentang bagaimana sistem AI berfungsi. Penyelidikan terkini mencadangkan bahawa model transformer dengan terlalu sedikit lapisan berbanding panjang urutan menghadapi batasan asas, dengan beberapa tugas menjadi mustahil apabila bilangan lapisan tidak mencukupi. Ini menimbulkan persoalan sama ada model 4-lapisan yang digunakan dalam kajian itu mampu melaksanakan tugas penaakulan yang diminta untuk dilakukan.
Implikasi Industri dan Hala Tuju Masa Depan
Walaupun terdapat perdebatan akademik, implikasi praktikal kekal signifikan. Penyelidikan ini menyerlahkan persoalan penting tentang kebolehpercayaan AI, terutamanya dalam aplikasi berisiko tinggi seperti perubatan dan kewangan. Walau bagaimanapun, konsensus komuniti nampaknya beralih ke arah pendekatan yang lebih bernuansa yang menggabungkan rangkaian neural dengan sistem penaakulan simbolik.
Kontroversi ini juga mencerminkan ketegangan yang lebih luas dalam penyelidikan AI antara kajian makmal terkawal dan penggunaan dunia sebenar. Walaupun eksperimen terkawal dengan teliti memberikan pandangan berharga, ia mungkin tidak menangkap kerumitan penuh bagaimana sistem ini berkelakuan dalam amalan. Memandangkan bidang ini terus berkembang pesat, penyelidik menghadapi cabaran untuk membangunkan kaedah penilaian yang dapat mengikuti keupayaan yang semakin maju sambil memberikan pandangan bermakna untuk kedua-dua pembangun dan pengguna.
Rujukan: LLMs' simulated reasoning abilities are a brittle mirage, researchers find