Sebuah catatan blog baharu mencetuskan perdebatan dalam komuniti teknologi mengenai pengetahuan matematik yang sebenarnya diperlukan untuk memahami Model Bahasa Besar. Penulis mendakwa bahawa matematik asas sekolah menengah - vektor, matriks, dan algebra mudah - memberikan asas yang mencukupi untuk memahami cara sistem AI ini berfungsi secara dalaman.
Catatan tersebut memberi tumpuan khusus kepada inferens LLM , iaitu menggunakan model AI sedia ada dan bukannya melatihnya dari awal. Perbezaan ini penting kerana latihan melibatkan konsep matematik yang lebih kompleks, tetapi memahami cara model terlatih memproses maklumat memerlukan kemahiran matematik yang mengejutkan asas.
Blok Binaan Matematik Teras
Perbincangan tertumpu pada tiga konsep matematik utama yang membentuk tulang belakang operasi LLM . Pertama, vektor dan ruang berdimensi tinggi membantu mewakili makna dalam cara yang boleh diproses oleh komputer. Apabila LLM memproses teks, ia menukar perkataan kepada vektor berangka yang wujud dalam ruang dengan beribu-ribu dimensi - jauh lebih banyak daripada yang boleh divisualisasikan oleh manusia, tetapi secara konsepnya serupa dengan ruang 2D dan 3D yang diajar di sekolah.
Kedua, pendaraban matriks berfungsi sebagai alat utama untuk mengubah vektor-vektor ini antara ruang perwakilan yang berbeza. Setiap lapisan dalam rangkaian neural pada asasnya melakukan pendaraban matriks untuk memproyeksikan maklumat dari satu ruang dimensi ke ruang yang lain, serupa dengan cara grafik 3D diproyeksikan ke skrin 2D.
Ketiga, fungsi softmax menukar output berangka mentah kepada taburan kebarangkalian, membantu model memutuskan perkataan mana yang patut datang seterusnya dalam urutan. Operasi matematik ini mengambil skor kemungkinan yang bercelaru dan mengubahnya menjadi kebarangkalian yang bersih yang berjumlah 100%.
Nota: Softmax adalah fungsi matematik yang menukar vektor nombor kepada taburan kebarangkalian di mana semua nilai berada antara 0 dan 1 dan berjumlah 1.
Konsep Matematik untuk Pemahaman LLM
- Vektor: Susunan nombor yang mewakili jarak dan arah dalam ruang n-dimensi
- Pendaraban matriks: Memproyeksikan data antara ruang dimensi yang berbeza
- Fungsi softmax: Menukar skor kemungkinan kepada taburan kebarangkalian (nilai 0-1, jumlah=1)
- Vektor satu-panas: Vektor kebarangkalian di mana satu nilai=1, semua yang lain=0
- Embeddings: Ruang berdimensi tinggi di mana konsep yang serupa berkumpul bersama
Bantahan Komuniti terhadap Penyederhanaan Berlebihan
Walau bagaimanapun, ramai pengamal berpengalaman menentang pandangan yang dipermudahkan ini. Pengkritik berhujah bahawa walaupun operasi asas memang pendaraban matriks yang mudah, penjelasan ini terlepas gambaran yang lebih besar tentang apa yang menjadikan LLM moden begitu berkuasa.
Matematik untuk memahami LLM , iaitu yang menjelaskan dalam ketegasan matematik mengapa LLM berfungsi belum dikembangkan sepenuhnya lagi. Itulah yang dimaksudkan dengan Kebolehjelasan LLM , usaha untuk memahami dan menjelaskan proses membuat keputusan yang kompleks dan kotak hitam.
Kontroversi berpunca daripada perselisihan asas tentang apa yang dimaksudkan dengan pemahaman. Ada yang berhujah bahawa mengetahui operasi matematik adalah seperti memahami kereta dengan mengkaji kimia petrol - secara teknikal betul tetapi tidak praktikal berguna untuk kebanyakan orang yang hanya mahu tahu cara kereta berfungsi.
Masalah Skala
Satu titik perbalahan utama ialah sama ada memberi tumpuan kepada matematik asas mengaburkan kerumitan sebenar LLM moden. Walaupun model bahasa awal mungkin peramal perkataan statistik yang mudah, sistem hari ini seperti GPT-4 mengandungi lebih satu trilion parameter yang bekerja bersama dalam cara yang penyelidik masih tidak memahami sepenuhnya.
Rangkaian besar-besaran ini nampaknya membangunkan perwakilan dalaman konsep, hubungan, dan bahkan keupayaan penaakulan yang muncul daripada proses latihan mereka. Operasi matematik kekal mudah, tetapi tingkah laku yang muncul jauh lebih kompleks daripada jumlah bahagian-bahagiannya.
Spesifikasi Model GPT-2
- Saiz perbendaharaan kata: 50,257 token
- Token 464 mewakili: "The"
- Panjang setiap vektor logits: 50,257 item
- Dimensi embedding yang dinyatakan: 768
Pendekatan Pembelajaran Praktikal
Walaupun terdapat perdebatan, ramai pembangun mendapati nilai dalam pendekatan pembelajaran secara langsung. Tutorial video dan latihan pengekodan interaktif yang melaksanakan versi mudah konsep-konsep ini dari awal terbukti popular untuk membina pemahaman intuitif.
Konsensus nampaknya ialah walaupun algebra linear asas tidak akan menjadikan seseorang penyelidik AI , ia memang menyediakan asas yang kukuh untuk memahami cara sistem ini memproses maklumat pada tahap asas.
Sumber Pembelajaran yang Disyorkan
- Siri video Andrej Karpathy mengenai rangkaian neural
- "Build a Large Language Model (from Scratch)" oleh Sebastian Raschka
- Mathematics for Machine Learning and Data Science Specialization ( Coursera )
- Buku "Math and Architectures of Deep Learning"
- Repositori GitHub : LLMs-from-scratch oleh rasbt
Kesimpulan
Perdebatan ini menyerlahkan cabaran yang lebih luas dalam pendidikan AI : mengimbangi ketegasan matematik dengan pemahaman praktikal. Walaupun matematik sekolah menengah mungkin memang menyediakan alat asas yang diperlukan untuk mengikuti operasi LLM langkah demi langkah, benar-benar memahami mengapa sistem ini berfungsi dengan baik kekal sebagai soalan penyelidikan terbuka.
Bagi pembangun dan ahli teknologi yang ingin tahu, bermula dengan konsep algebra linear asas nampaknya merupakan titik masuk yang munasabah, walaupun ia tidak memberikan gambaran lengkap keupayaan AI moden.