Penyelidik AI Berdebat Sama Ada Tokenization Akan Menjadi Usang Apabila Model Berkembang

Pasukan Komuniti BigGo

Penyelidik AI Berdebat Sama Ada Tokenization Akan Menjadi Usang Apabila Model Berkembang

Komuniti AI sedang mengadakan perbincangan hangat mengenai masa depan tokenization - proses yang menukar teks kepada nombor yang boleh difahami oleh model bahasa. Sebuah artikel baharu berhujah bahawa apabila model AI menjadi lebih berkuasa, kita mungkin tidak memerlukan tokenization langsung.


"Masa depan tokenisasi dalam AI diselubungi perdebatan, sama seperti sosok misterius dalam imej ini"

Masalah Teras dengan Tokenization Semasa

Model bahasa hari ini tidak berfungsi secara langsung dengan teks. Sebaliknya, mereka menggunakan tokenization untuk memecahkan teks kepada bahagian-bahagian kecil yang dipanggil token, yang kemudiannya ditukar kepada nombor. Sebagai contoh, perkataan strawberry mungkin dipecahkan kepada token straw dan berry. Pendekatan ini telah berfungsi dengan baik, tetapi ia mewujudkan beberapa masalah yang tidak dijangka.

Contoh yang paling terkenal ialah masalah strawberry - kebanyakan model AI bergelut untuk mengira bilangan huruf 'r' dalam strawberry kerana mereka melihatnya sebagai dua token berasingan dan bukannya huruf-huruf individu. Apabila model melihat token untuk straw, ia tidak secara automatik mengetahui bahawa token ini mengandungi huruf-huruf s-t-r-a-w.

Token: Sekeping kecil teks (seperti bahagian perkataan) yang ditukar kepada nombor untuk diproses oleh model AI

Contoh Tokenisasi:

Perkataan "strawberry" → token: "straw" + "berry"
Nombor "1234567" → token: "123" + "456" + "7"
Tokenisasi nombor yang diperbaiki: "1234567" → "1" + "234" + "567" (pengelompokan dari kanan ke kiri)

Matematik dan Logik Paling Terjejas

Masalah tokenization menjadi sangat jelas dengan matematik. Model AI semasa sering bergelut dengan aritmetik kerana nombor dipecahkan dengan cara yang pelik. Nombor seperti 1234567 mungkin menjadi token 123, 456, dan 7 - menjadikannya lebih sukar bagi model untuk melakukan matematik dengan betul.

Sesetengah penyelidik telah menemui penyelesaian bijak, seperti memecahkan nombor dari kanan ke kiri dalam kumpulan tiga digit, jadi 1234567 menjadi 1, 234, 567. Pendekatan ini membantu dengan masalah matematik, tetapi ia memerlukan lebih banyak kejuruteraan manusia - tepat seperti apa yang dicadangkan oleh bitter lesson yang perlu kita elakkan.

The Bitter Lesson: Prinsip dalam penyelidikan AI yang menyatakan bahawa kaedah menggunakan banyak kuasa pengkomputeran dan data biasanya mengalahkan penyelesaian manusia yang direka dengan teliti


"Metrik prestasi perbandingan menggariskan cabaran yang dihadapi AI dengan tokenisasi dalam tugasan matematik"

Dorongan Ke Arah Raw Bytes

Daripada token, sesetengah penyelidik mahu memasukkan raw bytes atau aksara individu terus ke dalam model AI. Ini akan menghapuskan langkah tokenization sepenuhnya dan membenarkan model belajar memahami teks secara semula jadi. Cabaran utama ialah model perlu jauh lebih besar untuk mengendalikan pendekatan ini dengan berkesan.

Walau bagaimanapun, apabila kuasa pengkomputeran terus berkembang secara eksponen, ini mungkin menjadi praktikal. Model boleh hanya menghafal semua aksara yang mungkin dan hubungan mereka tanpa memerlukan langkah tokenization perantaraan.

Pendekatan Alternatif:

Pemprosesan Peringkat Bait: Suapkan bait UTF-8 mentah terus kepada model (256 nilai yang mungkin)
Peringkat Aksara: Memproses aksara individu dan bukannya kepingan perkataan
Byte-Latent Transformer ( BLT ): Seni bina baharu yang berfungsi dengan bait mentah sambil mengekalkan kecekapan

Keraguan Komuniti dan Kebimbangan Praktikal

Tidak semua orang bersetuju bahawa membuang tokenization adalah langkah yang betul. Ramai ahli komuniti menunjukkan bahawa tokenization telah melalui bitter lesson sendiri - beralih daripada peraturan buatan tangan kepada kaedah statistik yang dipelajari. Mereka berhujah bahawa membuang tokenization sepenuhnya mungkin terlalu keterlaluan.

Terdapat juga kebimbangan praktikal mengenai kos dan kecekapan. Melatih model untuk bekerja dengan raw bytes memerlukan kuasa pengkomputeran yang jauh lebih banyak, yang diterjemahkan kepada kos yang lebih tinggi. Beberapa anggaran mencadangkan bahawa model AI teratas sudah menelan kos berpuluh juta dolar Amerika Syarikat untuk dilatih, dan membuang tokenization boleh menjadikan ini jauh lebih mahal.

Kos Latihan Model AI Semasa:

OpenAI GPT-4 : ~$78 juta USD dalam kos pengkomputeran
Google Gemini Ultra : ~$191 juta USD dalam kos pengkomputeran
Kos-kos ini adalah untuk pengkomputeran sahaja dan tidak termasuk perbelanjaan pembangunan lain


"Percanggahan prestasi menggambarkan sikap skeptikal komuniti berkaitan penyingkiran tokenisasi disebabkan kebimbangan praktikal"

Gambaran Besar

Perdebatan ini mencerminkan ketegangan yang lebih luas dalam penyelidikan AI antara kejuruteraan penyelesaian bijak dan hanya melemparkan lebih banyak kuasa pengkomputeran pada masalah. Walaupun pendekatan meningkatkan skala segala-galanya telah berfungsi dengan baik baru-baru ini, tidak jelas sama ada ia sentiasa jalan terbaik ke hadapan.

Perbincangan tokenization juga menyerlahkan bagaimana pembangunan AI sering melibatkan pertukaran yang tidak dijangka. Apa yang kelihatan seperti pilihan teknikal yang mudah - bagaimana untuk menukar teks kepada nombor - boleh memberi kesan besar pada keupayaan model untuk mengira huruf atau melakukan matematik asas.

Apabila model AI terus bertambah baik dan kos pengkomputeran menurun, kita mungkin akan melihat lebih banyak eksperimen dengan pendekatan berbeza untuk pemprosesan teks. Sama ada tokenization hilang sepenuhnya atau berkembang menjadi sesuatu yang baharu kekal sebagai persoalan terbuka yang akan membentuk masa depan AI bahasa.

Rujukan: The Bitter Lesson is coming for Tokenization