Attention Sinks: Mekanisme Tersembunyi Yang Menghalang Model Bahasa Daripada Runtuh

Pasukan Komuniti BigGo

Attention Sinks: Mekanisme Tersembunyi Yang Menghalang Model Bahasa Daripada Runtuh

Model bahasa mempunyai kelemahan yang mengejutkan yang baru sahaja ditemui oleh penyelidik. Apabila sistem AI ini cuba mengendalikan perbualan yang lebih panjang daripada data latihan mereka, mereka bukan sahaja berprestasi buruk - tetapi runtuh sepenuhnya, menghasilkan karut-marut yang lengkap. Punca masalah? Mekanisme kritikal yang dipanggil attention sinks yang kebanyakan orang tidak pernah dengar sehingga sekarang.

Penemuan ini datang daripada mengkaji mengapa model seperti GPT dan Llama akan gagal secara bencana apabila memproses perbualan yang panjang. Penyelidik mendapati bahawa model-model ini secara rahsia membuang sejumlah besar perhatian ke atas beberapa token pertama dalam mana-mana urutan, tanpa mengira sama ada token tersebut mengandungi maklumat yang bermakna. Attention sinks ini bertindak seperti tong sampah pengiraan, menyerap lebihan perhatian yang model tidak tahu ke mana lagi hendak diarahkan.

Ciri-ciri Attention Sink

Lokasi: Beberapa token pertama dalam urutan (biasanya memerlukan 4 token)
Kandungan: Selalunya tidak bermakna dari segi semantik (token permulaan, "the", "a")
Fungsi: Menyerap lebihan perhatian disebabkan kekangan softmax (pemberat mesti berjumlah 1.0)
Kesan penyingkiran: Keruntuhan model serta-merta dan penjanaan teks karut
Merentas seni bina: Ditemui dalam BERT, vision transformers, GANs, U-Nets

Matematik Di Sebalik Masalah

Punca akar terletak pada cara model transformer mengira perhatian. Fungsi softmax memaksa semua berat perhatian untuk berjumlah tepat 1.0, mewujudkan apa yang digambarkan oleh seorang penyelidik sebagai demokrasi pembelajaran di mana perhatian disebarkan. Apabila model tidak dapat mencari maklumat yang relevan untuk difokuskan, ia masih mesti mengarahkan perhatiannya ke suatu tempat. Beberapa token pertama menjadi tempat pembuangan lalai.

Ini bukan sekadar keanehan - ia penting untuk kestabilan. Apabila penyelidik cuba membuang token awal ini untuk menjimatkan memori, model akan segera mula menghasilkan karut-marut. Mereka tanpa sedar telah memusnahkan sistem injap tekanan model.

Penyelesaian Mudah Yang Mengubah Segalanya

Penyelesaiannya ternyata sangat mudah. Daripada membuang token lama dalam pendekatan tetingkap gelongsor, StreamingLLM mengekalkan beberapa sink token pertama sambil mengekalkan tetingkap gelongsor untuk yang lain. Ini membolehkan model memproses urutan yang lebih panjang beberapa kali ganda daripada konteks latihan asal mereka.

Hasilnya sangat dramatik. Model yang sebelum ini runtuh selepas beberapa ribu token tiba-tiba dapat mengekalkan prestasi yang stabil merentasi jutaan token. Pembetulan ini tidak memerlukan latihan semula - hanya menghormati corak perhatian sedia ada model.

Perbandingan Prestasi StreamingLLM

Tetingkap gelongsor tradisional: Model runtuh selepas beberapa ribu token, menghasilkan teks karut
StreamingLLM dengan attention sinks: Prestasi stabil merentasi 2+ juta token
Kecekapan memori: Mengekalkan hanya 4 token pertama + tetingkap gelongsor berbanding penyimpanan konteks penuh
Pelaksanaan: Tidak memerlukan latihan semula, berfungsi dengan model sedia ada seperti Llama-2


Rajah yang menunjukkan kaedah StreamingLLM yang menggambarkan bagaimana attention sinks meningkatkan pemprosesan jujukan dalam model bahasa

Melangkaui Model Bahasa Sahaja

Perbincangan komuniti mendedahkan fenomena ini melangkaui model bahasa. Tingkah laku attention sink yang serupa telah diperhatikan dalam vision transformer, di mana model menggunakan semula tampalan latar belakang yang tidak bermaklumat sebagai pad goresan pengiraan. Malah seni bina lama seperti GAN dan U-Net menunjukkan corak yang setanding.

Kecacatan tunggal (atau token norm tinggi) mungkin berkaitan dengan attention sinks. Menarik bahawa arah semua token norm tinggi berkongsi arah yang sama.

Sesetengah penyelidik mencadangkan ini mungkin menjelaskan mengapa strategi prompting tertentu berfungsi lebih baik daripada yang lain. Memulakan prompt dengan perkataan sopan seperti Hello atau Please sebenarnya mungkin meningkatkan prestasi dengan memberikan model attention sinks yang lebih baik untuk digunakan.

Status Pelaksanaan Industri

OpenAI: Disepadukan dalam GPT-3.5-turbo-1106 dan GPT-4-turbo-1106
HuggingFace: Menambah sokongan rangka kerja untuk kos perhatian
llama.cpp: Sokongan penuh dilaksanakan (PR 15157)
NVIDIA TensorRT-LLM: Mekanisme disertakan
Garis Masa: Penyelidikan diterbitkan 2023, penggunaan pengeluaran menjelang akhir 2023


Perwakilan visual corak attention dalam model transformer, menggambarkan bagaimana head yang berbeza memproses token input

Penggunaan Industri dan Implikasi Masa Depan

Syarikat AI utama telah menggunakan wawasan ini dengan cepat. OpenAI mengintegrasikan mekanisme attention sink ke dalam model GPT-3.5-turbo dan GPT-4-turbo mereka, manakala rangka kerja seperti HuggingFace dan perpustakaan seperti llama.cpp telah menambah sokongan penuh. Teknik ini juga telah membolehkan arah penyelidikan baru dalam kuantisasi dan pengoptimuman model.

Penemuan ini menyerlahkan betapa banyak yang masih tidak kita fahami tentang sistem AI yang kita gunakan setiap hari. Apa yang bermula sebagai masalah pengurusan memori mendedahkan aspek asas seni bina transformer yang telah bersembunyi di hadapan mata. Apabila model menjadi lebih kompleks, memahami mekanisme tersembunyi ini menjadi semakin penting untuk membina sistem AI yang boleh dipercayai.

Rujukan: How Attention Sinks Keep Language Models Stable


Perbandingan keluk kehilangan pra-latihan untuk model dengan dan tanpa token sink, menonjolkan keberkesanan mekanisme attention sink