Model Bahasa Besar Adalah Enjin Mampatan Yang Luar Biasa, Memuat Pengetahuan Manusia Ke Dalam Gigabait

Pasukan Komuniti BigGo
Model Bahasa Besar Adalah Enjin Mampatan Yang Luar Biasa, Memuat Pengetahuan Manusia Ke Dalam Gigabait

Komuniti teknologi sedang berdengung dengan kekaguman terhadap penemuan yang menarik: model bahasa besar ( LLMs ) pada asasnya adalah algoritma mampatan yang berkuasa yang boleh memampatkan sejumlah besar pengetahuan manusia ke dalam fail yang mengejutkan kecil. Pendedahan ini telah mencetuskan perbincangan sengit tentang bagaimana sistem AI ini berfungsi dan apa maksudnya untuk masa depan penyimpanan maklumat.

Pencapaian Mampatan Yang Menakjubkan

Apa yang menarik perhatian semua orang adalah betapa banyak maklumat yang boleh dimuatkan oleh model-model ini ke dalam ruang yang agak kecil. Ambil contoh model 12 bilion parameter biasa yang muat dalam hanya 8.1 GB - kira-kira saiz beberapa filem di telefon anda. Namun fail tunggal ini mengandungi pengetahuan termampat yang cukup untuk menjawab soalan tentang sejarah, sains, permainan video terkini, dan topik-topik lain yang tidak terkira banyaknya. Nisbah mampatan adalah mengejutkan apabila anda mempertimbangkan bahawa English Wikipedia sahaja mengambil kira-kira 24 GB apabila dimampatkan, dan itu hanya satu sumber pengetahuan manusia.

Ia tidak sempurna, tetapi betapa luasnya maklumat yang tertanam dalam fail 8.1 GB adalah luar biasa! Kehilangan, sudah tentu, tetapi cara yang cukup menakjubkan untuk memampatkan semua pengetahuan manusia ke dalam sesuatu yang sangat terkandung.

Rahsianya terletak pada bagaimana model-model ini mempelajari corak dan hubungan dalam bahasa. Tidak seperti mampatan tradisional yang mencari aksara atau urutan yang berulang, LLMs memampatkan makna itu sendiri. Mereka belajar bahawa banyak cara berbeza untuk mengatakan perkara yang sama wujud, dan mereka boleh membina semula maklumat dengan memahami konteks dan hubungan antara konsep.

Konteks Kecekapan Pemampatan

  • English Wikipedia dimampatkan: ~24 GB
  • Anggaran semua buku yang didigitalkan: Beberapa TB
  • Model parameter 12B biasa: 8.1 GB (dengan kuantisasi 8-bit)
  • Anggaran teks bahasa Inggeris berguna: 10-100 TB
  • Model besar semasa menggunakan: 1-10% daripada semua data teks yang tersedia

Peraturan praktikal untuk keperluan VRAM: ~4x kiraan parameter

  • Model 2B ≈ 8 GB VRAM diperlukan
  • Model 20B ≈ 80 GB VRAM diperlukan

Mengapa Mampatan Tradisional Tidak Mencukupi

Kaedah mampatan biasa seperti fail ZIP berfungsi dengan baik untuk memelihara data yang tepat, tetapi mereka terlepas sesuatu yang penting - hubungan semantik yang menjadikan maklumat bermakna. Apabila anda memampatkan fail teks dengan ZIP, anda hanya mencari corak berulang dalam aksara. Tetapi LLMs pergi lebih mendalam, mempelajari logik dan sambungan asas yang digunakan manusia semasa berkomunikasi.

Ini menjelaskan mengapa komunikasi harian kita sangat berlebihan. Kita menggunakan banyak perkataan untuk menyediakan konteks, menambah sentuhan kreatif untuk mengekalkan perhatian, dan mengulangi idea dengan cara yang berbeza untuk menjadi jelas. Pakar menganggarkan bahawa 95% atau lebih komunikasi kita mungkin adalah lebihan tulen apabila anda menghilangkan maklumat teras.

Semantik: berkaitan dengan makna dalam bahasa Lebihan: pengulangan maklumat yang tidak perlu

Perdebatan Mengenai Mampatan Lossy vs Lossless

Komuniti berpecah sama ada untuk memanggil LLMs mampatan sama sekali. Pengkritik menunjukkan bahawa tidak seperti mampatan tradisional, anda tidak boleh mencipta semula teks asal dengan sempurna daripada LLM. Model mungkin memberikan anda maklumat yang tepat, butiran yang salah sepenuhnya, atau sesuatu yang berbahaya munasabah tetapi tidak betul - dan tiada cara yang boleh dipercayai untuk mengetahui yang mana satu.

Walau bagaimanapun, penyokong berpendapat ini terlepas maksudnya. LLMs tidak cuba mencipta semula teks yang tepat - mereka memampatkan pengetahuan dan keupayaan untuk berfikir mengenainya. Apabila anda meminta LLM untuk 50 sinonim atau untuk menjelaskan topik yang kompleks, anda mengakses pemahaman termampat, bukan hanya teks yang disimpan.

Beberapa penyelidik telah menemui bahawa LLMs sebenarnya boleh berfungsi sebagai algoritma mampatan lossless juga, menggunakan teknik seperti pengekodan aritmetik. Tetapi ini memerlukan kedua-dua pengirim dan penerima mempunyai model yang sama, menjadikannya tidak praktikal untuk kebanyakan kegunaan.

Perbandingan Saiz Model

Model Parameter Saiz Penyimpanan Data Latihan
GPT-2 XL (2019) 1.6B ~3.2 GB ~10B token
GPT-3 (2020) 175B ~350 GB 400B token
Llama 405B (2024) 405B ~810 GB 3.67T token
DeepSeek V3 (2024) 671B jumlah, 37B aktif ~1.4 TB 14.8T token

Nota: Saiz penyimpanan mengandaikan pemberat 16-bit; boleh dikurangkan dengan kuantisasi

Apa Maksudnya Untuk Masa Depan

Kejayaan mampatan ini membantu menjelaskan mengapa kita mungkin mencapai had dalam pembangunan AI. Jika semua pengetahuan teks manusia yang berguna sesuai dengan kira-kira 10-100 terabait, dan model besar semasa sudah menggunakan 1-10% daripada skala itu, kita mungkin menghampiri titik di mana hanya menambah lebih banyak data teks tidak akan meningkatkan prestasi dengan banyak.

Tumpuan sedang beralih ke arah pendekatan lain: menambah data imej dan video, membenarkan sistem AI meneroka dan berinteraksi dengan dunia sebenar, dan menggunakan model penaakulan yang menghabiskan lebih banyak masa memikirkan masalah. Wawasan mampatan juga menunjukkan bahawa sistem AI masa depan mungkin tidak memerlukan sejumlah besar perkakasan - komputer pengguna mewah hari ini mungkin cukup berkuasa untuk menjalankan sistem superintelligen sebaik sahaja kita mengetahui seni bina yang betul.

Memahami LLMs sebagai enjin mampatan dan bukannya hanya penjana teks membuka cara baru berfikir tentang kecerdasan buatan dan bagaimana untuk menjadikannya lebih cekap dan berkebolehan.

Rujukan: How large are large language models? (2025)