Komuniti Teknologi Mencabar Cadangan "Kawalan Berasaskan Atribusi" untuk Mengakses Data Peribadi dalam Latihan AI

Pasukan Komuniti BigGo
Komuniti Teknologi Mencabar Cadangan "Kawalan Berasaskan Atribusi" untuk Mengakses Data Peribadi dalam Latihan AI

Satu cadangan terkini untuk membuka kunci berjuta-juta kali lebih banyak data untuk latihan AI melalui Attribution-Based Control ( ABC ) telah mencetuskan perdebatan sengit dalam komuniti teknologi. Cadangan tersebut mencadangkan bahawa model AI semasa sangat terhad dari segi data, menggunakan hanya beratus-ratus terabait manakala dunia mengandungi 500,000 eksabait maklumat digital yang belum dimanfaatkan.

Saiz Data Latihan AI Semasa berbanding Data Global

  • Model AI terkemuka menggunakan 2-180 TB data latihan
  • Data digital global: ~500,000 exabyte (500,000,000,000 TB)
  • Nisbah: Data persendirian adalah kira-kira 1 juta kali lebih besar daripada set data latihan semasa

Kebolehlaksanaan Teknikal Diserang

Komuniti telah membangkitkan kebimbangan serius mengenai asas teknikal cadangan ABC . Pengkritik menunjukkan bahawa penyulitan homomorfik, komponen utama infrastruktur pemeliharaan privasi yang dicadangkan, mewujudkan overhed pengiraan yang besar sehingga menjadikannya tidak praktikal untuk operasi pembelajaran mesin berskala besar. Walaupun penulis mendakwa kesan prestasi adalah setanding dengan penyulitan HTTPS , pembangun berpengalaman kekal skeptikal tentang pelaksanaan sistem sedemikian dengan seni bina GPU semasa.

Penyulitan homomorfik: Kaedah kriptografi yang membolehkan pengiraan pada data yang disulitkan tanpa menyahsulit terlebih dahulu, tetapi dengan kos pengiraan yang ketara.

Perdebatan Kualiti Data vs. Kuantiti

Titik perbalahan utama berpusat pada sama ada lebih banyak data secara automatik membawa kepada model AI yang lebih baik. Ahli komuniti berhujah bahawa cadangan tersebut menganggap semua data sebagai sama berharga, sedangkan pada hakikatnya kebanyakan set data peribadi akan memberikan sedikit manfaat kepada latihan model bahasa. Bacaan sensor suhu, fail pendua, dan entri pangkalan data berstruktur mungkin mewakili jumlah yang besar tetapi menawarkan nilai latihan yang minimum.

Kami tidak memerlukan 'lebih banyak data', kami memerlukan 'lebih banyak data daripada jenis khusus yang kami latih'. Itu tidak begitu mudah didapati.

Perbincangan mendedahkan perselisihan asas tentang undang-undang penskalaan dalam pembangunan AI , dengan sesetengah pihak berhujah bahawa kemajuan semasa lebih datang daripada teknik yang diperbaiki seperti penaakulan dan pembelajaran pengukuhan berbanding sekadar menambah lebih banyak data latihan.

Perbandingan Data Latihan Model AI Utama

Syarikat Model Saiz Data Latihan
Meta Llama-3 75 TB
OpenAI GPT-4 13 TB
Google Gemini-Ultra 15 TB
Amazon Titan 24 TB
DeepSeek DeepSeek LLM 2 TB

Kebimbangan Privasi dan Kepercayaan

Mungkin kritikan paling kuat memfokuskan pada implikasi privasi dan kebolehpercayaan korporat. Ahli komuniti menyatakan skeptisisme mendalam tentang memberi syarikat AI akses kepada rekod perubatan, transaksi kewangan, dan data peribadi sensitif lain, walaupun dengan perlindungan privasi yang dicadangkan. Rekod prestasi syarikat teknologi utama dalam pengendalian data telah menyebabkan ramai tidak yakin bahawa sebarang penyelesaian teknikal dapat melindungi hak privasi individu dengan secukupnya.

Pengkritik juga mempersoalkan insentif ekonomi, dengan menyatakan bahawa syarikat yang sama yang kini mengelak pembayaran untuk data latihan sedia ada tidak mungkin memberi pampasan yang adil kepada pemilik data di bawah sebarang sistem baharu, tanpa mengira mekanisme penguatkuasaan teknikal.

Keperluan Teras Kawalan Berasaskan Atribusi (ABC)

  1. Pemilik data mesti mengawal ramalan AI mana yang disokong oleh data mereka
  2. Pemilik data mesti mengawal bagaimana data mereka mempengaruhi kesimpulan AI
  3. Sistem mesti membolehkan penjanaan pendapatan berterusan daripada penggunaan data
  4. Pelaksanaan teknikal memerlukan pembahagian model dan infrastruktur privasi

Penglibatan Kerajaan Menimbulkan Tanda Bahaya

Cadangan proposal untuk program pimpinan kerajaan gaya ARPANET untuk membangunkan sistem ABC telah menarik perhatian khusus. Ahli komuniti bimbang tentang implikasi agensi kerajaan menyelaras akses kepada jumlah data peribadi yang besar, walaupun dengan dakwaan perlindungan privasi. Perbandingan dengan pembangunan infrastruktur internet menyerang ramai sebagai tidak sesuai memandangkan sifat sensitif data yang terlibat.

Perdebatan tersebut menyerlahkan ketegangan yang lebih luas dalam pembangunan AI antara keinginan untuk sistem yang lebih berkebolehan dan keperluan untuk melindungi privasi individu dan hak data. Walaupun komuniti teknikal terus berinovasi dalam teknologi pemeliharaan privasi, cabaran praktikal dan etika melaksanakan sistem sedemikian pada skala besar kekal sebagai halangan yang berat.

Rujukan: Unlocking a Million Times More Data for AI