Universiti Switzerland Akan Mengeluarkan LLM Sumber Terbuka Sepenuhnya dengan Sokongan 1000+ Bahasa

Pasukan Komuniti BigGo
Universiti Switzerland Akan Mengeluarkan LLM Sumber Terbuka Sepenuhnya dengan Sokongan 1000+ Bahasa

Institusi akademik Switzerland ETH Zurich dan EPFL sedang bersiap sedia untuk mengeluarkan model bahasa besar yang revolusioner yang menjanjikan ketelusan penuh dalam ruang AI. Dijadualkan untuk lewat musim panas 2025, model ini menonjol bukan sahaja kerana keupayaan teknikalnya, tetapi kerana komitmennya terhadap keterbukaan penuh - sesuatu yang telah mencetuskan perbincangan besar dalam komuniti teknologi tentang apa yang benar-benar terbuka bermaksud dalam pembangunan AI.

Spesifikasi Model:

  • Parameter: Versi 8 bilion dan 70 bilion parameter
  • Bahasa: Sokongan untuk 1,000+ bahasa
  • Data latihan: Lebih 15 trilion token (60% Bahasa Inggeris, 40% bukan Bahasa Inggeris)
  • Garis masa pelancaran: Akhir musim panas 2025
  • Lesen: Apache 2.0
Sebuah model bahasa yang dibangunkan melalui kolaborasi antara ETH Zurich dan EPFL , menekankan ketelusan dan keterbukaan dalam AI
Sebuah model bahasa yang dibangunkan melalui kolaborasi antara ETH Zurich dan EPFL , menekankan ketelusan dan keterbukaan dalam AI

Cabaran Infrastruktur dan Keluk Pembelajaran

Komuniti telah menyerlahkan kebimbangan besar tentang kerumitan teknikal dalam melatih model berskala besar. Ramai pemerhati menyatakan bahawa walaupun institusi Switzerland mempunyai bakat yang luar biasa, mereka mungkin kekurangan pengalaman luas dengan infrastruktur AI berskala besar. Superkomputer Alps di CSCS , yang dilengkapi dengan lebih 10,000 NVIDIA Grace Hopper Superchips , mewakili pelaburan besar dalam keupayaan AI berdaulat, tetapi untuk mendapatkan sistem sedemikian berfungsi secara optimum adalah sangat sukar.

Latihan pada skala ini melibatkan lebih daripada sekadar memuatkan set data dan menjalankan algoritma. Jurutera mesti mengendalikan isu latensi merentas nod, mereka bentuk sistem pemulihan ralat yang kukuh, memaksimumkan penggunaan perkakasan, dan menguruskan orkestrasi kompleks sumber pengkomputeran teragih. Keluk pembelajaran adalah curam, dan bahkan projek yang dibiayai dengan baik boleh bergelut dengan cabaran-cabaran ini.

Butiran Infrastruktur:

  • Platform latihan: Superkomputer " Alps " di CSCS
  • Perkakasan: 10,000+ NVIDIA Grace Hopper Superchips
  • Sumber kuasa: 100% elektrik neutral karbon
  • Akses: 20+ juta jam GPU tersedia setiap tahun
  • Perkongsian: Kerjasama 15+ tahun dengan NVIDIA dan HPE/Cray

Perdebatan Ketelusan Set Data

Salah satu aspek yang paling dibincangkan ialah dakwaan projek tentang ketelusan set data. Walaupun pengumuman menjanjikan bahawa data latihan akan telus dan boleh dihasilkan semula, ahli komuniti mempersoalkan apa yang sebenarnya bermaksud dalam amalan. Cabarannya terletak pada skala yang besar - dengan set data latihan sering mengukur beratus-ratus terabait, menyediakan pembuangan data lengkap mungkin tidak praktikal.

Senario yang lebih berkemungkinan melibatkan penyediaan senarai URL atau rujukan kepada bahan sumber dan bukannya kandungan sebenar. Walau bagaimanapun, pendekatan ini menimbulkan persoalan tentang kebolehhasilan semula yang sebenar, terutamanya kerana kandungan web berubah dari masa ke masa. Ada yang mencadangkan ini masih boleh mewakili kemajuan berbanding amalan industri semasa di mana data latihan kekal benar-benar legap.

Fokus Pelbagai Bahasa dan Persoalan Prestasi

Sokongan model untuk lebih 1,000 bahasa telah menjana minat, walaupun perbincangan komuniti mendedahkan keraguan tentang prestasi berbanding model terkini. Dengan data latihan dibahagikan kira-kira 60% bahasa Inggeris dan 40% kandungan bukan bahasa Inggeris merentas 1,500+ bahasa, persoalan kekal tentang sama ada pendekatan luas ini mungkin mencairkan prestasi dalam bahasa utama.

Projek ini akan mengeluarkan model dalam versi parameter 8 bilion dan 70 bilion, dengan model yang lebih besar diletakkan untuk bersaing di antara model terbuka sepenuhnya yang paling berkuasa di peringkat global. Walau bagaimanapun, tanpa keputusan penanda aras atau perbandingan prestasi, komuniti kekal berhati-hati tentang keupayaan sebenar.

Gambaran Keseluruhan Inisiatif AI Switzerland:

  • Tarikh pelancaran: Disember 2023
  • Institusi utama: ETH Zurich , EPFL
  • Institusi yang mengambil bahagian: 10+ institusi akademik Switzerland
  • Penyelidik yang terlibat: 800+
  • Tempoh pembiayaan: 2025-2028 (sokongan ETH Board )
  • Skop: Usaha model asas AI sains terbuka terbesar di dunia

Pergerakan Kedaulatan AI Eropah

Inisiatif ini mencerminkan usaha Eropah yang lebih luas untuk mengurangkan pergantungan pada sistem AI yang dibangunkan di Amerika Syarikat dan China . Penekanan pada menghormati pilihan keluar merangkak web dan pematuhan kepada keperluan EU AI Act menunjukkan pendekatan yang mengutamakan pematuhan undang-undang berbanding prestasi maksimum - pertukaran yang telah menghasilkan reaksi bercampur-campur.

Model bahasa besar terbuka semakin dilihat sebagai alternatif yang boleh dipercayai kepada sistem komersial, kebanyakannya dibangunkan di sebalik pintu tertutup di Amerika Syarikat atau China .

Projek ini mewakili lebih daripada sekadar satu lagi keluaran model AI. Ia adalah sebahagian daripada Swiss AI Initiative , melibatkan lebih 800 penyelidik dan disokong oleh pembiayaan awam yang besar hingga 2028. Skala pelaburan ini menunjukkan komitmen serius untuk membina keupayaan AI Eropah, walaupun kejayaan akhirnya akan bergantung pada pelaksanaan dan prestasi dunia sebenar apabila model dilancarkan.

Komuniti teknologi akan memerhati dengan teliti apabila penanda aras dan keupayaan sebenar didedahkan lewat tahun ini, kerana ini boleh menetapkan duluan penting untuk pembangunan AI sumber terbuka dan persaingan antarabangsa dalam bidang ini.

Rujukan: A language model built for the public good