Swiss AI Melancarkan Apertus: Model Bahasa Sumber Terbuka yang Dilatih dengan Data Patuh Hak Cipta

Pasukan Komuniti BigGo
Swiss AI Melancarkan Apertus: Model Bahasa Sumber Terbuka yang Dilatih dengan Data Patuh Hak Cipta

Swiss AI telah melancarkan Apertus, sebuah model bahasa sumber terbuka baharu yang bertujuan menangani kebimbangan yang semakin meningkat mengenai pematuhan hak cipta dan ketelusan data dalam latihan AI. Model ini hadir dalam versi parameter 70B dan 8B serta mewakili langkah penting ke arah pembangunan AI yang benar-benar telus.

Spesifikasi Model

  • Parameter: Versi 70B dan 8B tersedia
  • Data latihan: 15T token dengan kurikulum berperingkat (web, kod, matematik)
  • Panjang konteks: 65,536 token
  • Bahasa yang disokong: 1,811 bahasa
  • Seni bina: Penyahkod Transformer dengan fungsi pengaktifan xILU
  • Perkakasan latihan: 4,096 GPU GH200

Pematuhan Hak Cipta Menjadi Tumpuan Utama

Komuniti teknologi memberi tumpuan khusus kepada pendekatan Apertus terhadap data latihan. Tidak seperti kebanyakan model komersial yang mengikis kandungan web tanpa kebenaran eksplisit, Apertus mendakwa menghormati persetujuan menarik diri daripada pemilik data, bahkan secara retroaktif. Ini bermakna jika pencipta kandungan meminta data mereka dialih keluar, pembangun model akan menghormati permintaan tersebut. Walau bagaimanapun, sesetengah ahli komuniti mempersoalkan sama ada sistem menarik diri ini benar-benar menyelesaikan masalah hak cipta, dengan menyatakan bahawa ia masih meletakkan beban kepada pencipta kandungan untuk secara aktif melindungi karya mereka.

Ciri-ciri Undang-undang dan Pematuhan

  • Dokumentasi ketelusan EU AI Act disediakan
  • Dokumentasi Code of Practice tersedia
  • Proses permintaan penyingkiran PII dan hak cipta telah diwujudkan
  • E-mel hubungan: [email protected], [email protected]
  • Penapis output untuk PII dirancang (semak setiap 6 bulan)
  • Persetujuan opt-out retrospektif dihormati

Prestasi Setanding dengan Model Setahun Lalu

Penilaian awal menunjukkan Apertus berprestasi setanding dengan Llama 3.1 milik Meta, yang dilancarkan kira-kira setahun lalu. Model ini menunjukkan keupayaan pengetahuan am yang baik tetapi ketinggalan dalam bidang khusus seperti pengkodan dan tugas penaakulan. Untuk model terbuka sepenuhnya yang dilatih dengan data patuh, tahap prestasi ini mewakili pencapaian yang bermakna, walaupun ia menyerlahkan cabaran berterusan untuk menyamai model sumber tertutup yang mungkin menggunakan kaedah pengumpulan data yang lebih agresif.

Perbandingan Ciri Utama

Ciri Apertus Model Tertutup Biasa
Ketelusan data latihan Pendedahan penuh Proprietari/tidak didedahkan
Pematuhan hak cipta Persetujuan opt-out dihormati Berubah-ubah/tidak jelas
Pemberat model Sumber terbuka Tertutup/API sahaja
Sokongan bahasa 1,811 bahasa Biasanya <100
Prestasi berbanding Llama 3.1 Setanding (am), ketinggalan (kod/penaakulan) Sering lebih unggul

Sokongan Pelbagai Bahasa yang Besar-besaran

Salah satu ciri menonjol Apertus ialah sokongannya untuk lebih 1,800 bahasa, menjadikannya antara model yang paling pelbagai dari segi linguistik yang tersedia. Liputan bahasa yang luas ini, digabungkan dengan tetingkap konteks 65,536-token, meletakkan model ini sebagai sangat berharga untuk aplikasi global dan pemprosesan kandungan bentuk panjang.

Model ini dilatih menggunakan 15 trilion token dengan 4,096 GPU GH200 khusus, menunjukkan sumber pengiraan yang besar diperlukan untuk pembangunan AI moden. Swiss AI telah komited untuk melepaskan bukan sahaja berat model tetapi juga data latihan lengkap, resipi, dan titik semak perantaraan.

Komuniti Menyeru Standard Data Bersih

Pelancaran ini telah mencetuskan perbincangan yang lebih luas mengenai keperluan untuk lebih banyak model yang dilatih dengan set data yang boleh dikesan dan bersih. Seperti yang dinyatakan oleh seorang pemerhati komuniti, terdapat permintaan yang semakin meningkat untuk alternatif kepada model tertutup yang kemudiannya didapati telah dilatih menggunakan perbincangan media sosial dan sumber lain yang boleh dipersoalkan.

Pada pendapat saya, kita memerlukan lebih banyak model yang dilatih dengan data yang boleh dikesan sepenuhnya dan bersih berbanding model tertutup yang kemudiannya kita dapati telah dilatih menggunakan utas perbincangan Reddit dan Facebook.

Walaupun ada yang menolak Apertus sebagai berpotensi mati sebelum bermula disebabkan jurang prestasinya, yang lain melihatnya sebagai langkah penting ke arah mewujudkan standard baharu untuk pembangunan AI yang beretika. Pematuhan model terhadap keperluan Akta AI EU dan penyediaan dokumentasi ketelusan menunjukkan ia mungkin menarik kepada organisasi yang mengutamakan pematuhan peraturan berbanding prestasi canggih.

Rujukan: swiss-ai/Apertus-708-2509