Sebuah platform baharu bernama RunRL sedang mendemokrasikan akses kepada pembelajaran pengukuhan untuk penambahbaikan model AI, menawarkan pembangun dan penyelidik cara yang diperkemas untuk meningkatkan model mereka tanpa kerumitan tradisional pelaksanaan RL. Perkhidmatan ini telah mencetuskan perbincangan yang signifikan dalam komuniti teknologi mengenai masa depan pengoptimuman model dan aplikasi praktikalnya.
Peningkatan Prestasi Yang Didakwa
- Mengalahkan Claude 3.7 dengan model yang 50 kali lebih kecil
- Mengatasi prestasi GPT-3.5-mini dari segi prestasi dan kos
- Aplikasi merentasi model kimia, ejen web, dan penjanaan kod
- Menggunakan algoritma yang serupa dengan DeepSeek R1 untuk pengoptimuman
Proses Tiga Langkah yang Dipermudahkan untuk Penambahbaikan Model
RunRL memecahkan proses pembelajaran pengukuhan yang secara tradisinya kompleks kepada tiga langkah yang boleh diurus. Pengguna mula-mula mentakrifkan tugas mereka dengan menghantar gesaan dan mencipta fungsi ganjaran tersuai yang menilai output model. Platform kemudian menggunakan algoritma pembelajaran pengukuhan yang serupa dengan yang digunakan dalam DeepSeek R1 untuk mengoptimumkan prestasi. Akhirnya, pengguna boleh menggunakan model mereka yang telah diperbaiki dan dioptimumkan berdasarkan kriteria ganjaran khusus mereka.
Platform ini menyokong integrasi dengan kod sedia ada melalui API popular termasuk OpenAI , Anthropic , dan LiteLLM . Keserasian ini membolehkan pembangun memasukkan penambahbaikan RL ke dalam aliran kerja semasa mereka tanpa penstrukturan semula yang besar.
Spesifikasi Teknikal
- Konfigurasi GPU Standard: 8 H100 GPU
- Pendekatan Latihan: Penalaan Halus Penuh (FFT) secara lalai
- Keserasian API: OpenAI , Anthropic , LiteLLM , dan penyedia lain
- Pelaksanaan: Akses API percuma (dengan inferens yang lebih perlahan), Inferens peringkat pengeluaran tersedia
- Skala Perusahaan Maksimum: Sehingga 2,048 GPU untuk beban kerja
Perbincangan Komuniti Mendedahkan Butiran Pelaksanaan Praktikal
Perbincangan pembangun telah menyerlahkan beberapa aspek teknikal utama platform ini. Untuk tugas yang memerlukan rubrik penilaian berbeza bagi setiap contoh, pengguna boleh memasukkan medan tambahan dalam fail JSONL mereka dan mengaksesnya melalui fungsi ganjaran. Platform ini kini menawarkan penggunaan API percuma untuk model yang dilatih, walaupun dengan masa permulaan yang lebih lama dan kelajuan inferens yang lebih perlahan pada nod GPU yang lebih kecil.
Satu pandangan komuniti yang sangat menarik muncul mengenai keberkesanan penalaan halus penuh berbanding pendekatan LoRA (Low-Rank Adaptation):
LoRA secara signifikan menjejaskan prestasi model kecil berbanding FFT, dengan kesan yang kurang untuk model besar. Ini mungkin kerana model besar mempunyai lebih banyak kemahiran terbina dalam dan oleh itu LoRA memadai untuk mengeluarkan kemahiran sedia ada, manakala untuk model kecil anda perlu melakukan lebih banyak pembelajaran sebenar.
Platform ini secara lalai menggunakan penalaan halus penuh menggunakan 8 GPU H100 sebagai standard, membolehkan model yang lebih besar dan penalaan halus parameter penuh berbanding penyelesaian GPU tunggal.
Struktur Harga Menyasarkan Segmen Pengguna Berbeza
RunRL menawarkan dua peringkat harga untuk menampung keperluan pengguna yang berbeza. Pilihan layan diri berharga 80 dolar Amerika per jam-nod (bersamaan dengan 10 dolar Amerika per jam- H100 ) dengan akses platform segera, akses API penuh, dan pengebilan bayar-semasa-guna tanpa komitmen minimum. Untuk pengguna perusahaan, harga tersuai termasuk sokongan pakar RL khusus, beban kerja pada sehingga 2,048 GPU, dan penggunaan dalam premis atau VPC.
Platform ini meletakkan dirinya sebagai alternatif kepada alat pengoptimuman gesaan seperti DSPy , memfokuskan pada penalaan halus pembelajaran pengukuhan penuh dan bukannya hanya kejuruteraan gesaan. Pendekatan ini bertujuan untuk menyediakan kebolehpercayaan tambahan yang diperlukan untuk aliran kerja agentik yang kompleks di mana pengoptimuman gesaan sahaja mungkin tidak mencukupi.
Perbandingan Harga RunRL
Pelan | Harga | Ciri-ciri Utama |
---|---|---|
Layan Diri | $80 USD/jam-nod ($10 USD/jam- H100 ) | Akses segera, Akses penuh API , Sokongan standard, Bayar mengikut penggunaan, Tiada komitmen minimum |
Perusahaan | Hubungi untuk harga | Pembangunan ganjaran tersuai, Sokongan pakar RL , Sehingga 2,048 GPU , Penggunaan dalam premis/ VPC , Integrasi tersuai |
Aplikasi Merangkumi Pelbagai Domain
RunRL menunjukkan fleksibiliti merentasi pelbagai aplikasi termasuk model kimia, agen web, dan penjanaan kod. Platform ini mendakwa telah mencapai hasil yang mengagumkan, termasuk mengalahkan Claude 3.7 dengan model yang 50 kali lebih kecil dan mengatasi prestasi GPT-3.5-mini pada kedua-dua metrik prestasi dan kos.
Perkhidmatan ini memerlukan tugas mempunyai beberapa bentuk penilaian prestasi automatik, sama ada melalui fungsi Python , hakim LLM, atau gabungan kedua-duanya. Keperluan ini memastikan bahawa proses pembelajaran pengukuhan boleh mengoptimumkan tingkah laku model dengan berkesan berdasarkan hasil yang boleh diukur.
Nota: LoRA (Low-Rank Adaptation) adalah teknik yang menala halus hanya subset kecil parameter model, manakala FFT (Full Fine-Tuning) mengemas kini semua parameter model semasa latihan.