DeepSeek telah mengeluarkan V3.1-Terminus, versi terkini model bahasa mereka yang secara langsung merespons maklum balas komuniti mengenai keluaran V3.1 sebelumnya. Kemas kini ini memfokuskan pada pembetulan isu percampuran bahasa dan meningkatkan keupayaan agen, sambil mengekalkan prestasi yang kompetitif merentasi pelbagai penanda aras.
Penambahbaikan Utama dalam V3.1-Terminus:
- Konsistensi Bahasa: Menghapuskan percampuran Cina/Inggeris dan isu aksara rawak
- Prestasi Ejen: Meningkatkan keupayaan Code Agent dan Search Agent
- Peningkatan Penanda Aras: Penambahbaikan ketara dalam tugasan berasaskan ejen dan penaakulan kompleks
- Ketersediaan: Akses App, Web, API dengan pemberat sumber terbuka di Hugging Face
- Lesen: Lesen MIT membenarkan penggunaan komersial
![]() |
---|
Imej ini menyerlahkan perbandingan prestasi antara model DeepSeek V31 dan V31-Terminus, menekankan kemas kini dan penambahbaikan yang dibuat dalam versi terkini |
Masalah Konsistensi Bahasa Akhirnya Diperbaiki
Salah satu penambahbaikan paling ketara dalam V3.1-Terminus menangani isu percampuran bahasa yang mengecewakan yang melanda versi sebelumnya. Pengguna telah mengalami penyisipan aksara rawak dan pertukaran yang tidak diingini antara teks Cina dan Inggeris semasa perbualan. Komuniti telah bersuara mengenai masalah ini, dengan ramai yang mendapati isu tersebut cukup mengganggu untuk beralih kepada model alternatif walaupun prestasi penanda aras V3.1 yang kukuh.
Versi baharu ini menjanjikan output bahasa yang lebih bersih dan konsisten, yang sepatutnya menjadikannya lebih boleh dipercayai untuk aplikasi praktikal di mana kualiti teks sama pentingnya dengan keupayaan teknikal.
Prestasi Agen Dipertingkatkan untuk Tugasan Dunia Sebenar
V3.1-Terminus menunjukkan penambahbaikan ketara dalam tugasan berasaskan agen, terutamanya dalam senario penjanaan kod dan pelayaran web. Model ini menunjukkan peningkatan signifikan dalam beberapa penanda aras praktikal, termasuk lonjakan daripada 30.0 kepada 38.5 pada BrowseComp dan penambahbaikan dalam tugasan kejuruteraan perisian seperti SWE Verified dan SWE-bench Multilingual.
Penambahbaikan agen ini menangani satu lagi kebimbangan komuniti mengenai keupayaan model untuk mengendalikan tugasan kompleks berbilang langkah yang memerlukan penggunaan alat dan interaksi luaran.
Perbandingan Prestasi: DeepSeek-V3.1 vs V3.1-Terminus
Penanda Aras | V3.1 | V3.1-Terminus | Perubahan |
---|---|---|---|
Tugas Penaakulan | |||
MMLU-Pro | 84.8 | 85.0 | +0.2 |
GPQA-Diamond | 80.1 | 80.7 | +0.6 |
Humanity's Last Exam | 15.9 | 21.7 | +5.8 |
Tugas Ejen | |||
BrowseComp | 30.0 | 38.5 | +8.5 |
SimpleQA | 93.4 | 96.8 | +3.4 |
SWE Verified | 66.0 | 68.4 | +2.4 |
Terminal-bench | 31.3 | 36.7 | +5.4 |
Sambutan Komuniti dan Kebimbangan Berterusan
Walaupun kemas kini menangani isu teknikal utama, sesetengah ahli komuniti kekal berhati-hati mengenai kecenderungan model untuk membuat andaian tentang input pengguna. Pengguna telah melaporkan kejadian di mana model mengabaikan butiran khusus atau membetulkan permintaan pengguna berdasarkan apa yang dianggapnya munasabah, bukannya mengikut arahan dengan tepat.
Saya mencuba V3.1 tetapi ia membuatkan saya gila kerana mengabaikan bahagian input pengguna, yang mana R1 tidak pernah lakukan.
Model ini kini tersedia melalui aplikasi DeepSeek , antara muka web, dan API, dengan berat sumber terbuka dikeluarkan di Hugging Face di bawah lesen MIT. Pendekatan pelesenan ini meneruskan komitmen DeepSeek untuk menjadikan model mereka boleh diakses untuk kegunaan penyelidikan dan komersial.
Walaupun terdapat penambahbaikan, komuniti AI terus membahaskan pertukaran antara prestasi penanda aras dan kebolehgunaan praktikal, dengan sesetengah pengguna lebih suka model lama yang mungkin mendapat markah lebih rendah dalam ujian tetapi berkelakuan lebih boleh diramal dalam senario dunia sebenar.
Rujukan: DeepSeek-V3.1-Terminus