DeepSeek telah mengeluarkan V3.2-Exp, sebuah model AI eksperimen yang menjana buzz yang ketara dalam komuniti teknologi kerana mencapai sesuatu yang ramai fikir sukar: mengurangkan kos secara dramatik sambil mengekalkan prestasi yang stabil. Model ini memperkenalkan DeepSeek Sparse Attention (DSA), pendekatan baharu yang menjadikan pemprosesan urutan teks panjang lebih cekap.
Pengurangan Harga Dramatik Meneruskan Trend Industri
Keluaran ini datang dengan penurunan harga API yang besar iaitu 50%, menurunkan kos kepada $0.28 dolar Amerika Syarikat setiap juta token input dan $0.42 dolar Amerika Syarikat setiap juta token output. Penetapan harga agresif ini telah menarik perhatian pembangun yang telah menjejaki penurunan pesat dalam kos inferens AI. Komuniti amat teruja dengan trend ini, dengan sesetengah pihak menyatakan bahawa harga inferens telah menurun sebanyak 10x setahun mengikut kajian terkini.
Apa yang menjadikan penurunan harga ini amat ketara ialah ia bukan sekadar langkah promosi sementara. Pengurangan kos berpunca daripada penambahbaikan teknikal tulen dalam seni bina model, khususnya mekanisme sparse attention yang mengurangkan keperluan pengiraan semasa inferens.
Perbandingan Harga API
- Harga baharu V3.2-Exp: $0.28/M token input, $0.42/M token output
- Mewakili pengurangan harga 50% daripada versi sebelumnya
- Harga cache hit: $0.028/M token
Inovasi Teknikal Memacu Keuntungan Kecekapan
Bintang V3.2-Exp adalah sistem DeepSeek Sparse Attention, yang mewakili langkah maju yang ketara dalam menjadikan model AI lebih cekap. Tidak seperti mekanisme attention tradisional yang memproses setiap bahagian input secara sama rata, sparse attention memfokuskan sumber pengiraan pada bahagian yang paling relevan dalam urutan teks panjang.
Inovasi ini amat berharga untuk aplikasi yang melibatkan dokumen besar, perbualan lanjutan, atau tugasan pengekodan yang kompleks. Model ini mengekalkan kualiti output yang hampir sama berbanding dengan pendahulunya sambil menggunakan sumber pengiraan yang jauh lebih sedikit.
Sparse attention: Teknik yang secara selektif memberi tumpuan kepada bahagian relevan data input dan bukannya memproses segala-galanya secara sama rata, mengurangkan overhed pengiraan.
Spesifikasi Teknikal
- Seni bina: DeepSeek Sparse Attention ( DSA )
- Lesen: MIT License
- Platform yang disokong: HuggingFace , SGLang , VLLM
- Kernel yang tersedia: TileLang (penyelidikan), CUDA (prestasi tinggi)
- Sokongan Docker : Pelbagai varian untuk perkakasan berbeza ( H200 , M1350 , NPUs )
Prestasi Benchmark Kekal Kompetitif
Walaupun memberi tumpuan kepada kecekapan, V3.2-Exp mengekalkan kedudukannya merentasi pelbagai metrik prestasi. Dalam tugasan penaakulan tanpa penggunaan alat, model ini menyamai atau sedikit melebihi pendahulunya dalam kebanyakan bidang. Untuk cabaran pengekodan, ia mencapai rating Codeforces sebanyak 2121, naik daripada 2046 dalam versi sebelumnya.
Model ini juga menunjukkan penambahbaikan dalam beberapa senario penggunaan alat agentik, dengan keuntungan ketara dalam tugasan pelayaran dan mengekalkan prestasi kukuh dalam benchmark kejuruteraan perisian. Konsistensi ini merentasi tugasan yang pelbagai menunjukkan bahawa penambahbaikan kecekapan tidak datang dengan mengorbankan keupayaan.
Penanda Aras Prestasi Utama
Penanda Aras | V3.1-Terminus | V3.2-Exp |
---|---|---|
MMLU-Pro | 85.0 | 85.0 |
AIME 2025 | 88.4 | 89.3 |
Codeforces | 2046 | 2121 |
SimpleQA | 96.8 | 97.1 |
BrowseComp | 38.5 | 40.1 |
Komitmen Sumber Terbuka Mengukuhkan Ekosistem
DeepSeek meneruskan komitmennya terhadap pembangunan sumber terbuka dengan mengeluarkan model di bawah Lesen MIT dan menyediakan butiran pelaksanaan yang komprehensif. Syarikat telah menyediakan kedua-dua kernel TileLang yang berfokuskan penyelidikan dan kernel CUDA berprestasi tinggi melalui pelbagai repositori.
Pendekatan ini telah mendapat pujian daripada komuniti pembangun, yang menghargai akses kepada kedua-dua berat model dan butiran pelaksanaan asas. Ketersediaan pelbagai pilihan inferens, termasuk sokongan HuggingFace, SGLang, dan VLLM, menjadikan model ini boleh diakses oleh pelbagai jenis pengguna dan senario penggunaan.
Keluaran V3.2-Exp mewakili lebih daripada sekadar kemas kini model yang lain. Ia menunjukkan bahawa industri AI boleh terus memberikan nisbah harga-prestasi yang lebih baik melalui inovasi teknikal tulen dan bukannya hanya meningkatkan perkakasan. Ketika komuniti terus meneroka keupayaan mekanisme sparse attention, keluaran eksperimen ini mungkin menunjukkan jalan ke arah masa depan sistem AI yang cekap.
Rujukan: DeepSeek-V3.2-Exp