Dalam langkah yang terus mengubah landskap persaingan model bahasa besar, makmal kecerdasan buatan China DeepSeek telah melancarkan dua model baharu yang berkuasa secara serentak. Diumumkan pada 1 Disember, DeepSeek-V3.2 dan rakan khususnya, DeepSeek-V3.2-Speciale, mewakili lonjakan besar dalam keupayaan penaakulan dan utiliti praktikal untuk kecerdasan buatan sumber terbuka. Pelancaran ini, yang bertepatan dengan persidangan berprestij NeurIPS 2025, telah mencetuskan perbincangan dalam komuniti penyelidikan kecerdasan buatan global, kerana model-model ini menunjukkan prestasi yang setanding dengan tawaran terkini daripada gergasi industri OpenAI dan Google DeepMind. Analisis ini menyelami inovasi teknikal, keputusan penanda aras, dan implikasi strategik pelancaran terkini DeepSeek.
Pelancaran Strategi Berganda untuk Keperluan Berbeza
Strategi DeepSeek dengan pelancaran ini jelas berbelah, mensasarkan kedua-dua kebolehgunaan harian dan kemuncak kuasa penaakulan mental. Model piawai DeepSeek-V3.2 diposisikan sebagai kuda kerja seimbang, direka untuk penggunaan harian yang cekap dalam senario soal jawab dan tugas Agensi umum. Matlamatnya adalah untuk memberikan penaakulan yang kukuh tanpa kos pengiraan yang berlebihan atau masa menunggu pengguna yang lama. Sebaliknya, DeepSeek-V3.2-Speciale adalah model pakar "pemikiran-panjang". Ia mengalih keluar kekangan pada kedalaman penaakulan untuk menolak sempadan penyelesaian masalah kompleks, khususnya cemerlang dalam pembuktian matematik, pengesahan logik, dan pertandingan pengaturcaraan. Pendekatan berganda ini membolehkan DeepSeek memenuhi spektrum pengguna yang luas, daripada pembangun yang membina aplikasi kepada penyelidik yang menangani cabaran sempadan.
Perbandingan Model: Siri DeepSeek-V3.2
| Ciri | DeepSeek-V3.2 | DeepSeek-V3.2-Speciale |
|---|---|---|
| Fokus Utama | Prestasi seimbang untuk kegunaan harian | Penaakulan ekstrem, penerokaan batas |
| Inovasi Utama | DSA (DeepSeek Sparse Attention) untuk kecekapan | Peningkatan pemikiran panjang, pembuktian teorem Math-V2 |
| Penanda Aras Dilaporkan (Rakan Sejawat) | Setanding dengan GPT-5, sedikit di bawah Gemini 3.0 Pro | Prestasi setanding dengan Gemini 3.0 Pro |
| Penggunaan Ejen/Alat | Sokongan penuh, dengan pemikiran bersepadu | Tidak disokong (hanya untuk penyelidikan) |
| Tuntutan Pertandingan | Tiada | Pingat emas dalam IMO 2025, CMO 2025, ICPC 2025, IOI 2025 |
| Ketersediaan Semasa | Web/Apl/API Rasmi | API sementara untuk penilaian penyelidikan/komuniti |
| Contoh Kos | ~USD 0.0032 untuk ~8k token (Soal Jawab kompleks) | Penggunaan token lebih tinggi, tetapi kos rendah per token |
Prestasi Penanda Aras: Menutup Jurang dengan Peneraju
Tuntutan prestasi adalah berani. Menurut laporan teknikal DeepSeek dan penanda aras yang disertakan, model V3.2 mencapai prestasi penaakulan setanding dengan GPT-5 OpenAI, walaupun sedikit ketinggalan di belakang Gemini 3.0 Pro Google. Walau bagaimanapun, V3.2-Speciale dilaporkan menyamai prestasi Gemini 3.0 Pro pada penanda aras penaakulan arus perdana. Lebih menarik, versi Speciale didakwa telah mencapai prestasi peringkat pingat emas dalam pertandingan akademik elit, termasuk Olimpiad Matematik Antarabangsa (IMO 2025) dan Olimpiad Antarabangsa dalam Informatik (IOI 2025), dengan skor ICPCnya dilaporkan setara dengan tempat kedua manusia. Keputusan ini, jika disahkan secara bebas, menandakan bahawa model sumber terbuka peringkat teratas tidak lagi hanya mengejar model proprietari tetapi mencapai kesaksamaan sebenar dalam domain tertentu berisiko tinggi.
Inovasi Seni Bina: Enjin Kecekapan DSA
Kemajuan teknikal teras yang membolehkan prestasi V3.2 ialah pengambilan formal DeepSeek Sparse Attention (DSA). Mekanisme perhatian tradisional mengalami peningkatan kuadratik dalam kos pengiraan apabila panjang input meningkat, menjadikan pemprosesan konteks panjang sangat mahal. DSA menangani ini dengan memperkenalkan "pengindeks kilat" yang memilih hanya token sejarah yang paling relevan untuk setiap pertanyaan baharu, secara drastik mengurangkan kerumitan. Hasilnya adalah model yang mengekalkan prestasi sambil mengurangkan kos inferens pada jujukan panjang. Penanda aras menunjukkan bahawa pada panjang konteks 128k token, kos praisi V3.2 turun kepada sekitar 0.2 dolar AS sejuta token daripada 0.7 dolar AS untuk pendahulunya, dengan pengurangan serupa dalam kos penyahkodan. Keuntungan kecekapan ini adalah kritikal untuk penyebaran dan kebolehskalaan dunia sebenar.
Tuntutan Prestasi & Kecekapan
- Pengurangan Kos Penaakulan (DSA): Pada panjang konteks 128k, kos praisi telah dikurangkan daripada ~USD 0.7 kepada ~USD 0.2 per juta token berbanding V3.1-Terminus. Kos penyahkodan dikurangkan daripada ~USD 2.4 kepada ~USD 0.8 per juta token.
- Pelaburan Pasca-Latihan: Belanjawan pengiraan latihan Pengukuhan Pembelajaran (RL) melebihi 10% daripada jumlah kos pra-latihan.
- Data Latihan Ejen: Dilatih pada saluran paip sintetik yang menjana 1,827 persekitaran dan 85,000+ arahan kompleks.
- Nota Kecekapan Token: Model mungkin memerlukan output yang lebih panjang (lebih banyak token) untuk menyamai kualiti model sumber tertutup terkemuka, tetapi pada jumlah kos yang jauh lebih rendah.
Pelaburan Besar dalam Pasca Latihan
Kertas teknikal DeepSeek menyerlahkan peralihan strategi yang ketara: pelaburan besar-besaran dalam pembelajaran pengukuhan (RL) semasa fasa pasca latihan. Syarikat itu menyatakan bahawa belanjawan pengiraan untuk latihan RL melebihi 10% daripada jumlah kos pra-latihan, tahap pelaburan yang digambarkan sebagai "jarang dalam dunia sumber terbuka." Fasa "pengajaran" intensif ini, yang termasuk latihan khusus dalam matematik, pengaturcaraan, dan tugas ejen, dikreditkan dengan membuka kunci keupayaan lanjutan model-model tersebut. Pendekatan ini menangani kelemahan sejarah model sumber terbuka, yang sering mempunyai latihan asas yang kukuh tetapi kekurangan penalaan halus berfokus peperiksaan rakan tertutup mereka.
Kejayaan dalam Keupayaan Ejen dan Penggunaan Alat
Mungkin peningkatan yang paling signifikan secara praktikal dalam V3.2 ialah fungsi Ejennya yang dipertingkatkan. Ia adalah model pertama DeepSeek yang mengintegrasikan "pemikiran" dengan penggunaan alat dengan lancar. Sebelum ini, apabila model memanggil alat luaran, rantai penaakulan dalamannya dibuang, memaksanya bermula semula apabila alat mengembalikan hasil. V3.2 mengubah suai logik ini, mengekalkan konteks penaakulan sepanjang interaksi penggunaan alat dan hanya menetapkan semula apabila pertanyaan pengguna baharu tiba. Ini membawa kepada penyelesaian masalah berbilang langkah yang lebih koheren dan cekap. Untuk melatih keupayaan ini, DeepSeek membangunkan saluran sintetik novel, menjana lebih 1,800 persekitaran berorientasikan tugas dan 85,000 prompt kompleks, yang membolehkan latihan boleh skala dalam senario interaktif yang pelbagai.
Batasan Diakui dan Persamaan Kos-Prestasi
Dalam paparan ketelusan yang menyegarkan, laporan teknikal DeepSeek secara terbuka membincangkan batasan model-model tersebut. Cabaran utama ialah kecekapan token: kedua-dua model baharu sering perlu menjana jejak penaakulan yang lebih panjang (menggunakan lebih banyak token) untuk mencapai kualiti output setanding dengan model tertutup terkemuka seperti Gemini 3.0 Pro. Ini terutamanya benar untuk versi Speciale, yang dioptimumkan untuk kedalaman berbanding keringkasan. Walau bagaimanapun, kelemahan ini diimbangi oleh penetapan harga agresif DeepSeek. Ujian perbandingan yang disebut dalam satu laporan menunjukkan bahawa walaupun menjawab soalan kompleks memerlukan kira-kira 60% lebih banyak token daripada DeepSeek-V3.2-Speciale berbanding Gemini 3.0 Pro, jumlah kos adalah jauh lebih rendah—lebih kurang 0.0032 dolar AS berbanding 0.06 dolar AS. Nisbah harga-ke-prestasi yang menarik ini boleh menjadi pembeza utama untuk pembangun dan perusahaan sensitif kos.
Impak Lebih Luas pada Ekosistem Kecerdasan Buatan
Pelancaran konsisten dan pantas DeepSeek—ini adalah pelancaran model kesembilan tahun ini—mencontohi pendekatan pembangunan kecerdasan buatan yang jelas terbuka dan tangkas, berbeza dengan kitaran pelancaran lebih perlahan dan berjaga-jaga makmal utama AS. Siri V3.2 mengukuhkan trend bahawa model sumber terbuka China bukan sekadar alternatif yang boleh dilaksanakan tetapi menjadi peneraju dalam inovasi algoritma, terutamanya dalam bidang seperti kecekapan model. Seperti yang diperhatikan oleh penganalisis, persaingan ini memberi manfaat kepada seluruh bidang dengan mendemokrasikan akses kepada keupayaan canggih dan mendorong semua pemain ke arah kecekapan dan utiliti yang lebih besar. Walaupun model "R2" yang dinanti-nantikan masih ditunggu, pelancaran V3.2 menjadikannya jelas bahawa DeepSeek adalah kuasa yang hebat dan berterusan, memastikan perlumbaan untuk keunggulan kecerdasan buatan pada 2026 akan menjadi lebih dinamik dan pelbagai dimensi berbanding sebelumnya.
