DeepSeek-V3.1 Menunjukkan Peningkatan Benchmark Yang Kukuh Tetapi Menghadapi Isu Format Alat dan Kebimbangan Harga

Pasukan Komuniti BigGo
DeepSeek-V3.1 Menunjukkan Peningkatan Benchmark Yang Kukuh Tetapi Menghadapi Isu Format Alat dan Kebimbangan Harga

DeepSeek telah mengeluarkan model AI terkininya, DeepSeek-V3.1, menandakan apa yang dipanggil oleh syarikat itu sebagai langkah pertama kami ke arah era ejen. Model penaakulan hibrid ini memperkenalkan kedua-dua mod berfikir dan tidak berfikir dalam satu sistem, menjanjikan pemprosesan yang lebih pantas dan keupayaan ejen yang lebih kuat. Walau bagaimanapun, pengalaman awal pengguna mendedahkan sambutan yang bercampur-campur, dengan peningkatan benchmark yang mengagumkan dibayangi oleh cabaran pelaksanaan praktikal.

Spesifikasi Model dan Kemas Kini

  • Model Asas: 840B token latihan berterusan untuk lanjutan konteks panjang
  • Ciri Baharu: Mod Hibrid Think/Non-Think melalui butang " DeepThink "
  • Sokongan API: Keserasian format API Anthropic
  • Panggilan Fungsi: Panggilan Fungsi Ketat dalam API Beta
  • Sumber Terbuka: Tersedia di Hugging Face (versi Asas dan Chat)
  • Tokenizer: Konfigurasi tokenizer yang dikemas kini dan templat sembang

Peningkatan Prestasi Yang Ketara Merentasi Benchmark Utama

Model baharu ini menunjukkan peningkatan yang besar merentasi pelbagai metrik penilaian. Pada ujian SWE-bench Verified, DeepSeek-V3.1 mencapai skor 66.0, mengatasi dengan ketara pendahulunya V3-0324 (45.4) dan model R1-0528 (44.6). Peningkatan ini meluas kepada tugasan pengekodan pelbagai bahasa dan operasi terminal, di mana model ini memperoleh skor 54.5 pada SWE-bench Multilingual dan 31.3 pada Terminal-Bench. Keputusan ini meletakkan model tersebut dalam kedudukan yang kompetitif di kalangan alternatif berat terbuka, walaupun perbincangan komuniti menyatakan ia masih ketinggalan di belakang model proprietari seperti GPT-5 dan Claude 4 pada benchmark tertentu.

Perbandingan Prestasi Penanda Aras DeepSeek-V3.1

Penanda Aras DeepSeek-V3.1 DeepSeek-V3-0324 DeepSeek-R1-0528
SWE-bench Verified 66.0 45.4 44.6
SWE-bench Multilingual 54.5 29.3 30.5
Terminal-Bench 31.3 13.3 5.7
Browsecomp 30.0 - 8.9
xbench-DeepSearch 71.2 - 55.0

Ketidakkonsistenan Format Alat Mewujudkan Cabaran Integrasi

Walaupun terdapat peningkatan prestasi, pembangun melaporkan isu keserasian yang mengecewakan dengan fungsi panggilan alat. Model ini secara tidak konsisten bertukar antara piawaian pemformatan yang berbeza, kadang-kadang menggunakan tag gaya XML dan pada masa lain menggunakan sistem pembatas tersuai dan bukannya format JSON standard. Ketidakbolehramalan ini memaksa pembangun untuk membina sokongan bagi pelbagai format dalam aplikasi mereka, mewujudkan kerumitan tambahan yang tidak diperlukan oleh model pesaing seperti Claude dan GPT-5.

Kadang-kadang ia akan secara rawak menghasilkan sesuatu seperti ini dalam badan teks... Menggesa ia untuk menggunakan format yang betul nampaknya tidak berkesan.

Gambaran Keseluruhan Keluaran API  DeepSeek-V31 , menyerlahkan kemas kini utama dan potensi cabaran integrasi alat
Gambaran Keseluruhan Keluaran API DeepSeek-V31 , menyerlahkan kemas kini utama dan potensi cabaran integrasi alat

Strategi Harga Menimbulkan Persoalan Kebolehcapaian

Struktur harga model ini telah mencetuskan perdebatan mengenai keberkesanan kos. Dengan kos input berkisar dari 0.07 dolar Amerika Syarikat setiap juta token untuk cache hit hingga 0.56 dolar Amerika Syarikat untuk cache miss, dan harga output pada 1.68 dolar Amerika Syarikat setiap juta token, sesetengah pengguna menyatakan kebimbangan mengenai kemampuan. Perubahan harga berkuat kuasa dari 5 September 2025, pada 16:00 UTC, memberikan masa kepada pengguna untuk menilai nisbah kos-faedah berbanding peningkatan prestasi.

Struktur Harga API (Berkuat kuasa 5 September 2025, 16:00 UTC)

  • Harga Input:
    • Cache hit: $0.07 USD / 1M token
    • Cache miss: $0.56 USD / 1M token
  • Harga Output: $1.68 USD / 1M token
  • Panjang Konteks: 128K token untuk kedua-dua mod
  • Titik Akhir API:
    • deepseek-chat → mod bukan berfikir
    • deepseek-reasoner → mod berfikir

Persaingan Daripada Model Alternatif

Perbincangan komuniti menyerlahkan persaingan yang kuat daripada keluaran terkini yang lain, terutamanya model Qwen3 235B 2507 Reasoning, yang disukai oleh sesetengah pengguna untuk senario penggunaan tempatan. Ketersediaan alternatif yang cekap yang boleh dijalankan pada perkakasan pengguna dengan 24-32GB RAM menyediakan pilihan yang menarik untuk pembangun yang mencari penyelesaian kos efektif tanpa bergantung pada perkhidmatan API.

Keluaran ini mewakili kemajuan teknikal yang ketara dalam keupayaan penaakulan AI, tetapi penggunaan praktikal mungkin bergantung pada penyelesaian isu integrasi alat dan menunjukkan nilai yang jelas pada tahap harga yang diumumkan. Seperti yang dinyatakan oleh seorang ahli komuniti, ujian dunia sebenar sering memberikan pandangan yang lebih baik daripada skor benchmark sahaja.

Rujukan: Keluaran DeepSeek-V3.1