Pelaksanaan Sumber Terbuka DeepSeek Mendedahkan Margin Keuntungan Besar dalam Pasaran Inferens AI

Pasukan Komuniti BigGo
Pelaksanaan Sumber Terbuka DeepSeek Mendedahkan Margin Keuntungan Besar dalam Pasaran Inferens AI

Pelaksanaan sumber terbuka baharu model bahasa besar DeepSeek telah mencetuskan perbincangan sengit mengenai kos sebenar inferens AI dan margin keuntungan yang berpotensi besar yang mungkin dinikmati oleh penyedia komersial. Pelaksanaan ini, yang dibina menggunakan SGLang pada 96 GPU H100 , mencapai prestasi yang hampir menyamai sistem rasmi DeepSeek sambil mendedahkan kos operasi yang jauh lebih rendah daripada apa yang dikenakan oleh kebanyakan penyedia kepada pelanggan.

Metrik Prestasi

  • Daya pemprosesan input: 52,300 token sesaat bagi setiap nod
  • Daya pemprosesan output: 22,300 token sesaat bagi setiap nod
  • Jumlah sistem: 96 H100 GPUs merentasi 12 nod
  • Panjang urutan input: 2,000 token
Slaid ini menggambarkan penggunaan model bahasa DeepSeek , mempamerkan seni binanya dan teknik canggih yang digunakan untuk prestasi optimum pada pelbagai GPU
Slaid ini menggambarkan penggunaan model bahasa DeepSeek , mempamerkan seni binanya dan teknik canggih yang digunakan untuk prestasi optimum pada pelbagai GPU

Analisis Kos Mendedahkan Jurang Harga Industri

Komuniti telah sibuk dengan pengiraan yang melukiskan gambaran yang menarik tentang perniagaan inferens AI. Pelaksanaan sumber terbuka ini beroperasi pada kira-kira 0.20 dolar Amerika Syarikat setiap juta token keluaran, iaitu kira-kira seperlima daripada kos API rasmi DeepSeek . Lebih mengejutkan ialah perbandingan dengan penyedia lain, di mana beberapa ahli komuniti mendapati kos pelaksanaan ini adalah 10 kali lebih murah daripada pilihan termurah yang tersedia di platform seperti OpenRouter .

Apabila pengguna meneliti matematik menggunakan harga awan, mereka mendapati bahawa walaupun mengambil kira kadar atas permintaan AWS untuk instance H100 , kos pengiraan sebenar adalah sekitar 2-4.70 dolar Amerika Syarikat setiap juta token. Walau bagaimanapun, pasukan menggunakan pengehosan Atlas Cloud pada 1.80 dolar Amerika Syarikat setiap H100 setiap jam, mengurangkan kos kepada kira-kira 0.92-2.15 dolar Amerika Syarikat setiap juta token. Ini menunjukkan bahawa penyedia AI utama mungkin beroperasi dengan margin yang besar.

GPU H100 ialah unit pemprosesan grafik mewah yang direka khusus untuk beban kerja AI dan tugas pembelajaran mesin.

Perbandingan Kos (setiap juta token keluaran)

  • Pelaksanaan sumber terbuka: $0.20 USD
  • API rasmi DeepSeek : ~$1.00 USD (5 kali lebih mahal)
  • Pilihan termurah OpenRouter : ~$2.00 USD (10 kali lebih mahal)
  • Kos yang dikira AWS H100 : $2.00-4.70 USD
  • Kos yang dikira Atlas Cloud : $0.92-2.15 USD
Carta bar ini membandingkan faedah prestasi Token-Based Optimization semasa fasa prefill dan decode, menonjolkan aspek kecekapan kos yang dibincangkan dalam artikel
Carta bar ini membandingkan faedah prestasi Token-Based Optimization semasa fasa prefill dan decode, menonjolkan aspek kecekapan kos yang dibincangkan dalam artikel

Cabaran Penggunaan Dunia Sebenar

Walaupun angka mentah kelihatan mengagumkan, pemerhati industri yang berpengalaman telah menunjukkan kaveat penting yang mempengaruhi keuntungan dunia sebenar. Cabaran terbesar ialah mencapai penggunaan GPU yang konsisten dalam persekitaran pengeluaran.

Penggunaan GPU adalah pada 10-20%. Sekarang, jika anda syarikat besar yang membelanjakan banyak wang untuk melatih model baharu, anda mungkin boleh memasukkan inferens RL atau latihan model untuk berlaku pada waktu luar puncak ini, memaksimumkan penggunaan.

Realiti menjalankan perkhidmatan inferens termasuk beberapa kos tersembunyi. Syarikat biasanya memerlukan kontrak GPU berbilang tahun dan bukannya harga atas permintaan, mesti merancang untuk penggunaan puncak yang boleh menjadi 2-3 kali lebih tinggi daripada purata, dan menghadapi sekatan wilayah yang menghalang pengimbangan beban global. Faktor-faktor ini boleh mengurangkan margin yang kelihatan besar itu dengan ketara.

Gambar rajah garis masa ini menggambarkan interaksi terperinci antara Prefill Server dan Decode Server , menonjolkan cabaran operasi dalam mencapai penggunaan GPU yang cekap dalam inferens AI
Gambar rajah garis masa ini menggambarkan interaksi terperinci antara Prefill Server dan Decode Server , menonjolkan cabaran operasi dalam mencapai penggunaan GPU yang cekap dalam inferens AI

Inovasi Teknikal Di Sebalik Prestasi

Pelaksanaan ini mencapai keputusan yang mengagumkan melalui beberapa inovasi utama. Pasukan memisahkan fasa prefill dan decode inferens model bahasa, membolehkan setiap satu dioptimumkan secara bebas. Mereka juga melaksanakan paralelisme pakar berskala besar untuk mengendalikan seni bina Mixture of Experts DeepSeek dengan cekap.

Sistem ini memproses 52,300 token input dan 22,300 token keluaran sesaat setiap nod, mewakili pelaksanaan sumber terbuka pertama yang hampir menyamai prestasi rasmi DeepSeek pada skala ini. Pencapaian ini memerlukan pengurusan memori yang canggih dan pengoptimuman komunikasi merentasi kluster 12-nod.

Prefill dan decode ialah dua fasa penjanaan teks AI - prefill memproses gesaan input, manakala decode menjana token baharu satu demi satu.

Seni Bina Teknikal

  • Pengasingan Prefill-Decode: Memisahkan fasa prefill yang intensif pengiraan daripada fasa decode yang intensif memori
  • Paralelisme Pakar (EP): Mengedarkan pemberat Mixture of Experts merentasi pelbagai peranti
  • Paralelisme Data (DP): Digunakan untuk lapisan perhatian, FFN padat, dan kepala LM
  • Integrasi DeepEP: Menyokong mod penghantaran biasa (prefill) dan penghantaran latensi rendah (decode)
  • Pemindahan RDMA: Menggunakan Remote Direct Memory Access untuk pemindahan data yang cekap antara nod

Implikasi Industri

Sifat sumber terbuka pelaksanaan ini boleh membentuk semula dinamik persaingan dalam pasaran inferens AI. Dengan menjadikan teknologi penyajian berprestasi tinggi tersedia secara percuma, ia menurunkan halangan untuk peserta baharu dan memberi tekanan kepada penyedia sedia ada untuk membenarkan harga mereka.

Walau bagaimanapun, kerumitan teknikal yang terlibat tidak boleh dipandang remeh. Berjaya menggunakan sistem sedemikian memerlukan kepakaran mendalam dalam pengkomputeran teragih, pengoptimuman GPU, dan pengurusan infrastruktur berskala besar. Bagi banyak organisasi, membayar kadar premium untuk perkhidmatan terurus mungkin masih masuk akal dari segi ekonomi walaupun terdapat perbezaan kos yang jelas.

Perbincangan telah menyerlahkan bagaimana pasaran inferens AI masih berkembang dengan pesat. Apabila pelaksanaan yang lebih cekap tersedia dan kos perkakasan terus berkembang, kita boleh menjangkakan tekanan berterusan pada harga merentasi industri.

Rujukan: Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs