Analisis kos terperinci bagi operasi inferens AI telah mencetuskan perdebatan hangat dalam komuniti teknologi, mencabar kepercayaan meluas bahawa syarikat seperti OpenAI dan Anthropic sedang kehilangan wang pada setiap permintaan pengguna. Analisis tersebut mencadangkan bahawa kos pengkomputeran mentah untuk menjalankan model AI mungkin jauh lebih rendah daripada yang biasa diandaikan, berpotensi membentuk semula pemahaman kita tentang ekonomi AI.
![]() |
---|
Meneroka daya maju kewangan operasi inferens AI untuk syarikat seperti OpenAI dan Anthropic |
Matematik Di Sebalik Kos Inferens AI
Analisis ini memecahkan inferens kepada dua fasa berbeza yang mempunyai struktur kos yang sangat berbeza. Pemprosesan input, di mana model menggunakan sejumlah besar teks atau konteks, beroperasi pada kos marginal hampir sifar disebabkan keupayaan pemprosesan selari. Penjanaan output, bagaimanapun, memerlukan penciptaan token berurutan dan membawa kos yang jauh lebih tinggi - kira-kira 1,000 kali lebih mahal setiap token berbanding pemprosesan input.
Menggunakan harga sewa GPU H100 semasa sebanyak 2 dolar Amerika per jam sebagai garis dasar, pengiraan mencadangkan token input berharga kira-kira 0.003 dolar Amerika per juta token, manakala token output berharga sekitar 3.08 dolar Amerika per juta token. Asimetri besar ini menjelaskan mengapa aplikasi AI tertentu berpotensi sangat menguntungkan sementara yang lain bergelut dengan ekonomi unit.
GPU H100 adalah unit pemprosesan grafik mewah yang direka khusus untuk beban kerja AI, menampilkan keupayaan memori dan pemprosesan khusus.
Perbandingan Kos bagi Sejuta Token:
- Token input: ~$0.003 USD (pemprosesan selari)
- Token output: ~$3.08 USD (penjanaan berurutan)
- Nisbah kos: ~perbezaan 1,000x antara input dan output
Penolakan Komuniti Terhadap Angka-Angka
Analisis ini telah menarik kritikan ketara daripada pemerhati industri yang mempersoalkan andaian asasnya. Beberapa pengulas menunjukkan bahawa pengiraan nampaknya berdasarkan model R1 DeepSeek, yang terkenal dengan kecekapan luar biasa berbanding model hadapan lain. Pengkritik berpendapat ini mewujudkan gambaran yang terlalu optimistik yang tidak mencerminkan kos sebenar yang dihadapi oleh syarikat AI utama.
Selain itu, asas matematik telah mendapat penelitian. Seorang pengkaji teknikal menyatakan bahawa pengiraan token input nampaknya tersalah dengan faktor sekurang-kurangnya 1,000, mencadangkan kos sebenar mungkin jauh lebih tinggi daripada anggaran. Analisis juga mengandaikan penggunaan perkakasan yang sempurna sepanjang masa, yang jarang berlaku dalam operasi dunia sebenar.
Gajah Kos Latihan Dalam Bilik
Mungkin aspek paling kontroversial dalam perbincangan ini berpusat pada kos apa yang patut disertakan ketika menilai keuntungan AI. Analisis asal memfokuskan semata-mata pada kos inferens, sengaja mengecualikan perbelanjaan besar yang berkaitan dengan melatih model baharu. Pendekatan ini telah menarik perbandingan dengan amalan perakaunan yang boleh dipersoalkan, dengan pengkritik berpendapat ia seperti menilai keuntungan bangunan pangsapuri sambil mengabaikan bayaran gadai janji.
Walau bagaimanapun, penyokong analisis berpendapat bahawa memisahkan kos inferens daripada pelaburan latihan memberikan pandangan berharga tentang ekonomi unit. Mereka berpendapat bahawa memahami sama ada perkhidmatan AI boleh beroperasi dengan menguntungkan berdasarkan setiap permintaan adalah penting untuk menilai daya maju jangka panjang, walaupun syarikat sedang kehilangan wang secara keseluruhan disebabkan perbelanjaan penyelidikan dan pembangunan.
Bukti Dunia Sebenar Menunjukkan Kedua-Dua Belah
Perdebatan ini rumit oleh kenyataan bercanggah daripada pemimpin industri. Ketua Pegawai Eksekutif OpenAI Sam Altman baru-baru ini mendakwa syarikat akan menguntungkan jika bukan kerana kos latihan, mencadangkan operasi inferens sememangnya menguntungkan. Walau bagaimanapun, beliau juga mengakui bahawa pelanggan OpenAI Pro menyebabkan kerugian kerana mereka menggunakan perkhidmatan jauh lebih daripada yang dijangkakan.
Sementara itu, kewujudan banyak penyedia API yang menawarkan perkhidmatan AI pada harga yang sangat rendah menyokong hujah bahawa kos inferens mungkin boleh diuruskan. Sesetengah penyedia menawarkan model tertentu secara percuma sepenuhnya, yang mustahil jika kos asas terlalu tinggi.
Analisis Pelan Langganan:
- ChatGPT Plus ($20 USD/bulan): Anggaran kos sebenar $3 USD (markup 5-6x)
- Claude Code Max 5 ($100 USD/bulan): Anggaran kos sebenar $4.92 USD (markup 20.3x)
- Claude Code Max 10 ($200 USD/bulan): Anggaran kos sebenar $16.89 USD (markup 11.8x)
Implikasi Untuk Industri AI
Jika analisis terbukti tepat, ia boleh mengubah secara asas cara kita melihat kemampanan kewangan industri AI. Naratif semasa tentang pembakaran tunai yang tidak mampan mungkin berlebihan, terutamanya untuk aplikasi yang menggunakan sejumlah besar konteks input sambil menghasilkan output minimum - tepat corak yang dilihat dalam pembantu pengekodan dan alat analisis dokumen.
Walau bagaimanapun, analisis juga menyerlahkan mengapa aplikasi AI tertentu kekal mahal. Penjanaan video, yang memerlukan menghasilkan output besar daripada input minimum, menghadapi ekonomi kejam di bawah struktur kos ini. Ini menjelaskan penetapan harga premium dan had penggunaan yang kita lihat dalam perkhidmatan video AI hari ini.
Perdebatan berterusan mencerminkan ketidakpastian yang lebih luas tentang ekonomi AI ketika industri matang. Walaupun kos inferens mungkin lebih boleh diuruskan daripada yang dikhuatiri, pelaburan besar yang diperlukan untuk melatih model kompetitif terus mewujudkan tekanan kewangan di seluruh sektor.
Rujukan: Are OpenAI and Anthropic Really Losing Money on Inference?