Syarikat AI China MiniMax telah melancarkan apa yang didakwanya sebagai model penaakulan berskala besar bercampur-seni bina sumber terbuka yang pertama di dunia, berpotensi mengganggu ekonomi pembangunan kecerdasan buatan. Model M1 mewakili cabaran yang ketara kepada pemain yang telah mantap seperti OpenAI dan Anthropic , menjanjikan prestasi yang setanding pada kos yang berkurangan secara dramatik.
![]() |
---|
Perbandingan prestasi penanda aras MiniMax M1 berbanding model-model AI terkemuka lain |
Ekonomi Latihan yang Revolusioner
Dakwaan MiniMax yang paling menarik tertumpu pada kecekapan latihan. Syarikat itu melaporkan hanya membelanjakan 534,700 dolar Amerika untuk sumber pengkomputeran pusat data bagi melatih M1 , menggunakan 512 GPU H800 selama tiga minggu. Angka ini mewakili kira-kira 200 kali lebih rendah daripada anggaran kos latihan untuk GPT-4 OpenAI , yang dipercayai pakar industri melebihi 100 juta dolar Amerika . Jika disahkan, ekonomi ini boleh mengubah landskap persaingan untuk pembangunan AI secara asasnya, terutamanya memberi kesan kepada syarikat-syarikat yang banyak dibiayai yang telah melabur ratusan bilion dalam pembangunan model.
Spesifikasi Model MiniMax M1
- Parameter: 456 bilion jumlah keseluruhan, 45.9 bilion diaktifkan setiap token
- Seni Bina: Mixture-of-Experts (MoE) dengan Lightning Attention
- Tetingkap Konteks: 1 juta token input, 80,000 token output
- Kos Latihan: USD $534,700 (512 GPU H800, 3 minggu)
- Kecekapan Latihan: ~200x lebih murah daripada anggaran GPT-4
Spesifikasi Teknikal dan Seni Bina
Model M1 menampilkan 456 bilion parameter dengan seni bina campuran-pakar (MoE) yang mengaktifkan 45.9 bilion parameter setiap token. Keupayaan yang menonjol termasuk sokongan asli untuk input konteks 1 juta token, menyamai Gemini 2.5 Pro Google dan mewakili lapan kali ganda kapasiti DeepSeek-R1 . Model ini juga menyokong output penaakulan terpanjang industri sebanyak 80,000 token, didayakan oleh mekanisme Lightning Attention proprietari MiniMax .
Penanda Aras Prestasi dan Kedudukan Persaingan
Merentasi 17 set data penilaian standard industri, M1 menunjukkan kekuatan khusus dalam kejuruteraan perisian, pemprosesan konteks panjang, dan senario penggunaan alat. Dalam ujian SWE-bench Verified , MiniMax-M1-40k dan M1-80k mencapai skor masing-masing 55.6% dan 56.0%, sedikit ketinggalan daripada 57.6% DeepSeek-R1 tetapi mengatasi model sumber terbuka lain dengan ketara. Model ini cemerlang dalam penggunaan alat ejen, mengetuai semua model sumber terbuka dalam ujian industri penerbangan TAU-bench dan menyamai DeepSeek-R1 dalam senario runcit.
Perbandingan Penanda Aras Prestasi
Model | SWE-bench Verified | Tetingkap Konteks | Kos Latihan |
---|---|---|---|
MiniMax M1-40k | 55.6% | 1M token | USD $534,700 |
MiniMax M1-80k | 56.0% | 1M token | USD $534,700 |
DeepSeek-R1 | 57.6% | 64k token | Tidak didedahkan |
GPT-4 | Tidak dinyatakan | 200k token | >USD $100M (anggaran) |
Kelebihan Kecekapan Pengkomputeran
Mekanisme Lightning Attention menyediakan penjimatan pengkomputeran yang besar semasa inferens. Apabila menjana 80,000 token, M1 memerlukan hanya kira-kira 30% daripada sumber pengkomputeran yang diperlukan oleh DeepSeek-R1 . Kecekapan ini meluas kepada pemprosesan konteks panjang, di mana M1 menggunakan hanya 25% daripada operasi titik terapung yang diperlukan oleh model pesaing untuk tugas penjanaan 100,000-token.
Strategi Harga dan Akses Pasaran
MiniMax menawarkan M1 melalui struktur harga berperingkat yang mengatasi pesaing dalam segmen tertentu. Untuk panjang input 0-32k, syarikat mengenakan 0.8 yuan China setiap juta token input dan 8 yuan China setiap juta token output. Peringkat 32k-128k berharga masing-masing 1.2 yuan China dan 16 yuan China , manakala peringkat premium 128k-1M mengenakan 2.4 yuan China dan 24 yuan China setiap juta token. Model ini kekal percuma untuk penggunaan tanpa had melalui aplikasi dan platform web MiniMax .
Struktur Harga API MiniMax M1
Panjang Input | Harga Input | Harga Output |
---|---|---|
0-32k token | CNY ¥0.8/M token | CNY ¥8/M token |
32k-128k token | CNY ¥1.2/M token | CNY ¥16/M token |
128k-1M token | CNY ¥2.4/M token | CNY ¥24/M token |
Akses percuma tanpa had tersedia melalui aplikasi dan platform web MiniMax
![]() |
---|
Struktur harga untuk model penjanaan teks MiniMax M1 |
Inovasi Teknikal dan Metodologi Latihan
MiniMax membangunkan algoritma CISPO (Clipped Importance Sampling Policy Optimization) , yang didakwa syarikat itu menumpu dua kali lebih cepat daripada pendekatan pembelajaran pengukuhan pesaing termasuk DAPO ByteDance dan GRPO DeepSeek . Kemajuan algoritma ini, digabungkan dengan reka bentuk seni bina bercampur, membolehkan proses latihan yang sangat cekap yang melebihi jangkaan awal syarikat sebanyak satu urutan magnitud.
Pertimbangan Geopolitik dan Keselamatan
Seperti model AI China yang lain, M1 menghadapi penelitian mengenai privasi data dan penapisan kandungan. Model ini mematuhi keperluan penapisan kerajaan China, berpotensi menghasilkan respons yang selaras dengan kedudukan Parti Komunis China mengenai topik sensitif. Apabila diuji pada soalan mengenai buruh paksa Uyghur di Xinjiang , model itu menafikan amalan sedemikian wujud, menyerlahkan kekangan geopolitik yang mempengaruhi pembangunan AI China.
Kesan Pasaran dan Respons Industri
Pengumuman ini mengikuti corak syarikat AI China yang mencabar andaian Barat mengenai kos pembangunan, serupa dengan keluaran R1 DeepSeek yang menyebabkan saham Nvidia jatuh 17% dalam sehari. Walau bagaimanapun, kesan pasaran M1 masih belum dapat dilihat, kerana pengesahan bebas terhadap dakwaan prestasi MiniMax masih belum selesai. Jadual pengumuman lima hari syarikat itu menunjukkan perkembangan tambahan akan datang, berpotensi menguatkan tekanan persaingan ke atas penyedia AI yang mantap.