MiMo-7B Xiaomi Mencabar Model Lebih Besar dengan Keupayaan Penaakulan yang Mengagumkan

BigGo Editorial Team
MiMo-7B Xiaomi Mencabar Model Lebih Besar dengan Keupayaan Penaakulan yang Mengagumkan

Xiaomi telah memasuki arena AI dengan MiMo-7B, satu siri model bahasa baharu yang menunjukkan keupayaan penaakulan luar biasa walaupun dengan saiz parameter yang agak kecil. Model ini, yang memfokuskan pada tugasan matematik dan pengkodan, telah menjana minat yang ketara dalam komuniti pembangun kerana prestasi penanda aras yang mengagumkan yang setanding dengan model yang jauh lebih besar.

Tangkapan skrin repositori GitHub untuk Xiaomi MiMo, yang memperincikan pembangunan dan ketersediaan sumber terbukanya
Tangkapan skrin repositori GitHub untuk Xiaomi MiMo, yang memperincikan pembangunan dan ketersediaan sumber terbukanya

Model Asas yang Dicipta untuk Penaakulan

MiMo-7B menonjol dengan pendekatannya dalam pembangunan model, yang memfokuskan pada keupayaan penaakulan dari awal dan bukannya hanya melalui latihan selepas pembangunan. Pasukan Xiaomi mengoptimumkan proses pra-latihan dengan kit alatan pengekstrakan data yang dipertingkatkan dan penapisan pelbagai dimensi untuk meningkatkan kepadatan corak penaakulan. Model asas ini telah melalui pra-latihan dengan kira-kira 25 trilion token—skala yang setanding dengan Llama 4 Maverick dari Meta, yang menggunakan 22 trilion token. Korpus latihan yang besar ini mewakili pelaburan yang signifikan dalam sumber pengkomputeran yang biasanya dikaitkan dengan syarikat teknologi yang jauh lebih besar.

Ini adalah pendekatan yang menarik - bukan model yang didistilasi atau lapisan RL untuk mendapatkan penaakulan dari model lain, tetapi model RL dari awal dengan penaakulan yang telah disepadukan; dakwaan tersebut menunjukkan anda mendapat banyak kecekapan tambahan bagi setiap parameter dengan melakukan ini.

Mencabar Model Lebih Besar dengan Penanda Aras yang Mengagumkan

Komuniti telah menyatakan kedua-dua keseronokan dan keraguan tentang keputusan penanda aras MiMo-7B. Model ini dilaporkan mengatasi banyak model yang lebih besar, termasuk beberapa model parameter 32B, terutamanya dalam tugasan pengkodan. Seorang pengguna menyatakan bahawa prestasi MiMo-7B pada penanda aras pengkodan (57.8) hampir menyamai Gemini Pro 2.5 (67.8) dan Gemini 2.5 Flash (60.6). Tahap prestasi ini dari model 7B adalah luar biasa, menyebabkan sesetengah pihak mempersoalkan sama ada model ini mungkin terlalu dioptimumkan untuk ujian penanda aras—satu kritikan biasa dalam landskap AI semasa di mana banyak model dilatih pada set data penanda aras.

Inovasi Latihan untuk Kod dan Matematik

Pendekatan Xiaomi terhadap pembelajaran pengukuhan untuk penjanaan kod telah menarik minat khusus. Pasukan tersebut telah mengumpulkan 130,000 masalah matematik dan kod yang boleh disahkan oleh sistem berasaskan peraturan. Khusus untuk masalah pengkodan, mereka melaksanakan sistem ganjaran berdasarkan kesukaran ujian yang memberikan skor terperinci berdasarkan kerumitan kes ujian, menyediakan pengoptimuman yang lebih berkesan melalui isyarat ganjaran yang padat. Enjin Pelaksanaan Lancar mereka mempercepatkan latihan dan pengesahan RL dengan mengintegrasikan pelaksanaan berterusan, pengiraan ganjaran tak segerak, dan penamatan awal, yang dilaporkan mencapai latihan lebih dari 2 kali lebih cepat.

Gambaran Keseluruhan Model-model MiMo-7B

Model Penerangan Pautan
MiMo-7B-Base Model asas dengan potensi penaakulan HuggingFace
MiMo-7B-RL-Zero Model RL yang dilatih dari model asas HuggingFace
MiMo-7B-SFT Model SFT yang dilatih dari model asas HuggingFace
MiMo-7B-RL Model RL yang dilatih dari model SFT HuggingFace

Ciri-ciri Teknikal Utama:

  • Pra-latihan pada kira-kira 25 trilion token
  • Menggabungkan Ramalan Pelbagai-Token sebagai objektif latihan tambahan
  • Menggunakan sistem ganjaran kod berdasarkan kesukaran ujian
  • Melaksanakan strategi pensampelan semula data untuk kecekapan latihan
  • Dibangunkan dengan "Seamless Rollout Engine" untuk latihan 2.295× lebih pantas

Kebangkitan Model Tempatan

Prestasi mengagumkan MiMo-7B menambah kepada trend model yang lebih kecil dan boleh dijalankan secara tempatan yang semakin berkemampuan. Ahli komuniti telah menyatakan bahawa kualiti model yang lebih kecil telah meningkat secara berterusan, menjadikannya alternatif yang berdaya maju kepada perkhidmatan berasaskan awan untuk banyak tugasan harian. Perkembangan ini mempunyai implikasi penting untuk privasi, kos, dan kebolehcapaian—membolehkan pembangun membina aplikasi tanpa bergantung pada panggilan API kepada perkhidmatan proprietari.

Pertimbangan Pelbagai Bahasa

Satu perbincangan menarik muncul mengenai pilihan Xiaomi untuk melancarkan model yang mahir dalam bahasa Inggeris walaupun ia adalah syarikat China. Ahli komuniti menunjukkan bahawa bahasa Inggeris mendominasi kandungan internet (43% data Common Crawl), menjadikannya pilihan praktikal untuk data latihan. Tambahan pula, komuniti penyelidikan saintifik dan penanda aras AI kebanyakannya menggunakan bahasa Inggeris, menjadikannya pilihan logik untuk pembangunan model tanpa mengira asal usul syarikat. Sesetengah pengguna menyatakan bahawa kandungan internet China lebih sukar untuk dirayap kerana ekosistem tertutup yang dikawal oleh syarikat-syarikat besar, menimbulkan cabaran tambahan untuk melatih model yang mengutamakan bahasa Cina.

Pemberat Terbuka dan Kebolehcapaian

Xiaomi telah menjadikan siri MiMo-7B sebagai sumber terbuka, termasuk titik semak untuk model asas, model SFT (Supervised Fine-Tuning), dan dua model RL (Reinforcement Learning). Komuniti telah mula menukar model ini kepada format yang lebih mudah diakses seperti GGUF untuk digunakan dengan alat seperti Ollama dan LM Studio, memperluaskan jangkauannya kepada pembangun yang ingin menjalankannya secara tempatan. Langkah ini sejajar dengan trend yang semakin berkembang untuk menjadikan model AI lebih mudah diakses kepada pembangun dan penyelidik di luar syarikat teknologi utama.

Seiring dengan peningkatan keupayaan model yang lebih kecil sambil kekal cukup cekap untuk dijalankan secara tempatan, kita mungkin akan melihat perubahan dalam cara AI digunakan dalam aplikasi harian. MiMo-7B mewakili satu lagi langkah ke arah AI yang berkuasa dan mudah diakses yang tidak memerlukan sumber pengkomputeran yang besar atau pergantungan pada awan.

Rujukan: Xiaomi MiMo