Penilaian dunia sebenar oleh seorang pembangun terhadap 11 model bahasa besar menggunakan 130 pertanyaan peribadi telah mencetuskan perbincangan komuniti tentang apa yang benar-benar penting ketika memilih alat AI untuk kegunaan harian. Tidak seperti penanda aras akademik yang memberi tumpuan kepada tugas-tugas penaakulan yang kompleks, penilaian ini menguji model pada soalan-soalan praktikal mengenai pengaturcaraan, pentadbiran sistem, dan pengetahuan am.
Kategori Model yang Diuji:
- Pengaturcaraan: Skrip Bash, pengkodan Python
- Pentadbiran Sistem: Pemajuan port, konfigurasi rangkaian
- Penjelasan Teknikal: Konsep rangkaian pusat data
- Pengetahuan Am: Permintaan resipi, tugasan penulisan kreatif
![]() |
---|
Dokumen ini merumuskan penilaian LLM untuk kegunaan peribadi, menonjolkan kategori penting dan contoh yang dinilai dalam kajian ini |
Kelajuan Muncul sebagai Pembeza Utama
Penilaian mendapati bahawa Gemini 1.5 Flash milik Google secara konsisten memberikan respons terpantas merentasi semua kategori. Ahli komuniti telah menggemakan penemuan ini, dengan pengguna memuji gabungan kelajuan, keterjangkauan, dan keupayaan multimodal Flash . Keupayaan model untuk mengendalikan 1 juta token konteks sambil mengekalkan latensi rendah menjadikannya sangat menarik untuk tugas-tugas pemprosesan dokumen.
Beberapa pengguna melaporkan menjalankan berpuluh ribu pertanyaan melalui Flash untuk projek berskala besar, dengan seorang menyelesaikan tugas klasifikasi dokumen utama menggunakan 100,000 pertanyaan dalam masa lebih sedikit daripada sehari dengan kos kira-kira 30 euro. Ini menunjukkan nilai praktikal mengutamakan kelajuan dan kecekapan kos berbanding metrik prestasi teori.
Kedudukan Kelajuan (Terpantas hingga Terperlahan):
- Google Gemini 1.5 Flash (terpantas)
- Moonshot AI v1-0528
- OpenAI GPT-OSB-128k
- DeepSeek Chat v1-0528
- OpenAI GPT-3.5 Turbo
- OpenAI GPT-3.5 Turbo Thinking (terperlahan)
- Google Gemini 2.5 Pro (terperlahan)
Model Tertutup Berprestasi Rendah Walaupun Kos Lebih Tinggi
Mungkin penemuan paling mengejutkan ialah model tertutup yang mahal daripada penyedia utama tidak secara konsisten mengatasi alternatif yang lebih murah. Gemini 2.5 Pro milik Google dan Claude Sonnet 4.0 milik Anthropic menduduki tempat rendah dalam penilaian walaupun harga premium mereka. Ini bergema dengan ahli komuniti yang mempersoalkan sama ada perbezaan kos yang ketara membenarkan peningkatan marginal yang mungkin ditawarkan oleh model-model ini.
Penilaian juga menyerlahkan keperluan Know Your Customer baharu OpenAI untuk mengakses model terbaik mereka melalui API, yang didapati terlalu ketat oleh ramai pembangun untuk kegunaan kasual. Halangan ini telah mendorong pengguna ke arah platform alternatif dan penyelesaian sumber terbuka.
Kedudukan Kos (Termurah hingga Termahal):
- Moonshot AI v1-0528 (termurah)
- OpenAI GPT-OSB-128k
- DeepSeek Chat v1-0528
- Google Gemini 1.5 Flash
- Google Gemini 2.5 Pro (termahal)
- Anthropic Claude Sonnet 4.0 (termahal)
![]() |
---|
Carta bar ini menggambarkan jumlah kos yang berkaitan dengan model bahasa besar yang berbeza, menonjolkan implikasi kewangan penggunaan model tertutup |
Ciri Penaakulan Menunjukkan Nilai Terhad untuk Tugas Mudah
Kajian mendapati bahawa keupayaan penaakulan, walaupun mengagumkan untuk masalah kompleks seperti penulisan puisi, jarang membantu dengan soalan pengaturcaraan dan teknikal harian. Kebanyakan pengguna mengesahkan pemerhatian ini, menyatakan bahawa latensi tambahan daripada model penaakulan tidak berbaloi untuk pertanyaan rutin.
Walau bagaimanapun, beberapa ahli komuniti menegaskan bahawa keberkesanan penaakulan sangat bergantung pada cara soalan distrukturkan. Memecahkan tugas kompleks kepada soalan ya-atau-tidak yang mudah boleh meningkatkan kadar ketepatan secara dramatik daripada sekitar 50% kepada 85% untuk model asas yang sama.
Strategi Multi-Model yang Disyorkan:
- Pertanyaan pantas: DeepSeek Chat v3.1 (90% penggunaan harian)
- Pendapat kedua: Skrin terbelah dengan model pantas tambahan
- Penaakulan kompleks: Susunan tiga-panel dengan model berfikir termasuk Claude Sonnet untuk pengesahan
Strategi Pelbagai Model Mendapat Tarikan
Daripada memilih satu model terbaik, penilaian membawa kepada pendekatan menarik: menggunakan pelbagai model secara serentak untuk senario berbeza. Strategi ini melibatkan menjalankan pertanyaan pantas pada model yang cepat dan murah seperti DeepSeek Chat , kemudian berunding dengan model tambahan untuk pendapat kedua atau tugas penaakulan yang lebih kompleks.
Perbincangan komuniti mendedahkan pendekatan pelbagai model ini semakin popular, dengan platform seperti Perplexity dan Kagi menawarkan akses mudah kepada pelbagai model. Pengguna menghargai keupayaan untuk membandingkan respons dan memilih jawapan yang paling sesuai untuk keperluan khusus mereka.
Penekanan penilaian pada corak penggunaan dunia sebenar berbanding penanda aras sintetik telah menyentuh hati pembangun yang memerlukan alat AI praktikal dan bukannya keupayaan demo yang mengagumkan. Seperti yang dinyatakan oleh seorang ahli komuniti, kuncinya ialah membina gerak hati tentang jenis soalan yang berfungsi dengan baik dengan model berbeza, walaupun pengetahuan ini kekal sukar untuk dipindahkan antara pengguna.