AI Gemini 3 Google Capai Skor Keselamatan Sempurna Sambil Merevolusikan Keupayaan Agen

Pasukan Editorial BigGo
AI Gemini 3 Google Capai Skor Keselamatan Sempurna Sambil Merevolusikan Keupayaan Agen

Model AI terkini Google, Gemini 3, telah mencapai kemajuan ketara dalam kedua-dua keupayaan dan keselamatan, menandakan satu titik perubahan yang berpotensi untuk pelaksanaan kecerdasan buatan. Sistem yang baru dikeluarkan ini mempamerkan fungsi agen yang belum pernah berlaku sebelum ini sambil menjadi AI utama pertama yang mencapai skor sempurna dalam ujian keselamatan kesihatan mental yang kritikal, menangani kebimbangan yang semakin meningkat tentang peranan AI dalam perbualan sensitif.

Prestasi Terobosan dalam Keselamatan Kesihatan Mental

Gemini 3 Google telah mencapai apa yang tidak pernah dicapai oleh mana-mana model AI utama lain—skor sempurna 100% dalam ujian CARE (Crisis Assessment and Response Evaluator), satu penanda aras yang direka untuk menilai bagaimana sistem AI mengendalikan senario krisis membahayakan diri dan kesihatan mental. Pencapaian bersejarah ini datang pada waktu yang amat penting apabila kira-kira 700,000 hingga 800,000 orang setiap hari berinteraksi dengan pembantu AI mengenai kebimbangan kesihatan mental, menurut statistik penggunaan ChatGPT sendiri. Ujian CARE menilai model berdasarkan keupayaan mereka untuk mengelakkan nasihat berbahaya, mengakui kesusahan, menyediakan bahasa sokongan yang sesuai, dan menggalakkan pengguna mendapatkan bantuan profesional. Model sebelumnya, termasuk GPT-4o, Claude, dan Llama Meta, semuanya memperoleh skor di bawah 40% dalam penilaian yang sama, dengan Grok X.ai menunjukkan prestasi paling teruk dalam kalangan model bahasa moden.

CARE Test Results for Major AI Models:

  • Gemini 3: 100% (perfect score)
  • GPT-4o: Below 40%
  • Claude: Below 40%
  • Llama: Below 40%
  • Grok: Lowest score among modern LLMs

Keupayaan Agen Revolusioner Muncul

Selain daripada penambahbaikan keselamatan, Gemini 3 mewakili apa yang pakar panggil sebagai "lonjakan besar" dalam fungsi agen—keupayaan untuk melaksanakan aliran kerja kompleks secara autonomi dan bukan hanya menyediakan maklumat. Penyelidik AI Ethan Mollick menunjukkan bagaimana model baru ini boleh beralih daripada menerangkan konsep kepada membinanya sebenarnya, mencipta aplikasi berfungsi berdasarkan arahan Bahasa Inggeris yang mudah. Dalam satu contoh ketara, bukannya hanya menulis tentang senario yang melibatkan gula-gula dan seekor memerang, Gemini 3 membina satu permainan interaktif yang lengkap untuk menunjukkan konsep tersebut. Evolusi ini daripada AI deskriptif kepada konstruktif mewakili satu anjakan asas dalam cara manusia boleh bekerjasama dengan kecerdasan buatan dalam projek kreatif dan teknikal.

Key Capability Advancements:

  • First perfect score on mental health safety benchmark
  • Advanced agentic functionality for autonomous task execution
  • Superior multimodal understanding (video, text, code)
  • Built-in planning and approval request systems
  • Task inbox for collaborative project management

Pemahaman dan Perancangan Pelbagai Modal Lanjutan

Demis Hassabis dari DeepMind telah menggambarkan Gemini 3 sebagai "model terbaik di dunia untuk pemahaman pelbagai modal," menekankan keupayaan penambahbaikannya dengan video dan format kompleks lain. Sistem ini mempamerkan kebolehan perancangan yang canggih, mengetahui bila untuk meneruskan secara autonomi dan bila untuk mendapatkan kelulusan manusia bagi keputusan kritikal. Pengguna melaporkan bahawa Gemini 3 mempunyai peti masuk tugas di mana ia menghubungi kolaborator manusia secara proaktif tentang potensi halangan dalam projek, berfungsi lebih sebagai "rakan kongsi berfikir dan bertindak" daripada sekadar alat. Keupayaan perancangan ini membolehkan model mengendalikan segala-galanya daripada tugas pengaturcaraan kepada pengurusan fail dan analisis tanpa memerlukan kepakaran teknikal daripada pengguna.

Paradigma Pendorongan Baru untuk Interaksi Lebih Baik

Google telah mengeluarkan panduan pengguna terkini yang mengubah asas bagaimana orang harus berinteraksi dengan Gemini 3. Berbeza dengan amalan kejuruteraan dorongan sebelumnya yang menekankan arahan terperinci, model baru ini memberi tindak balas terbaik kepada arahan ringkas dan langsung. Syarikat itu menasihati pengguna untuk mengelakkan teknik kejuruteraan dorongan yang berjela-jela atau terlalu kompleks yang digunakan untuk model lama, kerana Gemini 3 mungkin terlebih menganalisis pendekatan sedemikian. Untuk mengendalikan set data yang besar, Google mengesyorkan meletakkan arahan khusus selepas konteks data dan mengikat soalan dengan frasa seperti "Berdasarkan maklumat di atas..." untuk mengoptimumkan keupayaan penaakulan model.

Gemini 3 Prompting Guidelines:

  • Be concise and direct; avoid verbose prompt engineering
  • For conversational tone, explicitly request "friendly, talkative assistant" personality
  • Place specific instructions after data context for large datasets
  • Use anchoring phrases like "Based on the information above..."

Implikasi untuk Keselamatan dan Pembangunan AI

Skor ujian CARE yang sempurna menunjukkan bahawa keselamatan AI dalam konteks kesihatan mental boleh dicapai dengan tumpuan pembangunan yang betul. Sean Dadashi, pengasas bersama Rosebud dan pencipta ujian CARE, menyatakan bahawa model sebelumnya cenderung kepada sikap suka menyembah—bersetuju dan mematuhi pengguna daripada memberikan panduan yang sesuai. Ujian ini kini sedang dijadikan sumber terbuka untuk membolehkan sumbangan dan penapisan komuniti yang lebih luas, terutamanya untuk menangani perbualan berbilang pusingan yang lebih kompleks yang lebih menggambarkan senario dunia sebenar. Perkembangan ini berlaku di tengah-tengah kebimbangan yang semakin meningkat tentang peranan AI dalam kesihatan mental, ditonjolkan oleh kes tragis seperti remaja Adam Raine, yang didakwa membangunkan kebergantungan psikologi terhadap sistem AI sebelum kematiannya.

Masa Depan Kolaborasi Manusia-AI

Apabila Gemini 3 mula digunakan pada peranti tepi, gabungan protokol keselamatan lanjutan dan keupayaan autonominya mencadangkan era baru perkongsian manusia-AI. Keupayaan model untuk berfungsi sebagai rakan kongsi kolaboratif dan bukan hanya alat mempunyai implikasi yang signifikan untuk kerja pengetahuan, projek kreatif, dan tugas pengkomputeran harian. Dengan ketua arkitek AI Google Koray Kavukcuoglu menyatakan bahawa Gemini telah "menetapkan kadar yang agak baru" dalam kedua-dua pembangunan dan pelaksanaan model, kemajuan pesat ini mencadangkan sistem agen yang lebih canggih mungkin tidak lama lagi menjadi perkara biasa dalam persekitaran digital dan fizikal melalui integrasi robotik.