Google Mendedahkan Visi Bercita-tinggi untuk Gemini 2.5: Daripada Pembantu AI kepada 'Model Dunia'

Pasukan Editorial BigGo

Google Mendedahkan Visi Bercita-tinggi untuk Gemini 2.5: Daripada Pembantu AI kepada 'Model Dunia'

Aspirasi kecerdasan buatan Google berkembang secara dramatik apabila syarikat itu mendedahkan strategi jangka panjang untuk Gemini, meletakkannya untuk berkembang melebihi pembantu AI biasa kepada apa yang mereka panggil sebagai model dunia. Ini mewakili perubahan ketara dalam cara Google menggambarkan peranan AI dalam kehidupan seharian kita, dengan keupayaan yang boleh mengubah secara asas bagaimana kita berinteraksi dengan teknologi.

Aspirasi AI Universal Google

Ketua Pegawai Eksekutif Google DeepMind, Demis Hassabis telah menggariskan visi yang bercita-tinggi untuk Gemini, bertujuan untuk mengubahnya menjadi AI universal yang mampu memahami dan mensimulasikan aspek-aspek dunia. Pendekatan model dunia ini akan membolehkan Gemini membuat perancangan, membayangkan pengalaman baharu, dan mengambil tindakan yang sesuai dengan konteks bagi pihak pengguna merentasi pelbagai peranti. Hassabis membuat perbandingan antara keupayaan ini dengan kognisi manusia, mencadangkan bahawa Gemini sedang dibangunkan untuk berfikir dan menaakul dengan cara yang lebih menyerupai kecerdasan manusia. Syarikat itu melaporkan telah melihat tanda-tanda awal pemahaman dunia ini dalam interaksi Gemini dengan persekitaran semula jadi.

Peningkatan Gemini 2.5 Flash dan Deep Think

Di jantung kemajuan AI Google ialah Gemini 2.5, yang menerima peningkatan ketara. Model 2.5 Flash yang baharu, yang digambarkan oleh Google sebagai versi paling berkuasa setakat ini, memberikan penanda aras yang lebih baik untuk penaakulan dan multimodaliti sambil meningkatkan kecekapan dalam pemprosesan kod dan pengendalian konteks yang panjang. Peningkatan ini disediakan kepada semua pengguna Gemini melalui aplikasi, serta kepada pengguna perusahaan melalui Vertex AI dan pembangun melalui Google AI Studio.

Selain itu, Google memperkenalkan mod penaakulan baharu yang dipanggil Deep Think, direka untuk mendorong Gemini 2.5 Pro untuk mempertimbangkan pelbagai hipotesis sebelum memberikan respons. Ciri ini kini sedang menjalani ujian menyeluruh, termasuk penilaian keselamatan frontier dan perundingan pakar, sebelum pelepasan yang lebih luas dirancang. Keupayaan pemikiran ini juga akan datang ke Live API, meningkatkan keupayaan Gemini untuk menangani tugas-tugas kompleks.

Kemaskini Utama Gemini 2.5:

2.5 Flash: Penaakulan yang dipertingkatkan, multimodaliti, pemprosesan kod, dan pengendalian konteks panjang
Deep Think: Mod penaakulan baharu untuk mempertimbangkan pelbagai hipotesis (sedang dalam pengujian)
Kawalan output audio natif: Penyesuaian nada, aksen, dan gaya pertuturan
Ciri audio eksperimental: Dialog Afektif dan Audio Proaktif
Perlindungan keselamatan yang dipertingkatkan terhadap serangan suntikan arahan


Penambahbaikan Gemini AI dipaparkan pada Samsung Galaxy S25 Ultra, mencerminkan integrasi ciri-ciri canggih

Integrasi Projek: Mariner dan Astra

Strategi Google melibatkan integrasi dua projek utama ke dalam Gemini untuk mencapai visi model dunianya. Projek Mariner, yang pertama kali didedahkan pada Disember, telah berkembang untuk mengendalikan sehingga sepuluh tugas serentak. Ejen-ejennya boleh menyelidik maklumat, menempah acara, dan meneroka topik secara serentak, membawa keupayaan multitasking yang berkuasa yang dilihat oleh Google sebagai penting untuk evolusi Gemini.

Projek Astra, yang diumumkan untuk integrasi dengan Gemini pada Mac, menyumbang pemahaman video, perkongsian skrin, dan fungsi memori. Google telah menggabungkan maklum balas daripada pelaksanaan Astra dalam Gemini Live untuk meningkatkan pengalaman merentasi Gemini Live, Search, dan Live API. Gabungan multitasking Mariner dan pemahaman visual Astra mewakili langkah penting ke arah matlamat AI universal Google.

Integrasi Projek:

Projek Mariner: Keupayaan berbilang tugas (mengendalikan sehingga 10 tugas serentak)
Projek Astra: Pemahaman video, perkongsian skrin, dan fungsi memori
Sokongan MCP (Model Context Protocol) untuk integrasi alat sumber terbuka yang lebih mudah

Ciri Audio dan Keselamatan yang Dipertingkatkan

Gemini 2.5 juga mendapat kawalan output audio asli, membolehkan pembangun untuk menyesuaikan cara AI bercakap dengan mengubah nada, aksen, dan gaya pertuturannya. Kemas kini ini membawa ciri-ciri eksperimen termasuk Dialog Afektif, yang membolehkan Gemini mengesan emosi dalam suara pengguna dan bertindak balas dengan sewajarnya, dan Audio Proaktif, yang membantu Gemini mengabaikan suara latar belakang sambil menunggu masa yang sesuai untuk bertindak balas.

Dari segi keselamatan, Google memperkukuh Gemini 2.5 dengan perlindungan yang dipertingkatkan terhadap arahan yang disematkan secara berniat jahat dan serangan suntikan arahan tidak langsung, menangani kebimbangan yang semakin meningkat mengenai kelemahan AI.

Alat dan Sokongan Pembangun

Menyedari kepentingan ekosistem pembangun, Google menyediakan ringkasan berwawasan untuk membantu pembangun memahami proses pemikiran dan tindakan Gemini, memudahkan proses nyahpepijat. Ciri kawalan kos melalui bajet pemikiran akan datang ke Gemini 2.5 Pro dalam beberapa minggu akan datang, bersama dengan model yang tersedia secara umum.

Selain itu, Gemini 2.5 menambah sokongan Model Context Protocol (MCP), memudahkan integrasi alat sumber terbuka ke dalam projek Gemini. Google telah menunjukkan bahawa ia sedang meneroka pelayan MCP dan alat hos tambahan untuk terus menyokong komuniti pembangun.

Ketika Google terus memajukan keupayaan Gemini, syarikat itu kelihatan mengimbangi inovasi pesat dengan ujian berhati-hati dan penilaian keselamatan, terutamanya untuk ciri-ciri yang lebih canggih seperti Deep Think. Pendekatan ini mencerminkan taruhan tinggi dalam perlumbaan AI, di mana Google berusaha untuk mengekalkan kelebihan kompetitifnya sambil menangani kebimbangan mengenai keselamatan dan tanggungjawab AI.