OpenAI telah mereka bentuk semula secara asas cara pengguna berinteraksi dengan keupayaan suara ChatGPT, menghapuskan keperluan untuk bertukar antara antara muka berasingan. Kemas kini terkini, yang dilancarkan pada 25 November 2025, menggabungkan perbualan suara dan teks ke dalam tetingkap sembang tunggal yang bersepadu, menandakan satu langkah penting ke arah interaksi manusia-AI yang lebih semula jadi. Perubahan ini menangani salah satu rungutan pengguna yang paling berterusan mengenai mod suara sebelumnya sambil memperkenalkan keupayaan visual masa nyata baharu yang boleh mengubah cara orang menggunakan AI perbualan dalam kehidupan seharian mereka.
Pengalaman Perbualan yang Lancar
Penambahbaikan paling ketara yang akan pengguna perhatikan ialah penghapusan antara muka "mod orb" berasingan yang sebelum ini menempatkan perbualan suara. Daripada dipindahkan ke skrin yang dipenuhi dengan orb animasi, pengguna kini hanya perlu mengetik ikon bentuk gelombang di sebelah medan input teks untuk mula bercakap secara langsung dalam sembang sedia ada mereka. Integrasi ini bermakna respons muncul sebagai teks secara masa nyata sementara AI secara serentak menyuarakannya, mewujudkan pengalaman yang lebih lancar. Keupayaan untuk melihat transkrip sambil mendengar membolehkan pengguna merujuk maklumat yang mungkin mereka terlepas secara pendengaran dengan pantas, menangani batasan utama reka bentuk sebelumnya di mana pengguna perlu keluar dari mod suara sepenuhnya untuk membaca pertukaran sebelumnya.
Key Features of the Updated ChatGPT Voice Mode:
- Integrated Interface: Voice conversations now occur within the main chat window instead of a separate screen
- Real-time Transcripts: Text appears simultaneously with audio responses
- Visual Support: Displays maps, images, and other visuals during voice conversations
- Cross-platform Availability: Available on both mobile apps and web interface
- Flexible Settings: Option to revert to separate voice mode interface remains available
- Privacy Controls: Users can opt out of audio recording for model training
Keupayaan Visual Dipertingkat dan Maklumat Masa Nyata
Selain daripada perubahan antara muka, OpenAI telah melengkapkan ChatGPT dengan kebolehan baharu untuk memaparkan maklumat visual semasa perbualan suara. AI kini boleh menunjukkan peta, kemas kini cuaca, imej, dan visual relevan lain secara langsung dalam tetingkap sembang semasa ia membalas pertanyaan suara. Walau bagaimanapun, ujian awal mendedahkan beberapa ketidakselarasan dalam cara unsur visual ini muncul. Walaupun fungsi cuaca berfungsi dengan boleh dipercayai, ciri peta kadangkala memberikan pautan ke arah laluan bukannya memaparkan peta interaktif dalam antara muka sembang. Menariknya, fungsi peta berfungsi seperti yang ditunjukkan apabila menggunakan arahan tepat yang ditunjukkan dalam bahan promosi OpenAI, mencadangkan ciri itu mungkin masih dilancarkan sepenuhnya atau memerlukan frasa tertentu untuk diaktifkan dengan betul.
Comparison with Competing Voice AI Features:
| Feature | ChatGPT Voice | Gemini Live |
|---|---|---|
| Interface | Integrated in main chat | Separate full-screen mode |
| Transcript Display | Real-time in chat | Available via transcript button |
| Visual Elements | Maps, images, weather | Limited visual support |
| Session Management | Manual end required | Automatic timeouts |
| Platform Availability | Mobile & Web | Primarily mobile |
Pilihan Kawalan dan Penyesuaian Pengguna
Dengan menyedari bahawa tidak semua pengguna akan menggemari pendekatan bersepadu, OpenAI telah mengekalkan pilihan untuk kembali ke antara muka berasingan sebelumnya. Dalam apl mudah alih ChatGPT, pengguna boleh mendayakan "Mod Berasingan" melalui tetapan Suara, manakala pengguna web boleh mencari pilihan yang sama di bawah tetapan Penyesuaian dan Lanjutan dalam keutamaan mereka. Syarikat itu juga terus menawarkan kawalan privasi yang membolehkan pengguna menghalang rakaman audio mereka daripada digunakan untuk melatih model AI. Ini boleh diuruskan melalui Kawalan Data dalam tetapan, di mana pengguna boleh menogol "Sertakan rakaman audio anda" untuk mengekalkan privasi mereka sambil masih menggunakan ciri suara.
How to Access Voice Mode Settings:
Mobile App:
- Open ChatGPT app → Tap customize icon (top-left) → Select your name → Voice settings
Web Interface:
- Open ChatGPT → Settings → Personalization → Advanced → Voice settings
Privacy Controls:
- Settings → Data Controls → Toggle off "Include your audio recordings"
Landskap Persaingan dan Penerimaan Pengguna
Kemas kini ini meletakkan ChatGPT lebih kompetitif berbanding pesaing seperti Google Gemini, yang lama menawarkan paparan transkrip semasa perbualan suara melalui ciri Gemini Live. Integrasi ini mungkin membantu membalikkan apa yang kelihatan sebagai penggunaan mod suara ChatGPT yang semakin menurun sejak keseronokan pelancaran awalnya pudar. Dengan menjadikan interaksi suara lebih mudah diakses dan disepadukan dengan perbualan berasaskan teks, OpenAI mungkin berharap dapat menggalakkan penggunaan perintah suara yang lebih kerap, yang seterusnya menyediakan data latihan yang berharga untuk menambah baik model mereka. Keupayaan untuk bertukar antara bercakap dan menaip dengan lancar dalam perbualan yang sama menjadikan ciri ini lebih praktikal untuk dialog lanjutan dan pertanyaan kompleks yang mungkin mendapat manfaat daripada kedua-dua kaedah input.
Pertimbangan Praktikal dan Ruang untuk Penambahbaikan
Walaupun mod suara yang dikemas kini mewakili satu langkah penting ke hadapan, pengguna harus sedar bahawa ciri itu terus mendengar sehingga dinyahaktifkan secara manual dengan mengetik butang "Tamat". Ini boleh membawa kepada interaksi yang tidak diingini, seperti yang ditunjukkan apabila AI tersilap mentafsir perbualan latar belakang tentang membuat teh sebagai kesinambungan sesi suara. Ketiadaan ciri tamat masa automatik bermakna pengguna mesti kekal waspada untuk menamatkan sesi suara mereka, satu batasan yang tidak dikongsi oleh perkhidmatan pesaing seperti Gemini Live. Memandangkan interaksi suara menjadi lebih bersepadu ke dalam kes penggunaan harian—dari perjalanan harian ke memasak—kekurangan ini boleh menjadi mengecewakan bagi pengguna biasa yang mengharapkan pengurusan sesi yang lebih intuitif.
Masa Depan Antara Muka AI Perbualan
Keputusan OpenAI untuk menyepadukan suara secara langsung ke dalam antara muka sembang utama mencerminkan trend yang lebih luas ke arah mewujudkan interaksi AI multimodal yang lebih semula jadi. Dengan menggabungkan teks, pertuturan, dan unsur visual dalam satu perbualan berterusan, syarikat itu bergerak lebih dekat untuk mencipta semula cara manusia berkomunikasi secara semula jadi—bertukar dengan lancar antara mod ekspresi yang berbeza. Pendekatan ini bukan sahaja menjadikan teknologi lebih mudah diakses oleh pengguna yang lebih gemar bercakap berbanding menaip, tetapi juga mewujudkan pemahaman kontekstual yang lebih kaya untuk AI itu sendiri. Apabila antara muka ini terus berkembang, kita boleh menjangkakan integrasi yang lebih ketat antara mod interaksi yang berbeza, berpotensi termasuk gerak isyarat, penjejakan mata, dan input deria lain yang membuatkan perbualan AI terasa semakin manusiawi.
