Ejen AI Gagal Teruk dalam Kerja Freelance, Hanya Peroleh USD 1,810 dalam Ujian Penanda Aras

Pasukan Editorial BigGo

Ejen AI Gagal Teruk dalam Kerja Freelance, Hanya Peroleh USD 1,810 dalam Ujian Penanda Aras

Semasa spekulasi tentang kecerdasan buatan menggantikan pekerja manusia mencapai kemuncaknya, satu penanda aras baharu memberikan semakan realiti yang menyedarkan. Indeks Buruh Jarak Jauh, yang dibangunkan oleh Scale AI dan Pusat Keselamatan AI, mendedahkan bahawa walaupun ejen AI paling maju bergelut secara dramatik dengan tugasan pelbagai langkah yang kompleks yang mentakrifkan kerja freelance moden, sekaligus mencabar ramalan optimis tentang automasi tenaga kerja yang akan tiba.

Indeks Buruh Jarak Jauh Menguji AI

Penyelidik mencipta penanda aras komprehensif dengan menjana tugasan freelance dunia sebenar melalui pekerja Upwork yang disahkan, merangkumi reka bentuk grafik, suntingan video, pembangunan permainan, dan kerja pentadbiran seperti pengikisan data. Setiap tugasan termasuk penerangan kerja, fail yang diperlukan, dan contoh kerja yang disiapkan oleh manusia. Metodologi ini memberikan simulasi realistik ekonomi freelance, menguji keupayaan AI untuk mengendalikan kerja yang bernilai ekonomi melampaui tugasan pengaturcaraan atau penaakulan mudah.

Kategori Tugas yang Diuji: Reka bentuk produk, reka bentuk grafik, pembangunan permainan, pengeluaran audio/video, operasi, pemasaran, analisis data, penyelidikan, penulisan, dan kerja pentadbiran

Prestasi Jauh Lebih Rendah Daripada Jangkaan

Keputusan yang diperoleh adalah sangat lemah merentas semua sistem AI yang diuji. Malah ejen AI paling berkebolehan, Manus dari syarikat permulaan China dengan nama yang sama, hanya dapat menyelesaikan 2.5-3% daripada kerja yang tersedia. Dari segi kewangan, AI yang berprestasi terbaik hanya memperoleh USD 1,810 daripada potensi USD 143,991. Mengikut kedudukan selepas Manus ialah Grok dari xAI, Claude dari Anthropic, ChatGPT dari OpenAI, dan Gemini dari Google, kesemuanya menunjukkan batasan yang sama dalam automasi kerja praktikal.

Kedudukan Prestasi Ejen AI pada Indeks Buruh Jauh:

Manus (startup China) - Pencapaian terbaik
Grok (xAI)
Claude (Anthropic)
ChatGPT (OpenAI)
Gemini (Google)

Mengapa AI Bergelut dengan Tugasan Dunia Sebenar

Menurut Dan Hendrycks, pengarah CAIS, batasan asas berpunca daripada ketidakupayaan AI untuk menggunakan pelbagai alat dengan berkesan dan melaksanakan tugasan kompleks yang pelbagai langkah. Mereka tidak mempunyai penyimpanan memori jangka panjang dan tidak boleh melakukan pembelajaran berterusan daripada pengalaman. Mereka tidak boleh mempelajari kemahiran semasa bekerja seperti manusia, jelasnya. Walaupun model AI telah membuat kemajuan ketara dalam pengaturcaraan, matematik, dan penaakulan logik, keupayaan ini tidak diterjemahkan dengan baik kepada keperluan dinamik kerja freelance yang melibatkan kreativiti, integrasi alat, dan penyelesaian masalah adaptif.

Mencabar Ramalan Automasi Terlalu Optimis

Penemuan ini mempersembahkan kontras yang nyata berbanding penanda aras lain, seperti GDPval dari OpenAI, yang mencadangkan model AI hadapan menghampiri keupayaan manusia merentas 220 tugasan pejabat. Indeks Buruh Jarak Jauh menawarkan perspektif yang lebih berpijak di bumi, mencadangkan bahawa walaupun AI cemerlang dalam domain tertentu, penggantian pekerjaan menyeluruh masih jauh. Ini mencabar ramalan terkini, termasuk cadangan CEO Anthropic Dario Amodei bahawa 90% kerja pengaturcaraan akan diautomasikan dalam tempoh beberapa bulan.

Kesan Tren Pekerjaan Dunia Sebenar

Walaupun terdapat batasan semasa AI, teknologi ini sudah mula mempengaruhi keputusan pekerjaan. Amazon baru-baru ini mengumumkan pemotongan 14,000 pekerjaan, sebahagiannya mengaitkan langkah itu dengan potensi transformasi AI generatif. Beth Galetti, naib presiden kanan Amazon, memanggil generasi AI ini sebagai teknologi paling transformatif yang kami lihat sejak Internet. Walau bagaimanapun, jika Indeks Buruh Jarak Jauh tepat, AI tidak akan mengisi peranan yang dikosongkan ini dalam masa terdekat.

Prestasi Kewangan: AI berprestasi terbaik memperoleh USD 1,810 daripada potensi USD 143,991 (kira-kira kadar kejayaan 1.3%)

Masa Depan Lebih Bernuansa untuk AI dan Kerja

Penyelidikan ini mencadangkan bahawa peranan jangka pendek AI mungkin sebagai alat produktiviti dan bukannya pekerja pengganti. Bing Liu, pengarah penyelidikan di Scale AI, menyatakan bahawa ramai pekerja freelance juga berkemungkinan menggunakan AI sebagai alat untuk meningkatkan produktiviti mereka. Ini selaras dengan corak sejarah di mana teknologi baharu meningkatkan keupayaan manusia dan bukannya menggantikannya serta-merta. Penanda aras ini memberikan semakan realiti yang berharga terhadap kedua-dua ketakutan penggantian pekerjaan distopia dan jangka masa automasi yang terlalu optimis, mencadangkan bahawa kolaborasi manusia-AI mewakili jalan yang paling mungkin ke hadapan dalam ekonomi freelance.