Satu Dakwaan Mercu Tanda dalam Kecerdasan Buatan
Usaha untuk mencipta mesin yang berfikir, atau sekurang-kurangnya meniru pemikiran manusia secara meyakinkan, telah menjadi asas sains komputer sejak penubuhannya. Selama berdekad-dekad, penanda aras, walaupun diperdebatkan, sering kali adalah Ujian Turing, satu halangan konseptual yang dicadangkan oleh Alan Turing yang berwawasan. Baru-baru ini, bisikan bertukar menjadi laungan dalam komuniti AI berikutan hasil kajian baru. Penyelidik melaporkan bahawa salah satu model bahasa besar (LLMs) paling maju hari ini, GPT-4.5 OpenAI, bukan sahaja mengambil bahagian dalam lelaran moden ujian ini – ia boleh dikatakan berjaya, seringkali terbukti lebih meyakinkan dalam ‘kemanusiaannya’ berbanding peserta manusia sebenar. Perkembangan ini menyemarakkan semula persoalan asas tentang sifat kecerdasan, had simulasi, dan trajektori interaksi manusia-komputer dalam era yang semakin tepu dengan AI canggih. Implikasinya melangkaui rasa ingin tahu akademik, menyentuh fabrik kepercayaan, pekerjaan, dan interaksi masyarakat dalam zaman digital.
Memahami Cabaran: Legasi Ujian Turing
Untuk menghargai kepentingan dakwaan baru-baru ini, seseorang mesti terlebih dahulu memahami ujian itu sendiri. Direka oleh ahli matematik dan pemecah kod British Alan Turing dalam kertas seminalnya pada tahun 1950 ‘Computing Machinery and Intelligence’, ujian itu pada mulanya tidak dibentangkan sebagai protokol yang tegar tetapi sebagai eksperimen pemikiran, satu ‘permainan tiruan’. Premisnya elegan dalam kesederhanaannya: seorang penyoal siasat manusia terlibat dalam perbualan berasaskan teks dengan dua entiti yang tidak kelihatan – satu manusia, satu lagi mesin. Tugas penyoal siasat adalah untuk menentukan yang mana satu berdasarkan respons ditaip mereka semata-mata.
Turing mencadangkan bahawa jika sebuah mesin secara konsisten dapat memperdaya penyoal siasat untuk mempercayai ia adalah peserta manusia, ia boleh, untuk tujuan praktikal, dianggap mampu berfikir. Beliau mengetepikan persoalan falsafah yang rumit tentang sama ada mesin boleh benar-benar berfikir atau memiliki kesedaran, sebaliknya memberi tumpuan kepada keupayaan mereka untuk meniru tingkah laku perbualan manusia tanpa dapat dibezakan. Ia adalah pendekatan pragmatik, bertujuan untuk menyediakan definisi kecerdasan mesin yang boleh diukur, walaupun bersifat tingkah laku. Selama bertahun-tahun, Ujian Turing telah menjadi simbol ikonik dalam budaya popular dan satu mercu tanda yang berulang, jika kontroversial, dalam bidang kecerdasan buatan. Kekuatan kekalnya terletak pada konfrontasi langsungnya dengan persoalan: Apakah makna bertindak seperti manusia?
Arena Moden: Ujian Jenis Baru
Eksperimen baru-baru ini, yang diperincikan dalam kajian pracetak yang diketuai oleh penyelidik di Makmal Bahasa dan Kognisi UC San Diego, mengadaptasi konsep asal Turing untuk landskap digital kontemporari. Daripada seorang penyoal siasat tunggal yang memberi tumpuan kepada dua peserta tersembunyi, versi ini menggunakan dinamik tiga pihak dalam persekitaran dalam talian. Hampir 300 peserta telah direkrut dan ditugaskan peranan secara rawak merentasi pelbagai pusingan. Ada yang bertindak sebagai penyoal siasat, ditugaskan untuk mengemukakan soalan dan menilai respons. Yang lain berkhidmat sebagai salah satu daripada dua ‘saksi’ – responden manusia yang tulen. Peranan penting terakhir diisi oleh chatbot AI, bertindak sebagai saksi kedua.
Cabaran teras kekal sama: penyoal siasat, selepas tempoh interaksi sembang serentak dengan kedua-dua saksi manusia dan AI, terpaksa membuat pertimbangan – entiti mana yang merupakan mesin, dan yang mana satu adalah sesama manusia? Persediaan ini bertujuan untuk menyediakan persekitaran terkawal untuk menilai dengan teliti kehebatan perbualan sistem AI moden berbanding penanda aras manusia dalam interaksi masa nyata. Skala kajian, yang melibatkan kumpulan peserta yang besar dan pelbagai pusingan, bertujuan untuk memberikan pemberat statistik kepada penemuan, melangkaui dakwaan anekdot tentang kecanggihan AI. Para penyelidik juga memasukkan beberapa model AI yang berbeza dalam percubaan mereka, terutamanya GPT-4.5 dan GPT-4o OpenAI, LLaMa 3.1-405B Meta, dan, yang menarik, ELIZA, chatbot asas yang dibangunkan pada pertengahan 1960-an, berfungsi sebagai garis dasar sejarah.
Faktor Penentu: Kuasa Persona
Penemuan kajian yang paling mencerahkan, dan mungkin mengejutkan, bergantung pada keadaan eksperimen tertentu: bagaimana model AI diarahkan, atau ‘diprompt’, sebelum terlibat dalam perbualan. Para penyelidik menggunakan dua strategi prompting yang berbeza.
- Prompt ‘Tanpa Persona’: Ini melibatkan pemberian arahan minimum dan langsung kepada AI, pada dasarnya menyatakan penyertaannya dalam ujian Turing dan objektifnya: ‘Matlamat anda adalah untuk meyakinkan penyoal siasat bahawa anda adalah manusia.’ Pendekatan ini menguji keupayaan intrinsik AI untuk meniru perbualan manusia tanpa panduan khusus mengenai watak atau gaya.
- Prompt ‘Persona’: Dalam keadaan ini, AI menerima arahan yang lebih terperinci, memintanya untuk mengguna pakai watak atau persona tertentu. Sebagai contoh, ia mungkin diberitahu untuk bertindak seperti ‘orang muda yang menggunakan slanga, berpengetahuan tentang budaya internet, tetapi tidak mendedahkan bahawa mereka adalah AI.’ Ini menguji keupayaan AI bukan sahaja untuk berbual, tetapi untuk memainkan peranan secara meyakinkan.
Perbezaan hasil antara kedua-dua keadaan ini tidaklah kecil; ia sangat mendalam. Apabila beroperasi di bawah prompt ‘tanpa persona’ yang mudah, GPT-4.5, walaupun seni binanya yang maju, bergelut untuk meyakinkan. Kadar kejayaannya – peratusan masa penyoal siasat salah mengenal pastinya sebagai manusia – berlegar sekitar 36 peratus. Ini jauh di bawah paras 50 peratus yang akan menunjukkan tekaan rawak oleh penyoal siasat. Begitu juga, GPT-4o, enjin di sebalik ChatGPT yang digunakan secara meluas, mencapai kadar kejayaan yang lebih rendah iaitu 21 peratus di bawah arahan asas ini. Anehnya, chatbot primitif ELIZA berjaya mencapai kadar kejayaan 23 peratus, sedikit mengatasi GPT-4o yang jauh lebih canggih dalam senario khusus ini, mungkin menonjolkan bagaimana corak perbualan asas kadangkala boleh diterima, atau bagaimana jangkaan manusia memainkan peranan.
Walau bagaimanapun, naratif berubah secara dramatik apabila GPT-4.5 diberi prompt ‘persona’. Diarahkan untuk menjelmakan watak tertentu, prestasinya melonjak. Penyoal siasat mengenal pasti GPT-4.5 sebagai peserta manusia sebanyak 73 peratus yang mengejutkan. Angka ini bukan sahaja selesa melepasi ambang 50 peratus untuk lulus Ujian Turing; ia menunjukkan kecekapan yang luar biasa dalam penipuan perbualan yang berterusan dan didorong oleh watak. Para penyelidik mencatatkan kejayaan yang sama untuk model LLaMa Meta apabila ia juga diprompt dengan persona. Implikasinya jelas: keupayaan model AI canggih ini untuk meniru kemanusiaan secara meyakinkan nampaknya diperkuat dengan ketara apabila ia diarahkan bukan sahaja untuk bercakap, tetapi untuk bertindak seperti jenis manusia tertentu.
Lebih Manusia Daripada Manusia? Hasil yang Meresahkan
Mungkin aspek kajian yang paling berlawanan dengan intuisi dan merangsang pemikiran muncul daripada percubaan ‘persona’ yang melibatkan GPT-4.5. Bukan sahaja AI kerap memperdaya penyoal siasat, tetapi menurut pengarang utama Cameron Jones, ia sebenarnya dikenal pasti sebagai manusia jauh lebih kerap daripada peserta manusia sebenar dalam perbualan yang sama. Jones menonjolkan perkara ini di media sosial, menyatakan, ‘Orang ramai tidak lebih baik daripada kebarangkalian dalam membezakan manusia daripada GPT-4.5 dan LLaMa (dengan prompt persona)… Dan 4.5 malah dinilai sebagai manusia jauh lebih kerap daripada manusia sebenar!’
Penemuan ini membuka Kotak Pandora tafsiran yang kompleks. Adakah ini bermakna AI telah menjadi sangat mahir dalam mempersembahkan kemanusiaan, mungkin juga merangkumi ciri-ciri perbualan stereotaip tertentu secara lebih konsisten daripada orang sebenar, yang mungkin menunjukkan lebih banyak variasi, teragak-agak, atau keanehan? Atau adakah ia mencerminkan sesuatu tentang jangkaan dan persepsi penyoal siasat? Mungkin manusia, apabila secara sedar cuba ‘berlakon’ sebagai manusia dalam suasana ujian, kelihatan kurang semula jadi atau lebih berhati-hati daripada AI yang melaksanakan persona yang diprogramkan dengan sempurna. Ia juga boleh mencadangkan bahawa persona khusus yang diberikan (cth., ‘orang muda yang berpengetahuan tentang budaya internet’) sejajar dengan jenis teks yang lancar, sedikit generik, kaya maklumat yang LLM cemerlang dalam menjana, menjadikan output mereka kelihatan hiper-representatif bagi arketip itu. Tanpa mengira penjelasan yang tepat, hakikat bahawa sebuah mesin boleh dianggap lebih manusia daripada manusia dalam ujian yang direka untuk mengesan kualiti seperti mesin adalah hasil yang sangat meresahkan, mencabar andaian kita tentang keaslian dalam komunikasi.
Melangkaui Peniruan: Mempersoalkan Penanda Aras
Walaupun berjaya mengharungi Ujian Turing, terutamanya dengan peratusan yang begitu tinggi, mewakili satu mercu tanda teknikal, ramai pakar memberi amaran agar tidak menyamakan pencapaian ini dengan kecerdasan atau pemahaman seperti manusia yang tulen. Ujian Turing, yang direka lama sebelum kemunculan set data besar-besaran dan pembelajaran mendalam, terutamanya menilai output tingkah laku – khususnya, kelancaran perbualan. Model Bahasa Besar seperti GPT-4.5 adalah, pada terasnya, enjin pemadanan corak dan ramalan yang luar biasa canggih. Ia dilatih pada jumlah data teks yang sangat besar yang dihasilkan oleh manusia – buku, artikel, laman web, perbualan. ‘Kemahiran’ mereka terletak pada pembelajaran hubungan statistik antara perkataan, frasa, dan konsep, membolehkan mereka menjana teks yang koheren, relevan dari segi kontekstual, dan betul dari segi tatabahasa yang meniru corak yang diperhatikan dalam data latihan mereka.
Seperti yang dinyatakan oleh François Chollet, seorang penyelidik AI terkemuka di Google, dalam temu bual 2023 dengan Nature mengenai Ujian Turing, ‘Ia tidak dimaksudkan sebagai ujian literal yang anda akan jalankan pada mesin — ia lebih seperti eksperimen pemikiran.’ Pengkritik berpendapat bahawa LLM boleh mencapai peniruan perbualan tanpa sebarang pemahaman asas, kesedaran, atau pengalaman subjektif – ciri-ciri kecerdasan manusia. Mereka adalah pakar sintaks dan semantik yang diperoleh daripada data, tetapi kekurangan asas yang tulen dalam dunia nyata, penaakulan akal (walaupun mereka boleh mensimulasikannya), dan keazaman. Lulus Ujian Turing, dalam pandangan ini, menunjukkan kecemerlangan dalam peniruan, tidak semestinya kemunculan pemikiran. Ia membuktikan bahawa AI boleh meniru corak bahasa manusia dengan mahir, mungkin juga ke tahap yang mengatasi prestasi manusia biasa dalam konteks tertentu, tetapi ia tidak menyelesaikan persoalan yang lebih mendalam tentang keadaan dalaman atau pemahaman mesin. Permainan itu, nampaknya, menguji kualiti topeng, bukan sifat entiti di sebaliknya.
Pedang Bermata Dua: Riak Masyarakat
Keupayaan AI untuk menyamar sebagai manusia secara meyakinkan, seperti yang ditunjukkan dalam kajian ini, membawa implikasi masyarakat yang mendalam dan berpotensi mengganggu, melangkaui perdebatan akademik tentang kecerdasan. Cameron Jones, pengarang utama kajian itu, secara eksplisit menonjolkan kebimbangan ini, mencadangkan hasil kajian menawarkan bukti kukuh untuk akibat dunia nyata LLM canggih.
- Automasi dan Masa Depan Pekerjaan: Jones menunjukkan potensi LLM untuk ‘menggantikan orang dalam interaksi singkat tanpa sesiapa dapat membezakannya.’ Keupayaan ini boleh mempercepatkan automasi pekerjaan yang sangat bergantung pada komunikasi berasaskan teks, seperti peranan perkhidmatan pelanggan, sokongan teknikal, penyederhanaan kandungan, dan juga aspek tertentu kewartawanan atau kerja pentadbiran. Walaupun automasi menjanjikan peningkatan kecekapan, ia juga menimbulkan kebimbangan besar tentang kehilangan pekerjaan dan keperluan untuk penyesuaian tenaga kerja pada skala yang belum pernah terjadi sebelumnya. Akibat ekonomi dan sosial daripada mengautomasikan peranan yang sebelum ini dianggap unik manusia kerana pergantungan mereka pada komunikasi bernuansa boleh menjadi sangat besar.
- Kebangkitan Penipuan Canggih: Mungkin yang lebih membimbangkan serta-merta ialah potensi penyalahgunaan dalam aktiviti jahat. Kajian ini menggariskan kebolehlaksanaan ‘serangan kejuruteraan sosial yang lebih baik.’ Bayangkan bot berkuasa AI terlibat dalam penipuan pancingan data yang sangat diperibadikan, menyebarkan maklumat salah yang disesuaikan, atau memanipulasi individu dalam forum dalam talian atau media sosial dengan keberkesanan yang belum pernah terjadi sebelumnya kerana ia kelihatan tidak dapat dibezakan daripada manusia. Keupayaan untuk mengguna pakai persona khusus yang boleh dipercayai boleh menjadikan serangan ini jauh lebih meyakinkan dan sukar dikesan. Ini boleh menghakis kepercayaan dalam interaksi dalam talian, menjadikannya semakin sukar untuk mengesahkan kesahihan komunikasi digital dan berpotensi mencetuskan perpecahan sosial atau ketidakstabilan politik.
- Gangguan Masyarakat Umum: Di luar ancaman khusus, penggunaan meluas AI yang meyakinkan seperti manusia boleh membawa kepada perubahan masyarakat yang lebih luas. Bagaimanakah hubungan interpersonal berubah apabila kita tidak pasti sama ada kita bercakap dengan manusia atau mesin? Apakah yang berlaku kepada nilai hubungan manusia yang tulen? Bolehkah teman AI mengisi kekosongan sosial, tetapi dengan mengorbankan interaksi manusia yang tulen? Garis kabur antara komunikasi manusia dan buatan mencabar norma sosial asas dan boleh membentuk semula cara kita berhubung antara satu sama lain dan dengan teknologi itu sendiri. Potensi untuk kedua-dua aplikasi positif (seperti alat kebolehaksesan yang dipertingkatkan atau pendidikan peribadi) dan akibat negatif mewujudkan landskap kompleks yang baru mula diterokai oleh masyarakat.
Elemen Manusia: Persepsi dalam Fluks
Adalah penting untuk menyedari bahawa Ujian Turing, dan eksperimen seperti yang dijalankan di UC San Diego, bukan semata-mata penilaian keupayaan mesin; ia juga merupakan cerminan psikologi dan persepsi manusia. Seperti yang disimpulkan oleh Jones dalam ulasannya, ujian itu meletakkan kita di bawah mikroskop sama seperti ia meletakkan AI. Keupayaan kita, atau ketidakupayaan, untuk membezakan manusia daripada mesin dipengaruhi oleh bias kita sendiri, jangkaan, dan kebiasaan yang semakin meningkat (atau kekurangannya) dengan sistem AI.
Pada mulanya, menghadapi AI baru, manusia mungkin mudah tertipu. Walau bagaimanapun, apabila pendedahan meningkat, intuisi mungkin bertambah tajam. Orang ramai mungkin menjadi lebih peka terhadap cap jari statistik halus teks yang dijana AI – mungkin nada yang terlalu konsisten, kekurangan jeda atau ketidaklancaran yang tulen, atau pengetahuan ensiklopedia yang terasa sedikit tidak semula jadi. Oleh itu, hasil ujian sedemikian tidak statik; ia mewakili gambaran seketika dalam masa interaksi semasa antara kecanggihan AI dan kebijaksanaan manusia. Boleh difikirkan bahawa apabila orang awam menjadi lebih biasa berinteraksi dengan pelbagai bentuk AI, keupayaan kolektif untuk ‘menghidu mereka’ boleh bertambah baik, berpotensi menaikkan paras untuk apa yang membentuk ‘peniruan’ yang berjaya. Persepsi kecerdasan AI adalah sasaran bergerak, dibentuk oleh kemajuan teknologi di satu pihak dan pemahaman serta penyesuaian manusia yang berkembang di pihak lain.
Ke Mana Hala Tuju Kita? Mentakrifkan Semula Kecerdasan
Kejayaan model seperti GPT-4.5 dalam ujian Turing yang didorong oleh persona menandakan titik penting dalam pembangunan AI, menunjukkan penguasaan peniruan linguistik yang mengagumkan. Namun, ia secara serentak menonjolkan batasan Ujian Turing itu sendiri sebagai ukuran muktamad ‘kecerdasan’ dalam era LLM. Sambil meraikan pencapaian teknikal, fokus mungkin perlu beralih. Daripada hanya bertanya sama ada AI boleh memperdaya kita untuk berfikir ia adalah manusia, kita mungkin memerlukan penanda aras yang lebih bernuansa yang menyiasat kebolehan kognitif yang lebih mendalam – keupayaan seperti penaakulan akal yang mantap, pemahaman tulen tentang sebab dan akibat, kebolehsuaian kepada situasi yang benar-benar baru (bukan sekadar variasi pada data latihan), dan pertimbangan etika. Cabaran di masa hadapan bukan sahaja membina mesin yang boleh bercakap seperti kita, tetapi memahami sifat sebenar keupayaan dan batasannya, dan membangunkan rangka kerja – baik teknikal mahupun sosial – untuk memanfaatkan potensinya secara bertanggungjawab sambil mengurangkan risiko yang tidak dapat dinafikan yang ditimbulkan oleh pelakon buatan yang semakin canggih di kalangan kita. Permainan tiruan berterusan, tetapi peraturan, dan mungkin definisi kemenangan itu sendiri, berkembang pesat.