Ujian Imitasi: Adakah AI Kuasai Perbualan Manusia?

Usaha untuk mencipta mesin yang mampu berfikir, atau sekurang-kurangnya berbual, seperti manusia adalah cita-cita lama dalam bidang kecerdasan buatan (AI). Selama berdekad-dekad, penanda arasnya, walaupun diperdebatkan, sering kali adalah Ujian Turing, yang diilhamkan oleh ahli matematik genius Alan Turing pada pertengahan abad ke-20. Premisnya mudah tetapi mendalam: bolehkah sebuah mesin berinteraksi dengan penyoal siasat manusia dengan begitu meyakinkan sehingga hakim tidak dapat membezakannya secara pasti daripada manusia lain? Perkembangan terkini menunjukkan bahawa beberapa model bahasa besar (LLM) yang paling canggih mungkin telah mencapai, atau mungkin juga melepasi, pencapaian menarik ini, mendorong perbincangan semula tentang sifat kecerdasan, peniruan, dan trajektori masa depan AI.

Menetapkan Pentas: Pusingan Baru Cabaran Perbualan

Satu kajian yang muncul dari University of California San Diego telah membawa persoalan ini kembali menjadi fokus utama. Penyelidik Cameron R. Jones dan Benjamin K. Bergen mereka bentuk versi kontemporari Ujian Turing untuk menilai kehebatan perbualan sistem AI terkini. Eksperimen mereka mengadu peserta manusia menentang beberapa model AI, termasuk GPT-4.5 yang sangat dihormati dari OpenAI dan LLaMa-3.1-405B yang hebat dari Meta. Persediaan melibatkan seorang hakim manusia yang terlibat dalam perbualan berasaskan teks selama lima minit secara serentak – satu dengan peserta manusia tersembunyi dan satu lagi dengan model AI tersembunyi. Selepas interaksi ringkas ini, tugas hakim adalah mudah: kenal pasti rakan perbualan mana yang merupakan mesin dan mana yang merupakan manusia.

Hasilnya, terutamanya untuk model yang digesa untuk mengguna pakai persona tertentu, sangat menakjubkan.

  • Prestasi GPT-4.5: Apabila diarahkan untuk berkelakuan seperti manusia, GPT-4.5 dilaporkan berjaya menipu para hakim sebanyak 73%. Angka ini signifikan kerana ia menunjukkan para hakim lebih cenderung mengenal pasti AI sebagai manusia berbanding peserta manusia sebenar yang terlibat dalam perbualan.
  • Prestasi LLaMa-3.1-405B: Model besar Meta, LLaMa-3.1-405B (di mana 405B menandakan bilangan parameter yang besar yang membentuk keupayaannya), juga menunjukkan prestasi yang boleh dipercayai di bawah keadaan ‘persona’ yang sama. Ia dikenal pasti sebagai manusia sebanyak 56%. Walaupun lebih rendah daripada skor GPT-4.5, hasil ini masih meletakkannya di atas ambang kritikal 50% yang sering dianggap sebagai penunjuk lulus ujian, menunjukkan bahawa responsnya secara statistik sukar dibezakan daripada peserta manusia.
  • Perbandingan Garis Dasar: Untuk memberikan konteks dan memastikan para hakim tidak sekadar meneka secara rawak, penyelidik memasukkan model garis dasar. ELIZA, chatbot awal yang terkenal dari tahun 1960-an yang direka oleh Joseph Weizenbaum di MIT, dimasukkan sebagai kawalan. Tidak menghairankan, prestasinya mencerminkan kemajuan besar dalam AI sejak penciptaannya, hanya mencapai penarafan ‘manusia’ sebanyak 23%. Menariknya, GPT-4o, model OpenAI yang lebih baru yang dikeluarkan pada tahun 2024, juga menunjukkan prestasi pada tahap garis dasar yang serupa dalam persediaan ujian khusus ini, dinilai sebagai manusia hanya 21% sahaja. Ini menonjolkan bahawa konfigurasi khusus, latihan, atau mungkin strategi gesaan itu sendiri, memainkan peranan penting dalam mencapai prestasi perbualan seperti manusia.

Metodologi kajian, yang menggunakan persediaan tiga pihak ini (hakim, manusia tersembunyi, AI tersembunyi), terkenal dengan ketegasannya berbanding beberapa percubaan awal untuk menilai AI terhadap penanda aras Turing. Ia bertujuan untuk mencipta senario yang lebih mencabar dan realistik untuk menilai ketidakbezaan perbualan.

Kuasa Persona: AI sebagai Pelakon Kaedah

Faktor kritikal yang mempengaruhi kadar kejayaan GPT-4.5 dan LLaMa-3.1-405B dalam kajian khusus ini ialah penggunaan gesaan ‘persona’ tertentu. Para penyelidik menguji model-model tersebut dengan dan tanpa arahan untuk mengguna pakai watak atau nada seperti manusia. Lonjakan prestasi yang signifikan apabila gesaan persona digunakan menekankan aspek utama LLM moden: keupayaan luar biasa mereka untuk menyesuaikan output mereka berdasarkan arahan.

Apakah yang dimaksudkan dengan ‘mengguna pakai persona’ bagi AI? Ini bermakna model menyesuaikan:

  1. Nada dan Gaya: Meniru bahasa kasual, menggunakan bahasa sehari-hari, atau bahkan mensimulasikan keraguan atau refleksi.
  2. Fokus Kandungan: Berpotensi merujuk kepada pengalaman peribadi (walaupun direka), menyatakan pendapat, atau terlibat dalam perbualan ringan yang relevan dengan watak yang diguna pakai.
  3. Corak Interaksi: Memberi respons dengan cara yang terasa lebih interaktif dan kurang seperti sistem pengambilan maklumat semata-mata.

Keupayaan ini berpunca secara langsung daripada cara model-model ini dilatih. LLM mempelajari corak, gaya, dan maklumat daripada set data kolosal yang disuapkan kepada mereka, yang terdiri terutamanya daripada teks dan kod yang dihasilkan oleh manusia di seluruh internet dan literatur digital. Apabila digesa untuk bertindak seperti jenis orang tertentu, model menggunakan contoh perbualan manusia yang luas dalam data latihannya yang sejajar dengan persona tersebut. Ia kurang mengenai personaliti tulen dan lebih kepada pemadanan corak dan penjanaan yang canggih.

Ini membawa kepada idea, yang diutarakan oleh pemerhati seperti John Nosta, pengasas badan pemikir inovasi NostaLab, bahawa mungkin apa yang kita saksikan bukanlah semestinya kecerdasan buatan dalam erti kata manusia, tetapi empati buatan yang sangat maju – atau sekurang-kurangnya, simulasi yang meyakinkan mengenainya. AI tidak merasakan empati, tetapi ia telah mempelajari corak linguistik yang berkaitan dengan ekspresinya. Kejayaan bergantung pada peniruan tingkah laku, menyesuaikan respons dengan gaya yang bergema seperti manusia, terutamanya semasa interaksi singkat seperti perbualan lima minit yang digunakan dalam ujian.

Para penyelidik sendiri menonjolkan kebolehsuaian ini: ‘Boleh dikatakan kemudahan LLM digesa untuk menyesuaikan tingkah laku mereka kepada senario yang berbeza menjadikan mereka begitu fleksibel: dan nampaknya begitu mampu untuk menyamar sebagai manusia.’ Fleksibiliti ini adalah pedang bermata dua, membolehkan kefasihan perbualan yang luar biasa sambil serentak menimbulkan persoalan tentang keaslian dan potensi manipulasi.

Pencapaian Mercu Tanda atau Metrik Cacat? Menilai Semula Ujian Turing

Walaupun tajuk berita mungkin menggembar-gemburkan AI ‘lulus’ Ujian Turing, kepentingan pencapaian ini memerlukan pertimbangan yang teliti. Adakah meyakinkan majoriti hakim dalam sembang teks ringkas benar-benar menyamai kecerdasan tahap manusia? Kebanyakan pakar, termasuk penulis kajian secara tersirat, akan berhujah tidak.

Ujian Turing, yang diilhamkan lama sebelum kemunculan LLM yang dilatih pada data skala internet, terutamanya mengukur prestasi perbualan, bukan kebolehan kognitif yang lebih mendalam seperti:

  • Pemahaman: Adakah AI benar-benar memahami nuansa dan implikasi perbualan, atau adakah ia sekadar meramalkan perkataan seterusnya yang paling mungkin secara statistik?
  • Kesedaran: Pengalaman subjektif kesedaran dan pemikiran kekal teguh dalam alam manusia (dan berpotensi hidupan biologi lain). Model AI semasa tidak menunjukkan bukti memilikinya.
  • Penaakulan: Walaupun AI boleh melakukan langkah logik dalam domain tertentu, keupayaannya untuk penaakulan tujuan umum, akal sehat, dan memahami sebab-akibat dalam situasi baru masih terhad berbanding manusia.
  • Niat: Respons AI dijana berdasarkan algoritma dan data; mereka kekurangan kepercayaan, keinginan, atau niat tulen yang mendorong komunikasi mereka.

Oleh itu, skor tinggi pada Ujian Turing menunjukkan bahawa AI boleh bermain permainan peniruan dengan sangat baik, terutamanya apabila dibimbing oleh gesaan khusus. Ia telah belajar untuk menjana teks yang sejajar rapat dengan corak perbualan manusia. Sinead Bovell, pengasas syarikat pendidikan teknologi Waye, merenungkan perkara ini, mempersoalkan sama ada benar-benar mengejutkan bahawa AI yang dilatih pada ‘lebih banyak data manusia daripada yang boleh dibaca atau ditonton oleh sesiapa sahaja’ akhirnya akan cemerlang dalam ‘berbunyi seperti manusia.’

Ini menimbulkan persoalan asas: Adakah Ujian Turing masih merupakan penanda aras yang relevan atau mencukupi untuk kemajuan AI pada abad ke-21? Sesetengah pihak berpendapat bahawa fokusnya pada penipuan melalui perbualan terlalu sempit dan berpotensi mengelirukan. Ia tidak menilai secara mencukupi keupayaan yang sering kita kaitkan dengan kecerdasan sebenar, seperti penyelesaian masalah, kreativiti, pertimbangan etika, atau kebolehsuaian kepada persekitaran fizikal atau konseptual yang sama sekali baru.

Konteks sejarah juga relevan. Dakwaan AI lulus Ujian Turing pernah muncul sebelum ini. Pada tahun 2014, sebuah chatbot bernama ‘Eugene Goostman,’ yang direka untuk mensimulasikan seorang budak lelaki Ukraine berusia 13 tahun, dilaporkan meyakinkan 33% hakim semasa acara ujian yang serupa. Walaupun ini dipuji oleh sesetengah pihak pada masa itu, kadar kejayaan 33% tidak mencapai ambang 50% yang biasa disebut dan dicapai menggunakan persona (seorang remaja bukan penutur asli bahasa Inggeris) yang boleh memaafkan kesilapan tatabahasa atau jurang pengetahuan. Berbanding dengan keputusan baru-baru ini yang melebihi 50% dan bahkan mencapai 73% dengan model yang lebih canggih, kemajuan dalam AI perbualan tidak dapat dinafikan, tetapi batasan ujian itu sendiri tetap relevan.

Mengintai Dalam Enjin: Pemacu Kehebatan Perbualan

Prestasi mengagumkan model seperti GPT-4.5 bukanlah satu kebetulan; ia adalah hasil inovasi dan penyempurnaan tanpa henti dalam pembangunan AI, terutamanya dalam domain model bahasa besar. Beberapa faktor menyumbang kepada keupayaan mereka untuk menjana teks seperti manusia:

  1. Set Data Besar-besaran: LLM moden dilatih pada jumlah teks dan kod yang benar-benar mengejutkan. Pendedahan yang luas ini membolehkan mereka mempelajari struktur tatabahasa yang rumit, kosa kata yang pelbagai, nuansa gaya, maklumat fakta (walaupun tidak selalu tepat), dan urutan perbualan biasa.
  2. Seni Bina Canggih: Teknologi asas, sering berdasarkan seni bina Transformer, menggunakan mekanisme seperti ‘attention’ yang membolehkan model menimbang kepentingan perkataan yang berbeza dalam gesaan input semasa menjana output. Ini membantu mengekalkan konteks dan koheren sepanjang teks yang lebih panjang.
  3. Teknik Latihan Lanjutan: Teknik seperti Reinforcement Learning from Human Feedback (RLHF) digunakan untuk menala halus model. Manusia menilai respons AI yang berbeza, membimbing model ke arah menjana output yang lebih membantu, tidak berbahaya, dan benar – dan selalunya, lebih berbunyi seperti manusia.
  4. Skala Parameter: Model seperti LLaMa-3.1-405B, dengan ratusan bilion parameter, mempunyai kapasiti yang lebih besar untuk menyimpan dan memproses maklumat yang dipelajari semasa latihan, membolehkan penjanaan teks yang lebih kompleks dan bernuansa.
  5. Pengekalan Konteks: Model yang lebih baru menunjukkan keupayaan yang lebih baik untuk ‘mengingati’ bahagian awal perbualan, membawa kepada interaksi yang lebih konsisten dan relevan, aspek utama dialog manusia.
  6. Asas Multimodal: Membina di atas pendahulu seperti GPT-4, yang menggabungkan keupayaan melangkaui teks (seperti pemahaman imej), memberikan model yang lebih baru perwakilan dalaman yang berpotensi lebih kaya, walaupun interaksi ujian adalah berasaskan teks semata-mata.

Apabila OpenAI mempratonton GPT-4.5, CEO Sam Altman berkata, ‘Ia adalah model pertama yang terasa seperti bercakap dengan orang yang bertimbang rasa bagi saya.’ Walaupun subjektif, sentimen ini mencerminkan lonjakan kualitatif dalam keupayaan perbualan yang telah didayakan oleh kemajuan teknikal ini. Gesaan persona kemudian bertindak sebagai tuil yang kuat, mengarahkan keupayaan ini ke arah meniru gaya perbualan manusia tertentu yang diambil daripada data yang dipelajari.

Riak Melalui Realiti: Pertimbangan Sosial dan Ekonomi

Demonstrasi bahawa AI boleh meniru perbualan manusia secara meyakinkan, walaupun ia tidak menyamai kecerdasan sebenar, membawa implikasi dunia nyata yang signifikan yang melangkaui ujian akademik. Seperti yang dinyatakan oleh Sinead Bovell, kemajuan ini berpotensi mempunyai ‘implikasi ekonomi dan sosial yang besar.’

  • Gangguan Pasaran Kerja: Bidang yang sangat bergantung pada komunikasi adalah calon utama untuk integrasi AI dan potensi penggantian. Peranan perkhidmatan pelanggan, penjanaan kandungan (menulis artikel, salinan pemasaran), perkhidmatan terjemahan, dan bahkan aspek tertentu tunjuk ajar atau bantuan peribadi boleh semakin dikendalikan oleh chatbot dan ejen AI yang canggih. Dorongan baru-baru ini ke arah ‘Agentic AI’ – sistem yang direka untuk melaksanakan aliran kerja secara autonomi dalam bidang seperti analisis data, sokongan jualan, atau pengurusan penjagaan kesihatan – mendapat dorongan lanjut jika ejen ini juga boleh berkomunikasi dengan kefasihan seperti manusia.
  • Hubungan Manusia dan Kepercayaan: Apabila AI menjadi lebih mahir meniru empati dan personaliti, ia boleh mengubah dinamik interaksi manusia. Adakah orang akan membentuk ikatan emosi dengan teman AI? Bagaimanakah kita akan memastikan keaslian dalam interaksi dalam talian apabila membezakan antara manusia dan AI menjadi lebih sukar? Potensi penipuan, sama ada untuk penipuan, penyebaran maklumat salah, atau memanipulasi pendapat, berkembang dengan ketara.
  • Kebangkitan ‘Deeper Fakes’: Susan Schneider, Pengarah Pengasas Center for the Future Mind di FAU, menyuarakan kebimbangan mengenai trajektori tersebut, meramalkan potensi senario ‘mimpi ngeri’ yang melibatkan ‘deeper fakes’ dan juga ‘perang siber chatbot.’ Jika AI boleh meniru individu dalam teks secara meyakinkan, potensi penyamaran berniat jahat meningkat secara dramatik.
  • Penjajaran Etika: Schneider juga menonjolkan isu kritikal penjajaran: memastikan sistem AI berkelakuan mengikut nilai manusia. AI yang boleh meniru perbualan manusia dengan sempurna tetapi kekurangan kompas etika atau beroperasi pada data berat sebelah yang dipelajari semasa latihan boleh mengekalkan stereotaip berbahaya atau membuat cadangan yang tidak beretika, semuanya sambil berbunyi sangat munasabah. Fakta bahawa model-model ini lulus ujian tanpa semestinya ‘diselaraskan dengan betul’ adalah satu perkara yang membimbangkan ramai penyelidik.

Keupayaan untuk ‘lulus’ sebagai perbualan manusia bukanlah sekadar rasa ingin tahu teknikal; ia bersilang secara langsung dengan cara kita bekerja, berkomunikasi, mempercayai, dan berhubungan antara satu sama lain dalam dunia yang semakin digital.

Merangka Masa Depan: Melangkaui Peniruan Ke Arah Keupayaan Tulen

Walaupun keputusan Ujian Turing baru-baru ini yang melibatkan GPT-4.5 dan LLaMa-3.1 merupakan pencapaian penting dalam sejarah pembangunan AI, ia terutamanya menonjolkan kemajuan menakjubkan dalam penjanaan bahasa semula jadi dan peniruan. Konsensus di kalangan ramai pakar ialah fokus kini mesti beralih ke arah membangunkan AI yang menunjukkan pemahaman, penaakulan, dan tingkah laku etika yang tulen, bukannya hanya cemerlang dalam peniruan perbualan.

Ini memerlukan pergerakan melangkaui Ujian Turing tradisional ke arah penanda aras dan kaedah penilaian baru. Apakah bentuknya?

  • Ujian yang memberi tumpuan kepada penyelesaian masalah kompleks dalam situasi baru.
  • Penilaian penaakulan akal sehat yang mantap.
  • Penilaian pembuatan keputusan etika dalam senario samar-samar.
  • Ukuran kreativiti dan pemikiran asli, bukan sekadar penggabungan semula corak sedia ada.
  • Ujian yang memerlukan perancangan jangka panjang dan pemikiran strategik.

Matlamat utama bagi ramai dalam bidang ini bukan sekadar mencipta ahli perbualan yang meyakinkan tetapi membangunkan AI yang boleh berfungsi sebagai alat yang boleh dipercayai dan amanah untuk menyelesaikan masalah dunia nyata dan menambah keupayaan manusia. Seperti yang dicadangkan oleh pemikiran penutup dalam laporan asal, masa depan AI mungkin lebih terletak pada utiliti praktikalnya – membantu penemuan saintifik, meningkatkan penjagaan kesihatan, mengurus sistem kompleks – daripada semata-mata pada keupayaannya untuk berbual dengan meyakinkan.

Perjalanan ke arah Kecerdasan Am Buatan (AGI), jika boleh dicapai, adalah panjang dan kompleks. Pencapaian seperti lulus Ujian Turing adalah penanda penting di sepanjang jalan, menunjukkan kuasa teknik semasa. Walau bagaimanapun, ia juga berfungsi sebagai peringatan penting tentang batasan metrik semasa kita dan persoalan etika dan sosial yang mendalam yang mesti kita tangani apabila teknologi berkuasa ini terus berkembang. Permainan peniruan mungkin mempunyai juara baru, tetapi cabaran untuk membina AI yang benar-benar pintar, bermanfaat, dan sejajar baru sahaja bermula.