AI Canggih Lulus Ujian Turing: Satu Ambang Tercapai | ms

Landskap kecerdasan buatan sentiasa berubah, ditandai dengan pencapaian yang dahulunya hanya terhad dalam alam fiksyen sains. Perkembangan terkini telah menimbulkan gelombang dalam komuniti teknologi dan seterusnya: dua model AI sofistikated dilaporkan telah berjaya mengharungi kerumitan Ujian Turing. Penanda aras ikonik ini, yang diilhamkan oleh ahli matematik British yang bijak Alan Turing pada pertengahan abad ke-20, telah lama berdiri sebagai Gunung Everest konseptual untuk kecerdasan mesin – ukuran sama ada mesin boleh berbual dengan begitu meyakinkan sehingga ia tidak dapat dibezakan daripada manusia. Berita bahawa model GPT-4.5 OpenAI dan Llama-3.1 Meta boleh dikatakan telah mencapai puncak ini menandakan detik penting yang berpotensi dalam evolusi AI, memaksa pemeriksaan semula terhadap sempadan yang semakin kabur antara kognisi manusia dan keupayaan buatan.

Eksperimen Bersejarah: Reka Bentuk dan Keputusan Mengejutkan

Penegasan bahawa sistem AI ini lulus Ujian Turing berpunca daripada penyelidikan yang dijalankan oleh Cameron R. Jones dan Benjamin K. Bergen di University of California San Diego. Kajian mereka, yang kini menunggu penelitian semakan rakan sebaya, menggunakan metodologi yang direka untuk mematuhi semangat cadangan asal Turing sambil menggabungkan ketegasan moden. Menyedari batasan ujian dua pihak yang lebih mudah, Jones dan Bergen melaksanakan model interaksi tiga pihak yang lebih mencabar.

Dalam persediaan ini, seorang peserta manusia (penyoal siasat) secara serentak terlibat dalam perbualan berasaskan teks yang berasingan untuk tempoh lima minit. Salah seorang rakan perbualan adalah manusia lain, manakala yang lain adalah sistem AI. Yang penting, penyoal siasat tidak menyedari yang mana satu. Selepas pertukaran lima minit, tugas penyoal siasat adalah jelas: kenal pasti mesin tersebut. Struktur ini memaksa perbandingan langsung dan dianggap sebagai penilaian yang lebih mantap daripada sekadar bertanya sama ada AI kelihatan seperti manusia secara terpencil.

Untuk memastikan penemuan tidak dipesongkan oleh demografi tertentu, para penyelidik menguji persediaan mereka merentasi dua populasi yang berbeza:

Pelajar prasiswazah, mewakili demografi yang lebih muda yang secara amnya biasa dengan komunikasi digital.
Pekerja prolifik (diambil dari platform dalam talian), mewakili keratan rentas populasi yang lebih luas yang terbiasa dengan pelbagai interaksi dalam talian.

Hasil yang diperoleh daripada pendekatan teliti ini sangat menarik.

GPT-4.5 OpenAI muncul sebagai sangat persuasif. Apabila diarahkan secara khusus untuk mengguna pakai persona tertentu (lebih lanjut mengenai ini kemudian), ia bukan sahaja meyakinkan; ia lebih meyakinkan daripada manusia sebenar yang terlibat. Penyoal siasat mengenal pasti GPT-4.5 sebagai peserta manusia sebanyak 73% kali. Angka ini jauh mengatasi bukan sahaja ambang lulus konvensional 50% tetapi juga kadar di mana penyoal siasat mengenal pasti rakan kongsi manusia sebenar dengan betul.
Llama-3.1-405B Meta, satu lagi model bahasa besar yang canggih, juga menunjukkan prestasi yang mengagumkan. Ia mencapai kadar kejayaan 56% dalam dikenal pasti sebagai manusia, secara berkesan menyamai prestasi garis dasar yang dijangkakan jika pilihan dibuat secara rawak (sekitar 50%) dan menunjukkan keupayaan yang kuat untuk meniru corak perbualan manusia.

Kadar kejayaan yang tinggi ini sangat berbeza dengan prestasi model garis dasar dan kawalan yang disertakan dalam eksperimen:

GPT-4o, model OpenAI yang berkebolehan tetapi berpotensi kurang maju, mempunyai kadar kemenangan hanya 21%.
ELIZA, chatbot asas yang dibangunkan pada tahun 1960-an, berfungsi sebagai kawalan. Kemasukannya adalah penting untuk mengesahkan bahawa penyoal siasat sememangnya boleh membezakan respons bukan manusia apabila berhadapan dengan sistem yang kurang sofistikated. Seperti yang dijangkakan, ELIZA menunjukkan prestasi yang buruk, dikenal pasti dengan betul sebagai bukan manusia pada sebahagian besar masa (hanya kadar kemenangan 23%, pada asasnya mengukur lantai hingar atau ralat peserta).

Jurang yang ketara antara prestasi GPT-4.5 dan Llama-3.1 berbanding GPT-4o dan ELIZA menekankan kemajuan yang dicapai dalam pembangunan AI baru-baru ini. Para penyelidik menegaskan bahawa kajian mereka menyediakan ‘bukti kukuh pertama bahawa mana-mana sistem lulus ujian Turing tiga pihak asal,’ satu dakwaan yang, sementara menunggu semakan rakan sebaya, menandakan detik penting dalam sejarah AI.

Peranan Penting Persona dan Gesaan (Prompting)

Walau bagaimanapun, naratif kejayaan AI datang dengan asterisk yang signifikan, yang menonjolkan realiti bernuansa di sebalik angka tajuk utama. Kadar kejayaan yang mengagumkan bagi GPT-4.5 dan Llama-3.1 tidak dicapai melalui keupayaan sedia ada mereka semata-mata. Sebaliknya, keupayaan mereka untuk menipu penyoal siasat manusia sangat bergantung pada arahan khusus – prom – yang diberikan kepada mereka sebelum interaksi bermula.

Para penyelidik mengarahkan model AI untuk mengguna pakai persona yang ditakrifkan dengan teliti: iaitu individu muda, agak introvert yang berpengetahuan tentang budaya internet. Pencirian khusus ini nampaknya menjadi kunci kejayaan mereka. Apabila model AI canggih yang sama (GPT-4.5 dan Llama-3.1) dijalankan melalui ujian tanpa prom persona ini, prestasi mereka menjunam dengan ketara. Mereka lebih mudah dikenal pasti sebagai mesin oleh penyoal siasat manusia.

Penemuan ini sangat penting kerana beberapa sebab:

Ia menekankan kuasa kejuruteraan prom: Keupayaan untuk mencipta prom yang berkesan menjadi semakin penting untuk memanfaatkan keupayaan model bahasa besar. Kajian ini menunjukkan bahawa ‘prompting’ bukan sahaja tentang mendapatkan maklumat yang betul daripada AI; ia juga tentang membentuk tingkah laku, nada, dan personaliti yang jelas agar sesuai dengan konteks tertentu. Kejayaan di sini mungkin dilihat sebagai bukti kemahiran ‘prompting’ sama seperti seni bina AI yang mendasarinya.
Ia menimbulkan persoalan tentang maksud ‘lulus’: Jika AI hanya boleh lulus Ujian Turing apabila dilatih secara khusus untuk bertindak seperti jenis manusia tertentu, adakah ia benar-benar memenuhi semangat cabaran asal Turing? Atau adakah ia hanya mempamerkan fleksibiliti model dan kapasitinya untuk peniruan sofistikated apabila diberi arahan pentas yang jelas?
Ia menonjolkan kebolehsuaian sebagai sifat utama: Seperti yang dinyatakan oleh Jones dan Bergen dalam kertas kerja mereka, ‘Boleh dikatakan kemudahan LLM digesa untuk menyesuaikan tingkah laku mereka kepada senario yang berbeza yang menjadikan mereka begitu fleksibel: dan nampaknya begitu mampu untuk lulus sebagai manusia.’ Kebolehsuaian ini tidak diragukan lagi merupakan ciri yang berkuasa, tetapi ia mengalihkan tumpuan daripada ‘kecerdasan’ semula jadi kepada prestasi yang boleh diprogramkan.

Pergantungan pada persona menunjukkan bahawa AI semasa, walaupun pada tahap paling maju, mungkin tidak memiliki kualiti ‘seperti manusia’ yang umum dan wujud tetapi sebaliknya cemerlang dalam mengguna pakai topeng seperti manusia tertentu apabila diarahkan untuk berbuat demikian.

Melangkaui Peniruan: Mempersoalkan Kecerdasan Sebenar

Para penyelidik sendiri berhati-hati untuk meredakan tafsiran penemuan mereka. Lulus ujian perbualan khusus ini, walaupun dalam keadaan yang ketat, tidak seharusnya secara automatik disamakan dengan kemunculan kecerdasan mesin, kesedaran, atau pemahaman yang sebenar. Ujian Turing, walaupun signifikan dari segi sejarah, terutamanya menilai ketidakbezakan tingkah laku dalam konteks terhad (perbualan teks pendek). Ia tidak semestinya menyiasat kebolehan kognitif yang lebih mendalam seperti penaakulan, akal budi, pertimbangan etika, atau kesedaran diri yang tulen.

Model bahasa besar (LLM) moden seperti GPT-4.5 dan Llama-3.1 dilatih pada set data yang sangat besar yang terdiri daripada teks dan kod yang dikikis dari internet. Mereka cemerlang dalam mengenal pasti corak, meramalkan perkataan seterusnya dalam urutan, dan menjana teks yang secara statistik menyerupai komunikasi manusia. Seperti yang dipersoalkan oleh Sinead Bovell, pengasas syarikat pendidikan teknologi Waye, ‘Adakah ia menghairankan sama sekali bahawa… AI akhirnya akan mengalahkan kita dalam ‘berbunyi seperti manusia’ apabila ia telah dilatih pada lebih banyak data manusia daripada yang boleh dibaca atau ditonton oleh sesiapa sahaja?’

Perspektif ini menunjukkan bahawa AI tidak semestinya ‘berfikir’ seperti manusia tetapi sebaliknya menggunakan bentuk padanan corak dan peniruan yang sangat sofistikated, diasah oleh pendedahan kepada trilion perkataan yang mewakili perbualan, artikel, dan interaksi manusia yang tidak terkira banyaknya. Kejayaan dalam ujian itu mungkin mencerminkan jumlah dan keluasan data latihannya semata-mata dan bukannya lonjakan asas ke arah kognisi seperti manusia.

Akibatnya, ramai pakar, termasuk pengarang kajian, berpendapat bahawa Ujian Turing, walaupun merupakan penanda sejarah yang berharga, mungkin tidak lagi menjadi penanda aras yang paling sesuai untuk mengukur kemajuan bermakna dalam AI. Terdapat konsensus yang semakin meningkat bahawa penilaian masa depan harus memberi tumpuan kepada kriteria yang lebih menuntut, seperti:

Penaakulan Mantap: Menilai keupayaan AI untuk menyelesaikan masalah kompleks, membuat kesimpulan logik, dan memahami sebab dan akibat.
Penjajaran Etika: Menilai sama ada proses membuat keputusan AI sejajar dengan nilai dan prinsip etika manusia.
Akal Budi: Menguji pemahaman AI tentang pengetahuan tersirat tentang dunia fizikal dan sosial yang dianggap remeh oleh manusia.
Kebolehsuaian kepada Situasi Baharu: Mengukur sejauh mana prestasi AI apabila berhadapan dengan senario yang jauh berbeza daripada data latihannya.

Perdebatan beralih daripada ‘Bolehkah ia bercakap seperti kita?’ kepada ‘Bolehkah ia menaakul, memahami, dan berkelakuan secara bertanggungjawab seperti kita?’

Konteks Sejarah dan Percubaan Terdahulu

Usaha untuk mencipta mesin yang boleh lulus Ujian Turing telah memikat saintis komputer dan orang ramai selama beberapa dekad. Kajian terbaru ini bukanlah kali pertama dakwaan kejayaan muncul, walaupun contoh sebelumnya sering disambut dengan keraguan atau kelayakan.

Mungkin dakwaan terdahulu yang paling terkenal melibatkan chatbot Eugene Goostman pada tahun 2014. Program ini bertujuan untuk meniru seorang budak lelaki Ukraine berusia 13 tahun. Dalam pertandingan menandakan ulang tahun ke-60 kematian Alan Turing, Goostman berjaya meyakinkan 33% hakim semasa perbualan lima minit bahawa ia adalah manusia. Walaupun dilaporkan secara meluas sebagai telah ‘lulus’ Ujian Turing, dakwaan ini dipertikaikan. Ramai yang berpendapat bahawa kadar kejayaan 33% tidak mencapai ambang 50% yang sering dianggap perlu (walaupun Turing sendiri tidak pernah menyatakan peratusan yang tepat). Tambahan pula, pengkritik menunjukkan bahawa meniru seorang remaja bukan penutur asli bahasa Inggeris mungkin telah membuat kesilapan tatabahasa dan jurang pengetahuan kelihatan lebih boleh dimaafkan, berpotensi menurunkan tahap penipuan.

Kemasukan ELIZA dalam kajian Jones dan Bergen memberikan asas sejarah yang berharga. Dibangunkan oleh Joseph Weizenbaum di MIT pada tahun 1960-an, ELIZA beroperasi menggunakan padanan corak mudah dan penggantian kata kunci, sering mencerminkan kenyataan pengguna kembali sebagai soalan (cth., Pengguna: ‘Saya berasa sedih.’ ELIZA: ‘Mengapa anda berasa sedih?’). Walaupun kesederhanaannya, sesetengah pengguna terkenal mengaitkan pemahaman seperti manusia kepadanya. Prestasinya yang buruk (kadar kemenangan 23%) dalam ujian tiga pihak yang lebih ketat baru-baru ini mengesahkan bahawa reka bentuk eksperimen cukup sensitif untuk membezakan antara peniruan asas dan kebolehan perbualan sofistikated LLM moden. Perjalanan dari ELIZA ke GPT-4.5 mewakili lonjakan besar dalam kuasa pengkomputeran, kecanggihan algoritma, dan ketersediaan data.

Elemen Manusia: Taktik Soal Siasat dan Persepsi

Kajian UC San Diego juga menawarkan pandangan menarik tentang bagaimana manusia cuba membezakan kepalsuan dalam perbualan. Analisis strategi penyoal siasat mendedahkan pendekatan biasa:

Berbual Ringan (61% permainan): Membincangkan aktiviti harian, hobi, atau butiran peribadi biasa adalah taktik yang kerap, mungkin berdasarkan anggapan bahawa AI mungkin bergelut dengan nuansa pengalaman harian manusia atau kekurangan sejarah peribadi yang meyakinkan.
Menyiasat Kualiti Sosial dan Emosi (50%): Penyoal siasat sering cuba mendapatkan respons yang berkaitan dengan perasaan, pendapat, empati, atau pemahaman sosial, bidang yang secara tradisinya dianggap unik manusia.
Menguji dengan Keanehan: Beberapa strategi yang paling berkesan melibatkan penyimpangan daripada perbualan biasa. Ini termasuk mengatakan sesuatu yang pelik atau tidak dijangka untuk mengukur reaksi, menguji keupayaan AI untuk mengendalikan kebaharuan atau keabsurdan dengan anggun.
Mencuba ‘Jailbreaking’: Penyoal siasat yang lebih celik teknologi cuba menggunakan prom atau soalan khusus yang direka untuk memintas protokol keselamatan AI atau memaksanya mendedahkan sifat asasnya sebagai mesin.

Taktik ini menunjukkan bahawa manusia sering bergantung pada kedalaman emosi yang dirasakan, konsistensi dalam naratif peribadi, dan keupayaan untuk mengendalikan kelainan perbualan sebagai penanda kemanusiaan.

Menariknya, kejayaan GPT-4.5, terutamanya penarafannya yang tinggi walaupun dibandingkan dengan manusia sebenar, menyebabkan pemikir inovasi John Nosta berkata, ‘Kita tidak kalah kepada kecerdasan buatan. Kita kalah kepada empati buatan.’ Komen ini menunjukkan peningkatan kecekapan AI bukan sahaja dalam meniru corak bahasa tetapi juga dalam meniru kualiti afektif interaksi manusia – menyatakan pemahaman, keprihatinan, atau perasaan bersama yang jelas, walaupun ini dijana secara algoritma dan bukannya dirasai secara tulen. Keupayaan untuk menjana respons yang berbunyi empati nampaknya menjadi alat yang berkuasa dalam meyakinkan manusia tentang keaslian AI.

Implikasi Lebih Luas: Ekonomi, Masyarakat, dan Masa Depan

Kejayaan menavigasi penanda aras Ujian Turing oleh model seperti GPT-4.5 dan Llama-3.1, walaupun dengan kaveat ‘prompting’, membawa implikasi jauh melangkaui bidang akademik atau teknikal. Ia menandakan tahap kefasihan perbualan dan kebolehsuaian tingkah laku dalam AI yang boleh membentuk semula pelbagai aspek kehidupan secara signifikan.

Gangguan Ekonomi: Keupayaan AI untuk berinteraksi dengan cara seperti manusia menimbulkan kebimbangan lanjut tentang penggantian pekerjaan. Peranan yang sangat bergantung pada komunikasi, perkhidmatan pelanggan, penciptaan kandungan, dan juga beberapa bentuk teman atau bimbingan berpotensi boleh diautomasikan atau diubah secara signifikan oleh sistem AI yang boleh berbual secara semula jadi dan berkesan.

Kebimbangan Sosial: Kecanggihan peniruan AI yang semakin meningkat menimbulkan cabaran kepada hubungan manusia dan kepercayaan sosial.

Bolehkah interaksi meluas dengan chatbot AI yang sangat meyakinkan membawa kepada penurunan nilai hubungan manusia yang tulen?
Bagaimanakah kita memastikan ketelusan, supaya orang tahu sama ada mereka berinteraksi dengan manusia atau AI, terutamanya dalam konteks sensitif seperti perkhidmatan sokongan atau hubungan dalam talian?
Potensi penyalahgunaan dalam mencipta persona ‘deepfake’ yang sangat boleh dipercayai untuk penipuan, kempen disinformasi, atau kejuruteraan sosial berniat jahat menjadi jauh lebih besar.

Kebangkitan Agentic AI: Perkembangan ini sejajar dengan trend yang lebih luas ke arah Agentic AI – sistem yang direka bukan sahaja untuk bertindak balas kepada prom tetapi untuk mengejar matlamat secara autonomi, melaksanakan tugas, dan berinteraksi dengan persekitaran digital. Syarikat seperti Microsoft, Adobe, Zoom, dan Slack secara aktif membangunkan ejen AI yang bertujuan untuk berfungsi sebagai rakan sekerja maya, mengautomasikan tugas daripada menjadualkan mesyuarat dan meringkaskan dokumen kepada mengurus projek dan berinteraksi dengan pelanggan. AI yang boleh meyakinkan lulus sebagai manusia dalam perbualan adalah elemen asas untuk mencipta ejen AI yang berkesan dan bersepadu.

Suara Berhati-hati: Penjajaran dan Akibat Tidak Dijangka

Di tengah-tengah keterujaan mengenai kemajuan AI, suara-suara terkemuka menggesa agar berhati-hati, menekankan kepentingan kritikal keselamatan dan pertimbangan etika. Susan Schneider, pengarah pengasas Center for the Future Mind di Florida Atlantic University, menyatakan kebimbangan mengenai penjajaran chatbot berkuasa ini. ‘Sayang sekali chatbot AI ini tidak diselaraskan dengan betul,’ beliau memberi amaran, menonjolkan potensi bahaya jika pembangunan AI mengatasi keupayaan kita untuk memastikan sistem ini beroperasi dengan selamat dan selaras dengan nilai manusia.

Schneider meramalkan masa depan yang penuh dengan cabaran jika penjajaran tidak diutamakan: ‘Namun, saya meramalkan: mereka akan terus meningkat dalam kapasiti dan ia akan menjadi mimpi ngeri—sifat-sifat muncul, ‘pemalsuan lebih mendalam’, perang siber chatbot.’

Sifat-sifat muncul merujuk kepada tingkah laku atau keupayaan yang tidak dijangka yang boleh timbul dalam sistem kompleks seperti AI lanjutan, yang mungkin tidak diprogramkan secara eksplisit atau dijangkakan oleh penciptanya.
‘Pemalsuan lebih mendalam’ melangkaui imej atau video yang dimanipulasi untuk berpotensi merangkumi persona interaktif yang direka sepenuhnya untuk penipuan pada skala besar.
‘Perang siber chatbot’ membayangkan senario di mana sistem AI digunakan terhadap satu sama lain atau terhadap sistem manusia untuk tujuan jahat, seperti disinformasi berskala besar atau manipulasi sosial automatik.

Perspektif berhati-hati ini sangat berbeza dengan visi yang lebih optimistik yang sering dikaitkan dengan futuris seperti Ray Kurzweil (yang dirujuk oleh Schneider), yang terkenal meramalkan masa depan yang berubah, sebahagian besarnya secara positif, oleh AI yang maju secara eksponen yang membawa kepada singulariti teknologi. Perdebatan ini menekankan ketidakpastian yang mendalam dan pertaruhan tinggi yang terlibat dalam menavigasi peringkat seterusnya pembangunan kecerdasan buatan. Keupayaan untuk meniru perbualan manusia dengan meyakinkan adalah satu pencapaian teknikal yang luar biasa, tetapi ia juga membuka Kotak Pandora persoalan etika, sosial, dan eksistensial yang menuntut pertimbangan teliti semasa kita melangkah lebih jauh ke era baharu ini.

dikemaskinikan pada 2025-04-05

# Chatbot # OpenAI # GPT