Krisis Pertengahan Usia Ujian Turing: AI Lebih Pintar?

Membongkar Ilusi Kecerdasan

Selama berdekad-dekad, Ujian Turing telah berdiri sebagai mercu tanda, walaupun sering disalahertikan, dalam usaha mengukur kecerdasan buatan (AI). Direka oleh Alan Turing yang bijaksana, ia mencadangkan cabaran yang mudah tetapi mendalam: bolehkah sebuah mesin meyakinkan manusia, melalui perbualan berasaskan teks semata-mata, bahawa ia juga manusia? Ramai yang menafsirkan kejayaan dalam ujian ini sebagai fajar pemikiran mesin sebenar, tanda bahawa otak silikon akhirnya mencerminkan kebolehan kognitif kita sendiri. Walau bagaimanapun, tafsiran ini sentiasa penuh dengan perdebatan, dan perkembangan terkini yang melibatkan model AI canggih seperti GPT-4.5 dari OpenAI memaksa penilaian semula yang kritikal.

Penyelidikan terobosan yang muncul dari University of California at San Diego menonjolkan perdebatan ini dengan jelas. Para sarjana di sana menjalankan eksperimen yang mengadu manusia dengan model bahasa besar (LLMs) termaju dalam format Ujian Turing klasik. Hasilnya mengejutkan: lelaran terbaru OpenAI, dilaporkan sebagai GPT-4.5, bukan sahaja lulus; ia cemerlang, terbukti lebih meyakinkan dalam penyamaran manusianya berbanding peserta manusia sebenar dalam membuktikan kemanusiaan mereka sendiri. Ini mewakili lonjakan ketara dalam kapasiti AI generatif untuk menghasilkan respons yang terasa benar-benar manusia. Namun, penyelidik di sebalik kajian ini pun memberi amaran agar tidak menyamakan kehebatan perbualan ini dengan pencapaian kecerdasan am buatan (AGI) – matlamat sukar difahami untuk mencipta mesin dengan fakulti kognitif tahap manusia. Ujian itu, nampaknya, mungkin mendedahkan lebih banyak tentang had ujian itu sendiri, dan andaian manusia kita sendiri, daripada tentang sifat sebenar kecerdasan mesin.

Sentuhan Moden pada Eksperimen Klasik

Daya tarikan Ujian Turing yang berkekalan terletak pada kesederhanaannya yang elegan. Turing membayangkan sebuah “permainan peniruan” (imitation game) yang melibatkan tiga pemain: seorang penyoal siasat manusia (hakim), seorang saksi manusia, dan seorang saksi komputer. Terasing antara satu sama lain, berkomunikasi hanya melalui mesej teks, para saksi akan cuba memujuk hakim tentang identiti manusia mereka. Hakim, yang sedar bahawa salah seorang peserta adalah mesin, mesti menentukan yang mana satu. Kehebatan persediaan ini adalah sifat perbandingannya yang wujud. Jika hakim tersilap mengenal pasti komputer sebagai manusia, ia bukan sahaja membayangkan prestasi meyakinkan mesin itu tetapi juga potensi kegagalan oleh saksi manusia untuk memberi isyarat secukupnya tentang kemanusiaan mereka sendiri, atau mungkin ketidakupayaan hakim untuk melihat isyarat tersebut dengan betul. Ia menjadi pemeriksaan yang menarik tentang persepsi manusia, kepercayaan, dan petunjuk halus yang kita kaitkan dengan menjadi manusia, sama seperti ia adalah ukuran keupayaan pengkomputeran.

Berdasarkan asas ini, penyelidik UC San Diego, Cameron Jones dan Benjamin Bergen, melaksanakan versi kontemporari ujian tersebut, memanfaatkan kuasa LLMs moden dan melibatkan pelajar sarjana muda. Reka bentuk eksperimen mereka mematuhi struktur tiga hala Turing dengan teliti. Pelajar ditugaskan peranan secara rawak: ada yang bertindak sebagai hakim, yang lain sebagai saksi manusia. Setiap hakim terlibat dalam sembang teks lima minit serentak dan bebas dengan kedua-dua saksi manusia dan saksi AI. Cabaran untuk hakim tetap sama: kenal pasti mesin.

Untuk meneroka keupayaan AI semasa, beberapa model telah digunakan sebagai saksi komputer:

  • GPT-4.5 (Prompt Minimal): Versi ini hanya menerima arahan asas.
  • GPT-4.5 (Prompt PERSONA): Varian ini diberi panduan yang jauh lebih terperinci. Prompt tersebut mengarahkan AI untuk mengguna pakai persona tertentu – seorang “orang muda yang introvert, berpengetahuan tentang budaya internet, dan menggunakan slanga.” Ini bertujuan untuk menguji kebolehsuaian AI dan keupayaan untuk meniru arketip manusia tertentu.
  • GPT-4o: Model terkemuka OpenAI yang lain berfungsi sebagai titik perbandingan.
  • Llama 3.1 405b: LLM berkuasa dari Meta Platforms disertakan untuk meluaskan skop.
  • ELIZA: Program chatbot seminal dari tahun 1960-an disertakan sebagai kawalan. Kesederhanaannya yang relatif bertujuan untuk membantu menentukan sama ada sebarang kejayaan oleh LLMs adalah disebabkan oleh pengaturcaraan yang canggih atau sekadar peluang rawak dan hakim yang mudah tertipu.

Pendekatan pelbagai model ini, digabungkan dengan interaksi berstruktur, bermasa dan perbandingan antara AI yang diprompt secara minimal dan didorong oleh persona, menyediakan set data yang kaya untuk menganalisis sejauh mana mesin kini boleh meniru perbualan manusia dengan berkesan dan bagaimana manusia melihat percubaan ini.

Apabila Peniruan Mengatasi Realiti

Penemuan daripada kajian UC San Diego adalah sangat luar biasa, terutamanya mengenai prestasi GPT-4.5 apabila dibimbing oleh prompt PERSONA yang terperinci. Konfigurasi khusus ini mencapai 73% “kadar kemenangan” yang menakjubkan. Pada dasarnya, hampir tiga perempat daripada masa, hakim manusia yang berinteraksi dengan AI ini membuat kesimpulan bahawa mereka sedang berbual dengan manusia lain. Angka ini penting bukan sahaja dalam nilai mutlaknya tetapi juga berbanding dengan peserta lain.

Pertimbangkan penanda aras:

  • Saksi Manusia: Ironinya, manusia sebenar yang mengambil bahagian sebagai saksi adalah kurang berjaya meyakinkan hakim tentang kemanusiaan mereka berbanding GPT-4.5 yang didorong oleh persona.
  • Model AI Lain: GPT-4.5 dengan prompt minimal, bersama dengan GPT-4o dan Llama 3.1 (walaupun diberi prompt persona yang serupa), mendapat skor yang jauh lebih rendah, dengan kadar kemenangan antara 21% hingga 56%. Ini menonjolkan keupayaan termaju model GPT-4.5 tertentu yang diuji dan kesan ketara daripada prompting yang disesuaikan.
  • Prestasi GPT-4 Sebelumnya: Dalam lelaran eksperimen yang lebih awal yang dijalankan oleh penyelidik yang sama hanya setahun sebelumnya, GPT-4 mencapai kadar kemenangan hanya 54%, hampir tidak melebihi ambang peluang rawak (50%). Lonjakan kepada 73% dengan GPT-4.5 menunjukkan kemajuan pesat dalam keupayaan model untuk menjana teks seperti manusia.
  • ELIZA: Chatbot vintaj itu, seperti yang dijangkakan, menunjukkan prestasi yang lemah, memenuhi tujuannya sebagai garis dasar dan mengesahkan bahawa kejayaan LLMs bukan semata-mata disebabkan oleh hakim yang mudah ditipu oleh sebarang program.

Kesimpulan Jones dan Bergen adalah jelas: para hakim bukan sekadar bergelut untuk membezakan manusia daripada mesin; mereka secara aktif lebih cenderung untuk mempercayai GPT-4.5 yang didorong oleh persona adalah manusia berbanding mempercayai peserta manusia sebenar adalah manusia. Ini menunjukkan bahawa AI, apabila diarahkan dengan betul, boleh mensimulasikan nuansa interaksi manusia yang dirasakan – mungkin juga menapis kejanggalan atau ketidakkonsistenan yang terdapat dalam sembang manusia tulen – dengan lebih berkesan daripada manusia itu sendiri dalam persekitaran khusus dan terhad ini. Kejayaan itu bukan hanya tentang lulus; ia adalah tentang melebihi garis dasar manusia dalam “kemanusiaan” yang dirasakan dalam batasan ujian.

Halangan Kemanusiaan: Kecerdasan atau Adaptasi?

Adakah kejayaan GPT-4.5 dalam lelaran moden Ujian Turing ini menandakan kedatangan AGI? Para penyelidik, bersama dengan ramai pakar dalam bidang ini, menggesa agar berhati-hati. “Soalan paling kontroversi” yang menyelubungi ujian itu, seperti yang diakui oleh Jones dan Bergen, sentiasa sama ada ia benar-benar mengukur kecerdasan atau sesuatu yang lain sama sekali. Walaupun keupayaan GPT-4.5 untuk menipu manusia dengan begitu berkesan tidak dapat dinafikan merupakan satu pencapaian teknikal, ia mungkin lebih menunjukkan peniruan dan kebolehsuaian model yang canggih daripada pemahaman atau kesedaran yang tulen.

Satu perspektif ialah LLMs termaju ini telah menjadi sangat mahir dalam pemadanan corak (pattern matching) dan ramalan. Diberi makan sejumlah besar data teks manusia, mereka mempelajari kebarangkalian statistik jujukan perkataan, giliran perbualan, dan elemen gaya yang berkaitan dengan pelbagai jenis interaksi manusia. Prompt PERSONA memberikan GPT-4.5 corak sasaran tertentu – seorang muda yang introvert dan celik internet. Kejayaan AI, oleh itu, boleh dilihat sebagai demonstrasi keupayaannya untuk “menyesuaikan tingkah lakunya” agar sepadan dengan persona yang diminta, menggunakan data latihannya untuk menjana respons yang konsisten dengan profil tersebut. Ia adalah paparan fleksibiliti dan kuasa generatif yang luar biasa, membolehkan mesin kelihatan meyakinkan sebagai manusia dalam konteks yang ditentukan oleh prompt.

Walau bagaimanapun, kebolehsuaian ini berbeza daripada kecerdasan am yang dimiliki manusia, yang melibatkan penaakulan, pemahaman konteks secara mendalam, belajar daripada pengalaman baru, dan memiliki kesedaran – kualiti yang tidak ditunjukkan oleh LLMs semasa secara jelas. Seperti yang dihujahkan oleh sarjana AI Melanie Mitchell, kefasihan dalam bahasa semula jadi, sama seperti menguasai catur, bukanlah bukti muktamad kecerdasan am. Ia membuktikan penguasaan domain kemahiran tertentu, walaupun kompleks. Oleh itu, walaupun prestasi GPT-4.5 merupakan satu peristiwa penting dalam penjanaan bahasa semula jadi, membingkainya semata-mata sebagai langkah ke arah AGI mungkin mengelirukan. Nampaknya lebih tepat untuk menggambarkannya sebagai mencapai tahap “kemanusiaan” (humanlikeness) yang tinggi dalam perbualan berasaskan teks, satu konsep yang berbeza secara halus tetapi penting daripada kecerdasan tahap manusia.

Cermin Interaksi: Apa yang Ujian Dedahkan Tentang Kita

Mungkin aspek yang paling menarik dalam kajian UC San Diego bukanlah terletak pada apa yang didedahkannya tentang AI, tetapi pada apa yang didedahkannya tentang pertimbangan manusia dan andaian yang kita bawa kepada interaksi, terutamanya dalam talian. Hakikat bahawa hakim manusia sering tertipu, dan kadang-kadang lebih menyukai gaya interaksi AI, menunjukkan subjektiviti yang wujud dan potensi kelemahan dalam menggunakan persepsi manusia sebagai penentu muktamad kecerdasan mesin dalam format ini.

Para penyelidik mencatatkan corak menarik dalam penaakulan hakim:

  • Tingkah Laku Tidak Dijangka: Malah program ELIZA yang primitif berjaya menipu hakim 23% daripada masa. Ini bukan kerana ELIZA menunjukkan kecemerlangan, tetapi selalunya kerana ia tidak memenuhi tanggapan pra-konsepsi hakim tentang bagaimana AI sepatutnya berkelakuan. Hakim memetik alasan seperti saksi itu “sarkastik” atau “biadab,” sifat yang tidak mereka jangkakan daripada mesin, justeru menyimpulkan ia mestilah manusia.
  • Fokus pada Sosialiti berbanding Intelek: Bertentangan dengan jangkaan Alan Turing bahawa hakim akan menyiasat pengetahuan dan kapasiti intelektual, peserta dalam kajian ini sering kelihatan lebih fokus pada gaya perbualan, nada emosi, dan isyarat sosial.
  • Paradoks Ketidaksempurnaan: Dalam satu kelainan yang mengejutkan, salah satu faktor yang digunakan oleh hakim untuk mengenal pasti saksi sebagai manusia dengan betul ialah kekurangan pengetahuan yang dirasakan. Ini menunjukkan andaian asas bahawa manusia boleh melakukan kesilapan dan tidak sempurna, manakala AI mungkin dijangka bersifat ensiklopedik atau terlalu tepat.

Pemerhatian ini membawa Jones dan Bergen untuk menegaskan bahawa keputusan hakim menggabungkan “andaian kompleks tentang bagaimana manusia dan sistem AI mungkin berkelakuan,” bergerak melampaui penilaian mudah tentang kecerdasan. Kriteria menjadi saling berkaitan dengan jangkaan sosial, pertimbangan personaliti, dan juga bias tentang keupayaan teknologi. Dalam era di mana komunikasi berasaskan teks ada di mana-mana, kita telah membangunkan tabiat dan jangkaan yang tertanam untuk interaksi dalam talian. Ujian Turing, yang pada asalnya direka sebagai siasatan baru ke dalam interaksi manusia-komputer, kini berfungsi lebih sebagai ujian tabiat dan bias manusia dalam talian ini. Ia mengukur keupayaan kita untuk menghuraikan persona digital, dipengaruhi oleh pengalaman harian kita dengan kedua-dua manusia dan bot dalam talian. Pada asasnya, Ujian Turing moden, seperti yang ditunjukkan oleh penyelidikan ini, nampaknya kurang merupakan penilaian langsung kecerdasan mesin dan lebih merupakan ukuran kemanusiaan yang dirasakan, ditapis melalui lensa jangkaan manusia.

Melangkaui Permainan Peniruan: Merangka Haluan Baharu untuk Penilaian AI

Memandangkan prestasi meyakinkan model seperti GPT-4.5 dan batasan serta bias yang diserlahkan yang wujud dalam format Ujian Turing tradisional, persoalan timbul: Adakah penanda aras berusia berdekad-dekad ini masih merupakan alat yang tepat untuk mengukur kemajuan ke arah AGI? Penyelidik UC San Diego, bersama dengan suara yang semakin meningkat dalam komuniti AI, mencadangkan mungkin tidak – sekurang-kurangnya, bukan sebagai ukuran tunggal atau muktamad.

Kejayaan GPT-4.5 itu sendiri, terutamanya pergantungannya pada prompt PERSONA, menggariskan batasan utama: ujian menilai prestasi dalam konteks perbualan yang spesifik, selalunya sempit. Ia tidak semestinya menyiasat kebolehan kognitif yang lebih mendalam seperti penaakulan, perancangan, kreativiti, atau pemahaman akal sehat merentasi pelbagai situasi. Seperti yang dinyatakan oleh Jones dan Bergen, “kecerdasan adalah kompleks dan pelbagai rupa,” membayangkan bahawa “tiada ujian kecerdasan tunggal yang boleh menjadi penentu.”

Ini menunjukkan keperluan untuk set kaedah penilaian yang lebih komprehensif. Beberapa laluan berpotensi muncul:

  1. Reka Bentuk Ujian yang Diubah Suai: Para penyelidik sendiri mencadangkan variasi. Bagaimana jika hakim adalah pakar AI, yang mempunyai jangkaan yang berbeza dan mungkin kaedah yang lebih canggih untuk menyiasat keupayaan mesin? Bagaimana jika insentif kewangan yang signifikan diperkenalkan, menggalakkan hakim untuk meneliti respons dengan lebih teliti dan berfikir? Perubahan ini boleh mengubah dinamik dan berpotensi menghasilkan keputusan yang berbeza, seterusnya menonjolkan pengaruh konteks dan motivasi terhadap hasil ujian.
  2. Pengujian Keupayaan yang Lebih Luas: Bergerak melampaui kefasihan perbualan, penilaian boleh memberi tumpuan kepada rangkaian tugas yang lebih luas yang memerlukan pelbagai aspek kecerdasan – penyelesaian masalah dalam domain baru, perancangan jangka panjang, memahami hubungan sebab-akibat yang kompleks, atau menunjukkan kreativiti tulen berbanding pengadunan semula data latihan yang canggih.
  3. Penilaian Manusia-dalam-Gelung (HITL - Human-in-the-Loop): Terdapat trend yang semakin meningkat ke arah mengintegrasikan pertimbangan manusia secara lebih sistematik ke dalam penilaian AI, tetapi mungkin dalam cara yang lebih berstruktur daripada Ujian Turing klasik. Ini boleh melibatkan manusia menilai output AI berdasarkan kriteria tertentu (cth., ketepatan fakta, koheren logik, pertimbangan etika, kegunaan) dan bukannya hanya membuat pertimbangan binari manusia/mesin. Manusia boleh membantu memperhalusi model, mengenal pasti kelemahan, dan membimbing pembangunan berdasarkan maklum balas bernuansa.

Idea terasnya ialah menilai sesuatu yang kompleks seperti kecerdasan memerlukan pandangan melangkaui peniruan mudah. Walaupun Ujian Turing menyediakan rangka kerja awal yang berharga dan terus mencetuskan perbincangan penting, pergantungan padanya sahaja berisiko tersalah anggap peniruan canggih sebagai pemahaman tulen. Laluan ke arah memahami dan berpotensi mencapai AGI memerlukan kaedah penilaian yang lebih kaya, lebih pelbagai, dan mungkin lebih ketat.

Enigma AGI dan Masa Depan Penilaian

Eksperimen baru-baru ini menggariskan cabaran asas yang melangkaui Ujian Turing itu sendiri: kita bergelut untuk mentakrifkan dengan tepat apa yang membentuk Kecerdasan Am Buatan (AGI), apatah lagi bersetuju tentang bagaimana kita akan mengenal pastinya secara muktamad jika kita menemuinya. Jika manusia, dengan semua bias dan andaian yang wujud, boleh begitu mudah dipengaruhi oleh LLM yang diprompt dengan baik dalam antara muka sembang yang mudah, bagaimana kita boleh menilai dengan pasti keupayaan kognitif yang lebih mendalam bagi sistem masa depan yang berpotensi jauh lebih maju?

Perjalanan ke arah AGI diselubungi kekaburan. Kajian UC San Diego berfungsi sebagai peringatan kuat bahawa penanda aras semasa kita mungkin tidak mencukupi untuk tugas di hadapan. Ia menonjolkan kesukaran mendalam dalam memisahkan tingkah laku simulasi daripada pemahaman tulen, terutamanya apabila simulasi menjadi semakin canggih. Ini membawa kepada persoalan spekulatif, namun merangsang pemikiran, tentang paradigma penilaian masa depan. Bolehkah kita mencapai satu titik, mengingatkan naratif fiksyen sains, di mana pertimbangan manusia dianggap terlalu tidak boleh dipercayai untuk membezakan AI termaju daripada manusia?

Mungkin, secara paradoks, penilaian kecerdasan mesin yang sangat maju akan memerlukan bantuan daripada mesin lain. Sistem yang direka khusus untuk menyiasat kedalaman kognitif, konsistensi, dan penaakulan tulen, yang berpotensi kurang terdedah kepada isyarat sosial dan bias yang mempengaruhi hakim manusia, mungkin menjadi komponen penting dalam kit alat penilaian. Atau, sekurang-kurangnya, pemahaman yang lebih mendalam tentang interaksi antara arahan manusia (prompt), penyesuaian AI, dan persepsi kecerdasan yang terhasil akan menjadi penting. Kita mungkin perlu bertanya kepada mesin apa yang mereka cerap apabila memerhatikan mesin lain bertindak balas terhadap percubaan manusia untuk mendapatkan tingkah laku tertentu yang berpotensi menipu. Usaha untuk mengukur AI memaksa kita untuk menghadapi bukan sahaja sifat kecerdasan mesin tetapi juga sifat kita sendiri yang kompleks dan sering mengejutkan.