Persepsi bahawa ChatGPT berjaya mengharungi Ujian Turing semakin dilihat sebagai hasil yang tidak dapat dielakkan. Malah, sesetengah penyelidik sudah yakin bahawa ia telah mencapai kejayaan ini.
Evolusi chatbot, yang dicontohi oleh ChatGPT, mempamerkan lonjakan ketara dalam kecerdasan, kesemulajadian dan kualiti seperti manusia. Perkembangan ini adalah logik, memandangkan manusia adalah arkitek model bahasa yang besar (LLM) yang membentuk asas chatbot AI ini. Apabila alat ini memperhalusi keupayaan "penaakulan" mereka dan meniru pertuturan manusia dengan ketepatan yang lebih tinggi, soalan penting timbul: Adakah ia cukup maju untuk lulus Ujian Turing?
Selama beberapa dekad, Ujian Turing telah menjadi penanda aras penting dalam penilaian kecerdasan mesin. Pada masa ini, penyelidik secara aktif menundukkan LLM seperti ChatGPT kepada penilaian yang ketat ini. Hasil yang berjaya akan mewakili pencapaian yang luar biasa dalam bidang pembangunan AI.
Jadi, adakah ChatGPT mampu lulus Ujian Turing? Sesetengah penyelidik menegaskan bahawa ia adalah. Walau bagaimanapun, hasilnya masih terbuka untuk tafsiran. Ujian Turing tidak menawarkan hasil binari yang mudah, menjadikan penemuan agak samar-samar. Selain itu, walaupun ChatGPT lulus Ujian Turing, ia mungkin tidak memberikan petunjuk pasti tentang kualiti "seperti manusia" yang wujud dalam LLM.
Mari kita mendalami kerumitan.
Membongkar Ujian Turing
Intipati Ujian Turing adalah sangat mudah.
Direka oleh ahli matematik British Alan Turing, tokoh perintis dalam sains komputer, Permainan Imitasi, seperti yang dikenali pada mulanya, berfungsi sebagai ujian litmus untuk kecerdasan mesin. Ujian Turing melibatkan penilai manusia yang terlibat dalam perbualan dengan kedua-dua manusia dan mesin, tanpa mengetahui yang mana satu. Jika penilai tidak dapat membezakan mesin daripada manusia, mesin itu dianggap telah lulus Ujian Turing. Dalam persekitaran penyelidikan, ujian ini dijalankan beberapa kali dengan penilai yang pelbagai.
Adalah penting untuk menyedari bahawa ujian ini tidak semestinya memastikan sama ada LLM mempunyai tahap kecerdasan yang sama seperti manusia. Sebaliknya, ia menilai keupayaan LLM untuk meniru manusia dengan meyakinkan.
Proses Pemikiran LLM
LLM, mengikut sifatnya, tidak mempunyai otak fizikal, kesedaran, atau pemahaman yang komprehensif tentang dunia. Mereka tidak mempunyai kesedaran diri dan tidak mempunyai pendapat atau kepercayaan yang tulen.
Model ini dilatih pada set data yang besar yang merangkumi pelbagai sumber maklumat, termasuk buku, artikel dalam talian, dokumen dan transkrip. Apabila pengguna memberikan input tekstual, model AI menggunakan keupayaan "penaakulannya" untuk mengenal pasti makna dan niat yang paling mungkin di sebalik input. Seterusnya, model menjana respons berdasarkan tafsiran ini.
Pada terasnya, LLM berfungsi sebagai enjin ramalan perkataan yang canggih. Dengan memanfaatkan data latihan mereka yang meluas, mereka mengira kebarangkalian untuk "token" awal (biasanya satu perkataan) respons, berdasarkan perbendaharaan kata mereka. Proses berulang ini berterusan sehingga respons lengkap dirumuskan. Walaupun penjelasan ini dipermudahkan, ia menangkap intipati bagaimana LLM menjana respons berdasarkan kebarangkalian statistik dan bukannya pemahaman sebenar tentang dunia.
Oleh itu, adalah tidak tepat untuk mencadangkan bahawa LLM "berfikir" dalam erti kata konvensional.
Bukti Empirikal: ChatGPT dan Ujian Turing
Banyak kajian telah meneroka prestasi ChatGPT pada Ujian Turing, dengan banyak yang memberikan hasil positif. Ini telah membawa sesetengah saintis komputer untuk menegaskan bahawa LLM seperti GPT-4 dan GPT-4.5 kini telah melepasi ambang Ujian Turing.
Kebanyakan penilaian ini menumpukan pada model GPT-4 OpenAI, yang menguasakan majoriti interaksi ChatGPT. Satu kajian yang dijalankan oleh UC San Diego mendedahkan bahawa penilai manusia sering tidak dapat membezakan GPT-4 daripada manusia. Dalam kajian ini, GPT-4 salah dikenal pasti sebagai manusia dalam 54% kes. Walau bagaimanapun, prestasi ini masih ketinggalan di belakang manusia sebenar, yang dikenal pasti dengan betul sebagai manusia 67% daripada masa.
Berikutan pelancaran GPT-4.5, penyelidik UC San Diego meniru kajian itu. Kali ini, LLM dikenal pasti sebagai manusia dalam 73% kes, mengatasi prestasi manusia sebenar. Kajian itu juga menunjukkan bahawa LLaMa-3.1-405B Meta mampu lulus ujian.
Kajian serupa yang dijalankan secara bebas daripada UC San Diego juga telah memberikan gred lulus kepada GPT. Satu kajian 2024 oleh Universiti Reading melibatkan GPT-4 menjana respons kepada penilaian bawa pulang untuk kursus prasiswazah. Penilai tidak menyedari eksperimen itu dan hanya menandakan satu daripada 33 penyerahan. ChatGPT menerima gred di atas purata untuk 32 penyertaan yang selebihnya.
Adakah kajian ini konklusif? Tidak sepenuhnya. Sesetengah pengkritik berpendapat bahawa penemuan penyelidikan ini kurang memberangsangkan daripada yang kelihatan. Keraguan ini menghalang kita daripada mengisytiharkan secara muktamad bahawa ChatGPT telah lulus Ujian Turing.
Walau bagaimanapun, adalah jelas bahawa walaupun generasi LLM sebelumnya, seperti GPT-4, kadangkala lulus Ujian Turing, hasil yang berjaya menjadi semakin lazim apabila LLM terus maju. Dengan kemunculan model canggih seperti GPT-4.5, kita semakin menghampiri titik di mana model boleh lulus Ujian Turing secara konsisten.
OpenAI membayangkan masa depan di mana membezakan antara manusia dan AI menjadi mustahil. Visi ini dicerminkan dalam pelaburan CEO OpenAI Sam Altman dalam projek pengesahan manusia yang melibatkan peranti pengimbasan bebola mata yang dikenali sebagai The Orb.
Penilaian Kendiri ChatGPT
Apabila ditanya sama ada ia boleh lulus Ujian Turing, ChatGPT menjawab secara afirmatif, walaupun dengan amaran yang telah dibincangkan. Apabila digesa dengan soalan, "Bolehkah ChatGPT lulus Ujian Turing?" chatbot AI (menggunakan model 4o) menyatakan bahawa "ChatGPT boleh lulus Ujian Turing dalam beberapa senario, tetapi tidak boleh dipercayai atau universal." Chatbot membuat kesimpulan bahawa "Ia mungkin lulus Ujian Turing dengan pengguna purata dalam keadaan kasual, tetapi penyiasat yang berazam dan bertimbang rasa hampir selalu boleh membongkarnya."
Batasan Ujian Turing
Sesetengah saintis komputer kini menganggap Ujian Turing sudah lapuk dan mempunyai nilai terhad dalam menilai LLM. Gary Marcus, seorang ahli psikologi Amerika, saintis kognitif, pengarang, dan pengulas AI, meringkaskan perspektif ini secara ringkas dalam catatan blog baru-baru ini, yang menyatakan bahawa "seperti yang saya (dan ramai orang lain) katakan selama bertahun-tahun, Ujian Turing ialah ujian kebolehpercayaan manusia, bukan ujian kecerdasan."
Adalah juga penting untuk diingat bahawa Ujian Turing menumpukan pada persepsi kecerdasan dan bukannya kecerdasan sebenar. Perbezaan ini adalah penting. Model seperti ChatGPT 4o boleh lulus ujian hanya dengan meniru pertuturan manusia. Tambahan pula, kejayaan LLM pada ujian akan bergantung pada topik perbincangan dan penilai. ChatGPT mungkin cemerlang dalam perbualan kasual tetapi bergelut dengan interaksi yang memerlukan kecerdasan emosi yang tulen. Lebih-lebih lagi, sistem AI moden semakin digunakan untuk aplikasi di luar perbualan mudah, terutamanya apabila kita bergerak ke arah dunia AI agentik.
Ini tidak bermakna bahawa Ujian Turing sama sekali tidak relevan. Ia kekal sebagai penanda aras sejarah yang penting, dan adalah penting bahawa LLM mampu melulusinya. Walau bagaimanapun, Ujian Turing bukanlah ukuran muktamad kecerdasan mesin.
Melangkaui Ujian Turing: Mencari Penanda Aras yang Lebih Baik
Ujian Turing, walaupun penting dari segi sejarah, semakin dilihat sebagai ukuran kecerdasan buatan yang sebenar yang tidak mencukupi. Tumpuannya untuk meniru perbualan manusia mengetepikan aspek penting kecerdasan, seperti penyelesaian masalah, kreativiti dan kebolehsuaian. Pergantungan ujian pada penipuan juga menimbulkan kebimbangan etika, kerana ia menggalakkan sistem AI untuk berpura-pura kualiti seperti manusia dan bukannya membangunkan kecerdasan yang tulen.
Keperluan untuk Metrik Baharu
Apabila teknologi AI berkembang, keperluan untuk penanda aras yang lebih komprehensif dan relevan menjadi semakin jelas. Metrik baharu ini harus menangani kelemahan Ujian Turing dan menyediakan penilaian yang lebih tepat tentang keupayaan AI. Beberapa hala tuju yang berpotensi untuk penanda aras masa hadapan termasuk:
- Penyelesaian masalah dunia sebenar: Ujian yang memerlukan sistem AI untuk menyelesaikan masalah dunia sebenar yang kompleks, seperti mereka bentuk grid tenaga yang mampan atau membangunkan ubat untuk penyakit.
- Tugas kreatif: Penilaian yang menilai keupayaan AI untuk menjana kandungan yang asli dan imaginatif, seperti menulis novel, menggubah muzik atau mencipta karya seni.
- Kebolehsuaian dan pembelajaran: Metrik yang mengukur kapasiti AI untuk belajar daripada pengalaman baharu dan menyesuaikan diri dengan persekitaran yang berubah-ubah.
- Pertimbangan etika: Penilaian yang menilai keupayaan AI untuk membuat keputusan etika dan mengelakkan berat sebelah.
Contoh Penanda Aras yang Muncul
Beberapa penanda aras baharu muncul untuk menangani batasan Ujian Turing. Ini termasuk:
- Cabaran Skema Winograd: Ujian ini memfokuskan pada keupayaan AI untuk memahami kata ganti nama yang samar-samar dalam ayat.
- Cabaran Penaakulan AI2: Penanda aras ini menilai keupayaan AI untuk menaakul dan menjawab soalan berdasarkan teks yang kompleks.
- Cabaran Penaakulan Akal Sejagat: Ujian ini menilai pemahaman AI tentang pengetahuan akal dan keupayaannya untuk membuat kesimpulan.
Masa Depan Penilaian AI
Masa depan penilaian AI mungkin akan melibatkan gabungan penanda aras yang berbeza, setiap satunya direka untuk menilai aspek kecerdasan tertentu. Penanda aras ini harus sentiasa berkembang untuk mengikuti perkembangan pesat dalam teknologi AI. Tambahan pula, adalah penting untuk melibatkan pelbagai pihak berkepentingan, termasuk penyelidik, pembuat dasar dan orang ramai, dalam pembangunan dan penilaian penanda aras AI.
Bergerak Melangkaui Peniruan
Akhirnya, matlamat penyelidikan AI adalah untuk membangunkan sistem yang bukan sahaja pintar tetapi juga memberi manfaat kepada manusia. Ini memerlukan bergerak melangkaui usaha untuk meniru seperti manusia dan memfokuskan pada membangunkan sistem AI yang boleh menyelesaikan masalah dunia sebenar, meningkatkan kreativiti dan menggalakkan membuat keputusan etika. Dengan menerima penanda aras baharu dan memfokuskan pada matlamat yang lebih luas ini, kita boleh membuka potensi penuh AI dan mencipta masa depan di mana AI dan manusia bekerjasama untuk mencipta dunia yang lebih baik.