Evolusi chatbot, yang dicontohkan oleh ChatGPT, menunjukkan lonjakan luar biasa dalam kecerdasan, kenaturalan, dan kualitas seperti manusia. Perkembangan ini logis, mengingat bahwa manusia adalah arsitek dari model bahasa besar (LLM) yang membentuk landasan chatbot AI ini. Saat alat-alat ini menyempurnakan kemampuan "penalaran" mereka dan meniru ucapan manusia dengan presisi yang lebih besar, pertanyaan kritis muncul: Apakah mereka cukup maju untuk lulus Tes Turing?
Selama beberapa dekade, Tes Turing telah menjadi tolok ukur penting dalam penilaian kecerdasan mesin. Saat ini, para peneliti secara aktif menundukkan LLM seperti ChatGPT untuk evaluasi yang ketat ini. Hasil yang sukses akan mewakili tonggak monumental di bidang pengembangan AI.
Jadi, apakah ChatGPT mampu lulus Tes Turing? Beberapa peneliti menegaskan bahwa ya. Namun, hasilnya tetap terbuka untuk interpretasi. Tes Turing tidak menawarkan hasil biner langsung, membuat temuan agak ambigu. Selain itu, bahkan jika ChatGPT lulus Tes Turing, itu mungkin tidak memberikan indikasi definitif tentang kualitas "seperti manusia" yang melekat dalam LLM.
Mari kita gali seluk-beluknya.
Membongkar Tes Turing
Esensi dari Tes Turing sangat sederhana.
Diciptakan oleh matematikawan Inggris Alan Turing, tokoh perintis dalam ilmu komputer, Imitation Game, seperti yang awalnya dikenal, berfungsi sebagai ujian lakmus untuk kecerdasan mesin. Tes Turing melibatkan seorang evaluator manusia yang terlibat dalam percakapan dengan manusia dan mesin, tanpa mengetahui mana yang mana. Jika evaluator tidak dapat membedakan mesin dari manusia, mesin tersebut dianggap telah lulus Tes Turing. Dalam pengaturan penelitian, tes ini dilakukan beberapa kali dengan evaluator yang beragam.
Sangat penting untuk menyadari bahwa tes ini tidak secara definitif memastikan apakah LLM memiliki tingkat kecerdasan yang sama dengan manusia. Sebaliknya, ia menilai kemampuan LLM untuk secara meyakinkan meniru manusia.
Proses Berpikir LLM
LLM, menurut sifatnya, tidak memiliki otak fisik, kesadaran, atau pemahaman yang komprehensif tentang dunia. Mereka tidak memiliki kesadaran diri dan tidak memiliki pendapat atau keyakinan yang tulus.
Model-model ini dilatih pada dataset besar yang mencakup berbagai sumber informasi, termasuk buku, artikel daring, dokumen, dan transkrip. Ketika pengguna memberikan input tekstual, model AI menggunakan kemampuan "penalarannya" untuk membedakan makna dan maksud yang paling mungkin di balik input tersebut. Selanjutnya, model menghasilkan respons berdasarkan interpretasi ini.
Intinya, LLM berfungsi sebagai mesin prediksi kata yang canggih. Memanfaatkan data pelatihan mereka yang ekstensif, mereka menghitung probabilitas untuk "token" awal (biasanya satu kata) dari respons, dengan memanfaatkan kosakata mereka. Proses berulang ini berlanjut hingga respons lengkap dirumuskan. Meskipun penjelasan ini disederhanakan, ia menangkap esensi tentang bagaimana LLM menghasilkan respons berdasarkan probabilitas statistik daripada pemahaman yang tulus tentang dunia.
Oleh karena itu, tidak akurat untuk menyatakan bahwa LLM "berpikir" dalam arti konvensional.
Bukti Empiris: ChatGPT dan Tes Turing
Banyak penelitian telah mengeksplorasi kinerja ChatGPT pada Tes Turing, dengan banyak yang menghasilkan hasil positif. Hal ini telah menyebabkan beberapa ilmuwan komputer untuk menyatakan bahwa LLM seperti GPT-4 dan GPT-4.5 sekarang telah melampaui ambang Tes Turing.
Sebagian besar evaluasi ini berkonsentrasi pada model GPT-4 OpenAI, yang mendukung sebagian besar interaksi ChatGPT. Sebuah studi yang dilakukan oleh UC San Diego mengungkapkan bahwa evaluator manusia seringkali tidak dapat membedakan GPT-4 dari manusia. Dalam studi ini, GPT-4 salah diidentifikasi sebagai manusia dalam 54% kasus. Namun, kinerja ini masih tertinggal di belakang manusia sebenarnya, yang diidentifikasi dengan benar sebagai manusia 67% dari waktu.
Setelah rilis GPT-4.5, para peneliti UC San Diego mereplikasi penelitian. Kali ini, LLM diidentifikasi sebagai manusia dalam 73% kasus, melampaui kinerja manusia sebenarnya. Studi ini juga menunjukkan bahwa LLaMa-3.1-405B Meta mampu lulus ujian.
Studi serupa yang dilakukan secara independen dari UC San Diego juga telah memberikan nilai kelulusan untuk GPT. Sebuah studi tahun 2024 oleh University of Reading melibatkan GPT-4 yang menghasilkan respons untuk penilaian dibawa pulang untuk kursus sarjana. Para pemberi nilai tidak menyadari eksperimen dan hanya menandai satu dari 33 pengajuan. ChatGPT menerima nilai di atas rata-rata untuk 32 entri yang tersisa.
Apakah penelitian ini konklusif? Tidak sepenuhnya. Beberapa kritikus berpendapat bahwa temuan penelitian ini kurang mengesankan daripada yang terlihat. Skeptisisme ini mencegah kita untuk secara definitif menyatakan bahwa ChatGPT telah lulus Tes Turing.
Namun demikian, jelas bahwa sementara generasi LLM sebelumnya, seperti GPT-4, kadang-kadang lulus Tes Turing, hasil yang sukses menjadi semakin umum seiring dengan kemajuan LLM. Dengan munculnya model mutakhir seperti GPT-4.5, kita dengan cepat mendekati titik di mana model dapat secara konsisten lulus Tes Turing.
OpenAI membayangkan masa depan di mana membedakan antara manusia dan AI menjadi mustahil. Visi ini tercermin dalam investasi CEO OpenAI Sam Altman dalam proyek verifikasi manusia yang melibatkan perangkat pemindaian bola mata yang dikenal sebagai The Orb.
Penilaian Diri ChatGPT
Ketika ditanya apakah itu bisa lulus Tes Turing, ChatGPT menjawab dengan afirmatif, meskipun dengan peringatan yang telah dibahas. Ketika ditanya dengan pertanyaan, "Bisakah ChatGPT lulus Tes Turing?" chatbot AI (menggunakan model 4o) menyatakan bahwa "ChatGPT dapat lulus Tes Turing dalam beberapa skenario, tetapi tidak dapat diandalkan atau universal." Chatbot menyimpulkan bahwa "Mungkin lulus Tes Turing dengan pengguna rata-rata dalam kondisi kasual, tetapi interogator yang bertekad dan bijaksana hampir selalu dapat membukanya."
Keterbatasan Tes Turing
Beberapa ilmuwan komputer sekarang menganggap Tes Turing sudah ketinggalan zaman dan bernilai terbatas dalam mengevaluasi LLM. Gary Marcus, seorang psikolog Amerika, ilmuwan kognitif, penulis, dan komentator AI, secara ringkas meringkas perspektif ini dalam posting blog baru-baru ini, yang menyatakan bahwa "seperti yang saya (dan banyak lainnya) katakan selama bertahun-tahun, Tes Turing adalah tes ketahanan manusia, bukan tes kecerdasan."
Penting juga untuk diingat bahwa Tes Turing berfokus pada persepsi kecerdasan daripada kecerdasan yang sebenarnya. Perbedaan ini sangat penting. Model seperti ChatGPT 4o dapat lulus ujian hanya dengan meniru ucapan manusia. Selain itu, keberhasilan LLM pada tes akan tergantung pada topik diskusi dan evaluator. ChatGPT mungkin unggul dalam percakapan santai tetapi berjuang dengan interaksi yang membutuhkan kecerdasan emosional yang tulus. Selain itu, sistem AI modern semakin banyak digunakan untuk aplikasi di luar percakapan sederhana, terutama saat kita bergerak menuju dunia AI agentik.
Ini bukan untuk menyarankan bahwa Tes Turing sama sekali tidak relevan. Ini tetap menjadi tolok ukur sejarah yang signifikan, dan perlu dicatat bahwa LLM mampu melewatinya. Namun, Tes Turing bukanlah ukuran utama kecerdasan mesin.
Di Luar Tes Turing: Mencari Tolok Ukur yang Lebih Baik
Tes Turing, meskipun secara historis signifikan, semakin dipandang sebagai ukuran kecerdasan buatan sejati yang tidak memadai. Fokusnya pada meniru percakapan manusia mengabaikan aspek penting dari kecerdasan, seperti pemecahan masalah, kreativitas, dan kemampuan beradaptasi. Ketergantungan tes pada penipuan juga menimbulkan masalah etika, karena mendorong sistem AI untuk berpura-pura memiliki kualitas seperti manusia daripada mengembangkan kecerdasan sejati.
Kebutuhan Akan Metrik Baru
Seiring kemajuan teknologi AI, kebutuhan akan tolok ukur yang lebih komprehensif dan relevan menjadi semakin jelas. Metrik baru ini harus mengatasi kekurangan Tes Turing dan memberikan penilaian yang lebih akurat tentang kemampuan AI. Beberapa arah potensial untuk tolok ukur masa depan meliputi:
- Pemecahan masalah dunia nyata: Tes yang mengharuskan sistem AI untuk memecahkan masalah dunia nyata yang kompleks, seperti merancang jaringan energi berkelanjutan atau mengembangkan obat untuk suatu penyakit.
- Tugas kreatif: Evaluasi yang menilai kemampuan AI untuk menghasilkan konten orisinal dan imajinatif, seperti menulis novel, menyusun musik, atau membuat karya seni.
- Kemampuan beradaptasi dan pembelajaran: Metrik yang mengukur kapasitas AI untuk belajar dari pengalaman baru dan beradaptasi dengan lingkungan yang berubah.
- Pertimbangan etis: Penilaian yang mengevaluasi kemampuan AI untuk membuat keputusan etis dan menghindari bias.
Contoh Tolok Ukur yang Muncul
Beberapa tolok ukur baru muncul untuk mengatasi keterbatasan Tes Turing. Ini termasuk:
- The Winograd Schema Challenge: Tes ini berfokus pada kemampuan AI untuk memahami kata ganti ambigu dalam kalimat.
- The AI2 Reasoning Challenge: Tolok ukur ini menilai kemampuan AI untuk bernalar dan menjawab pertanyaan berdasarkan teks yang kompleks.
- The Commonsense Reasoning Challenge: Tes ini mengevaluasi pemahaman AI tentang pengetahuan akal sehat dan kemampuannya untuk membuat kesimpulan.
Masa Depan Evaluasi AI
Masa depan evaluasi AI kemungkinan akan melibatkan kombinasi tolok ukur yang berbeda, masing-masing dirancang untuk menilai aspek kecerdasan tertentu. Tolok ukur ini harus terus berkembang untuk mengimbangi kemajuan pesat dalam teknologi AI. Selanjutnya, sangat penting untuk melibatkan berbagai pemangku kepentingan, termasuk peneliti, pembuat kebijakan, dan publik, dalam pengembangan dan evaluasi tolok ukur AI.
Bergerak di Luar Peniruan
Pada akhirnya, tujuan penelitian AI haruslah mengembangkan sistem yang tidak hanya cerdas tetapi juga bermanfaat bagi kemanusiaan. Ini membutuhkan untuk bergerak di luar pengejaran peniruan seperti manusia dan berfokus pada pengembangan sistem AI yang dapat memecahkan masalah dunia nyata, meningkatkan kreativitas, dan mempromosikan pengambilan keputusan etis. Dengan merangkul tolok ukur baru dan berfokus pada tujuan yang lebih luas ini, kita dapat membuka potensi penuh AI dan menciptakan masa depan di mana AI dan manusia bekerja sama untuk menciptakan dunia yang lebih baik.