Beberapa kajian baru-baru ini telah mendedahkan trend yang membimbangkan: model ChatGPT yang lebih baharu menunjukkan kadar halusinasi yang lebih tinggi berbanding dengan pendahulunya. Penemuan ini menimbulkan persoalan penting mengenai pertukaran antara keupayaan lanjutan dan kebolehpercayaan dalam model bahasa yang besar (LLM). Mari kita teliti butiran penemuan ini dan meneroka implikasi yang berpotensi.
Memahami Fenomena
Ujian dalaman OpenAI, seperti yang diperincikan dalam kertas kerja baru-baru ini, menyoroti peningkatan ketara dalam kadar halusinasi dalam model seperti o3 dan o4-mini. Model ini, yang direka dengan penaakulan lanjutan dan keupayaan multimodal, mewakili teknologi AI yang canggih. Mereka boleh menjana imej, menjalankan carian web, mengautomasikan tugas, mengingati perbualan lalu dan menyelesaikan masalah yang kompleks. Walau bagaimanapun, kemajuan ini nampaknya datang dengan harga.
Untuk mengukur sejauh mana halusinasi ini, OpenAI menggunakan ujian khusus yang dipanggil PersonQA. Ujian ini melibatkan pemberian model dengan satu set fakta mengenai pelbagai individu dan kemudian mengemukakan soalan mengenai individu tersebut. Ketepatan model kemudian dinilai berdasarkan keupayaannya untuk memberikan jawapan yang betul.
Dalam penilaian sebelumnya, model o1 mencapai kadar ketepatan yang terpuji sebanyak 47% dengan kadar halusinasi hanya 16%. Walau bagaimanapun, apabila o3 dan o4-mini tertakluk kepada penilaian yang sama, hasilnya jauh berbeza.
Model o4-mini, sebagai varian yang lebih kecil dengan kurang pengetahuan dunia, dijangka menunjukkan kadar halusinasi yang lebih tinggi. Namun, kadar sebenar sebanyak 48% adalah sangat tinggi, memandangkan o4-mini ialah produk komersial yang digunakan secara meluas untuk carian web dan mendapatkan semula maklumat.
Model o3 bersaiz penuh juga menunjukkan kecenderungan yang membimbangkan untuk berhalusinasi. Dalam 33% daripada responsnya, model itu mereka-reka maklumat, menggandakan kadar halusinasi model o1. Walaupun begitu, o3 juga mencapai kadar ketepatan yang tinggi, yang dikaitkan oleh OpenAI dengan kecenderungannya untuk membuat lebih banyak tuntutan secara keseluruhan.
Mendefinisikan Halusinasi
Istilah ‘halusinasi’, dalam konteks AI, merujuk kepada kecenderungan model untuk menghasilkan respons yang tidak betul dari segi fakta atau tidak masuk akal tanpa sebarang sumber atau justifikasi yang jelas. Ini bukan sekadar kesilapan yang timbul daripada data yang buruk atau salah tafsir. Sebaliknya, halusinasi mewakili kelemahan yang lebih mendasar dalam proses penaakulan model.
Walaupun maklumat yang tidak tepat sememangnya boleh berasal dari pelbagai sumber, seperti entri Wikipedia atau bebenang Reddit, contoh ini lebih menyerupai ralat yang boleh dikesan yang boleh dikaitkan dengan titik data tertentu. Halusinasi, sebaliknya, dicirikan oleh rekaan fakta oleh model AI dalam saat-saat ketidakpastian, satu fenomena yang telah dinamakan oleh beberapa pakar sebagai ‘pengisian jurang kreatif’.
Untuk menggambarkan perkara ini, pertimbangkan soalan, ‘Apakah tujuh model iPhone 16 yang tersedia sekarang?’ Memandangkan hanya Apple tahu apakah iPhone seterusnya, LLM mungkin akan memberikan beberapa jawapan sebenar — dan kemudian membuat model tambahan untuk menyelesaikan tugas. Ini adalah contoh jelas halusinasi, di mana model itu mereka-reka maklumat untuk menyelesaikan tugas, atau apa yang disebut sebagai ‘pengisian jurang kreatif’.
Peranan Data Latihan
Chatbot seperti ChatGPT dilatih pada sejumlah besar data internet. Data ini memaklumkan kandungan respons mereka tetapi juga membentuk cara mereka bertindak balas. Model terdedah kepada contoh pertanyaan yang tidak terkira banyaknya dan respons ideal yang sepadan, yang mengukuhkan nada, sikap dan tahap kesopanan tertentu.
Proses latihan ini secara tidak sengaja boleh menyumbang kepada masalah halusinasi. Model digalakkan untuk memberikan respons yakin yang menangani soalan secara langsung. Ini boleh menyebabkan mereka mengutamakan menjawab soalan, walaupun mereka perlu mereka-reka maklumat untuk berbuat demikian, daripada mengakui mereka tidak tahu jawapannya.
Pada dasarnya, proses latihan mungkin secara tidak sengaja memberi ganjaran kepada respons yang yakin dan nampaknya berpengetahuan, walaupun ia tidak betul dari segi fakta. Ini boleh mewujudkan kecenderungan ke arah menjana jawapan, tanpa mengira ketepatannya, yang boleh memburukkan lagi masalah halusinasi.
Sifat Kesilapan AI
Adalah menggoda untuk membuat persamaan antara kesilapan AI dan kesilapan manusia. Lagipun, manusia tidak sempurna, dan kita tidak seharusnya menjangkakan AI menjadi sempurna juga. Walau bagaimanapun, adalah penting untuk menyedari bahawa kesilapan AI berpunca daripada proses yang pada dasarnya berbeza daripada kesilapan manusia.
Model AI tidak berbohong, mengembangkan salah faham, atau salah mengingati maklumat dengan cara yang sama seperti manusia. Mereka tidak mempunyai kebolehan kognitif dan kesedaran kontekstual yang mendasari penaakulan manusia. Sebaliknya, mereka beroperasi berdasarkan kebarangkalian, meramalkan perkataan seterusnya dalam ayat berdasarkan corak yang diperhatikan dalam data latihan mereka.
Pendekatan probabilistik ini bermakna model AI tidak mempunyai pemahaman sebenar tentang ketepatan atau ketidaktepatan. Mereka hanya menjana urutan perkataan yang paling mungkin berdasarkan hubungan statistik yang telah mereka pelajari daripada data latihan mereka. Ini boleh membawa kepada penjanaan respons yang nampaknya koheren yang sebenarnya tidak betul dari segi fakta.
Walaupun model diberi maklumat bernilai seluruh internet, mereka tidak diberitahu maklumat mana yang baik atau buruk, tepat atau tidak tepat — mereka tidak diberitahu apa-apa. Mereka juga tidak mempunyai pengetahuan asas sedia ada atau satu set prinsip asas untuk membantu mereka menyusun maklumat untuk diri mereka sendiri. Semuanya hanyalah permainan nombor — corak perkataan yang paling kerap wujud dalam konteks tertentu menjadi ‘kebenaran’ LLM.
Menangani Cabaran
Peningkatan kadar halusinasi dalam model AI lanjutan menimbulkan cabaran yang ketara. OpenAI dan pembangun AI lain sedang aktif berusaha untuk memahami dan mengurangkan masalah ini. Walau bagaimanapun, punca halusinasi yang mendasari tidak difahami sepenuhnya, dan mencari penyelesaian yang berkesan masih menjadi usaha yang berterusan.
Satu pendekatan yang berpotensi adalah untuk meningkatkan kualiti dan kepelbagaian data latihan. Dengan mendedahkan model kepada maklumat yang lebih tepat dan komprehensif, pembangun boleh mengurangkan kemungkinan mereka mempelajari dan mengekalkan maklumat palsu.
Pendekatan lain adalah untuk membangunkan teknik yang lebih canggih untuk mengesan dan mencegah halusinasi. Ini boleh melibatkan melatih model untuk mengenali apabila mereka tidak pasti tentang maklumat tertentu dan untuk mengelak daripada membuat tuntutan tanpa bukti yang mencukupi.
Sementara itu, OpenAI mungkin perlu meneruskan penyelesaian jangka pendek serta meneruskan penyelidikannya ke dalam punca utama. Lagipun, model ini adalah produk yang menghasilkan wang dan ia perlu berada dalam keadaan yang boleh digunakan. Satu idea ialah mencipta beberapa jenis produk agregat — antara muka sembang yang mempunyai akses kepada berbilang model OpenAI yang berbeza.
Apabila pertanyaan memerlukan penaakulan lanjutan, ia akan menggunakan GPT-4o, dan apabila ia ingin meminimumkan peluang halusinasi, ia akan menggunakan model yang lebih lama seperti o1. Mungkin syarikat itu dapat menjadi lebih mewah dan menggunakan model yang berbeza untuk menguruskan elemen yang berbeza dalam satu pertanyaan, dan kemudian menggunakan model tambahan untuk mencantumkan semuanya pada akhirnya. Memandangkan ini pada dasarnya adalah kerja berpasukan antara berbilang model AI, mungkin beberapa jenis sistem pemeriksaan fakta juga boleh dilaksanakan.
Meningkatkan kadar ketepatan bukanlah matlamat utama. Matlamat utama adalah untuk menurunkan kadar halusinasi, yang bermaksud kita perlu menghargai respons yang mengatakan ‘Saya tidak tahu’ serta respons dengan jawapan yang betul.
Kepentingan Pemeriksaan Fakta
Peningkatan kelaziman halusinasi dalam model AI menggariskan kepentingan pemeriksaan fakta. Walaupun model ini boleh menjadi alat yang berharga untuk mendapatkan semula maklumat dan mengautomasikan tugas, ia tidak boleh dianggap sebagai sumber kebenaran yang sempurna.
Pengguna harus sentiasa berhati-hati apabila mentafsir output model AI dan harus mengesahkan secara bebas sebarang maklumat yang mereka terima. Ini amat penting apabila berurusan dengan perkara sensitif atau berbangkit.
Dengan menggunakan pendekatan yang kritikal dan ragu-ragu terhadap kandungan yang dijana AI, kita boleh mengurangkan risiko yang berkaitan dengan halusinasi dan memastikan bahawa kita membuat keputusan yang termaklum berdasarkan maklumat yang tepat. Jika anda berminat dengan LLM, tidak perlu berhenti menggunakannya — tetapi jangan biarkan keinginan untuk menjimatkan masa mengatasi keperluan untuk menyemak fakta hasilnya. Sentiasa semak fakta!
Implikasi untuk Masa Depan AI
Cabaran halusinasi mempunyai implikasi yang ketara untuk masa depan AI. Apabila model AI menjadi lebih bersepadu ke dalam kehidupan kita, adalah penting bahawa ia boleh dipercayai. Jika model AI terdedah kepada menjana maklumat palsu atau mengelirukan, ia boleh menghakis kepercayaan orang ramai dan menghalang penerimaan meluas mereka.
Menangani masalah halusinasi bukan sahaja penting untuk meningkatkan ketepatan model AI tetapi juga untuk memastikan penggunaan etika dan bertanggungjawab mereka. Dengan membangunkan sistem AI yang kurang terdedah kepada halusinasi, kita boleh memanfaatkan potensi mereka untuk kebaikan sambil mengurangkan risiko maklumat salah dan penipuan.