Memahami Fenomena Halusinasi
Uji internal OpenAI, seperti yang dijelaskan dalam sebuah makalah baru-baru ini, menyoroti peningkatan signifikan dalam tingkat halusinasi pada model seperti o3 dan o4-mini. Model-model ini, yang dirancang dengan kemampuan penalaran tingkat lanjut dan multimodal, mewakili ujung tombak teknologi AI. Mereka dapat menghasilkan gambar, melakukan pencarian web, mengotomatiskan tugas, mengingat percakapan sebelumnya, dan memecahkan masalah kompleks. Namun, kemajuan ini tampaknya datang dengan harga tertentu.
Untuk mengukur sejauh mana halusinasi ini, OpenAI menggunakan tes khusus yang disebut PersonQA. Tes ini melibatkan pemberian model serangkaian fakta tentang berbagai individu dan kemudian mengajukan pertanyaan tentang individu-individu tersebut. Akurasi model kemudian dievaluasi berdasarkan kemampuannya untuk memberikan jawaban yang benar.
Dalam evaluasi sebelumnya, model o1 mencapai tingkat akurasi yang terpuji sebesar 47% dengan tingkat halusinasi hanya 16%. Namun, ketika o3 dan o4-mini dikenakan evaluasi yang sama, hasilnya sangat berbeda.
Model o4-mini, sebagai varian yang lebih kecil dengan pengetahuan dunia yang lebih sedikit, diperkirakan akan menunjukkan tingkat halusinasi yang lebih tinggi. Namun, tingkat aktual 48% sangat mengejutkan, mengingat bahwa o4-mini adalah produk komersial yang banyak digunakan untuk pencarian web dan pengambilan informasi.
Model o3 berukuran penuh juga menunjukkan kecenderungan yang mengkhawatirkan untuk berhalusinasi. Dalam 33% tanggapannya, model tersebut mengarang informasi, secara efektif menggandakan tingkat halusinasi model o1. Meskipun demikian, o3 juga mencapai tingkat akurasi yang tinggi, yang menurut OpenAI disebabkan oleh kecenderungannya untuk membuat lebih banyak klaim secara keseluruhan.
Definisi Halusinasi
Istilah ‘halusinasi,’ dalam konteks AI, mengacu pada kecenderungan model untuk menghasilkan respons yang faktanya salah atau tidak masuk akal tanpa sumber atau pembenaran yang jelas. Ini bukan sekadar kesalahan yang timbul dari data yang buruk atau salah tafsir. Sebaliknya, halusinasi mewakili cacat yang lebih mendasar dalam proses penalaran model.
Meskipun informasi yang tidak akurat tentu dapat berasal dari berbagai sumber, seperti entri Wikipedia atau utas Reddit, contoh-contoh ini lebih mirip dengan kesalahan yang dapat dilacak yang dapat dikaitkan dengan titik data tertentu. Halusinasi, di sisi lain, ditandai dengan penemuan fakta oleh model AI di saat-saat ketidakpastian, sebuah fenomena yang oleh beberapa ahli disebut ‘pengisian celah kreatif.’
Untuk mengilustrasikan poin ini, pertimbangkan pertanyaan, ‘Apa tujuh model iPhone 16 yang tersedia saat ini?’ Karena hanya Apple yang tahu apa iPhone berikutnya, LLM kemungkinan akan memberikan beberapa jawaban nyata — dan kemudian membuat model tambahan untuk menyelesaikan pekerjaan. Ini adalah contoh yang jelas tentang halusinasi, di mana model mengarang informasi untuk menyelesaikan tugas, atau apa yang disebut sebagai ‘pengisian celah kreatif.’
Peran Data Pelatihan
Chatbot seperti ChatGPT dilatih dengan sejumlah besar data internet. Data ini menginformasikan konten tanggapan mereka tetapi juga membentuk cara mereka menanggapi. Model-model tersebut terpapar pada contoh kueri dan respons ideal yang cocok yang tak terhitung jumlahnya, yang memperkuat nada, sikap, dan tingkat kesopanan tertentu.
Proses pelatihan ini secara tidak sengaja dapat berkontribusi pada masalah halusinasi. Model didorong untuk memberikan respons percaya diri yang secara langsung menjawab pertanyaan. Hal ini dapat menyebabkan mereka memprioritaskan menjawab pertanyaan, bahkan jika mereka harus mengarang informasi untuk melakukannya, daripada mengakui bahwa mereka tidak tahu jawabannya.
Intinya, proses pelatihan dapat secara tidak sengaja menghargai respons yang percaya diri dan tampak berpengetahuan, bahkan jika faktanya salah. Hal ini dapat menciptakan bias terhadap menghasilkan jawaban, terlepas dari akurasinya, yang dapat memperburuk masalah halusinasi.
Sifat Kesalahan AI
Sangat menggoda untuk menarik kesejajaran antara kesalahan AI dan kesalahan manusia. Lagi pula, manusia tidak sempurna, dan kita juga tidak boleh mengharapkan AI menjadi sempurna. Namun, sangat penting untuk menyadari bahwa kesalahan AI berasal dari proses yang secara fundamental berbeda dari kesalahan manusia.
Model AI tidak berbohong, mengembangkan kesalahpahaman, atau salah mengingat informasi dengan cara yang sama seperti yang dilakukan manusia. Mereka tidak memiliki kemampuan kognitif dan kesadaran kontekstual yang mendasari penalaran manusia. Sebaliknya, mereka beroperasi berdasarkan probabilitas, memprediksi kata berikutnya dalam kalimat berdasarkan pola yang diamati dalam data pelatihan mereka.
Pendekatan probabilistik ini berarti bahwa model AI tidak memiliki pemahaman yang benar tentang akurasi atau ketidakakuratan. Mereka hanya menghasilkan urutan kata yang paling mungkin berdasarkan hubungan statistik yang telah mereka pelajari dari data pelatihan mereka. Hal ini dapat menyebabkan generasi respons yang tampaknya koheren yang, pada kenyataannya, faktanya salah.
Sementara model diberi informasi senilai seluruh internet, mereka tidak diberi tahu informasi mana yang baik atau buruk, akurat atau tidak akurat — mereka tidak diberi tahu apa pun. Mereka juga tidak memiliki pengetahuan dasar yang ada atau seperangkat prinsip dasar untuk membantu mereka memilah informasi untuk diri mereka sendiri. Itu semua hanyalah permainan angka — pola kata yang paling sering ada dalam konteks tertentu menjadi ‘kebenaran’ LLM.
Menangani Tantangan
Meningkatnya tingkat halusinasi dalam model AI tingkat lanjut menimbulkan tantangan yang signifikan. OpenAI dan pengembang AI lainnya secara aktif bekerja untuk memahami dan mengurangi masalah ini. Namun, penyebab mendasar halusinasi tidak sepenuhnya dipahami, dan menemukan solusi yang efektif tetap merupakan upaya yang berkelanjutan.
Salah satu pendekatan potensial adalah meningkatkan kualitas dan keberagaman data pelatihan. Dengan mengekspos model ke informasi yang lebih akurat dan komprehensif, pengembang dapat mengurangi kemungkinan mereka mempelajari dan melanggengkan informasi yang salah.
Pendekatan lain adalah mengembangkan teknik yang lebih canggih untuk mendeteksi dan mencegah halusinasi. Ini dapat melibatkan pelatihan model untuk mengenali ketika mereka tidak yakin tentang informasi tertentu dan untuk menahan diri dari membuat klaim tanpa bukti yang cukup.
Sementara itu, OpenAI mungkin perlu mengejar solusi jangka pendek serta melanjutkan penelitiannya tentang akar penyebabnya. Lagi pula, model-model ini adalah produk penghasil uang dan mereka harus dalam keadaan yang dapat digunakan. Salah satu idenya adalah membuat semacam produk agregat — antarmuka obrolan yang memiliki akses ke beberapa model OpenAI yang berbeda.
Ketika kueri membutuhkan penalaran tingkat lanjut, ia akan memanggil GPT-4o, dan ketika ia ingin meminimalkan kemungkinan halusinasi, ia akan memanggil model lama seperti o1. Mungkin perusahaan akan dapat menjadi lebih mewah dan menggunakan model yang berbeda untuk menangani elemen yang berbeda dari satu kueri, dan kemudian menggunakan model tambahan untuk menjahit semuanya bersama-sama di akhir. Karena ini pada dasarnya adalah kerja tim antara beberapa model AI, mungkin semacam sistem pemeriksaan fakta dapat diterapkan juga.
Meningkatkan tingkat akurasi bukanlah tujuan utama. Tujuan utama adalah menurunkan tingkat halusinasi, yang berarti kita perlu menghargai respons yang mengatakan ‘Saya tidak tahu’ serta respons dengan jawaban yang benar.
Pentingnya Pemeriksaan Fakta
Meningkatnya prevalensi halusinasi dalam model AI menggarisbawahi pentingnya pemeriksaan fakta. Meskipun model-model ini dapat menjadi alat yang berharga untuk pengambilan informasi dan otomatisasi tugas, mereka tidak boleh diperlakukan sebagai sumber kebenaran yang sempurna.
Pengguna harus selalu berhati-hati saat menafsirkan keluaran model AI dan harus memverifikasi secara independen informasi apa pun yang mereka terima. Ini sangat penting ketika berhadapan dengan masalah sensitif atau konsekuensial.
Dengan mengadopsi pendekatan kritis dan skeptis terhadap konten yang dihasilkan AI, kita dapat mengurangi risiko yang terkait dengan halusinasi dan memastikan bahwa kita membuat keputusan yang tepat berdasarkan informasi yang akurat. Jika Anda sangat menyukai LLM, tidak perlu berhenti menggunakannya — tetapi jangan biarkan keinginan untuk menghemat waktu menang atas kebutuhan untuk memeriksa fakta hasilnya. Selalu periksa fakta!
Implikasi untuk Masa Depan AI
Tantangan halusinasi memiliki implikasi yang signifikan untuk masa depan AI. Karena model AI menjadi lebih terintegrasi ke dalam hidup kita, sangat penting bahwa mereka dapat diandalkan dan dapat dipercaya. Jika model AI rentan menghasilkan informasi yang salah atau menyesatkan, hal itu dapat mengikis kepercayaan publik dan menghambat adopsi mereka secara luas.
Menangani masalah halusinasi tidak hanya penting untuk meningkatkan akurasi model AI tetapi juga untuk memastikan penggunaan etis dan bertanggung jawab mereka. Dengan mengembangkan sistem AI yang kurang rentan terhadap halusinasi, kita dapat memanfaatkan potensi mereka untuk kebaikan sambil mengurangi risiko misinformasi dan penipuan.