ChatGPT मॉडेल: भ्रमनिरासाची वाढती समस्या

नुकत्याच झालेल्या अभ्यासातून एक चिंताजनक गोष्ट समोर आली आहे: नवीन ChatGPT मॉडेलमध्ये त्यांच्या पूर्वीच्या मॉडेलच्या तुलनेत ‘भ्रमनिरास’ (Hallucinations) होण्याचे प्रमाण अधिक आहे. या शोधामुळे मोठ्या भाषिक मॉडेलमध्ये (LLMs) प्रगत क्षमता आणि विश्वासार्हता यांच्यातील देवाणघेवाण (trade-offs) याबद्दल गंभीर प्रश्न निर्माण झाले आहेत. या निष्कर्षांच्या तपशीलात जाऊन त्याचे संभाव्य परिणाम पाहूया.

घटनेचे आकलन

OpenAI च्या अंतर्गत चाचण्यांनुसार, o3 आणि o4-mini सारख्या मॉडेलमध्ये ‘भ्रमनिरास’ होण्याचे प्रमाण लक्षणीय वाढले आहे. हे मॉडेल प्रगत तर्क क्षमता आणि मल्टीमॉडल क्षमतांनी (multimodal capabilities) युक्त आहेत, जे AI तंत्रज्ञानाचे उत्कृष्ट उदाहरण आहे. ते प्रतिमा तयार करू शकतात, वेबवर शोध घेऊ शकतात, कार्ये स्वयंचलित करू शकतात, मागील संभाषणे लक्षात ठेवू शकतात आणि जटिल समस्या सोडवू शकतात. तथापि, हे प्रगती काही प्रमाणात धोक्याची घंटा आहे.

या ‘भ्रमनिरासा’चे प्रमाण मोजण्यासाठी, OpenAI PersonQA नावाचे एक विशिष्ट चाचणी वापरते. या चाचणीमध्ये मॉडेलला विविध व्यक्तींबद्दल काही तथ्ये दिली जातात आणि नंतर त्या व्यक्तींबद्दल प्रश्न विचारले जातात. मॉडेलने दिलेल्या उत्तरांच्या आधारावर अचूकता तपासली जाते.

मागील चाचणीमध्ये, o1 मॉडेलने 47% अचूकता दर आणि केवळ 16% ‘भ्रमनिरास’ दर गाठला होता. परंतु, जेव्हा o3 आणि o4-mini ची चाचणी घेण्यात आली, तेव्हा निकाल लक्षणीयरीत्या भिन्न होते.

o4-mini मॉडेल, लहान आकार आणि कमी माहितीमुळे जास्त ‘भ्रमनिरास’ दर्शवेल अशी अपेक्षा होती. परंतु, 48% चा वास्तविक दर आश्चर्यकारकपणे जास्त होता, कारण o4-mini हे व्यावसायिकरित्या उपलब्ध उत्पादन आहे आणि वेब शोध आणि माहिती पुनर्प्राप्तीसाठी मोठ्या प्रमाणावर वापरले जाते.

पूर्ण आकाराच्या o3 मॉडेलने देखील ‘भ्रमनिरास’ होण्याची चिंताजनक प्रवृत्ती दर्शविली. 33% उत्तरांमध्ये, मॉडेलने माहितीची fabricated माहिती दिली, ज्यामुळे o1 मॉडेलच्या तुलनेत ‘भ्रमनिरास’चे प्रमाण दुप्पट झाले. असे असूनही, o3 ने उच्च अचूकता दर देखील गाठला, याचे कारण OpenAI ने त्याचे एकूण दावे करण्याचे प्रमाण अधिक असल्याचे सांगितले.

‘भ्रमनिरास’ची व्याख्या

AI च्या संदर्भात, ‘भ्रमनिरास’ म्हणजे मॉडेलद्वारे तथ्यात्मकदृष्ट्या चुकीचे किंवा निरर्थक प्रतिसाद देणे, ज्याचे कोणतेही स्पष्ट स्त्रोत किंवा औचित्य नसते. या चुका केवळ खराब डेटा किंवा चुकीच्या अर्थ लावण्यामुळे उद्भवत नाहीत. त्याऐवजी, ‘भ्रमनिरास’ मॉडेलच्या तर्क प्रक्रियेतील अधिक मूलभूत दोष दर्शवते.

अचूक माहिती विविध स्त्रोतांकडून येऊ शकते, जसे की Wikipedia नोंदी किंवा Reddit थ्रेड्स. ‘भ्रमनिरास’, AI मॉडेल अनिश्चिततेच्या क्षणांमध्ये तथ्यांची fabricated माहिती देते, ज्याला काही तज्ञांनी ‘creative gap-filling’ असे म्हटले आहे.

उदाहरणार्थ, “सध्या iPhone 16 चे किती मॉडेल उपलब्ध आहेत?” असा प्रश्न विचारला तर, LLM काही खरी उत्तरे देईल आणि नंतर काम पूर्ण करण्यासाठी अतिरिक्त मॉडेल तयार करेल. हे ‘भ्रमनिरास’चे स्पष्ट उदाहरण आहे, जिथे मॉडेल कार्य पूर्ण करण्यासाठी माहिती fabricated करते, ज्याला ‘creative gap-filling’ म्हणतात.

प्रशिक्षण डेटाची भूमिका

ChatGPT सारखे चॅटबॉट मोठ्या प्रमाणात इंटरनेट डेटावर प्रशिक्षित केले जातात. हा डेटा त्यांच्या प्रतिसादांची माहिती देतो, परंतु ते कसे प्रतिसाद देतात हे देखील ठरवतो. मॉडेलला असंख्य प्रश्न आणि जुळणाऱ्या योग्य उत्तरांची उदाहरणे दिली जातात, जी विशिष्ट टोन, दृष्टीकोन आणि सभ्यतेची पातळी वाढवतात.

या प्रशिक्षण प्रक्रियेमुळे नकळतपणे ‘भ्रमनिरास’च्या समस्येमध्ये भर पडू शकते. मॉडेलला आत्मविश्वासपूर्ण प्रतिसाद देण्यास प्रोत्साहित केले जाते जे थेट प्रश्नाचे उत्तर देतात. यामुळे, ‘मला उत्तर माहीत नाही’ असे कबूल करण्याऐवजी, माहिती fabricated करून प्रश्नाचे उत्तर देण्यास ते प्राधान्य देतात.

थोडक्यात, प्रशिक्षण प्रक्रिया आत्मविश्वासपूर्ण आणि माहितीपूर्ण प्रतिसादांना बक्षीस देऊ शकते, जरी ते तथ्यात्मकदृष्ट्या चुकीचे असले तरीही. यामुळे उत्तरांची निर्मिती करण्याकडे bias निर्माण होऊ शकतो, त्यांच्या अचूकतेकडे दुर्लक्ष केले जाते, ज्यामुळे ‘भ्रमनिरास’ची समस्या वाढू शकते.

AI चुकांचे स्वरूप

AI चुकांची तुलना मानवी चुकांशी करणे मोहक आहे. शेवटी, मानव अपूर्ण आहेत, आणि आपण AI कडून परिपूर्ण असण्याची अपेक्षा करू नये. तथापि, हे समजून घेणे महत्त्वाचे आहे की AI चुका मानवी चुकांपेक्षा मूलभूतपणे वेगळ्या प्रक्रियेतून उद्भवतात.

AI मॉडेल मानवांप्रमाणे खोटे बोलत नाहीत, गैरसमज विकसित करत नाहीत किंवा माहिती विसरत नाहीत. त्यांच्यात मानवी युक्तिवादांना आधार देणारी संज्ञानात्मक क्षमता आणि प्रासंगिक जागरूकता नसते. त्याऐवजी, ते संभाव्यतेवर आधारित कार्य करतात, त्यांच्या प्रशिक्षण डेटामध्ये दिसून येणाऱ्या pattern च्या आधारावर वाक्यातील पुढील शब्द predict करतात.

या संभाव्य दृष्टिकोन दर्शवितो की AI मॉडेलमध्ये अचूकता किंवा अचूकतेची खरी समज नसते. ते फक्त त्यांच्या प्रशिक्षण डेटावरून शिकलेल्या आकडेवारी संबंधांवर आधारित शब्दांचा सर्वात संभाव्य क्रम तयार करतात. यामुळे, ظاهريदृष्ट्या सुसंगत प्रतिसाद निर्माण होऊ शकतात जे प्रत्यक्षात तथ्यात्मकदृष्ट्या चुकीचे असतात.

मॉडेलला संपूर्ण इंटरनेटवरील माहिती दिली जाते, परंतु कोणती माहिती चांगली किंवा वाईट, अचूक किंवा चुकीची आहे हे सांगितले जात नाही. त्यांच्याकडे कोणतीही मूलभूत माहिती किंवा अंतर्निहित तत्त्वांचा संच नाही जो त्यांना स्वतःसाठी माहितीची क्रमवारी लावण्यास मदत करेल. हे सर्व फक्त numbers चा खेळ आहे - दिलेल्या संदर्भात सर्वात वारंवार अस्तित्वात असलेल्या शब्दांचे pattern LLM चे ‘सत्य’ बनतात.

आव्हानांना सामोरे जाणे

प्रगत AI मॉडेलमध्ये ‘भ्रमनिरास’चे वाढते प्रमाण एक महत्त्वपूर्ण आव्हान आहे. OpenAI आणि इतर AI विकासक ही समस्या समजून घेण्यासाठी आणि कमी करण्यासाठी सक्रियपणे काम करत आहेत. तथापि, ‘भ्रमनिरास’ची मूळ कारणे पूर्णपणे समजलेली नाहीत, आणि प्रभावी उपाय शोधण्याचे प्रयत्न सुरू आहेत.

एक संभाव्य दृष्टिकोन म्हणजे प्रशिक्षण डेटाची गुणवत्ता आणि विविधता सुधारणे. मॉडेलला अधिक अचूक आणि व्यापक माहिती देऊन, विकासक त्यांना चुकीची माहिती शिकण्याची आणि कायम ठेवण्याची शक्यता कमी करू शकतात.

आणखी एक दृष्टिकोन म्हणजे ‘भ्रमनिरास’ शोधण्यासाठी आणि प्रतिबंधित करण्यासाठी अधिक अत्याधुनिक तंत्र विकसित करणे. यात मॉडेलला हे ओळखण्यासाठी प्रशिक्षित करणे समाविष्ट असू शकते की ते एखाद्या विशिष्ट माहितीबद्दल अनिश्चित आहेत आणि पुरेसा पुरावा नसल्यास दावे करणे टाळणे.

दरम्यान, OpenAI ला अल्प-मुदतीचा उपाय तसेच मूळ कारणांवर संशोधन सुरू ठेवण्याची आवश्यकता भासू शकते. शेवटी, ही मॉडेल पैसे कमवणारी उत्पादने आहेत आणि ती वापरण्यायोग्य स्थितीत असणे आवश्यक आहे. एक कल्पना म्हणजे काही प्रकारचे एकत्रित उत्पादन तयार करणे - एक चॅट इंटरफेस ज्यामध्ये अनेक वेगवेगळ्या OpenAI मॉडेलमध्ये प्रवेश असेल.

जेव्हा एखाद्या प्रश्नासाठी प्रगत युक्तिवादाची आवश्यकता असते, तेव्हा ते GPT-4o ला कॉल करेल, आणि जेव्हा ‘भ्रमनिरास’ची शक्यता कमी करायची असेल, तेव्हा ते o1 सारख्या जुन्या मॉडेलला कॉल करेल. कदाचित कंपनी अधिक fancy होऊ शकेल आणि एकाच प्रश्नातील वेगवेगळ्या घटकांची काळजी घेण्यासाठी भिन्न मॉडेल वापरू शकेल आणि नंतर शेवटी त्या सर्वांना एकत्र जोडण्यासाठी अतिरिक्त मॉडेल वापरू शकेल. हे मूलत: अनेक AI मॉडेलमधील टीमवर्क असल्याने, काही प्रकारची fact-checking प्रणाली देखील लागू केली जाऊ शकते.

अचूकता दर वाढवणे हे मुख्य उद्दिष्ट नाही. मुख्य उद्दिष्ट ‘भ्रमनिरास’ दर कमी करणे आहे, ज्याचा अर्थ असा आहे की ‘मला माहीत नाही’ असे प्रतिसाद तसेच योग्य उत्तरांना महत्त्व देणे आवश्यक आहे.

Fact-Checking चे महत्त्व

AI मॉडेलमध्ये ‘भ्रमनिरास’चा वाढता प्रादुर्भाव fact-checking च्या महत्त्वावर जोर देतो. ही मॉडेल माहिती पुनर्प्राप्ती आणि कार्य ऑटोमेशनसाठी मौल्यवान साधने असू शकतात, परंतु त्यांना सत्याचे अचूक स्त्रोत मानले जाऊ नये.

AI मॉडेलच्या आउटपुटचा अर्थ लावताना वापरकर्त्यांनी नेहमी सावधगिरी बाळगली पाहिजे आणि त्यांना मिळालेल्या कोणत्याही माहितीची स्वतंत्रपणे पडताळणी केली पाहिजे. संवेदनशील किंवा गंभीर बाबींशी व्यवहार करताना हे विशेषतः महत्वाचे आहे.

AI-व्युत्पन्न सामग्रीसाठी गंभीर आणि संशयास्पद दृष्टिकोन स्वीकारून, आपण ‘भ्रमनिरास’शी संबंधित धोके कमी करू शकतो आणि खात्री करू शकतो की आपण अचूक माहितीवर आधारित माहितीपूर्ण निर्णय घेत आहोत. जर तुम्ही LLM मध्ये असाल, तर त्यांचा वापर करणे थांबवण्याची गरज नाही - परंतु वेळेची बचत करण्याच्या इच्छेला fact-check च्या गरजेवर विजय मिळवू देऊ नका. नेहमी fact-check करा!

AI च्या भविष्यासाठी परिणाम

‘भ्रमनिरास’च्या आव्हानाचा AI च्या भविष्यावर महत्त्वपूर्ण परिणाम होतो. AI मॉडेल आपल्या जीवनात अधिकाधिक समाकलित होत असल्याने, ते विश्वसनीय असणे आवश्यक आहे. जर AI मॉडेल खोटी किंवा दिशाभूल करणारी माहिती देण्यास प्रवृत्त असतील, तर ते सार्वजनिक विश्वास कमी करू शकतात आणि त्यांचा मोठ्या प्रमाणावर स्वीकार करण्यास अडथळा आणू शकतात.

‘भ्रमनिरास’ची समस्या सोडवणे केवळ AI मॉडेलची अचूकता सुधारण्यासाठीच नव्हे, तर त्यांचा नैतिक आणि जबाबदार वापर सुनिश्चित करण्यासाठी देखील महत्त्वाचे आहे. ‘भ्रमनिरास’ होण्याची शक्यता कमी असलेल्या AI प्रणाली विकसित करून, आपण गैर माहिती आणि फसवणूक धोके कमी करताना चांगल्यासाठी त्यांची क्षमता वापरू शकतो.