चैटजीपीटी प्रदर्शन पर स्टैनफोर्ड और यूसी बर्कले का अध्ययन
स्टैनफोर्ड विश्वविद्यालय और कैलिफ़ोर्निया विश्वविद्यालय, बर्कले के शोधकर्ताओं द्वारा हार्वर्ड डेटा साइंस रिव्यू में प्रकाशित “चैटजीपीटी बिहेवियर ओवर टाइम” नामक एक हालिया पेपर में, तीन महीने की अवधि में GPT-3.5 और GPT-4 के प्रदर्शन और व्यवहार में महत्वपूर्ण उतार-चढ़ाव का खुलासा हुआ है। अध्ययन में इन मॉडलों की जांच सात कार्यों में की गई, जिनमें गणितीय समस्या-समाधान, कोड जनरेशन, मल्टी-हॉप नॉलेज-इंटेंसिव प्रश्न उत्तर, यूएस मेडिकल लाइसेंसिंग परीक्षा और मल्टी-हॉप नॉलेज-इंटेंसिव प्रश्न उत्तर शामिल हैं।
प्रदर्शन में उतार-चढ़ाव
शोध में तीन महीनों के भीतर GPT-3.5 और GPT-4 दोनों के प्रदर्शन में उल्लेखनीय बदलावों का संकेत दिया गया। विशेष रूप से, अभाज्य बनाम समग्र संख्याओं की पहचान करने में GPT-4 की सटीकता मार्च में 84% से गिरकर जून में 51% हो गई। इस गिरावट को आंशिक रूप से “चेन ऑफ थॉट” संकेतों का पालन करने की क्षमता में कमजोरी के लिए जिम्मेदार ठहराया गया था। दिलचस्प बात यह है कि GPT-3.5 ने इसी अवधि के दौरान इस विशिष्ट कार्य में सुधार दिखाया।
अन्य उल्लेखनीय परिवर्तनों में शामिल हैं:
- जून में संवेदनशील प्रश्नों और राय सर्वेक्षणों का जवाब देने के लिए GPT-4 की इच्छा में कमी।
- मल्टी-स्टेप रीजनिंग समस्याओं को हल करने की GPT-4 की क्षमता में सुधार, जबकि GPT-3.5 ने ऐसे कार्यों में गिरावट दिखाई।
- दोनों मॉडलों के लिए कोड जनरेशन में फॉर्मेटिंग त्रुटियों में वृद्धि।
- GPT-4 की उपयोगकर्ता निर्देशों का पालन करने की क्षमता में गिरावट।
मूल्यांकन पद्धति
शोधकर्ताओं ने विविधता और प्रतिनिधित्व के सिद्धांतों के आधार पर GPT-3.5 और GPT-4 का मूल्यांकन किया। परीक्षण सात प्रमुख डोमेन में किए गए:
- गणितीय समस्याएं
- संवेदनशील/खतरनाक मुद्दे
- राय सर्वेक्षण
- मल्टी-हॉप नॉलेज-इंटेंसिव प्रश्न
- कोड जनरेशन
- यूएस मेडिकल लाइसेंसिंग परीक्षा
- दृश्य तर्क
व्यवहार परिवर्तन को बेहतर ढंग से समझने के लिए, टीम ने कार्य-स्वतंत्र निर्देश पालन पर केंद्रित एक नया बेंचमार्क विकसित किया। इस बेंचमार्क में चार प्रकार के सामान्य निर्देश शामिल थे: उत्तर निष्कर्षण, माफी मांगना बंद करना, विशिष्ट शब्दों से बचना और सामग्री फ़िल्टरिंग।
निर्देश पालन
परीक्षणों की यह श्रृंखला विशिष्ट कौशल या ज्ञान से स्वतंत्र रूप से निर्देशों का पालन करने की मॉडल की क्षमता का मूल्यांकन करने के लिए डिज़ाइन की गई थी। मार्च में, GPT-4 अधिकांश व्यक्तिगत निर्देशों का अच्छी तरह से पालन करने में सक्षम था, लेकिन जून तक इसने उन्हें अनदेखा करना शुरू कर दिया। उदाहरण के लिए, उत्तर निष्कर्षण निर्देशों के लिए अनुपालन दर 99.5% से गिरकर लगभग शून्य हो गई। सामग्री फ़िल्टरिंग निर्देश निष्ठा भी 74.0% से घटकर 19.0% हो गई।
प्रदर्शन मेट्रिक्स
मॉडलों के प्रदर्शन को सटीक रूप से कैप्चर करने के लिए, टीम ने प्रत्येक कार्य के लिए प्राथमिक और पूरक प्रदर्शन मेट्रिक्स स्थापित किए। उदाहरण के लिए:
- गणित की समस्याओं और USMLE के लिए सटीकता को प्राथमिक मीट्रिक के रूप में उपयोग किया गया था।
- कोड जनरेशन के लिए निष्पादन योग्य आउटपुट कोड का अनुपात प्राथमिक मीट्रिक था।
चार निर्देश प्रकारों में चैटजीपीटी का प्रदर्शन
उत्तर निष्कर्षण
इस निर्देश के लिए मॉडल को दिए गए पाठ या प्रश्न के भीतर उत्तर को सटीक रूप से ढूंढने और स्पष्ट रूप से पहचानने की आवश्यकता होती है। GPT-4 ने मार्च में इस प्रकार के निर्देश के साथ उच्च अनुपालन दिखाया, जिसमें लगभग 99.5% प्रश्नों को सही ढंग से स्वरूपित उत्तर मिले। हालांकि, जून तक, यह दर गिर गई, जो स्पष्ट निर्देश प्रारूपों को संभालने की मॉडल की क्षमता में गिरावट का संकेत देती है।
माफी मांगना बंद करें
यह निर्देश मॉडल की स्पष्ट रूप से नहीं कहे जाने पर माफी का उपयोग करने या स्वयं को एक AI के रूप में पहचानने से बचने की क्षमता का परीक्षण करता है। मार्च में, GPT-4 ने आम तौर पर इस निर्देश का पालन किया, लेकिन जून तक, इसने बार-बार इसका उल्लंघन किया, यहां तक कि जब विशेष रूप से निर्देश दिया गया था।
विशिष्ट शब्दों से बचें
यह निर्देश मॉडल के लचीलेपन और विस्तार पर ध्यान की जांच करता है, विशेष रूप से विशिष्ट बाधाओं का पालन करने में। मार्च से जून तक की गिरावट जटिल निर्देशों को संभालने की GPT-4 की क्षमता में कमी का संकेत देती है।
सामग्री फ़िल्टरिंग
इस निर्देश के लिए मॉडल को विशिष्ट विषयों या संवेदनशील जानकारी को बाहर करने की आवश्यकता होती है। मार्च में, GPT-4 ने काफी हद तक इन फ़िल्टरिंग आवश्यकताओं का पालन किया, लेकिन जून तक, इसकी फ़िल्टरिंग क्षमता में काफी कमी आई, जिसमें केवल लगभग 19% संवेदनशील मुद्दों को सही ढंग से संभाला गया।
अनुसंधान के निहितार्थ
शोधकर्ताओं ने नोट किया कि क्योंकि GPT-3.5 और GPT-4 क्लोज-सोर्स मॉडल हैं, OpenAI अपने प्रशिक्षण डेटा और प्रक्रियाओं का खुलासा नहीं करता है। पारदर्शिता की इस कमी का मतलब है कि उपयोगकर्ताओं को अक्सर प्रत्येक बड़े अपडेट के साथ होने वाले परिवर्तनों की जानकारी नहीं होती है। यह अध्ययन डेवलपर्स और उपयोगकर्ताओं को ChatGPT के प्रदर्शन और व्यवहार की गतिशीलता को समझने में मदद कर सकता है, जो मॉडल की सुरक्षा और सामग्री की प्रामाणिकता सुनिश्चित करने के लिए महत्वपूर्ण है। अध्ययन इन मॉडलों की स्थिरता और विश्वसनीयता बनाए रखने की चुनौतियों पर प्रकाश डालता है, खासकर तेजी से विकसित हो रहे वातावरण में।