हृदय व रक्तवाहिन्या प्रतिबंध नेव्हिगेट करणे: भाषा मॉडेल कार्यक्षमतेचे तुलनात्मक विश्लेषण
मोठ्या भाषेच्या मॉडेल्सचा (LLMs) उदय हृदय व रक्तवाहिन्यासंबंधी रोग (CVD) प्रतिबंधाबद्दल सार्वजनिक चौकशीचे निराकरण करण्यासाठी आकर्षक शक्यता सादर करतो. हे मॉडेल्स, ज्यात मानवासारखे समजून घेण्याची आणि प्रतिसाद देण्याची क्षमता आहे, वैद्यकीय माहितीचे स्रोत म्हणून अधिकाधिक वापरले जात आहेत. तथापि, ते पुरवतात त्या माहितीच्या विश्वासार्हते आणि अचूकतेबद्दल प्रश्न कायम आहेत, विशेषत: वेगवेगळ्या भाषांमध्ये. हे विश्लेषणअनेक प्रमुख LLMs च्या विस्तृत मूल्यांकनामध्ये खोलवर जाते, विशेषत: इंग्रजी आणि चीनी दोन्हीमध्ये CVD प्रतिबंध क्वेरींना संबोधित करण्याच्या त्यांच्या क्षमतांचे परीक्षण करते.
LLM कार्यक्षमतेचे मूल्यांकन: अचूकता आणि सातत्य
आमचे मुख्य उद्दिष्ट हे प्रमुख LLMs द्वारे CVD प्रतिबंधाशी संबंधित प्रश्न विचारल्यावर दिलेल्या प्रतिसादांच्या अचूकतेचे मूल्यांकन करणे होते. आम्ही BARD (Google चे भाषा मॉडेल), ChatGPT-3.5 आणि ChatGPT-4.0 (OpenAI चे मॉडेल्स) आणि ERNIE (Baidu चे मॉडेल) यावर लक्ष केंद्रित केले. 75 काळजीपूर्वक तयार केलेल्या CVD प्रतिबंध प्रश्नांचा एक संच प्रत्येक LLM ला विचारण्यात आला, ज्यांच्या प्रतिसादांचे त्यांच्या योग्यतेवर आधारित मूल्यांकन केले गेले (योग्य, सीमारेषेवरील किंवा अयोग्य म्हणून वर्गीकृत).
इंग्रजी भाषेतील कार्यक्षमता
इंग्रजी भाषेत, LLMs ने लक्षणीय अचूकता दर्शविली. BARD ने 88.0% चे "योग्य" रेटिंग मिळवले, ChatGPT-3.5 ने 92.0% आणि ChatGPT-4.0 ने 97.3% रेटिंगसह उत्कृष्ट कामगिरी केली. हे परिणाम सूचित करतात की LLMs CVD प्रतिबंधावर मार्गदर्शन शोधणाऱ्या इंग्रजी भाषिक वापरकर्त्यांना मौल्यवान माहिती देऊ शकतात.
चीनी भाषेतील कार्यक्षमता
विश्लेषण चीनी भाषेतील प्रश्नांपर्यंत विस्तारित केले गेले, जिथे LLMs च्या कार्यक्षमतेत बदल आढळला. ERNIE ने 84.0% चे "योग्य" रेटिंग मिळवले, ChatGPT-3.5 ने 88.0% आणि ChatGPT-4.0 ने 85.3% पर्यंत मजल मारली. जरी परिणाम सामान्यतः सकारात्मक असले तरी, त्यांनी इंग्रजीच्या तुलनेत कार्यक्षमतेत थोडी घट दर्शविली, जी या मॉडेल्समध्ये संभाव्य भाषिक पूर्वाग्रह दर्शवते.
तात्पुरती सुधारणा आणि आत्म-जागरूकता
सुरुवातीच्या अचूकतेच्या पलीकडे, आम्ही LLMs ची कालांतराने त्यांची उत्तरे सुधारण्याची क्षमता आणि त्यांच्या अचूकतेची आत्म-जागरूकता तपासली. यात सुरुवातीला प्रदान केलेल्या suboptimal उत्तरांना मॉडेल्सने कसा प्रतिसाद दिला आणि विचारल्यावर ते त्रुटी ओळखू आणि सुधारू शकले की नाही याचे मूल्यांकन करणे समाविष्ट होते.
कालांतराने वर्धित प्रतिसाद
विश्लेषणामध्ये असे दिसून आले की LLMs तात्पुरती सुधारणा दर्शवतात. सुरुवातीला suboptimal प्रतिसादांसह सादर केल्यावर, BARD आणि ChatGPT-3.5 मध्ये अनुक्रमे 67% (6/9 आणि 4/6) सुधारणा झाली, तर ChatGPT-4.0 ने 100% परिपूर्ण सुधारणा दर (2/2) गाठला. हे सूचित करते की LLMs वापरकर्ता संवाद आणि फीडबॅकवरून शिकतात, ज्यामुळे कालांतराने अधिक अचूक आणि विश्वसनीय माहिती मिळते.
अचूकतेची आत्म-जागरूकता
आम्ही LLMs च्या त्यांच्या प्रतिसादांच्या अचूकतेची जाणीव करून घेण्याच्या क्षमतेचे देखील परीक्षण केले. BARD आणि ChatGPT-4.0 ने या क्षेत्रात ChatGPT-3.5 पेक्षा सरस कामगिरी केली, त्यांनी पुरवलेल्या माहितीच्या अचूकतेबद्दल अधिक चांगली आत्म-जागरूकता दर्शविली. हे वैशिष्ट्य वैद्यकीय संदर्भांमध्ये विशेषतः मौल्यवान आहे, जिथे चुकीच्या माहितीचे गंभीर परिणाम होऊ शकतात.
चीनी भाषेत ERNIE ची कामगिरी
चीनी प्रॉम्प्ट्सच्या विश्लेषणात असे दिसून आले की ERNIE ने तात्पुरती सुधारणा आणि अचूकतेच्या आत्म-जागरूकतेमध्ये उत्कृष्ट कामगिरी केली. हे सूचित करते की ERNIE CVD प्रतिबंध मार्गदर्श
न शोधणाऱ्या चीनी भाषिक वापरकर्त्यांना अचूक आणि विश्वसनीय माहिती प्रदान करण्यासाठी योग्य आहे.
LLM चॅटबॉट्सचे विस्तृत मूल्यांकन
सामान्य आणि लोकप्रिय LLM-चॅटबॉट्सचा समावेश असलेले सर्वसमावेशक मूल्यांकन सुनिश्चित करण्यासाठी, या अभ्यासात OpenAI द्वारे ChatGPT-3.5 आणि ChatGPT-4.0, Google द्वारे BARD आणि Baidu द्वारे ERNIE या चार प्रमुख मॉडेल्सचा समावेश करण्यात आला. इंग्रजी प्रॉम्प्ट्सच्या मूल्यांकनात ChatGPT 3.5, ChatGPT 4 आणि BARD यांचा समावेश होता; चीनी प्रॉम्प्ट्ससाठी, मूल्यांकनामध्ये ChatGPT 3.5, ChatGPT 4 आणि ERNIE यांचा समावेश होता. मॉडेल त्यांच्या डीफॉल्ट कॉन्फिगरेशन आणि तापमान सेटिंग्जसह वापरले गेले, विश्लेषणादरम्यान या पॅरामीटर्समध्ये कोणतेही समायोजन केले नाही.
प्रश्न निर्मिती आणि चॅटबॉट प्रतिसाद मूल्यांकन
अमेरिकन कॉलेज ऑफ कार्डिओलॉजी आणि अमेरिकन हार्ट असोसिएशन CVD प्रतिबंधासाठी मार्गदर्शक तत्त्वे आणि शिफारसी प्रदान करतात, ज्यात जोखीम घटक, निदान चाचण्या आणि उपचार पर्याय तसेच रुग्ण शिक्षण आणि स्वयं-व्यवस्थापन धोरणे यावरील माहिती समाविष्ट आहे. दोन अनुभवी हृदयरोग तज्ञांनी CVD प्रतिबंधाशी संबंधित प्रश्न तयार केले, ते डॉक्टरांना विचारतात त्याच पद्धतीने तयार केले, जेणेकरून रुग्णाच्या दृष्टिकोनातून प्रासंगिकता आणि समजूतदारपणा सुनिश्चित केला जाईल. या रुग्ण-केंद्रित आणि मार्गदर्शक-आधारित दृष्टिकोनमुळे विविध क्षेत्रांचा समावेश असलेले 300 प्रश्नांचा अंतिम संच तयार झाला. हे प्रश्न नंतर चीनी भाषेत अनुवादित केले गेले, पारंपारिक आणि आंतरराष्ट्रीय युनिट्सचा योग्य वापर सुनिश्चित केला गेला.
ब्लाइंडिंग आणि यादृच्छिकपणे क्रमबद्ध मूल्यांकन
ग्रेडर्सना वेगवेगळ्या LLM चॅटबॉट्समधील प्रतिसादाचे मूळ ओळखता येऊ नये, यासाठी कोणतीही चॅटबॉट-विशिष्ट वैशिष्ट्ये व्यक्तिचलितपणे लपविली गेली. मूल्यांकन अंध आणि यादृच्छिकपणे क्रमबद्ध पद्धतीने केले गेले, तीन चॅटबॉट्सचे प्रतिसाद यादृच्छिकपणे प्रश्न सेटमध्ये मिसळले गेले. तीन चॅटबॉट्समधील प्रतिसाद 3 फेऱ्यांमध्ये यादृच्छिकपणे 1:1:1 च्या प्रमाणात नियुक्त केले गेले, तीन हृदयरोग तज्ञांद्वारे आंधळे मूल्यांकन करण्यासाठी, अलीकडील पूर्वाग्रह कमी करण्यासाठी दरम्यान 48 तासांचा वॉश-आउट कालावधी ठेवण्यात आला.
अचूकता मूल्यांकन पद्धती
प्राथमिक परिणाम प्राथमिक CVD प्रतिबंध प्रश्नांना प्रतिसाद देण्यातील कार्यक्षमता होता. विशेषतः, प्रतिसादांचे मूल्यांकन करण्यासाठी दोन-चरणांचा दृष्टिकोन वापरला गेला. पहिल्या चरणात, हृदयरोग तज्ञांच्या एका पॅनेलने LLM चॅटबॉट-व्युत्पन्न सर्व प्रतिसादांचे पुनरावलोकन केले आणि तज्ञ एकमत आणि मार्गदर्शक तत्त्वांच्या संबंधात त्यांना "योग्य", "सीमारेषेवरील" किंवा "अयोग्य" असे ग्रेड दिले. दुसर्या चरणात, बहुसंख्य एकमत दृष्टिकोन वापरला गेला, ज्यामध्ये प्रत्येक चॅटबॉट प्रतिसादासाठी अंतिम रेटिंग तीन ग्रेडर्समध्ये सर्वाधिक सामान्य रेटिंगवर आधारित होते. ज्या परिस्थितीत तीन ग्रेडर्समध्ये बहुसंख्य एकमत साधता आले नाही, अशा परिस्थितीत अंतिम रेटिंग देण्यासाठी एका वरिष्ठ हृदयरोग तज्ञाचा सल्ला घेण्यात आला.
मुख्य निष्कर्षांचे विश्लेषण
डेटावरून असे दिसून आले की LLM-चॅटबॉटने चीनी प्रॉम्प्ट्सपेक्षा इंग्रजी प्रॉम्प्ट्ससह सामान्यतः चांगली कामगिरी केली. विशेषतः, इंग्रजी प्रॉम्प्ट्ससाठी, BARD, ChatGPT-3.5 आणि ChatGPT-4.0 ने समान एकूण गुण दर्शविले. ‘योग्य’ रेटिंगच्या प्रमाणात तुलना
करतांना, ChatGPT-4.0 मध्ये ChatGPT-3.5 आणि Google Bard च्या तुलनेत लक्षणीय जास्त टक्केवारी होती. चीनी प्रॉम्प्ट्ससाठी, ChatGPT3.5 मध्ये सर्वाधिक एकूण गुण होते, त्यानंतर ChatGPT-4.0 आणि Ernie होते. तथापि, फरक सांख्यिकीयदृष्ट्या महत्त्वपूर्ण नव्हते. त्याचप्रमाणे, ChatGPT-3.5 मध्ये ChatGPT-4.0 आणि ERNIE च्या तुलनेत चीनी प्रॉम्प्ट्ससाठी ‘योग्य रेटिंग’ चे प्रमाण जास्त होते, परंतु फरक सांख्यिकीयदृष्ट्या महत्त्वपूर्ण नव्हते.
CVD प्रतिबंध क्षेत्रांमध्ये कार्यक्षमता
विश्लेषण विविध CVD प्रतिबंध क्षेत्रांमधील "योग्य" रेटिंगवर केंद्रित होते. उल्लेखनीय म्हणजे, ChatGPT-4.0 ने बर्याच क्षेत्रांमध्ये सातत्याने चांगली कामगिरी केली, विशेषत: "डिसलिपिडेमिया", "जीवनशैली", "बायोमार्कर आणि जळजळ" आणि "DM आणि CKD" क्षेत्रांमध्ये उच्च रेटिंगसह. तथापि, BARD ने ChatGPT4.0 आणि ChatGPT-3.5 च्या तुलनेत suboptimal कामगिरी दर्शविली, विशेषत: "जीवनशैली" क्षेत्रात. निष्कर्षांवरून असे दिसून आले की तिन्ही LLM-चॅटबॉट्सने "जीवनशैली" क्षेत्रात चांगली कामगिरी केली, 100% "योग्य" रेटिंगसह (पूरक सारणी S6). तथापि, इतर क्षेत्रांमध्ये कार्यक्षमतेत बदल दिसून आले, काही मॉडेल्स विशिष्ट प्रतिबंध क्षेत्रांमध्ये अधिक प्रभावी असल्याचे दिसून आले.
आरोग्य साक्षरतेसाठी Implications
अभ्यासाच्या निष्कर्षांमध्ये हृदय व रक्तवाहिन्यासंबंधी आरोग्य साक्षरता सुधारण्याच्या प्रयत्नांसाठी महत्त्वपूर्ण implications आहेत. व्यक्ती वैद्यकीय माहितीसाठी अधिकाधिक ऑनलाइन संसाधनांकडे वळत असल्याने, LLMs मध्ये CVD प्रतिबंधाबद्दलची समज वाढविण्यासाठी मौल्यवान साधने म्हणून काम करण्याची क्षमता आहे. अचूक आणि सुलभ माहिती प्रदान करून, LLMs ज्ञानातील अंतर भरून काढू शकतात आणि व्यक्तींना त्यांच्या आरोग्याबद्दल माहितीपूर्ण निर्णय घेण्यास सक्षम बनवू शकतात.
कामगिरीतील असमानता
अभ्यासात LLM च्या कार्यक्षमतेत वेगवेगळ्या भाषांमध्ये लक्षणीय असमानता देखील दिसून आली. LLMs ने चीनी प्रॉम्प्ट्सपेक्षा इंग्रजी प्रॉम्प्ट्ससह चांगले प्रदर्शन केले या निष्कर्षातून या मॉडेल्समध्ये भाषिक पूर्वाग्रह असण्याची शक्यता दिसून येते. हे सुनिश्चित करण्यासाठी या समस्येचे निराकरण करणे महत्वाचे आहे की LLMs त्यांच्या मूळ भाषेची पर्वा न करता, सर्व व्यक्तींसाठी अचूक वैद्यकीय माहितीमध्ये समान प्रवेश प्रदान करतात.
भाषा-विशिष्ट मॉडेल्सची भूमिका
चीनी भाषेत ERNIE च्या कामगिरीचे विश्लेषण भाषा-विशिष्ट LLMs च्या भूमिकेबद्दल मौल्यवान अंतर्दृष्टी प्रदान करते. तात्पुरती सुधारणा आणि अचूकतेच्या आत्म-जागरूकतेमध्ये ERNIE ची ताकद असे सूचित करते की विशिष्ट भाषांसाठी तयार केलेले मॉडेल्स भाषिक बारकावे आणि सांस्कृतिक संदर्भांना प्रभावीपणे संबोधित करू शकतात. विविध लोकसंख्येला वैद्यकीय माहितीचा पुरवठा अनुकूल करण्यासाठी भाषा-विशिष्ट LLMs चा पुढील विकास आणि सुधारणा आवश्यक असू शकते.
मर्यादा आणि भविष्यातील दिशा
हा अभ्यास CVD प्रतिबंध प्रश्नांना संबोधित करण्याच्या LLMs च्या क्षमतेबद्दल मौल्यवान अंतर्दृष्टी प्रदान करत असताना, काही मर्यादा मान्य करणे आवश्यक आहे. वापरलेले प्रश्न CVD प्रतिबंधाच्या दृष्टीने प्रश्नांचा एक छोटा भाग दर्शवतात. निष्कर्षांची सामान्यता stochastic प्रतिसादांच्या प्रभावाच्या अधीन आहे. याव्यतिरिक्त, LLMs च्या
जलद विकासामुळे अद्ययावत आवृत्त्या आणि उदयोन्मुख मॉडेल्स सामावून घेण्यासाठी सतत संशोधनाची आवश्यकता आहे. भविष्यातील अभ्यासांमध्ये प्रश्नांची व्याप्ती वाढवणे, LLMs सह वेगवेगळ्या संवाद पद्धतींचा प्रभाव तपासणे आणि वैद्यकीय संदर्भांमध्ये त्यांच्या वापराशी संबंधित नैतिक विचारांचे अन्वेषण करणे आवश्यक आहे.
निष्कर्ष
निष्कर्षामध्ये, हे निष्कर्ष हृदय व रक्तवाहिन्यासंबंधी आरोग्याबद्दलची सार्वजनिक समज वाढविण्यासाठी LLMs च्या आश्वासक साधनांवर जोर देतात, तसेच अचूकता, निष्पक्षता आणि वैद्यकीय माहितीचा जबाबदार प्रसार सुनिश्चित करण्यासाठी काळजीपूर्वक मूल्यांकन आणि सतत सुधारणा करण्याची आवश्यकता अधोरेखित करतात. पुढे जाण्याच्या मार्गामध्ये सतत तुलनात्मक मूल्यमापन, भाषिक पूर्वाग्रहांना संबोधित करणे आणि अचूक आणि विश्वसनीय CVD प्रतिबंध मार्गदर्शनासाठी समान प्रवेश वाढविण्यासाठी भाषा-विशिष्ट मॉडेल्सच्या सामर्थ्याचा उपयोग करणे यांचा समावेश आहे.