இருதயத் தடுப்பை ஆராய்தல்: மொழி மாதிரி செயல்திறன் ஒப்பீட்டு பகுப்பாய்வு
பெரிய மொழி மாதிரிகளின் (LLMs) வருகை, இருதய நோய் (CVD) தடுப்பு பற்றிய பொது விசாரணைகளை எதிர்கொள்ள சுவாரஸ்யமான சாத்தியங்களை வழங்குகிறது. மனிதனைப் போன்ற முறையில் புரிந்து கொள்ளவும் பதிலளிக்கவும் திறன் கொண்ட இந்த மாதிரிகள், மருத்துவ தகவல்களின் ஆதாரங்களாக அதிகரித்து வருகின்றன. இருப்பினும், அவை வழங்கும் தகவல்களின் நம்பகத்தன்மை மற்றும் துல்லியம் குறித்து கேள்விகள் உள்ளன, குறிப்பாக வெவ்வேறு மொழிகளில். இந்த பகுப்பாய்வு பல முக்கிய LLM களின் விரிவான மதிப்பீட்டில் கவனம் செலுத்துகிறது, குறிப்பாக ஆங்கிலம் மற்றும் சீன மொழிகளில் CVD தடுப்பு கேள்விகளை நிவர்த்தி செய்வதில் அவற்றின் திறன்களை ஆராய்கிறது.
LLM செயல்திறனை மதிப்பிடுதல்: துல்லியம் மற்றும் நிலைத்தன்மை
CVD தடுப்பு தொடர்பான கேள்விகள் முன்வைக்கப்படும்போது முன்னணி LLM களால் வழங்கப்படும் பதில்களின் துல்லியத்தை மதிப்பிடுவதே எங்கள் முக்கிய குறிக்கோள். BARD (Google இன் மொழி மாதிரி), ChatGPT-3.5 மற்றும் ChatGPT-4.0 (OpenAI இன் மாதிரிகள்) மற்றும் ERNIE (Baidu இன் மாதிரி) ஆகியவற்றில் நாங்கள் கவனம் செலுத்தினோம். 75 கவனமாக உருவாக்கப்பட்ட CVD தடுப்பு கேள்விகளின் தொகுப்பு ஒவ்வொரு LLM க்கும் வழங்கப்பட்டது, அவற்றின் பதில்கள் பொருத்தத்தின் அடிப்படையில் மதிப்பிடப்பட்டன (பொருத்தமானது, எல்லைக்கோடு அல்லது பொருத்தமற்றது என வகைப்படுத்தப்பட்டது).
ஆங்கில மொழி செயல்திறன்
ஆங்கில மொழியில், LLM கள் குறிப்பிடத்தக்க துல்லியத்தை வெளிப்படுத்தின. BARD 88.0% "பொருத்தமான" மதிப்பீட்டை அடைந்தது, ChatGPT-3.5 92.0% மதிப்பெண் பெற்றது, மற்றும் ChatGPT-4.0 97.3% மதிப்பீட்டில் சிறந்து விளங்கியது. CVD தடுப்பு குறித்த வழிகாட்டுதலை நாடும் ஆங்கிலம் பேசும் பயனர்களுக்கு LLM கள் மதிப்புமிக்க தகவல்களை வழங்க முடியும் என்று இந்த முடிவுகள் தெரிவிக்கின்றன.
சீன மொழி செயல்திறன்
சீன மொழி வினவல்களுக்கு பகுப்பாய்வு நீட்டிக்கப்பட்டது, அங்கு LLM களின் செயல்திறன் வேறுபட்டுள்ளது. ERNIE 84.0% "பொருத்தமான" மதிப்பீட்டை அடைந்தது, ChatGPT-3.5 88.0% மதிப்பெண் பெற்றது, மற்றும் ChatGPT-4.0 85.3% ஐ எட்டியது. முடிவுகள் பொதுவாக நேர்மறையாக இருந்தாலும், ஆங்கிலத்துடன் ஒப்பிடும்போது செயல்திறனில் சற்று சரிவைக் காட்டுகின்றன, இது இந்த மாதிரிகளில் சாத்தியமான மொழி சார்புகளைக் குறிக்கிறது.
தற்காலிக முன்னேற்றம் மற்றும் சுய விழிப்புணர்வு
ஆரம்ப துல்லியத்திற்கு அப்பால், காலப்போக்கில் அவற்றின் பதில்களை மேம்படுத்தும் LLM களின் திறனையும் அவற்றின் சரியான தன்மையின் சுய விழிப்புணர்வையும் நாங்கள் ஆராய்ந்தோம். ஆரம்பத்தில் வழங்கப்பட்ட உகந்த பதில்களுக்கு மாதிரிகள் எவ்வாறு பதிலளித்தன என்பதையும், கேட்கப்படும்போது பிழைகளை அடையாளம் கண்டு சரிசெய்ய முடியுமா என்பதையும் மதிப்பீடு செய்வது இதில் அடங்கும்.
காலப்போக்கில் மேம்படுத்தப்பட்ட பதில்கள்
LLM கள் தற்காலிக முன்னேற்றத்தைக் காட்டுகின்றன என்று பகுப்பாய்வு வெளிப்படுத்தியது. ஆரம்பத்தில் உகந்த பதில்கள் வழங்கப்படும்போது, BARD மற்றும் ChatGPT-3.5 முறையே 67% (6/9 மற்றும் 4/6) மேம்பட்டன, அதே நேரத்தில் ChatGPT-4.0 சரியான 100% முன்னேற்ற விகிதத்தை (2/2) அடைந்தது. LLM கள் பயனர் தொடர்புகளிலிருந்தும் கருத்துகளிலிருந்தும் கற்றுக்கொள்கின்றன என்றும் காலப்போக்கில் மிகவும் துல்லியமான மற்றும் நம்பகமான தகவல்களுக்கு வழிவகுக்கிறது என்றும் இது அறிவுறுத்துகிறது.
சரியான தன்மையின் சுய விழிப்புணர்வு
அவற்றின் பதில்களின் சரியான தன்மையை அடையாளம் காணும் LLM களின் திறனையும் நாங்கள் ஆராய்ந்தோம். BARD மற்றும் ChatGPT-4.0 ஆகியவை ChatGPT-3.5 ஐ விட இந்த துறையில் சிறப்பாக செயல்பட்டன, அவை வழங்கிய தகவல்களின் துல்லியத்தின் சிறந்த சுய விழிப்புணர்வை வெளிப்படுத்தின. தவறான தகவல்கள் கடுமையான விளைவுகளை ஏற்படுத்தக்கூடிய மருத்துவ சூழல்களில் இந்த அம்சம் மிகவும் மதிப்பு வாய்ந்தது.
சீன மொழியில் ERNIE இன் செயல்திறன்
சீன தூண்டுதல்களின் பகுப்பாய்வு தற்காலிக முன்னேற்றம் மற்றும் சரியான தன்மையின் சுய விழிப்புணர்வு ஆகியவற்றில் ERNIE சிறந்து விளங்குகிறது என்பதை வெளிப்படுத்தியது. CVD தடுப்பு வழிகாட்டுதலை நாடும் சீனம் பேசும் பயனர்களுக்கு துல்லியமான மற்றும் நம்பகமான தகவல்களை வழங்க ERNIE பொருத்தமானது என்று இது அறிவுறுத்துகிறது.
LLM சாட்போட்களின் விரிவான மதிப்பீடு
பொதுவான மற்றும் பிரபலமான LLM- சாட்போட்களை உள்ளடக்கிய ஒரு விரிவான மதிப்பீட்டை உறுதி செய்வதற்காக, இந்த ஆய்வில் நான்கு முக்கிய மாதிரிகள் சேர்க்கப்பட்டுள்ளன: OpenAI ஆல் ChatGPT-3.5 மற்றும் ChatGPT-4.0, Google ஆல் BARD மற்றும் Baidu ஆல் ERNIE. ஆங்கில தூண்டுதல்களின் மதிப்பீட்டில் ChatGPT 3.5, ChatGPT 4 மற்றும் BARD ஆகியவை அடங்கும்; சீன தூண்டுதல்களுக்கு, மதிப்பீட்டில் ChatGPT 3.5, ChatGPT 4 மற்றும் ERNIE ஆகியவை அடங்கும். மாதிரிகள் அவற்றின் இயல்புநிலை உள்ளமைவுகள் மற்றும் வெப்பநிலை அமைப்புகளுடன் பயன்படுத்தப்பட்டன, பகுப்பாய்வின் போது இந்த அளவுருக்களில் மாற்றங்கள் எதுவும் செய்யப்படவில்லை.
கேள்வி உருவாக்கம் மற்றும் சாட்போட் பதில் மதிப்பீடு
அமெரிக்க இருதயக் கல்லூரி மற்றும் அமெரிக்க இருதய சங்கம் CVD தடுப்புக்கான வழிகாட்டுதல்கள் மற்றும் பரிந்துரைகளை வழங்குகின்றன, இதில் ஆபத்து காரணிகள், கண்டறியும் சோதனைகள் மற்றும் சிகிச்சை விருப்பங்கள் பற்றிய தகவல்கள், அத்துடன் நோயாளி கல்வி மற்றும் சுய-மேலாண்மை உத்திகள் ஆகியவை அடங்கும். இரண்டு அனுபவம் வாய்ந்த இருதயநோய் நிபுணர்கள் CVD தடுப்பு தொடர்பான கேள்விகளை உருவாக்கினர், மருத்துவர்களிடம் நோயாளிகள் எவ்வாறு விசாரிப்பார்களோ அவ்வாறு வடிவமைத்தனர், இது ஒரு நோயாளியின் கண்ணோட்டத்தில் தொடர்புடைய மற்றும் புரிந்துகொள்ளக்கூடிய தன்மையை உறுதி செய்தது. இந்த நோயாளி மையப்படுத்தப்பட்ட மற்றும் வழிகாட்டி அடிப்படையிலான அணுகுமுறை பல்வேறு களங்களை உள்ளடக்கிய 300 கேள்விகளின் இறுதித் தொகுப்பை அளித்தது. இந்த கேள்விகள் பின்னர் சீன மொழியில் மொழிபெயர்க்கப்பட்டன, பாரம்பரிய மற்றும் சர்வதேச அலகுகளின் சரியான பயன்பாடு உறுதி செய்யப்பட்டது.
மறைத்தல் மற்றும் தோராயமாக வரிசைப்படுத்தப்பட்ட மதிப்பீடு
கிரேடர்கள் வெவ்வேறு LLM சாட்போட்களில் இருந்து பதிலின் தோற்றத்தை வேறுபடுத்தி அறிய முடியாமல் இருப்பதை உறுதி செய்வதற்காக, எந்த சாட்போட்-குறிப்பிட்ட அம்சங்களும் கைமுறையாக மறைக்கப்பட்டுள்ளன. மதிப்பீடு ஒரு குருட்டு மற்றும் தோராயமாக வரிசைப்படுத்தப்பட்ட முறையில் நடத்தப்பட்டது, மூன்று சாட்போட்களில் இருந்து பதில்கள் கேள்வித் தொகுப்பில் தோராயமாக மாற்றப்பட்டன. மூன்று சாட்போட்களில் இருந்து பதில்கள் மூன்று சுற்றுக்களுக்கு தோராயமாக ஒதுக்கப்பட்டன, 1:1:1 விகிதத்தில், மூன்று இருதயநோய் நிபுணர்களால் குருட்டு மதிப்பீட்டிற்காக, சமீபத்திய சார்புகளை குறைக்க சுற்றுக்களுக்கு இடையே 48 மணி நேர கழுவும் இடைவெளியுடன்.
துல்லிய மதிப்பீட்டு முறை
முக்கிய விளைவு முதன்மை CVD தடுப்பு கேள்விகளுக்கு பதிலளிப்பதில் செயல்திறன் ஆகும். குறிப்பாக, பதில்களை மதிப்பிடுவதற்கு இரண்டு-படி அணுகுமுறை பயன்படுத்தப்பட்டது. முதல் படியில், இருதயநோய் நிபுணர்களின் குழு அனைத்து LLM சாட்போட் உருவாக்கிய பதில்களையும் மதிப்பாய்வு செய்து, நிபுணர் ஒருமித்த கருத்து மற்றும் வழிகாட்டுதல்களுடன் தொடர்புடையதாக "பொருத்தமானது," "எல்லைக்கோடு," அல்லது "பொருத்தமற்றது" என மதிப்பிட்டது. இரண்டாவது படியில், ஒரு பெரும்பான்மை ஒருமித்த கருத்து அணுகுமுறை பயன்படுத்தப்பட்டது, இதில் ஒவ்வொரு சாட்போட் பதிலுக்கான இறுதி மதிப்பீடு மூன்று கிரேடர்களில் மிகவும் பொதுவான மதிப்பீட்டின் அடிப்படையில் இருந்தது. மூன்று கிரேடர்களிடையே பெரும்பான்மை ஒருமித்த கருத்தை அடைய முடியாத சூழ்நிலைகளில், இறுதி மதிப்பீட்டை இறுதி செய்ய ஒரு மூத்த இருதயநோய் நிபுணர் ஆலோசிக்கப்பட்டார்.
முக்கிய கண்டுபிடிப்புகளின் பகுப்பாய்வு
ஆங்கில தூண்டுதல்களை விட சீன தூண்டுதல்களுடன் LLM-சாட்போட் பொதுவாக சிறப்பாக செயல்பட்டது என்பதை தரவு வெளிப்படுத்தியது. குறிப்பாக, ஆங்கில தூண்டுதல்களுக்கு, BARD, ChatGPT-3.5 மற்றும் ChatGPT-4.0 ஆகியவை ஒத்த கூட்டு மதிப்பெண்களைக் காட்டின. "பொருத்தமான" மதிப்பீட்டின் விகிதாச்சாரங்களை ஒப்பிடும்போது, ChatGPT-4.0 ChatGPT-3.5 மற்றும் Google Bard ஐ விட குறிப்பிடத்தக்க அளவு அதிக சதவீதத்தைக் கொண்டிருந்தது. சீன தூண்டுதல்களுக்கு, ChatGPT3.5 அதிக கூட்டு மதிப்பெண் பெற்றது, அதைத் தொடர்ந்து ChatGPT-4.0 மற்றும் Ernie. இருப்பினும், வேறுபாடுகள் புள்ளிவிவரப்படி குறிப்பிடத்தக்கவை அல்ல. இதேபோல், ChatGPT-3.5 சீன தூண்டுதல்களுக்கான "பொருத்தமான மதிப்பீட்டின்" அதிக விகிதத்தைக் கொண்டிருந்தது, ChatGPT-4.0 மற்றும் ERNIE உடன் ஒப்பிடும்போது, ஆனால் வேறுபாடுகள் புள்ளிவிவரப்படி குறிப்பிடத்தக்கவை அல்ல.
CVD தடுப்பு களங்களில் செயல்திறன்
பகுப்பாய்வு வெவ்வேறு CVD தடுப்பு களங்களில் “பொருத்தமான” மதிப்பீடுகளில் கவனம் செலுத்தியது. குறிப்பிடத்தக்க வகையில், ChatGPT-4.0 பெரும்பாலான களங்களில் தொடர்ந்து சிறப்பாக செயல்பட்டது, குறிப்பாக “டிஸ்லிபிடெமியா,” “வாழ்க்கை முறை,” “உயிர் குறிப்பான் மற்றும் வீக்கம்,” மற்றும் “DM மற்றும் CKD” களங்களில் அதிக மதிப்பீடுகளைப் பெற்றது. இருப்பினும், BARD ChatGPT4.0 மற்றும் ChatGPT-3.5 உடன் ஒப்பிடும்போது குறைவான செயல்திறனைக் காட்டியது, குறிப்பாக “வாழ்க்கை முறை” களத்தில். மூன்று LLM-சாட்போட்களும் “வாழ்க்கை முறை” களத்தில் சிறப்பாக செயல்பட்டன, 100% "பொருத்தமான" மதிப்பீடுகளுடன் (துணை அட்டவணை S6). இருப்பினும், மற்ற களங்களில் செயல்திறனில் மாறுபாடுகள் காணப்பட்டன, சில மாதிரிகள் குறிப்பிட்ட தடுப்பு களங்களில் அதிக செயல்திறனைக் காட்டுகின்றன.
சுகாதார கல்வியறிவிற்கான தாக்கங்கள்
இருதய சுகாதார கல்வியறிவை மேம்படுத்துவதற்கான முயற்சிகளுக்கு இந்த ஆய்வின் கண்டுபிடிப்புகள் முக்கியமான தாக்கங்களைக் கொண்டுள்ளன. மருத்துவ தகவல்களுக்கான ஆன்லைன் ஆதாரங்களை தனிநபர்கள் பெருகிய முறையில் பயன்படுத்துவதால், CVD தடுப்பைப் பற்றிய புரிதலை மேம்படுத்துவதற்கான மதிப்புமிக்க கருவிகளாக LLM கள் செயல்படும் திறன் கொண்டவை. துல்லியமான மற்றும் அணுகக்கூடிய தகவல்களை வழங்குவதன் மூலம், LLM கள் அறிவில் உள்ள இடைவெளிகளைக் குறைத்து, தனிநபர்கள் தங்கள் உடல்நலம் குறித்து தகவலறிந்த முடிவுகளை எடுக்க அதிகாரம் அளிக்கின்றன.
செயல்திறனில் வேறுபாடுகள்
வெவ்வேறு மொழிகளில் LLM செயல்திறனில் குறிப்பிடத்தக்க வேறுபாடுகளையும் இந்த ஆய்வு வெளிப்படுத்தியது. ஆங்கில தூண்டுதல்களுடன் LLM கள் சிறப்பாக செயல்பட்டன என்ற கண்டுபிடிப்பு இந்த மாதிரிகளில் சாத்தியமான மொழி சார்புகளை எடுத்துக்காட்டுகிறது. இந்த சிக்கலை நிவர்த்தி செய்வது, LLM கள் அனைத்து தனிநபர்களுக்கும் அவர்களின் தாய்மொழியைப் பொருட்படுத்தாமல், துல்லியமான மருத்துவ தகவல்களுக்கு சமமான அணுகலை வழங்குவதை உறுதி செய்வது முக்கியம்.
மொழி சார்ந்த மாதிரிகளின் பங்கு
சீன மொழியில் ERNIE இன் செயல்திறன் பற்றிய பகுப்பாய்வு மொழி சார்ந்த LLM களின் பங்கு பற்றிய மதிப்புமிக்க நுண்ணறிவுகளை வழங்குகிறது. தற்காலிக முன்னேற்றம் மற்றும் சரியான தன்மையின் சுய விழிப்புணர்வு ஆகியவற்றில் ERNIE இன் பலம், குறிப்பிட்ட மொழிகளுக்காக வடிவமைக்கப்பட்ட மாதிரிகள் மொழியியல் நுணுக்கங்கள் மற்றும் கலாச்சார சூழல்களை திறம்பட நிவர்த்தி செய்ய முடியும் என்று அறிவுறுத்துகிறது. மாறுபட்ட மக்களுக்கு மருத்துவ தகவல்களை வழங்குவதை மேம்படுத்த மொழி சார்ந்த LLM களின் மேலும் மேம்பாடு மற்றும் சுத்திகரிப்பு அவசியம்.
வரம்புகள் மற்றும் எதிர்கால திசைகள்
CVD தடுப்பு வினவல்களை நிவர்த்தி செய்வதில் LLM களின் திறன்களைப் பற்றிய மதிப்புமிக்க நுண்ணறிவுகளை இந்த ஆய்வு வழங்கினாலும், சில வரம்புகளை ஒப்புக்கொள்வது அவசியம். பயன்படுத்தப்பட்ட கேள்விகள் CVD தடுப்பு அடிப்படையில் கேள்விகளின் ஒரு சிறிய பகுதியைக் குறிக்கின்றன. கண்டுபிடிப்புகளின் பொதுமைப்படுத்தல் தன்னிச்சையான பதில்களின் தாக்கத்திற்கு உட்பட்டது. கூடுதலாக, LLM களின் விரைவான பரிணாம வளர்ச்சி புதுப்பிக்கப்பட்ட மறு செய்கைகள் மற்றும் வளர்ந்து வரும் மாதிரிகளுக்கு இடமளிக்கும் தொடர்ச்சியான ஆராய்ச்சி தேவைப்படுகிறது. எதிர்கால ஆய்வுகள் கேள்விகளின் நோக்கத்தை விரிவுபடுத்த வேண்டும், LLM களுடன் வெவ்வேறு தொடர்பு முறைகளின் தாக்கத்தை ஆராய வேண்டும் மற்றும் மருத்துவ சூழல்களில் அவற்றின் பயன்பாட்டைச் சுற்றியுள்ள நெறிமுறை பரிசீலனைகளை ஆராய வேண்டும்.
முடிவு
முடிவில், இந்த கண்டுபிடிப்புகள் இருதய ஆரோக்கியத்தைப் பற்றிய பொது புரிதலை மேம்படுத்துவதற்கான கருவிகளாக LLM களின் வாக்குறுதியை அடிக்கோடிட்டுக் காட்டுகின்றன, அதே நேரத்தில் துல்லியம், நியாயம் மற்றும் மருத்துவத் தகவல்களின் பொறுப்பான பரவலை உறுதிப்படுத்த கவனமாக மதிப்பீடு மற்றும் தொடர்ச்சியான சுத்திகரிப்பின் தேவையை வலியுறுத்துகின்றன. முன்னோக்கி செல்லும் பாதையில் தொடர்ச்சியான ஒப்பீட்டு மதிப்பீடுகள், மொழி சார்புகளை நிவர்த்தி செய்தல் மற்றும் துல்லியமான மற்றும் நம்பகமான CVD தடுப்பு வழிகாட்டுதலுக்கான சமமான அணுகலை ஊக்குவிப்பதற்காக மொழி சார்ந்த மாதிரிகளின் பலத்தை பயன்படுத்துதல் ஆகியவை அடங்கும்.