হৃদরোগ প্রতিরোধে ভাষার মডেলগুলির তুলনা

লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs)-এর উত্থান কার্ডিওভাসকুলার ডিজিজ (CVD) প্রতিরোধ সম্পর্কে জনসাধারণের জিজ্ঞাসার সমাধানে আগ্রহজনক সম্ভাবনা তৈরি করেছে। এই মডেলগুলি, যা মানুষের মতো বুঝতে এবং প্রতিক্রিয়া জানাতে সক্ষম, ক্রমবর্ধমানভাবে চিকিৎসা তথ্যের উৎস হিসেবে ব্যবহৃত হচ্ছে। তবে, তারা যে তথ্য সরবরাহ করে তার নির্ভরযোগ্যতা এবং নির্ভুলতা সম্পর্কে প্রশ্ন রয়ে গেছে, বিশেষ করে বিভিন্ন ভাষায়। এই বিশ্লেষণটি বেশ কয়েকটি বিশিষ্ট LLM-এর একটি বিস্তৃত মূল্যায়ন করে, বিশেষভাবে ইংরেজি এবং চীনা উভয় ভাষায় CVD প্রতিরোধের প্রশ্নগুলির সমাধানে তাদের সক্ষমতা পরীক্ষা করে।

LLM কর্মক্ষমতা মূল্যায়ন: নির্ভুলতা এবং সামঞ্জস্য

আমাদের প্রধান উদ্দেশ্য ছিল CVD প্রতিরোধ সম্পর্কিত প্রশ্নগুলির উত্তরে প্রধান LLMগুলি দ্বারা প্রদত্ত প্রতিক্রিয়াগুলির নির্ভুলতা মূল্যায়ন করা। আমরা BARD (Google-এর ভাষা মডেল), ChatGPT-3.5 এবং ChatGPT-4.0 (OpenAI-এর মডেল) এবং ERNIE (Baidu-এর মডেল)-এর উপর দৃষ্টি নিবদ্ধ করেছি। 75টি সতর্কতার সাথে তৈরি CVD প্রতিরোধের প্রশ্ন প্রতিটি LLM-কে করা হয়েছিল, তাদের প্রতিক্রিয়াগুলির উপযুক্ততার ভিত্তিতে মূল্যায়ন করা হয়েছিল (উপযুক্ত, প্রান্তিক বা অনুপযুক্ত হিসাবে শ্রেণীবদ্ধ)।

ইংরেজি ভাষায় কর্মক্ষমতা

ইংরেজি ভাষায়, LLMগুলি উল্লেখযোগ্য নির্ভুলতা প্রদর্শন করেছে। BARD 88.0% এর একটি "উপযুক্ত" রেটিং অর্জন করেছে, ChatGPT-3.5 92.0% স্কোর করেছে এবং ChatGPT-4.0 97.3% রেটিং সহ দক্ষতা অর্জন করেছে। এই ফলাফলগুলি থেকে বোঝা যায় যে LLMগুলি CVD প্রতিরোধে मार्गदर्शन চাওয়া ইংরেজিভাষী ব্যবহারকারীদের মূল্যবান তথ্য সরবরাহ করতে পারে।

চীনা ভাষায় কর্মক্ষমতা

বিশ্লেষণটি চীনা ভাষার প্রশ্নগুলিতে প্রসারিত করা হয়েছিল, যেখানে LLMগুলির কর্মক্ষমতা ভিন্ন ছিল। ERNIE 84.0% এর একটি "উপযুক্ত" রেটিং অর্জন করেছে, ChatGPT-3.5 88.0% স্কোর করেছে এবং ChatGPT-4.0 85.3% এ পৌঁছেছে। ফলাফলগুলি সাধারণভাবে ইতিবাচক হলেও, তারা ইংরেজির তুলনায় কর্মক্ষমতার সামান্য হ্রাস নির্দেশ করে, যা এই মডেলগুলিতে সম্ভাব্য ভাষার পক্ষপাতিত্বের পরামর্শ দেয়।

সাময়িক উন্নতি এবং আত্ম-সচেতনতা

প্রাথমিক নির্ভুলতা ছাড়িয়ে, আমরা সময়ের সাথে সাথে LLMগুলির তাদের প্রতিক্রিয়া উন্নত করার ক্ষমতা এবং তাদের সঠিকতা সম্পর্কে আত্ম-সচেতনতা নিয়ে তদন্ত করেছি। এর মধ্যে প্রাথমিকভাবে প্রদত্ত উপ-অপটিমাল উত্তরগুলিতে মডেলগুলি কীভাবে সাড়া দিয়েছে এবং অনুরোধ করা হলে তারা ত্রুটিগুলি সনাক্ত এবং সংশোধন করতে পারে কিনা তা মূল্যায়ন করা জড়িত ছিল।

সময়ের সাথে উন্নত প্রতিক্রিয়া

বিশ্লেষণে দেখা গেছে যে LLMগুলি সাময়িক উন্নতি প্রদর্শন করে। প্রাথমিকভাবে উপ-অপটিমাল প্রতিক্রিয়াগুলির সাথে উপস্থাপন করা হলে, BARD এবং ChatGPT-3.5 67% (যথাক্রমে 6/9 এবং 4/6 দ্বারা) উন্নতি করেছে, যেখানে ChatGPT-4.0 একটি নিখুঁত 100% উন্নতি হার (2/2) অর্জন করেছে। এটি সুপারিশ করে যে LLMগুলি ব্যবহারকারীর মিথস্ক্রিয়া এবং প্রতিক্রিয়া থেকে सीखে, সময়ের সাথে সাথে আরও নির্ভুল এবং নির্ভরযোগ্য তথ্যের দিকে পরিচালিত করে।

সঠিকতা সম্পর্কে আত্ম-সচেতনতা

আমরা তাদের প্রতিক্রিয়াগুলির সঠিকতা সনাক্ত করার জন্য LLMগুলির ক্ষমতাও পরীক্ষা করেছি। BARD এবং ChatGPT-4.0 এই ক্ষেত্রে ChatGPT-3.5-কে ছাড়িয়ে গেছে, তারা যে তথ্য সরবরাহ করেছে তার নির্ভুলতা সম্পর্কে আরও ভাল স্ব-সচেতনতা প্রদর্শন করেছে। এই বৈশিষ্ট্যটি চিকিৎসা প্রেক্ষাপটে বিশেষভাবে মূল্যবান, যেখানে ভুল তথ্যের গুরুতর পরিণতি হতে পারে।

চীনা ভাষায় ERNIE-এর কর্মক্ষমতা

চীনা প্রম্পটগুলির বিশ্লেষণে দেখা গেছে যে ERNIE সাময়িক উন্নতি এবং সঠিকতা সম্পর্কে আত্ম-সচেতনতায় उत्कृष्ट। এটি সুপারিশ করে যে ERNIE CVD প্রতিরোধের मार्गदर्शन চাওয়া চীনাভাষী ব্যবহারকারীদের নির্ভুল এবং নির্ভরযোগ্য তথ্য সরবরাহের জন্য উপযুক্ত।

LLM চ্যাটবটগুলির ব্যাপক মূল্যায়ন

একটি ব্যাপক মূল্যায়ন নিশ্চিত করার জন্য যাতে সাধারণ এবং জনপ্রিয় LLM-চ্যাটবট অন্তর্ভুক্ত থাকে, এই গবেষণাটিতে চারটি বিশিষ্ট মডেল অন্তর্ভুক্ত করা হয়েছে: OpenAI দ্বারা ChatGPT-3.5 এবং ChatGPT-4.0, Google দ্বারা BARD, এবং Baidu দ্বারা ERNIE। ইংরেজি প্রম্পটগুলির মূল্যায়ন ChatGPT 3.5, ChatGPT 4 এবং BARD জড়িত; চীনা প্রম্পটগুলির জন্য, মূল্যায়ন ChatGPT 3.5, ChatGPT 4 এবং ERNIE জড়িত। মডেলগুলি তাদের ডিফল্ট কনফিগারেশন এবং তাপমাত্রা সেটিংসের সাথে ব্যবহার করা হয়েছিল, বিশ্লেষণের সময় এই পরামিতিগুলিতে কোনও পরিবর্তন করা হয়নি।

প্রশ্ন তৈরি এবং চ্যাটবট প্রতিক্রিয়া মূল্যায়ন

আমেরিকান কলেজ অফ কার্ডিওলজি এবং আমেরিকান হার্ট অ্যাসোসিয়েশন CVD প্রতিরোধের জন্য নির্দেশিকা এবং সুপারিশ প্রদান করে, ঝুঁকির কারণ, ডায়াগনস্টিক পরীক্ষা এবং চিকিত্সার বিকল্পগুলির পাশাপাশি রোগীর শিক্ষা এবং স্ব-ব্যবস্থাপনা কৌশল সম্পর্কিত তথ্য অন্তর্ভুক্ত করে। দুইজন অভিজ্ঞ কার্ডিওলজিস্ট CVD প্রতিরোধ সম্পর্কিত প্রশ্ন তৈরি করেছেন, রোগীদের দৃষ্টিকোণ থেকে প্রাসঙ্গিকতা এবং বোধগম্যতা নিশ্চিত করার জন্য রোগীদের চিকিৎসকদের সাথে জিজ্ঞাসা করার মতো করে ফ্রেম করেছেন। এই রোগী-কেন্দ্রিক এবং নির্দেশিকা-ভিত্তিক পদ্ধতির ফলে বিভিন্ন ডোমেন জুড়ে 300টি প্রশ্নের একটি চূড়ান্ত সেট তৈরি হয়েছে। এই প্রশ্নগুলি তখন চীনা ভাষায় অনুবাদ করা হয়েছিল, প্রথাগত এবং আন্তর্জাতিক ইউনিটের উপযুক্ত ব্যবহার নিশ্চিত করে।

অন্ধকরণ এবং এলোমেলোভাবে সাজানো মূল্যায়ন

গ্রেডাররা যাতে বিভিন্ন LLM চ্যাটবটগুলির মধ্যে প্রতিক্রিয়ার উৎস আলাদা করতে না পারে তা নিশ্চিত করার জন্য, চ্যাটবট-নির্দিষ্ট বৈশিষ্ট্যগুলি ম্যানুয়ালি গোপন করা হয়েছিল। মূল্যায়নটি একটি অন্ধ এবং এলোমেলোভাবে সাজানো পদ্ধতিতে পরিচালিত হয়েছিল, তিনটি চ্যাটবট থেকে প্রতিক্রিয়াগুলি প্রশ্নের সেটের মধ্যে এলোমেলোভাবে মিশ্রিত করা হয়েছিল। তিনটি চ্যাটবট থেকে প্রতিক্রিয়াগুলি 1:1:1 অনুপাতে 3 রাউন্ডে এলোমেলোভাবে বরাদ্দ করা হয়েছিল, তিনজন কার্ডিওলজিস্ট দ্বারা অন্ধ মূল্যায়নের জন্য, পুনরায় প্রভাব হ্রাস করার জন্য রাউন্ডগুলির মধ্যে 48 ঘন্টার ধোয়ার ব্যবধানের সাথে।

নির্ভুলতা মূল্যায়ন পদ্ধতি

প্রাথমিক ফলাফল ছিল প্রাথমিক CVD প্রতিরোধ প্রশ্নের প্রতিক্রিয়া জানানোর কর্মক্ষমতা। বিশেষত, প্রতিক্রিয়াগুলি মূল্যায়ন করার জন্য একটি দ্বি-ধাপ পদ্ধতি ব্যবহার করা হয়েছিল। প্রথম ধাপে, কার্ডিওলজিস্টদের একটি প্যানেল সমস্ত LLM চ্যাটবট-উত্পাদিত প্রতিক্রিয়া পর্যালোচনা করে এবং বিশেষজ্ঞের ঐক্যমত্য এবং নির্দেশাবলীর সাথে সম্পর্কিত করে তাদের "উপযুক্ত," "প্রান্তিক" বা "অনুপযুক্ত" হিসাবে গ্রেড করেছে। দ্বিতীয় ধাপে, একটি সংখ্যাগরিষ্ঠ ঐক্যমত্য পদ্ধতি ব্যবহার করা হয়েছিল, যেখানে প্রতিটি চ্যাটবট প্রতিক্রিয়ার চূড়ান্ত রেটিং তিনটি গ্রেডারদের মধ্যে সবচেয়ে সাধারণ রেটিংয়ের উপর ভিত্তি করে তৈরি করা হয়েছিল। এমন পরিস্থিতিতে যেখানে তিনজন গ্রেডারদের মধ্যে সংখ্যাগরিষ্ঠ ঐক্যমত্য অর্জন করা যায়নি, সেখানে রেটিং চূড়ান্ত করার জন্য একজন সিনিয়র কার্ডিওলজিস্টের পরামর্শ নেওয়া হয়েছিল।

মূল অনুসন্ধানের বিশ্লেষণ

ডেটা থেকে জানা গেছে যে LLM-চ্যাটবট চীনা প্রম্পটের চেয়ে ইংরেজি প্রম্পটের সাথে সাধারণত ভাল পারফর্ম করেছে। বিশেষত, ইংরেজি প্রম্পটের জন্য, BARD, ChatGPT-3.5 এবং ChatGPT-4.0 অনুরূপ সমষ্টি স্কোর প্রদর্শন করেছে। "উপযুক্ত" রেটিংয়ের অনুপাত তুলনা করার সময়, ChatGPT-4.0-তে উল্লেখযোগ্যভাবে বেশি শতাংশ ছিল ChatGPT-3.5 এবং Google Bard-এর তুলনায়। চীনা প্রম্পটের জন্য, ChatGPT3.5-এর সমষ্টি স্কোর বেশি ছিল, তারপরে ChatGPT-4.0 এবং Ernie। তবে, পার্থক্যগুলি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ ছিল না। একইভাবে, ChatGPT-3.5-তে ChatGPT-4.0 এবং ERNIE-এর তুলনায় চীনা প্রম্পটের জন্য "উপযুক্ত রেটিং" এর অনুপাত বেশি ছিল, তবে পার্থক্যগুলি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ ছিল না।

CVD প্রতিরোধ ডোমেন জুড়ে কর্মক্ষমতা

বিশ্লেষণটি বিভিন্ন CVD প্রতিরোধ ডোমেন জুড়ে "উপযুক্ত" রেটিংয়ের উপর দৃষ্টি নিবদ্ধ করেছে। উল্লেখযোগ্যভাবে, ChatGPT-4.0 ধারাবাহিকভাবে বেশিরভাগ ডোমেনে ভালো পারফর্ম করেছে, বিশেষ করে "ডিসলিপিডেমিয়া," "লাইফস্টাইল," "বায়োমার্কার এবং ইনফ্লামেশন" এবং "DM এবং CKD" ডোমেনে উচ্চ রেটিং রয়েছে। যাইহোক, BARD ChatGPT4.0 এবং ChatGPT-3.5-এর তুলনায় উপ-অপটিমাল কর্মক্ষমতা দেখিয়েছে, বিশেষ করে "লাইফস্টাইল" ডোমেনে। অনুসন্ধানে হাইলাইট করা হয়েছে যে তিনটি LLM-চ্যাটবটই "লাইফস্টাইল" ডোমেনে ভালো পারফর্ম করেছে, 100% "উপযুক্ত" রেটিং সহ (পরিপূরক সারণী S6)। তবে, অন্যান্য ডোমেনগুলিতে কর্মক্ষমতার বৈচিত্র্য পরিলক্ষিত হয়েছে, কিছু মডেল নির্দিষ্ট প্রতিরোধ ডোমেনে বেশি কার্যকারিতা দেখিয়েছে।

স্বাস্থ্য জ্ঞানার্জনের জন্য প্রভাব

অধ্যয়নের ফলাফলের কার্ডিওভাসকুলার স্বাস্থ্য জ্ঞানার্জনের উন্নতির প্রচেষ্টার জন্য গুরুত্বপূর্ণ প্রভাব রয়েছে। যেহেতু ব্যক্তিরা ক্রমবর্ধমানভাবে চিকিৎসা তথ্যের জন্য অনলাইন সংস্থানগুলির দিকে ঝুঁকছেন, তাই LLMগুলিতে CVD প্রতিরোধ সম্পর্কে বোঝার উন্নতি সাধনের জন্য মূল্যবান সরঞ্জাম হিসাবে কাজ করার সম্ভাবনা রয়েছে। নির্ভুল এবং অ্যাক্সেসযোগ্য তথ্য সরবরাহের মাধ্যমে, LLMগুলি জ্ঞানের ব্যবধান পূরণ করতে এবং ব্যক্তিদের তাদের স্বাস্থ্য সম্পর্কে অবগত সিদ্ধান্ত নিতে সক্ষম করতে পারে।

কর্মক্ষমতায় বৈষম্য

অধ্যয়নটি বিভিন্ন ভাষায় LLM কর্মক্ষমতায় উল্লেখযোগ্য বৈষম্যও প্রকাশ করেছে। LLMগুলি চীনা প্রম্পটের চেয়ে ইংরেজি প্রম্পটের সাথে সাধারণত ভাল পারফর্ম করে এই অনুসন্ধানে এই মডেলগুলিতে ভাষার পক্ষপাতিত্বের সম্ভাবনা তুলে ধরা হয়েছে। এই সমস্যাটির সমাধান করা অত্যন্ত গুরুত্বপূর্ণ যাতে LLMগুলি তাদের মাতৃভাষা নির্বিশেষে সকল ব্যক্তির জন্য নির্ভুল চিকিৎসা তথ্যের ন্যায়সঙ্গত অ্যাক্সেস সরবরাহ করে।

ভাষা-নির্দিষ্ট মডেলের ভূমিকা

চীনা ভাষায় ERNIE-এর কর্মক্ষমতার বিশ্লেষণ ভাষা-নির্দিষ্ট LLMগুলির ভূমিকা সম্পর্কে মূল্যবান অন্তর্দৃষ্টি প্রদান করে। সাময়িক উন্নতি এবং সঠিকতা সম্পর্কে আত্ম-সচেতনতায় ERNIE-এর শক্তিগুলি সুপারিশ করে যে নির্দিষ্ট ভাষার জন্য তৈরি মডেলগুলি ভাষাগত সূক্ষ্মতা এবং সাংস্কৃতিক প্রেক্ষাপটগুলিকে কার্যকরভাবে সমাধান করতে পারে। বিভিন্ন জনগোষ্ঠীর কাছে চিকিৎসা তথ্য সরবরাহের অপ্টিমাইজ করার জন্য ভাষা-নির্দিষ্ট LLMগুলির আরও বিকাশ এবং পরিমার্জন অপরিহার্য হতে পারে।

সীমাবদ্ধতা এবং ভবিষ্যতের নির্দেশনা

যদিও এই গবেষণাটি CVD প্রতিরোধ প্রশ্নের সমাধানে LLMগুলির সক্ষমতা সম্পর্কে মূল্যবান অন্তর্দৃষ্টি সরবরাহ করে, তবে কিছু সীমাবদ্ধতা স্বীকার করা অপরিহার্য। CVD প্রতিরোধের ক্ষেত্রে ব্যবহৃত প্রশ্নগুলি প্রশ্নের একটি ছোট অংশকে উপস্থাপন করে। অনুসন্ধানের সাধারণীকরণ স্টোকাস্টিক প্রতিক্রিয়াগুলির প্রভাবের অধীন। অতিরিক্তভাবে, LLMগুলির দ্রুত বিবর্তন আপডেট করা পুনরাবৃত্তি এবং উদীয়মান মডেলগুলিকে সামঞ্জস্য করার জন্য চলমান গবেষণার প্রয়োজন। ভবিষ্যতের গবেষণায় প্রশ্নের পরিধি বাড়ানো উচিত, LLMগুলির সাথে বিভিন্ন মিথস্ক্রিয়া পদ্ধতির প্রভাব অনুসন্ধান করা উচিত এবং চিকিৎসা প্রেক্ষাপটে তাদের ব্যবহারের আশেপাশের নৈতিক বিবেচনাগুলি অনুসন্ধান করা উচিত।

উপসংহার

উপসংহারে, এই অনুসন্ধানগুলি কার্ডিওভাসকুলার স্বাস্থ্য সম্পর্কে জনসাধারণের বোঝার উন্নতির জন্য সরঞ্জাম হিসাবে LLMগুলির প্রতিশ্রুতিকে তুলে ধরেছে, একই সাথে নির্ভুলতা, ন্যায্যতা এবং চিকিৎসা তথ্যের দায়বদ্ধ বিস্তার নিশ্চিত করার জন্য সতর্কতার সাথে মূল্যায়ন এবং চলমান পরিমার্জনের প্রয়োজনীয়তার উপর জোর দিয়েছে। সামনের পথে ক্রমাগত তুলনামূলক মূল্যায়ন, ভাষার কুসংস্কারের সমাধান এবং নির্ভুল এবং নির্ভরযোগ্য CVD প্রতিরোধের मार्गदर्शनের ন্যায়সঙ্গত অ্যাক্সেস প্রচারের জন্য ভাষা-নির্দিষ্ট মডেলগুলির শক্তিকে কাজে লাগানো জড়িত।