زبانی ماڈلز کی کارکردگی کا تقابلی جائزہ: قلبی امراض سے بچاؤ کی راہنمائی
بڑے لسانی ماڈلز (LLMs) کا عروج قلبی امراض (CVD) سے بچاؤ کے بارے میں عوامی سوالات کو حل کرنے کے لیے دلچسپ امکانات پیش کرتا ہے۔ یہ ماڈلز، جو انسانی انداز میں سمجھنے اور جواب دینے کی صلاحیت رکھتے ہیں، تیزی سے طبی معلومات کے ذرائع کے طور پر استعمال ہو رہے ہیں۔ تاہم، ان ماڈلز کی طرف سے فراہم کردہ معلومات کی وشوسنییتا اور درستگی کے بارے میں سوالات باقی ہیں، خاص طور پر مختلف زبانوں میں۔ یہ تجزیہ کئی ممتاز LLMs کے ایک جامع جائزہ میں شامل ہے، خاص طور پر انگریزی اور چینی دونوں زبانوں میں CVD سے بچاؤ کے سوالات کو حل کرنے کی ان کی صلاحیتوں کا جائزہ لیا گیا ہے۔
LLM کی کارکردگی کا جائزہ: درستگی اور تسلسل
ہمارا بنیادی مقصد CVD سے بچاؤ سے متعلق سوالات کے جواب میں معروف LLMs کی طرف سے فراہم کردہ جوابات کا جائزہ لینا تھا۔ ہم نے BARD (Google کا لسانی ماڈل)، ChatGPT-3.5 اور ChatGPT-4.0 (OpenAI کے ماڈلز)، اور ERNIE (Baidu کا ماڈل) پر توجہ مرکوز کی۔ CVD سے بچاؤ کے 75 سوالات کا ایک مجموعہ احتیاط سے تیار کیا گیا، جن کے جوابات کی مناسبت کی بنیاد پر جانچ کی گئی (مناسب، سرحدی، یا نامناسب کے طور پر درجہ بندی)۔
انگریزی زبان میں کارکردگی
انگریزی زبان میں، LLMs نے قابل ذکر درستگی کا مظاہرہ کیا۔ BARD نے 88.0% کی "مناسب” درجہ بندی حاصل کی، ChatGPT-3.5 نے 92.0%، اور ChatGPT-4.0 نے 97.3% کی درجہ بندی کے ساتھ بہترین کارکردگی کا مظاہرہ کیا۔ یہ نتائج بتاتے ہیں کہ LLMs انگریزی بولنے والے صارفین کو CVD سے بچاؤ کے بارے میں رہنمائی حاصل کرنے کے لیے قیمتی معلومات فراہم کر سکتے ہیں۔
چینی زبان میں کارکردگی
یہ تجزیہ چینی زبان کے سوالات تک بھی بڑھایا گیا، جہاں LLMs کی کارکردگی مختلف تھی۔ ERNIE نے 84.0% کی "مناسب” درجہ بندی حاصل کی، ChatGPT-3.5 نے 88.0%، اور ChatGPT-4.0 نے 85.3% تک رسائی حاصل کی۔ اگرچہ نتائج عام طور پر مثبت تھے، لیکن انہوں نے انگریزی کے مقابلے میں کارکردگی میں تھوڑی سی کمی کی نشاندہی کی، جو ان ماڈلز میں ممکنہ لسانی تعصب کی نشاندہی کرتی ہے۔
وقتی بہتری اور خود آگاہی
ابتدائی درستگی سے ہٹ کر، ہم نے LLMs کی وقت کے ساتھ اپنے جوابات کو بہتر بنانے کی صلاحیت اور درستگی کے بارے میں ان کی خودی آگاہی کی تحقیقات کی۔ اس میں اس بات کا جائزہ لینا شامل تھا کہ ماڈلز نے ابتدائی طور پر فراہم کردہ غیر مناسب جوابات پر کیسے رد عمل ظاہر کیا اور کیا وہ اشارہ ملنے پر غلطیوں کی شناخت اور اصلاح کر سکتے ہیں۔
وقت کے ساتھ بہتر جوابات
تجزیہ سے پتہ چلا کہ LLMs وقتی بہتری کا مظاہرہ کرتے ہیں۔ جب ابتدائی طور پر غیر مناسب جوابات پیش کیے گئے، تو BARD اور ChatGPT-3.5 میں بالترتیب 67% (6/9 اور 4/6) بہتری آئی، جبکہ ChatGPT-4.0 نے 100% کی کامل بہتری کی شرح (2/2) حاصل کی۔ اس سے پتہ چلتا ہے کہ LLMs صارف کے تعاملات اور تاثرات سے سیکھتے ہیں، جس سے وقت کے ساتھ زیادہ درست اور قابل اعتماد معلومات فراہم ہوتی ہیں۔
درستگی کی خود آگاہی
ہم نے LLMs کی اپنے جوابات کی درستگی کو پہچاننے کی صلاحیت کا بھی جائزہ لیا۔ اس شعبے میں BARD اور ChatGPT-4.0 نے ChatGPT-3.5 سے بہتر کارکردگی کا مظاہرہ کیا، انہوں نے فراہم کردہ معلومات کی درستگی کے بارے میں بہتر خود آگاہی کا مظاہرہ کیا۔ یہ خصوصیت خاص طور پر طبی حوالوں میں قیمتی ہے، جہاں غلط معلومات کے سنگین نتائج ہو سکتے ہیں۔
چینی میں ERNIE کی کارکردگی
چینی پرامپٹس کے تجزیہ سے پتہ چلا کہ ERNIE نے وقتی بہتری اور درستگی کی خود آگاہی میں بہترین کارکردگی کا مظاہرہ کیا۔ اس سے پتہ چلتا ہے کہ ERNIE چینی بولنے والے صارفین جو CVD سے بچاؤ کے بارے میں رہنمائی حاصل کر رہے ہیں، کے لیے درست اور قابل اعتماد معلومات فراہم کرنے کے لیے موزوں ہے۔
LLM چیٹ بوٹس کا جامع جائزہ
اس بات کو یقینی بنانے کے لیے کہ ایک جامع جائزہ جو عام اور مقبول LLM-چیٹ بوٹس کو شامل کرتا ہے، اس مطالعہ میں چار اہم ماڈلز شامل کیے گئے: OpenAI کے ChatGPT-3.5 اور ChatGPT-4.0، Google کا BARD، اور Baidu کا ERNIE۔ انگریزی پرامپٹس کا جائزہ میں چیٹ جی پی ٹی 3.5، چیٹ جی پی ٹی 4، اور بارڈ شامل تھے۔ چینی پرامپٹس کے لیے، تشخیص میں چیٹ جی پی ٹی 3.5، چیٹ جی پی ٹی 4، اور ایرنی شامل تھے۔ ماڈلز ان کی ڈیفالٹ کنفیگریشن اور درجہ حرارت کی ترتیبات کے ساتھ استعمال کیے گئے تھے، تجزیہ کے دوران ان پیرامیٹرز میں کوئی ایڈجسٹمنٹ نہیں کی گئی۔
سوالات کی نسل اور چیٹ بوٹ کے ردعمل کا جائزہ
امریکن کالج آف کارڈیالوجی اور امریکن ہارٹ ایسوسی ایشن CVD سے بچاؤ کے لیے رہنما اصول اور سفارشات فراہم کرتے ہیں، جن میں خطرے کے عوامل، تشخیصی ٹیسٹ، اور علاج کے اختیارات کے ساتھ ساتھ مریضوں کی تعلیم اور خود انتظامی حکمت عملیوں پر معلومات شامل ہیں۔ دو تجربہ کار کارڈیالوجسٹوں نے CVD سے بچاؤ سے متعلق سوالات تیار کیے، انہیں اسی طرح تیار کیا جس طرح مریض ڈاکٹروں سے پوچھتے ہیں تاکہ مریض کے نقطہ نظر سے مطابقت اور قابل فہمیت کو یقینی بنایا جا سکے۔ اس مریض پر مرکوز اور رہنما خطوط پر مبنی نقطہ نظر نے مختلف ڈومینز کا احاطہ کرنے والے 300 سوالات کا حتمی مجموعہ تیار کیا۔ ان سوالات کا پھر چینی میں ترجمہ کیا گیا، مناسب روایتی اور بین الاقوامی اکائیوں کا مناسب استعمال کو یقینی بنایا گیا۔
بلائنڈنگ اور بے ترتیب ترتیب شدہ تشخیص
اس بات کو یقینی بنانے کے لیے کہ گریڈر مختلف LLM چیٹ بوٹس کے درمیان ردعمل کی اصلیت میں فرق نہیں کر پاتے ہیں، چیٹ بوٹ سے متعلقہ کسی بھی خصوصیت کو دستی طور پر چھپا دیا گیا۔ تشخیص بلائنڈڈ اور بے ترتیب ترتیب شدہ انداز میں کی گئی، تین چیٹ بوٹس کے جوابات کو سوالات کے سیٹ میں تصادفی طور پر شفل کیا گیا۔ تین چیٹ بوٹس کے جوابات کو 3 راؤنڈز میں تصادفی طور پر تفویض کیا گیا، 1:1:1 تناسب میں، تین کارڈیالوجسٹوں کی طرف سے بلائنڈڈ تشخیص کے لیے، حالیہ تعصب کو کم کرنے کے لیے راؤنڈز کے درمیان 48 گھنٹے کے واش آؤٹ وقفے کے ساتھ۔
درستگی کا جائزہ لینے کا طریقہ کار
بنیادی نتیجہ بنیادی CVD سے بچاؤ کے سوالات کے جواب دینے میں کارکردگی تھی۔ خاص طور پر، جوابات کا جائزہ لینے کے لیے دو قدمی طریقہ استعمال کیا گیا۔ پہلے مرحلے میں، کارڈیالوجسٹوں کے ایک پینل نے LLM چیٹ بوٹ کے تیار کردہ تمام جوابات کا جائزہ لیا اور انہیں ماہرین کے اتفاق رائے اور رہنما خطوط کے مطابق "مناسب،” "سرحدی،” یا "نامناسب” کے طور پر درجہ بندی کیا۔ دوسرے مرحلے میں، اکثریت کے اتفاق رائے کے نقطہ نظر کو استعمال کیا گیا، جس میں ہر چیٹ بوٹ کے ردعمل کے لیے حتمی درجہ بندی تین گریڈروں میں سب سے عام درجہ بندی پر مبنی تھی۔ ان منظرناموں میں جہاں تین گریڈروں کے درمیان اکثریت کا اتفاق رائے حاصل نہیں کیا جا سکا، ایک سینئر کارڈیالوجسٹ سے درجہ بندی کو حتمی شکل دینے کے لیے مشورہ کیا گیا۔
اہم نتائج کا تجزیہ
ڈیٹا سے پتہ چلا کہ LLM-چیٹ بوٹ نے چینی پرامپٹس کے مقابلے میں انگریزی پرامپٹس کے ساتھ عام طور پر بہتر کارکردگی کا مظاہرہ کیا۔ خاص طور پر، انگریزی پرامپٹس کے لیے، BARD، ChatGPT-3.5، اور ChatGPT-4.0 نے ملتے جلتے مجموعی اسکور کا مظاہرہ کیا۔ 'مناسب' درجہ بندی کے تناسب کا موازنہ کرتے وقت، ChatGPT-4.0 میں ChatGPT-3.5 اور Google Bard کے مقابلے میں نمایاں طور پر زیادہ فیصد تھا۔ چینی پرامپٹس کے لیے، ChatGPT3.5 کا مجموعی اسکور زیادہ تھا، اس کے بعد ChatGPT-4.0 اور Ernie تھے۔ تاہم، فرق شماریاتی طور پر اہم نہیں تھے۔ اسی طرح، ChatGPT-3.5 میں چینی پرامپٹس کے لیے 'مناسب درجہ بندی' کا تناسب زیادہ تھا، ChatGPT-4.0 اور ERNIE کے مقابلے میں، لیکن فرق شماریاتی طور پر اہم نہیں تھے۔
CVD سے بچاؤ کے ڈومینز میں کارکردگی
تجزیہ نے مختلف CVD سے بچاؤ کے ڈومینز میں "مناسب” درجہ بندیوں پر توجہ مرکوز کی۔ قابل ذکر بات یہ ہے کہ ChatGPT-4.0 نے زیادہ تر ڈومینز میں مسلسل اچھی کارکردگی کا مظاہرہ کیا، خاص طور پر "ڈسلیپیڈیمیا،” " طرز زندگی،” "بایو مارکر اور سوزش،” اور "DM اور CKD” ڈومینز میں اعلی درجہ بندیوں کے ساتھ۔ تاہم، BARD نے ChatGPT4.0 اور ChatGPT-3.5 کے مقابلے میں غیر مناسب کارکردگی کا مظاہرہ کیا، خاص طور پر " طرز زندگی” ڈومین میں۔ نتائج سے پتہ چلا کہ تمام تین LLM-چیٹ بوٹس نے " طرز زندگی” ڈومین میں اچھی کارکردگی کا مظاہرہ کیا، 100% "مناسب” درجہ بندیوں کے ساتھ (تکمیلی جدول S6)۔ تاہم، کارکردگی میں تغیرات دیگر ڈومینز میں دیکھے گئے، کچھ ماڈلز نے مخصوص روک تھام ڈومینز میں زیادہ افادیت ظاہر کی۔
صحت کے خواندگی کے لیے مضمرات
مطالعہ کے نتائج قلبی صحت کے خواندگی کو بہتر بنانے کی کوششوں کے لیے اہم مضمرات رکھتے ہیں۔ جیسے جیسے افراد طبی معلومات کے لیے آن لائن وسائل کی طرف زیادہ رجوع کرتے ہیں، LLMs میں CVD سے بچاؤ کے بارے میں سمجھ کو بڑھانے کے لیے قیمتی ٹولز کے طور پر کام کرنے کی صلاحیت ہے۔ درست اور قابل رسائی معلومات فراہم کر کے، LLMs معلومات میں فرق کو دور کر سکتے ہیں اور افراد کو اپنی صحت کے بارے میں باخبر فیصلے کرنے کے لیے بااختیار بنا سکتے ہیں۔
کارکردگی میں تفاوت
مطالعہ میں مختلف زبانوں میں LLM کی کارکردگی میں نمایاں تفاوت بھی ظاہر ہوا۔ یہ نتیجہ کہ LLMs نے عام طور پر چینی پرامپٹس کے مقابلے میں انگریزی پرامپٹس کے ساتھ بہتر کارکردگی کا مظاہرہ کیا ان ماڈلز میں لسانی تعصب کے امکان کو اجاگر کرتا ہے۔ اس مسئلے کو حل کرنا اس بات کو یقینی بنانے کے لیے بہت ضروری ہے کہ LLMs تمام افراد کے لیے درست طبی معلومات تک مساوی رسائی فراہم کریں، قطع نظر ان کی مادری زبان سے۔
لسانی مخصوص ماڈلز کا کردار
چینی میں ERNIE کی کارکردگی کا تجزیہ لسانی مخصوص LLMs کے کردار کے بارے میں قیمتی بصیرت فراہم کرتا ہے۔ عارضی بہتری اور درستگی کے بارے میں خود آگاہی میں ERNIE کی طاقتیں یہ بتاتی ہیں کہ مخصوص زبانوں کے لیے تیار کردہ ماڈلز لسانی نزاکتوں اور ثقافتی سیاق و سباق کو مؤثر طریقے سے حل کر سکتے ہیں۔ متنوع آبادیوں کو طبی معلومات کی فراہمی کو بہتر بنانے کے لیے لسانی مخصوص LLMs کی مزید ترقی اور اصلاح ضروری ہو سکتی ہے۔
حدود اور مستقبل کی سمتیں
اگرچہ یہ مطالعہ CVD سے بچاؤ کے سوالات کو حل کرنے میں LLMs کی صلاحیتوں کے بارے میں قیمتی بصیرت فراہم کرتا ہے، لیکن کچھ حدود کو تسلیم کرنا ضروری ہے۔ استعمال کیے گئے سوالات CVD سے بچاؤ کے لحاظ سے سوالات کا ایک چھوٹا سا حصہ تھے۔ نتائج کی عمومی صلاحیت اسٹاکسٹک ردعمل کے اثرات سے مشروط ہے۔ اس کے علاوہ، LLMs کے تیز رفتار ارتقاء کو تازہ ترین تکرار اور ابھرتے ہوئے ماڈلز کو ایڈجسٹ کرنے کے لیے جاری تحقیق کی ضرورت ہے۔ مستقبل کے مطالعے کو سوالات کے دائرہ کار کو بڑھانا چاہیے، LLMs کے ساتھ مختلف تعاملات کے اثرات کو تلاش کرنا چاہیے، اور طبی سیاق و سباق میں ان کے استعمال کے ارد گرد اخلاقی تحفظات کی تحقیقات کرنی چاہئیں۔
نتیجہ
آخر میں، یہ نتائج قلبی صحت کے بارے میں عوامی تفہیم کو بڑھانے کے لیے LLMs کے وعدے کو ا