مقایسه عملکرد مدل‌های زبانی در پیشگیری از CVD

ارزیابی عملکرد مدل‌های زبانی: دقت و سازگاری

هدف اصلی ما ارزیابی دقت پاسخ‌های ارائه شده توسط مدل‌های زبانی پیشرو در مواجهه با سوالات مربوط به پیشگیری از CVD بود. ما بر BARD (مدل زبانی گوگل)، ChatGPT-3.5 و ChatGPT-4.0 (مدل‌های OpenAI) و ERNIE (مدل بایدو) تمرکز کردیم. مجموعه‌ای از 75 سوال دقیق در مورد پیشگیری از CVD به هر مدل زبانی ارائه شد و پاسخ‌ها بر اساس مناسب بودن آنها (دسته‌بندی شده به عنوان مناسب، مرزی یا نامناسب) ارزیابی شدند.

عملکرد زبان انگلیسی

در زبان انگلیسی، مدل‌های زبانی دقت قابل توجهی را نشان دادند. BARD به رتبه “مناسب” 88.0٪ دست یافت، ChatGPT-3.5 امتیاز 92.0٪ را کسب کرد و ChatGPT-4.0 با رتبه 97.3٪ عملکرد عالی داشت. این نتایج نشان می‌دهد که مدل‌های زبانی می‌توانند اطلاعات ارزشمندی را به کاربران انگلیسی زبان در جستجوی راهنمایی در مورد پیشگیری از CVD ارائه دهند.

عملکرد زبان چینی

این تجزیه و تحلیل به پرسش‌های زبان چینی نیز گسترش یافت، جایی که عملکرد مدل‌های زبانی متفاوت بود. ERNIE به رتبه “مناسب” 84.0٪ دست یافت، ChatGPT-3.5 امتیاز 88.0٪ را کسب کرد و ChatGPT-4.0 به 85.3٪ رسید. در حالی که نتایج به طور کلی مثبت بود، اما همچنین نشان دهنده کاهش جزئی در عملکرد در مقایسه با انگلیسی بود، که نشان دهنده سوگیری بالقوه زبانی در این مدل‌ها است.

بهبود زمانی و خودآگاهی

فراتر از دقت اولیه، ما توانایی مدل‌های زبانی را برای بهبود پاسخ‌های خود در طول زمان و خودآگاهی از صحت بررسی کردیم. این شامل ارزیابی نحوه پاسخگویی مدل‌ها به پاسخ‌های نامطلوب ارائه شده در ابتدا و اینکه آیا آنها می‌توانند هنگام درخواست، خطاها را شناسایی و اصلاح کنند، بود.

پاسخ‌های بهبود یافته در طول زمان

این تجزیه و تحلیل نشان داد که مدل‌های زبانی بهبود زمانی را نشان می‌دهند. هنگامی که با پاسخ‌های نامطلوب در ابتدا ارائه شد، BARD و ChatGPT-3.5 به ترتیب 67٪ (6/9 و 4/6) بهبود یافتند، در حالی که ChatGPT-4.0 به نرخ بهبود کامل 100٪ (2/2) دست یافت. این نشان می‌دهد که مدل‌های زبانی از تعاملات و بازخورد کاربران یاد می‌گیرند و در طول زمان منجر به اطلاعات دقیق‌تر و قابل اعتمادتر می‌شوند.

خودآگاهی از صحت

ما همچنین توانایی مدل‌های زبانی را در تشخیص صحت پاسخ‌های خود بررسی کردیم. BARD و ChatGPT-4.0 در این زمینه از ChatGPT-3.5 بهتر عمل کردند و خودآگاهی بهتری از دقت اطلاعاتی که ارائه می‌کردند نشان دادند. این ویژگی به ویژه در زمینه‌های پزشکی ارزشمند است، جایی که اطلاعات نادرست می‌تواند عواقب جدی داشته باشد.

عملکرد ERNIE در چین

تجزیه و تحلیل اعلان‌های چینی نشان داد که ERNIE در بهبود زمانی و خودآگاهی از صحت برتری دارد. این نشان می‌دهد که ERNIE برای ارائه اطلاعات دقیق و قابل اعتماد به کاربران چینی زبان در جستجوی راهنمایی پیشگیری از CVD مناسب است.

ارزیابی جامع ربات‌های گفتگوی LLM

برای اطمینان از یک ارزیابی جامع که شامل ربات‌های گفتگوی LLM رایج و محبوب باشد، این مطالعه شامل چهار مدل برجسته بود: ChatGPT-3.5 و ChatGPT-4.0 توسط OpenAI، BARD توسط Google و ERNIE توسط Baidu. ارزیابی اعلان‌های انگلیسی شامل ChatGPT 3.5، ChatGPT 4 و BARD بود. برای اعلان‌های چینی، ارزیابی شامل ChatGPT 3.5، ChatGPT 4 و ERNIE بود. مدل‌ها با پیکربندی‌های پیش‌فرض و تنظیمات دما خود بدون تنظیم این پارامترها در طول تجزیه و تحلیل استفاده شدند.

تولید سوال و ارزیابی پاسخ ربات گفتگو

کالج قلب و عروق آمریکا و انجمن قلب آمریکا دستورالعمل‌ها و توصیه‌هایی را برای پیشگیری از CVD ارائه می‌دهند که شامل اطلاعاتی درباره عوامل خطر، آزمایش‌های تشخیصی و گزینه‌های درمانی، و همچنین آموزش بیمار و استراتژی‌های خودمدیریتی است. دو متخصص قلب و عروق با تجربه، سوالات مربوط به پیشگیری از CVD را تولید کردند و آنها را به طور مشابه با نحوه پرسش بیماران با پزشکان چارچوب‌بندی کردند تا از ارتباط و درک از دیدگاه بیمار اطمینان حاصل شود. این رویکرد بیمار محور و مبتنی بر دستورالعمل، مجموعه نهایی ۳۰۰ سوال را در بر گیرنده حوزه‌های مختلف به دست آورد. این سوالات سپس به زبان چینی ترجمه شدند و از استفاده مناسب از واحدهای متعارف و بین‌المللی اطمینان حاصل شد.

کورسازی و ارزیابی مرتب شده تصادفی

برای اطمینان از اینکه درجه‌بندی‌کنندگان قادر به تشخیص منشاء پاسخ در بین ربات‌های گفتگوی LLM مختلف نیستند، هر ویژگی خاص ربات گفتگو به صورت دستی پنهان شد. ارزیابی به صورت کور و مرتب شده تصادفی انجام شد و پاسخ‌های سه ربات گفتگو به طور تصادفی در مجموعه سوالات مخلوط شدند. پاسخ‌های سه ربات گفتگو به طور تصادفی به 3 دور، با نسبت 1:1:1، برای ارزیابی کور توسط سه متخصص قلب و عروق، با یک دوره شستشوی 48 ساعته بین دورها برای کاهش سوگیری تازگی اختصاص داده شدند.

روش‌شناسی ارزیابی دقت

نتیجه اولیه عملکرد در پاسخ به سوالات پیشگیری اولیه CVD بود. به طور خاص، یک رویکرد دو مرحله‌ای برای ارزیابی پاسخ‌ها استفاده شد. در مرحله اول، یک پانل از متخصصان قلب و عروق تمام پاسخ‌های تولید شده توسط ربات گفتگوی LLM را بررسی و آنها را نسبت به اجماع و دستورالعمل‌های متخصصان، “مناسب”، “مرزی” یا “نامناسب” ارزیابی کردند. در مرحله دوم، از یک رویکرد اجماع اکثریت استفاده شد، که در آن رتبه نهایی برای هر پاسخ ربات گفتگو بر اساس رایج‌ترین رتبه درجه‌بندی شده در بین سه درجه‌بندی‌کننده بود. در سناریوهایی که اجماع اکثریت در بین سه درجه‌بندی‌کننده حاصل نشد، با یک متخصص قلب و عروق ارشد مشورت شد تا رتبه نهایی شود.

تحلیل یافته‌های کلیدی

داده‌ها نشان داد که ربات گفتگوی LLM به طور کلی با اعلان‌های انگلیسی بهتر از اعلان‌های چینی عمل می‌کند. به طور خاص، برای اعلان‌های انگلیسی، BARD، ChatGPT-3.5 و ChatGPT-4.0 نمرات جمعی مشابهی را نشان دادند. هنگام مقایسه نسبت‌های رتبه “مناسب”، ChatGPT-4.0 درصد قابل توجهی بالاتری در مقایسه با ChatGPT-3.5 و Google Bard داشت. برای اعلان‌های چینی، ChatGPT3.5 نمره جمعی بالاتری داشت و پس از آن ChatGPT-4.0 و Ernie قرار گرفتند. با این حال، تفاوت‌ها از نظر آماری معنادار نبودند. به طور مشابه، ChatGPT-3.5 نسبت بالاتری از “رتبه مناسب” را برای اعلان‌های چینی در مقایسه با ChatGPT-4.0 و ERNIE داشت، اما تفاوت‌ها از نظر آماری معنادار نبودند.

عملکرد در بین حوزه‌های پیشگیری از CVD

این تجزیه و تحلیل بر رتبه‌بندی‌های “مناسب” در حوزه‌های مختلف پیشگیری از CVD متمرکز بود. به طور قابل توجهی، ChatGPT-4.0 به طور مداوم در اکثر حوزه‌ها عملکرد خوبی داشت و به ویژه در حوزه‌های “اختلال چربی خون”، “سبک زندگی”، “نشانگر زیستی و التهاب” و “DM و CKD” رتبه‌بندی‌های بالایی داشت. با این حال، BARD در مقایسه با ChatGPT4.0 و ChatGPT-3.5 عملکرد نامطلوبی را به ویژه در حوزه “سبک زندگی” نشان داد. یافته‌ها نشان داد که هر سه ربات گفتگوی LLM در حوزه “سبک زندگی” عملکرد خوبی داشتند و 100٪ رتبه‌بندی “مناسب” داشتند (جدول مکمل S6). با این حال، تغییراتی در عملکرد در حوزه‌های دیگر مشاهده شد و برخی از مدل‌ها کارایی بیشتری را در حوزه‌های پیشگیری خاص نشان دادند.

مفاهیم برای سواد سلامت

یافته‌های این مطالعه مفاهیم مهمی برای تلاش‌ها برای بهبود سواد سلامت قلبی عروقی دارد. از آنجا که افراد به طور فزاینده‌ای به منابع آنلاین برای اطلاعات پزشکی روی می‌آورند، LLM‌ها این پتانسیل را دارند که به عنوان ابزارهای ارزشمندی برای افزایش درک پیشگیری از CVD عمل کنند. LLM‌ها با ارائه اطلاعات دقیق و در دسترس، می‌توانند شکاف‌های دانش را پر کنند و افراد را قادر سازند تا تصمیمات آگاهانه‌ای در مورد سلامت خود بگیرند.

تفاوت‌ها در عملکرد

این مطالعه همچنین تفاوت‌های قابل توجهی در عملکرد LLM در زبان‌های مختلف نشان داد. این یافته که LLM‌ها به طور کلی با اعلان‌های انگلیسی بهتر از اعلان‌های چینی عمل می کنند، پتانسیل سوگیری زبانی در این مدل‌ها را برجسته می کند. رسیدگی به این موضوع برای اطمینان از اینکه LLM‌ها دسترسی عادلانه‌ای به اطلاعات پزشکی دقیق برای همه افراد، صرف نظر از زبان مادری خود، فراهم می کنند، بسیار مهم است.

نقش مدل‌های خاص زبان

تجزیه و تحلیل عملکرد ERNIE در چینی بینش‌های ارزشمندی را در مورد نقش LLM‌های خاص زبان ارائه می‌دهد. نقاط قوت ERNIE در بهبود زمانی و خودآگاهی از صحت نشان می‌دهد که مدل‌های متناسب با زبان‌های خاص می‌توانند به طور موثری به تفاوت‌های ظریف زبانی و زمینه‌های فرهنگی رسیدگی کنند. توسعه و پالایش بیشتر LLM‌های خاص زبان ممکن است برای بهینه سازی ارائه اطلاعات پزشکی به جمعیت های مختلف ضروری باشد.

محدودیت‌ها و مسیرهای آینده

در حالی که این مطالعه بینش‌های ارزشمندی را در مورد قابلیت‌های LLM‌ها در رسیدگی به سوالات پیشگیری از CVD ارائه می‌دهد، اذعان به برخی محدودیت‌ها ضروری است. سوالات استفاده شده بخش کوچکی از سوالات از نظر پیشگیری از CVD را نشان می داد. تعمیم پذیری یافته‌ها مشروط به تأثیر پاسخ‌های تصادفی است. علاوه بر این، تکامل سریع LLM‌ها نیازمند تحقیقات مداوم برای تطبیق با تکرارهای به روز شده و مدل‌های نوظهور است. مطالعات آینده باید دامنه سوالات را گسترش دهند، تأثیر الگوهای تعامل مختلف با LLM‌ها را بررسی کنند و ملاحظات اخلاقی پیرامون استفاده از آنها در زمینه‌های پزشکی را بررسی کنند.

نتیجه گیری

در پایان، این یافته‌ها وعده LLM‌ها را به عنوان ابزارهایی برای افزایش درک عمومی از سلامت قلب و عروق برجسته می‌کند، در حالی که بر نیاز به ارزیابی دقیق و پالایش مداوم برای اطمینان از دقت، انصاف و انتشار مسئولانه اطلاعات پزشکی نیز تاکید می‌کند. مسیر پیش رو شامل ارزیابی‌های مقایسه‌ای مداوم، رسیدگی به سوگیری‌های زبانی و استفاده از نقاط قوت مدل‌های خاص زبان برای ترویج دسترسی عادلانه به راهنمایی پیشگیری از CVD دقیق و قابل اعتماد است.