ارزیابی عملکرد مدلهای زبانی: دقت و سازگاری
هدف اصلی ما ارزیابی دقت پاسخهای ارائه شده توسط مدلهای زبانی پیشرو در مواجهه با سوالات مربوط به پیشگیری از CVD بود. ما بر BARD (مدل زبانی گوگل)، ChatGPT-3.5 و ChatGPT-4.0 (مدلهای OpenAI) و ERNIE (مدل بایدو) تمرکز کردیم. مجموعهای از 75 سوال دقیق در مورد پیشگیری از CVD به هر مدل زبانی ارائه شد و پاسخها بر اساس مناسب بودن آنها (دستهبندی شده به عنوان مناسب، مرزی یا نامناسب) ارزیابی شدند.
عملکرد زبان انگلیسی
در زبان انگلیسی، مدلهای زبانی دقت قابل توجهی را نشان دادند. BARD به رتبه “مناسب” 88.0٪ دست یافت، ChatGPT-3.5 امتیاز 92.0٪ را کسب کرد و ChatGPT-4.0 با رتبه 97.3٪ عملکرد عالی داشت. این نتایج نشان میدهد که مدلهای زبانی میتوانند اطلاعات ارزشمندی را به کاربران انگلیسی زبان در جستجوی راهنمایی در مورد پیشگیری از CVD ارائه دهند.
عملکرد زبان چینی
این تجزیه و تحلیل به پرسشهای زبان چینی نیز گسترش یافت، جایی که عملکرد مدلهای زبانی متفاوت بود. ERNIE به رتبه “مناسب” 84.0٪ دست یافت، ChatGPT-3.5 امتیاز 88.0٪ را کسب کرد و ChatGPT-4.0 به 85.3٪ رسید. در حالی که نتایج به طور کلی مثبت بود، اما همچنین نشان دهنده کاهش جزئی در عملکرد در مقایسه با انگلیسی بود، که نشان دهنده سوگیری بالقوه زبانی در این مدلها است.
بهبود زمانی و خودآگاهی
فراتر از دقت اولیه، ما توانایی مدلهای زبانی را برای بهبود پاسخهای خود در طول زمان و خودآگاهی از صحت بررسی کردیم. این شامل ارزیابی نحوه پاسخگویی مدلها به پاسخهای نامطلوب ارائه شده در ابتدا و اینکه آیا آنها میتوانند هنگام درخواست، خطاها را شناسایی و اصلاح کنند، بود.
پاسخهای بهبود یافته در طول زمان
این تجزیه و تحلیل نشان داد که مدلهای زبانی بهبود زمانی را نشان میدهند. هنگامی که با پاسخهای نامطلوب در ابتدا ارائه شد، BARD و ChatGPT-3.5 به ترتیب 67٪ (6/9 و 4/6) بهبود یافتند، در حالی که ChatGPT-4.0 به نرخ بهبود کامل 100٪ (2/2) دست یافت. این نشان میدهد که مدلهای زبانی از تعاملات و بازخورد کاربران یاد میگیرند و در طول زمان منجر به اطلاعات دقیقتر و قابل اعتمادتر میشوند.
خودآگاهی از صحت
ما همچنین توانایی مدلهای زبانی را در تشخیص صحت پاسخهای خود بررسی کردیم. BARD و ChatGPT-4.0 در این زمینه از ChatGPT-3.5 بهتر عمل کردند و خودآگاهی بهتری از دقت اطلاعاتی که ارائه میکردند نشان دادند. این ویژگی به ویژه در زمینههای پزشکی ارزشمند است، جایی که اطلاعات نادرست میتواند عواقب جدی داشته باشد.
عملکرد ERNIE در چین
تجزیه و تحلیل اعلانهای چینی نشان داد که ERNIE در بهبود زمانی و خودآگاهی از صحت برتری دارد. این نشان میدهد که ERNIE برای ارائه اطلاعات دقیق و قابل اعتماد به کاربران چینی زبان در جستجوی راهنمایی پیشگیری از CVD مناسب است.
ارزیابی جامع رباتهای گفتگوی LLM
برای اطمینان از یک ارزیابی جامع که شامل رباتهای گفتگوی LLM رایج و محبوب باشد، این مطالعه شامل چهار مدل برجسته بود: ChatGPT-3.5 و ChatGPT-4.0 توسط OpenAI، BARD توسط Google و ERNIE توسط Baidu. ارزیابی اعلانهای انگلیسی شامل ChatGPT 3.5، ChatGPT 4 و BARD بود. برای اعلانهای چینی، ارزیابی شامل ChatGPT 3.5، ChatGPT 4 و ERNIE بود. مدلها با پیکربندیهای پیشفرض و تنظیمات دما خود بدون تنظیم این پارامترها در طول تجزیه و تحلیل استفاده شدند.
تولید سوال و ارزیابی پاسخ ربات گفتگو
کالج قلب و عروق آمریکا و انجمن قلب آمریکا دستورالعملها و توصیههایی را برای پیشگیری از CVD ارائه میدهند که شامل اطلاعاتی درباره عوامل خطر، آزمایشهای تشخیصی و گزینههای درمانی، و همچنین آموزش بیمار و استراتژیهای خودمدیریتی است. دو متخصص قلب و عروق با تجربه، سوالات مربوط به پیشگیری از CVD را تولید کردند و آنها را به طور مشابه با نحوه پرسش بیماران با پزشکان چارچوببندی کردند تا از ارتباط و درک از دیدگاه بیمار اطمینان حاصل شود. این رویکرد بیمار محور و مبتنی بر دستورالعمل، مجموعه نهایی ۳۰۰ سوال را در بر گیرنده حوزههای مختلف به دست آورد. این سوالات سپس به زبان چینی ترجمه شدند و از استفاده مناسب از واحدهای متعارف و بینالمللی اطمینان حاصل شد.
کورسازی و ارزیابی مرتب شده تصادفی
برای اطمینان از اینکه درجهبندیکنندگان قادر به تشخیص منشاء پاسخ در بین رباتهای گفتگوی LLM مختلف نیستند، هر ویژگی خاص ربات گفتگو به صورت دستی پنهان شد. ارزیابی به صورت کور و مرتب شده تصادفی انجام شد و پاسخهای سه ربات گفتگو به طور تصادفی در مجموعه سوالات مخلوط شدند. پاسخهای سه ربات گفتگو به طور تصادفی به 3 دور، با نسبت 1:1:1، برای ارزیابی کور توسط سه متخصص قلب و عروق، با یک دوره شستشوی 48 ساعته بین دورها برای کاهش سوگیری تازگی اختصاص داده شدند.
روششناسی ارزیابی دقت
نتیجه اولیه عملکرد در پاسخ به سوالات پیشگیری اولیه CVD بود. به طور خاص، یک رویکرد دو مرحلهای برای ارزیابی پاسخها استفاده شد. در مرحله اول، یک پانل از متخصصان قلب و عروق تمام پاسخهای تولید شده توسط ربات گفتگوی LLM را بررسی و آنها را نسبت به اجماع و دستورالعملهای متخصصان، “مناسب”، “مرزی” یا “نامناسب” ارزیابی کردند. در مرحله دوم، از یک رویکرد اجماع اکثریت استفاده شد، که در آن رتبه نهایی برای هر پاسخ ربات گفتگو بر اساس رایجترین رتبه درجهبندی شده در بین سه درجهبندیکننده بود. در سناریوهایی که اجماع اکثریت در بین سه درجهبندیکننده حاصل نشد، با یک متخصص قلب و عروق ارشد مشورت شد تا رتبه نهایی شود.
تحلیل یافتههای کلیدی
دادهها نشان داد که ربات گفتگوی LLM به طور کلی با اعلانهای انگلیسی بهتر از اعلانهای چینی عمل میکند. به طور خاص، برای اعلانهای انگلیسی، BARD، ChatGPT-3.5 و ChatGPT-4.0 نمرات جمعی مشابهی را نشان دادند. هنگام مقایسه نسبتهای رتبه “مناسب”، ChatGPT-4.0 درصد قابل توجهی بالاتری در مقایسه با ChatGPT-3.5 و Google Bard داشت. برای اعلانهای چینی، ChatGPT3.5 نمره جمعی بالاتری داشت و پس از آن ChatGPT-4.0 و Ernie قرار گرفتند. با این حال، تفاوتها از نظر آماری معنادار نبودند. به طور مشابه، ChatGPT-3.5 نسبت بالاتری از “رتبه مناسب” را برای اعلانهای چینی در مقایسه با ChatGPT-4.0 و ERNIE داشت، اما تفاوتها از نظر آماری معنادار نبودند.
عملکرد در بین حوزههای پیشگیری از CVD
این تجزیه و تحلیل بر رتبهبندیهای “مناسب” در حوزههای مختلف پیشگیری از CVD متمرکز بود. به طور قابل توجهی، ChatGPT-4.0 به طور مداوم در اکثر حوزهها عملکرد خوبی داشت و به ویژه در حوزههای “اختلال چربی خون”، “سبک زندگی”، “نشانگر زیستی و التهاب” و “DM و CKD” رتبهبندیهای بالایی داشت. با این حال، BARD در مقایسه با ChatGPT4.0 و ChatGPT-3.5 عملکرد نامطلوبی را به ویژه در حوزه “سبک زندگی” نشان داد. یافتهها نشان داد که هر سه ربات گفتگوی LLM در حوزه “سبک زندگی” عملکرد خوبی داشتند و 100٪ رتبهبندی “مناسب” داشتند (جدول مکمل S6). با این حال، تغییراتی در عملکرد در حوزههای دیگر مشاهده شد و برخی از مدلها کارایی بیشتری را در حوزههای پیشگیری خاص نشان دادند.
مفاهیم برای سواد سلامت
یافتههای این مطالعه مفاهیم مهمی برای تلاشها برای بهبود سواد سلامت قلبی عروقی دارد. از آنجا که افراد به طور فزایندهای به منابع آنلاین برای اطلاعات پزشکی روی میآورند، LLMها این پتانسیل را دارند که به عنوان ابزارهای ارزشمندی برای افزایش درک پیشگیری از CVD عمل کنند. LLMها با ارائه اطلاعات دقیق و در دسترس، میتوانند شکافهای دانش را پر کنند و افراد را قادر سازند تا تصمیمات آگاهانهای در مورد سلامت خود بگیرند.
تفاوتها در عملکرد
این مطالعه همچنین تفاوتهای قابل توجهی در عملکرد LLM در زبانهای مختلف نشان داد. این یافته که LLMها به طور کلی با اعلانهای انگلیسی بهتر از اعلانهای چینی عمل می کنند، پتانسیل سوگیری زبانی در این مدلها را برجسته می کند. رسیدگی به این موضوع برای اطمینان از اینکه LLMها دسترسی عادلانهای به اطلاعات پزشکی دقیق برای همه افراد، صرف نظر از زبان مادری خود، فراهم می کنند، بسیار مهم است.
نقش مدلهای خاص زبان
تجزیه و تحلیل عملکرد ERNIE در چینی بینشهای ارزشمندی را در مورد نقش LLMهای خاص زبان ارائه میدهد. نقاط قوت ERNIE در بهبود زمانی و خودآگاهی از صحت نشان میدهد که مدلهای متناسب با زبانهای خاص میتوانند به طور موثری به تفاوتهای ظریف زبانی و زمینههای فرهنگی رسیدگی کنند. توسعه و پالایش بیشتر LLMهای خاص زبان ممکن است برای بهینه سازی ارائه اطلاعات پزشکی به جمعیت های مختلف ضروری باشد.
محدودیتها و مسیرهای آینده
در حالی که این مطالعه بینشهای ارزشمندی را در مورد قابلیتهای LLMها در رسیدگی به سوالات پیشگیری از CVD ارائه میدهد، اذعان به برخی محدودیتها ضروری است. سوالات استفاده شده بخش کوچکی از سوالات از نظر پیشگیری از CVD را نشان می داد. تعمیم پذیری یافتهها مشروط به تأثیر پاسخهای تصادفی است. علاوه بر این، تکامل سریع LLMها نیازمند تحقیقات مداوم برای تطبیق با تکرارهای به روز شده و مدلهای نوظهور است. مطالعات آینده باید دامنه سوالات را گسترش دهند، تأثیر الگوهای تعامل مختلف با LLMها را بررسی کنند و ملاحظات اخلاقی پیرامون استفاده از آنها در زمینههای پزشکی را بررسی کنند.
نتیجه گیری
در پایان، این یافتهها وعده LLMها را به عنوان ابزارهایی برای افزایش درک عمومی از سلامت قلب و عروق برجسته میکند، در حالی که بر نیاز به ارزیابی دقیق و پالایش مداوم برای اطمینان از دقت، انصاف و انتشار مسئولانه اطلاعات پزشکی نیز تاکید میکند. مسیر پیش رو شامل ارزیابیهای مقایسهای مداوم، رسیدگی به سوگیریهای زبانی و استفاده از نقاط قوت مدلهای خاص زبان برای ترویج دسترسی عادلانه به راهنمایی پیشگیری از CVD دقیق و قابل اعتماد است.