Nawigacja po Prewencji Sercowo-Naczyniowej: Analiza Porównawcza LLM

Ocena Wydajności LLM: Dokładność i Spójność

Naszym głównym celem była ocena dokładności odpowiedzi udzielanych przez wiodące LLM na pytania związane z prewencją CVD. Skupiliśmy się na BARD (model językowy Google), ChatGPT-3.5 i ChatGPT-4.0 (modele OpenAI) oraz ERNIE (model Baidu). Zestaw 75 starannie przygotowanych pytań dotyczących prewencji CVD został zadany każdemu LLM, a odpowiedzi oceniano pod kątem ich adekwatności (zaklasyfikowanych jako odpowiednie, graniczne lub nieodpowiednie).

Wydajność w Języku Angielskim

W języku angielskim LLM wykazały się znaczną dokładnością. BARD osiągnął ocenę „odpowiedni” na poziomie 88,0%, ChatGPT-3.5 uzyskał 92,0%, a ChatGPT-4.0 wyróżnił się wynikiem 97,3%. Wyniki te sugerują, że LLM mogą dostarczać cennych informacji użytkownikom anglojęzycznym poszukującym wskazówek dotyczących prewencji CVD.

Wydajność w Języku Chińskim

Analiza została rozszerzona na zapytania w języku chińskim, gdzie wydajność LLM była zróżnicowana. ERNIE osiągnął ocenę „odpowiedni” na poziomie 84,0%, ChatGPT-3.5 uzyskał 88,0%, a ChatGPT-4.0 osiągnął 85,3%. Chociaż wyniki były ogólnie pozytywne, wskazywały również na niewielki spadek wydajności w porównaniu z językiem angielskim, co sugeruje potencjalne uprzedzenia językowe w tych modelach.

Poprawa w Czasie i Samoświadomość

Oprócz początkowej dokładności, zbadaliśmy zdolność LLM do poprawy swoich odpowiedzi w czasie oraz ich samoświadomość poprawności. Obejmowało to ocenę, jak modele reagowały na początkowo nieoptymalne odpowiedzi i czy potrafiły identyfikować i korygować błędy po otrzymaniu odpowiedniej wskazówki.

Ulepszone odpowiedzi w czasie

Analiza wykazała, że LLM wykazują poprawę w czasie. Po przedstawieniu początkowo nieoptymalnych odpowiedzi, BARD i ChatGPT-3.5 poprawiły się o 67% (odpowiednio 6/9 i 4/6), podczas gdy ChatGPT-4.0 osiągnął doskonały wskaźnik poprawy 100% (2/2). Sugeruje to, że LLM uczą się z interakcji z użytkownikami i informacji zwrotnych, co prowadzi do dokładniejszych i bardziej wiarygodnych informacji w czasie.

Samoświadomość poprawności

Zbadaliśmy również zdolność LLM do rozpoznawania poprawności swoich odpowiedzi. BARD i ChatGPT-4.0 wypadły lepiej niż ChatGPT-3.5 w tym obszarze, wykazując lepszą samoświadomość dokładności informacji, które dostarczyły. Ta cecha jest szczególnie cenna w kontekście medycznym, gdzie nieprawidłowe informacje mogą mieć poważne konsekwencje.

Wydajność ERNIE w języku chińskim

Analiza zapytań w języku chińskim wykazała, że ERNIE wyróżniał się poprawą w czasie i samoświadomością poprawności. Sugeruje to, że ERNIE jest dobrze przystosowany do dostarczania dokładnych i wiarygodnych informacji użytkownikom chińskojęzycznym poszukującym wskazówek dotyczących prewencji CVD.

Kompleksowa Ocena Chatbotów LLM

Aby zapewnić kompleksową ocenę obejmującą popularne i powszechnie używane chatboty LLM, badanie objęło cztery wiodące modele: ChatGPT-3.5 i ChatGPT-4.0 OpenAI, BARD Google i ERNIE Baidu. Ocena zapytań w języku angielskim obejmowała ChatGPT 3.5, ChatGPT 4 i BARD; w przypadku zapytań w języku chińskim ocena obejmowała ChatGPT 3.5, ChatGPT 4 i ERNIE. Modele były używane z domyślnymi konfiguracjami i ustawieniami temperatury, bez dostosowywania tych parametrów podczas analizy.

Generowanie Pytan i Ocena Odpowiedzi Chatbota

American College of Cardiology i American Heart Association dostarczają wytyczne i zalecenia dotyczące prewencji CVD, obejmujące informacje na temat czynników ryzyka, testów diagnostycznych i opcji leczenia, a także edukację pacjentów i strategie samodzielnego zarządzania. Dwóch doświadczonych kardiologów wygenerowało pytania związane z prewencją CVD, formułując je w sposób podobny do zapytań pacjentów kierowanych do lekarzy, aby zapewnić ich istotność i zrozumiałość z perspektywy pacjenta. To podejście skoncentrowane na pacjencie i oparte na wytycznych zaowocowało ostatecznym zestawem 300 pytań obejmujących różne dziedziny. Pytania te zostały następnie przetłumaczone na język chiński, zapewniając odpowiednie użycie konwencjonalnych i międzynarodowych jednostek.

Zaślepienie i Losowo Uporządkowana Ocena

Aby zapewnić, że oceniający nie byli w stanie odróżnić pochodzenia odpowiedzi między różnymi chatbotami LLM, wszelkie funkcje specyficzne dla chatbota zostały ręcznie ukryte. Ocena została przeprowadzona w sposób zaślepiony i losowo uporządkowany, z odpowiedziami trzech chatbotów losowo przetasowanymi w zestawie pytań. Odpowiedzi od trzech chatbotów zostały losowo przypisane do 3 rund, w stosunku 1:1:1, do zaślepionej oceny przez trzech kardiologów, z 48-godzinną przerwą między rundami w celu złagodzenia efektu świeżości.

Metodologia Oceny Dokładności

Podstawowym wynikiem była wydajność w odpowiadaniu na podstawowe pytania dotyczące prewencji CVD. W szczególności zastosowano dwuetapowe podejście do oceny odpowiedzi. W pierwszym kroku panel kardiologów przeanalizował wszystkie odpowiedzi wygenerowane przez chatbota LLM i ocenił je jako „odpowiednie”, „graniczne” lub „nieodpowiednie” w odniesieniu do konsensusu ekspertów i wytycznych. W drugim kroku zastosowano podejście oparte na konsensusie większości, w którym ostateczna ocena odpowiedzi każdego chatbota opierała się na najczęściej spotykanej ocenie wśród trzech oceniających. W sytuacjach, gdy nie można było osiągnąć konsensusu większości wśród trzech oceniających, konsultowano się ze starszym kardiologiem w celu sfinalizowania oceny.

Analiza Kluczowych Odkryć

Dane ujawniły, że chatboty LLM generalnie radziły sobie lepiej z zapytaniami w języku angielskim niż z zapytaniami w języku chińskim. W szczególności w przypadku zapytań w języku angielskim BARD, ChatGPT-3.5 i ChatGPT-4.0 wykazały podobne sumy wyników. Porównując proporcje ocen „odpowiednich”, ChatGPT-4.0 miałNotably wyższy odsetek w porównaniu z ChatGPT-3.5 i Google Bard. W przypadku zapytań w języku chińskim ChatGPT3.5 uzyskał wyższą sumę punktów, a następnie ChatGPT-4.0 i Ernie. Różnice nie były jednak statystycznie istotne. Podobnie, ChatGPT-3.5 miał wyższy odsetek „odpowiedniej oceny” w przypadku zapytań w języku chińskim w porównaniu z ChatGPT-4.0 i ERNIE, ale różnice nie były statystycznie istotne.

Wydajność w Różnych Domenach Prewencji CVD

Analiza koncentrowała się na ocenach „odpowiednich” w różnych dziedzinach prewencji CVD. Co ciekawe, ChatGPT-4.0 konsekwentnie radził sobie dobrze w większości dziedzin, uzyskując szczególnie wysokie oceny w dziedzinach „dyslipidemia”, „styl życia”, „biomarkery i stany zapalne” oraz „DM i CKD”. Jednak BARD wykazał nieoptymalną wydajność w porównaniu z ChatGPT4.0 i ChatGPT-3.5, szczególnie w dziedzinie „styl życia”. Ustalenia podkreśliły, że wszystkie trzy chatboty LLM radziły sobie dobrze w dziedzinie „styl życia”, uzyskując 100% ocen „odpowiednich” (Tabela uzupełniająca S6). Obserwowano jednak różnice w wydajności w innych dziedzinach, a niektóre modele wykazywały większą skuteczność w określonych dziedzinach prewencji.

Implikacje dla Umiejętności w Zakresie Ochrony Zdrowia

Ustalenia badania mają istotne implikacje dla wysiłków mających na celu poprawę umiejętności w zakresie ochrony zdrowia układu krążenia. Ponieważ osoby coraz częściej zwracają się do zasobów online w poszukiwaniu informacji medycznych, LLM mają potencjał, aby służyć jako cenne narzędzia poprawiające zrozumienie prewencji CVD. Dostarczając dokładne i przystępne informacje, LLM mogą wypełnić luki w wiedzy i umożliwić jednostkom podejmowanie świadomych decyzji dotyczących ich zdrowia.

Dysproporcje w Wydajności

Badanie ujawniło również znaczące dysproporcje w wydajności LLM w różnych językach. Stwierdzenie, że LLM generalnie radziły sobie lepiej z zapytaniami w języku angielskim niż z zapytaniami w języku chińskim, podkreśla potencjał uprzedzeń językowych w tych modelach. Rozwiązanie tego problemu ma kluczowe znaczenie dla zapewnienia, że LLM zapewniają równy dostęp do dokładnych informacji medycznych wszystkim osobom, niezależnie od ich języka ojczystego.

Rola Modeli Specyficznych dla Języka

Analiza wydajności ERNIE w języku chińskim dostarcza cennych informacji na temat roli LLM specyficznych dla języka. Mocne strony ERNIE w poprawie w czasie i samoświadomości poprawności sugerują, że modele dostosowane do określonych języków mogą skutecznie rozwiązywać niuanse językowe i konteksty kulturowe. Dalszy rozwój i udoskonalanie LLM specyficznych dla języka może być niezbędne do optymalizacji przekazywania informacji medycznych różnym populacjom.

Ograniczenia i Przyszłe Kierunki

Chociaż to badanie dostarcza cennych informacji na temat możliwości LLM w zakresie odpowiadania na zapytania dotyczące prewencji CVD, należy uznać pewne ograniczenia. Użyte pytania stanowiły niewielką część pytań dotyczących prewencji CVD. Uogólnianie wyników podlega wpływowi odpowiedzi stochastycznych. Ponadto szybka ewolucja LLM wymaga ciągłych badań w celu uwzględnienia zaktualizowanych iteracji i pojawiających się modeli. Przyszłe badania powinny rozszerzyć zakres pytań, zbadać wpływ różnych wzorców interakcji z LLM i zbadać aspekty etyczne związane z ich wykorzystaniem w kontekstach medycznych. Przede wszystkim należy wziąć pod uwagę koszt finansowy jak również zasoby energetyczny potrzebny do trenowania tych modeli, zwłaszcza dla modeli w językach o mniejszej reprezentacji danych. Bardziej zrównoważone metody uczenia maszynowego, takie jak Transfer learning, mogłyby być użyteczne w przyszłych modelach w celu zmniejszenia bariery ekonomicznej w produkcji LLM.

W szczególności, przyszłe badania powinny skupić się na:

  • Rozszerzenie zakresu pytań: Testowanie LLM na szerszym wachlarzu zapytań prewencji układu krążenia, w tym tych dotyczących rzadkich warunków lub złożonych interakcji lekowych.
  • Badanie wzorców interakcji: Ocena, jak różne podejścia do interakcji, takie jak zadawanie pytań uzupełniających lub dostarczanie szczegółowego kontekstu, wpływają na jakość odpowiedzi LLM.
  • Rozważania etyczne: Analiza potencjalnych uprzedzeń, nieścisłości i implikacji dla prywatności związanych z wykorzystaniem LLM w środowisku medycznym.

Wnioski

Podsumowując, ustalenia te podkreślają obietnicę LLM jako narzędzi poprawiających społeczne zrozumienie zdrowia układu krążenia, a jednocześnie podkreślają potrzebę starannej oceny i ciągłego udoskonalania w celu zapewnienia dokładności, sprawiedliwości i odpowiedzialnego rozpowszechniania informacji medycznych. Droga naprzód obejmuje ciągłe oceny porównawcze, rozwiązywanie problemów związanych z uprzedzeniami językowymi i wykorzystywanie mocnych stron modeli specyficznych dla języka w celu promowania równego dostępu do dokładnych i wiarygodnych wskazówek dotyczących prewencji CVD. Dodatkowo, promowanie przejrzystości w procesie decyzyjnym LLM i ustanowienie jasnych wytycznych regulujących ich zastosowanie w środowisku opieki zdrowotnej będzie miało kluczowe znaczenie dla budowania zaufania i odpowiedzialnego wykorzystania tych narzędzi.