AI w edukacji medycznej: Ocena LLM w TUS

Wprowadzenie

Postęp technologiczny w dziedzinie sztucznej inteligencji (AI), a w szczególności rozwój dużych modeli językowych (LLM), wprowadza potencjalne zmiany w edukacji medycznej i metodach oceny wiedzy. Te postępy mogą szczególnie ułatwić dostęp do informacji medycznych i uczynić ocenę bardziej interaktywną.

Wcześniejsze badania analizowały działanie LLM w różnych egzaminach licencyjnych, takich jak USMLE (United States Medical Licensing Examination) i JMLE (Japanese Medical Licensing Examination). Jednak egzamin TUS (specjalistyczny egzamin wstępny na studia medyczne w Turcji) różni się od nich strukturą i treścią. TUS koncentruje się na naukach podstawowych i klinicznych, ze szczególnym uwzględnieniem kontekstu medycznego w Turcji. To stanowi unikalną okazję do oceny możliwości LLM w odmiennym środowisku oceny. Niniejsze badanie ma na celu wypełnienie tej luki poprzez ocenę działania czterech wiodących LLM w TUS. Dodatkowo, badanie to bada potencjalny wpływ tych odkryć na projektowanie programów nauczania, wspomagane przez AI szkolenia medyczne i przyszłość ocen medycznych w Turcji. W szczególności analizujemy, w jaki sposób działanie LLM może wpłynąć na rozwój bardziej efektywnych zasobów edukacyjnych i strategii oceny, dostosowanych do tureckiego programu nauczania medycyny. Analiza ta nie tylko przyczynia się do zrozumienia skuteczności konkretnych języków, ale także do szerszej dyskusji na temat skutecznej integracji AI z globalną edukacją i oceną medyczną.

Wyniki tych badań sugerują, że ChatGPT i podobne LLM mogą odgrywać znaczącą rolę w edukacji medycznej i procesach oceny wiedzy. Sztuczna inteligencja i LLM w metodach wyszukiwania informacji medycznych i oceny mogą umożliwić rozwój innowacyjnych metod i podejść do uczenia się, szczególnie w edukacji medycznej. Niniejsze badanie ma na celu dalsze zbadanie wpływu LLM na edukację medyczną i ocenę wiedzy poprzez ocenę działania ChatGPT 4, Gemini 1.5 Pro i Cohere-Command R+ w Tureckim Egzaminie Wstępnym na Szkolenie Specjalistów Medycznych.

Niniejsze badanie bada zastosowanie zaawansowanych modeli sztucznej inteligencji (AI), w szczególności ChatGPT 4, Gemini 1.5 Pro, Command R+ i Llama 3 70B, w edukacji i ocenie medycznej, koncentrując się na ich działaniu w rozwiązywaniu pytań egzaminacyjnych w dziedzinie medycyny. Badanie ocenia zdolność tych modeli do kompleksowej i systematycznej analizy pytań z Tureckiego Egzaminu Wstępnego na Szkolenie Specjalistów Medycznych, podkreślając potencjał AI w medycynie, biorąc pod uwagę takie czynniki jak zdolność do interpretacji i dokładność. Wyniki wskazują, że modele AI mogą znacząco ułatwić proces edukacji i oceny medycznej, otwierając drogę dla nowych zastosowańi obszarów badań. Głównym celem artykułu jest ocena szybkiego postępu technologii AI i porównanie reakcji różnych modeli AI. Badanie obejmuje analizę porównawczą ChatGPT 4, Gemini 1.5 Pro, Command R+ i Llama 3 70B, oceniając ich działanie na 240 pytaniach z pierwszej sesji Tureckiego Egzaminu Wstępnego na Szkolenie Specjalistów Medycznych w 2021 roku.

To porównanie ma na celu wyjaśnienie ścieżki rozwoju i różnic technologii AI, koncentrując się na ich użyteczności w wyspecjalizowanych dziedzinach, takich jak edukacja medyczna i przygotowanie do egzaminów. Ostatecznym celem jest dostarczenie informacji, które pomogą użytkownikom wybrać narzędzie do nauki, które najlepiej odpowiada ich konkretnym potrzebom.

Metody

Pytania zostały zadane LLM w języku tureckim. Zostały one uzyskane z oficjalnej strony internetowej Centrum Selekcji i Umieszczania Studentów (ÖSYM) i miały formę pytań wielokrotnego wyboru (pięć opcji od A do E), z których tylko jedna była najlepszą odpowiedzią. Odpowiedzi udzielane przez LLM były w języku tureckim.

Proces oceny opierał się na poprawnych odpowiedziach opublikowanych przez Centrum Selekcji i Umieszczania Studentów. W artykule stwierdzono: ‘Poprawna’ odpowiedź na pytania postawione modelom sztucznej inteligencji została zdefiniowana na podstawie odpowiedzi opublikowanych przez Centrum Selekcji i Umieszczania Studentów. Za ‘poprawne’ uznano tylko te odpowiedzi, które zostały zidentyfikowane jako poprawne na podstawie instrukcji w tekście pytania. Ponieważ zarówno pytania, jak i odpowiedzi były w języku tureckim, proces oceny obejmował porównanie odpowiedzi w języku tureckim udzielonych przez LLM z oficjalnym kluczem odpowiedzi w języku tureckim dostarczonym przez Centrum Selekcji i Umieszczania Studentów.

Zbiór danych edukacji medycznej

W tym badaniu wykorzystano ChatGPT 4, Gemini 1.5 Pro, Command R+ i Llama 3 70B do przetestowania zdolności modeli sztucznej inteligencji w zakresie wiedzy medycznej i oceny przypadków. Badanie przeprowadzono na pytaniach z Tureckiego Egzaminu Wstępnego na Szkolenie Specjalistów Medycznych, który odbył się 21 marca 2021 roku. Turecki Egzamin Wstępny na Szkolenie Specjalistów Medycznych, organizowany przez Centrum Selekcji i Umieszczania Studentów, składa się z 240 pytań. Pytania dotyczące wiedzy podstawowej w pierwszej kategorii testują wiedzę i etykę niezbędną do ukończenia edukacji medycznej. Druga kategoria to pytania dotyczące przypadków, które obejmują wiele chorób, w których mierzona jest zdolność do myślenia analitycznego i rozumowania.

Klasyfikacja trudności pytań

Poziom trudności pytań został sklasyfikowany na podstawie oficjalnych danych dotyczących wyników kandydatów opublikowanych przez Centrum Selekcji i Umieszczania Studentów. W szczególności, wskaźnik poprawnych odpowiedzi dla każdego pytania zgłoszony przez Centrum został użyty do podzielenia pytań na pięć poziomów trudności:

  • Poziom 1 (najłatwiejszy): Pytania, w których wskaźnik poprawnych odpowiedzi wynosił 80% lub więcej.
  • Poziom 2: Pytania, w których wskaźnik poprawnych odpowiedzi wynosił od 60% do 79,9%.
  • Poziom 3 (średni): Pytania, w których wskaźnik poprawnych odpowiedzi wynosił od 40% do 59,9%.
  • Poziom 4: Pytania, w których wskaźnik poprawnych odpowiedzi wynosił od 20% do 39,9%.
  • Poziom 5 (najtrudniejszy): Pytania, w których wskaźnik poprawnych odpowiedzi wynosił 19,9% lub mniej.

‘Poprawna’ odpowiedź na pytania postawione modelom sztucznej inteligencji została zdefiniowana na podstawie odpowiedzi opublikowanych przez Centrum Selekcji i Umieszczania Studentów. Za ‘poprawne’ uznano tylko te odpowiedzi, które zostały zidentyfikowane jako poprawne na podstawie instrukcji w tekście pytania. Ponadto, poziom trudności każdego pytania został podzielony na poziomy od 1 do 5 na podstawie wskaźnika poprawnych odpowiedzi opublikowanego przez Centrum Selekcji i Umieszczania Studentów. Pytania, w których wskaźnik poprawnych odpowiedzi wynosił 80% lub więcej, uznano za najłatwiejsze (poziom 1), natomiast pytania, w których wskaźnik poprawnych odpowiedzi wynosił 19,9% lub mniej, uznano za najtrudniejsze (poziom 5).

Dziedziny wiedzy i przypadków

Turecki Egzamin Wstępny na Szkolenie Specjalistów Medycznych, będący kluczowym krokiem dla absolwentów medycyny w Turcji w dążeniu do specjalizacji, ocenia wiedzę i obszary przypadków kandydatów w dwóch kluczowych obszarach. Zrozumienie różnicy między tymi obszarami jest kluczowe dla właściwego przygotowania. Obszar wiedzy koncentruje się na ocenie teoretycznego zrozumienia i wiedzy faktograficznej kandydata w wybranej dziedzinie medycyny. Sprawdza on opanowanie podstawowych pojęć i zasad oraz ustala informacje medyczne związane ze specjalizacją. Reprezentuje konkretne obszary wiedzy medycznej, które są testowane, takie jak podstawowe nauki medyczne (anatomia, biochemia, fizjologia itp.) i nauki kliniczne (medycyna wewnętrzna, chirurgia, pediatria itp.) Obszar przypadków, z drugiej strony, reprezentuje rzeczywiste scenariusze lub sytuacje, w których wiedza jest stosowana, takie jak rozwiązywanie problemów, myślenie analityczne, myślenie krytyczne, podejmowanie decyzji i stosowanie koncepcji w rzeczywistych sytuacjach.

Inżynieria podpowiedzi

Inżynieria podpowiedzi to proces projektowania i dostrajania podpowiedzi w języku naturalnym w celu uzyskania konkretnych odpowiedzi od modelu językowego lub systemu AI. W kwietniu 2024 roku zebraliśmy odpowiedzi, wysyłając zapytania do modeli językowych bezpośrednio za pośrednictwem ich interfejsów internetowych.

Aby zapewnić sprawiedliwą ocenę pierwotnych możliwości każdego modelu, w sposobie prezentacji pytań LLM wdrożono rygorystyczną kontrolę metodologiczną. Każde pytanie wprowadzano oddzielnie, a sesja była resetowana przed zadaniem nowego pytania, aby zapobiec uczeniu się lub dostosowywaniu się modelu na podstawie wcześniejszych interakcji.

Analiza danych

Wszystkie analizy przeprowadzono za pomocą oprogramowania Microsoft Office Excel i Python. W celu porównania działania LLM w przypadku pytań o różnym stopniu trudności przeprowadzono sparowany test chi-kwadrat. Do określenia istotności statystycznej użyto progu wartości p < 0,05. Analiza ta oceniała, czy dokładność modelu różni się w zależności od poziomu trudności pytania.

Rozważania etyczne

W tym badaniu wykorzystano wyłącznie informacje opublikowane w Internecie i nie brały w nim udziału żadne osoby. Dlatego też zgoda Komisji Etycznej Uniwersytetu Baskent nie była wymagana.

Wyniki

Średnia liczba poprawnych odpowiedzi udzielonych przez kandydatów, którzy wzięli udział w pierwszej sesji Tureckiego Egzaminu Wstępnego na Szkolenie Specjalistów Medycznych w 2021 roku, na egzaminie z podstawowych nauk medycznych wyniosła 51,63. Średnia liczba poprawnych odpowiedzi na egzaminie z klinicznych nauk medycznych wyniosła 63,95. Średnia liczba poprawnych odpowiedzi na egzaminie z klinicznych nauk medycznych była wyższa niż na egzaminie z podstawowych nauk medycznych. Równolegle do tej sytuacji, technologia sztucznej inteligencji również z większym powodzeniem odpowiadała na egzamin z klinicznych nauk medycznych.

Działanie AI

Działanie platform AI oceniano przy użyciu tych samych wskaźników, co w przypadku ludzkich kandydatów.

  • ChatGPT 4:

    ChatGPT 4 uzyskał średni wynik 103 poprawnych odpowiedzi w części dotyczącej podstawowych nauk medycznych i 110 poprawnych odpowiedzi w części dotyczącej klinicznych nauk medycznych. To reprezentuje ogólną dokładność na poziomie 88,75%, co jest znacznie lepsze niż średnia ludzkich kandydatów w obu częściach (p < 0,001).

  • Llama 3 70B:

    Llama 3 70B uzyskał średni wynik 95 poprawnych odpowiedzi w części dotyczącej podstawowych nauk medycznych i 95 poprawnych odpowiedzi w części dotyczącej klinicznych nauk medycznych. To reprezentuje ogólną dokładność na poziomie 79,17%, co również jest znacznie lepsze niż średnia wydajność ludzka (p < 0,01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro uzyskał średni wynik 94 poprawnych odpowiedzi w części dotyczącej podstawowych nauk medycznych i 93 poprawne odpowiedzi w części dotyczącej klinicznych nauk medycznych. To reprezentuje ogólną dokładność na poziomie 78,13%, co jest znacznie lepsze niż średnia wydajność ludzka (p < 0,01).

  • Command R+:

    Command R+ uzyskał średni wynik 60 poprawnych odpowiedzi w części dotyczącej podstawowych nauk medycznych i 60 poprawnych odpowiedzi w części dotyczącej klinicznych nauk medycznych. To reprezentuje ogólną dokładność na poziomie 50%, co nie różni się znacząco od średniej wydajności ludzkiej w części dotyczącej podstawowych nauk medycznych (p = 0,12), ale jest znacznie niższe w części dotyczącej klinicznych nauk medycznych (p < 0,05).

Działanie platform AI oceniano przy użyciu tych samych wskaźników, co w przypadku ludzkich kandydatów.

Rysunek 3 porównuje dokładność różnych LLM w zależności od trudności pytania - ChatGPT 4: Model o najlepszym działaniu. Wraz ze wzrostem trudności pytania dokładność wzrasta, osiągając prawie 70% nawet w przypadku najbardziej wymagających pytań - Llama 3 70B: Model o umiarkowanej wydajności. Wraz ze wzrostem trudności pytania dokładność najpierw wzrasta, a następnie maleje. W przypadku najbardziej wymagających pytań jego dokładność wynosi około 25%. Gemini 1.5 70B: Jego działanie jest podobne do Llama 3 70B. Wraz ze wzrostem trudności pytania dokładność najpierw wzrasta, a następnie maleje. W przypadku najbardziej wymagających pytań jego dokładność wynosi około 20%. Command R+: Model o najniższej wydajności. Jego dokładność maleje wraz ze wzrostem trudności pytania i utrzymuje się na poziomie około 15% w przypadku najbardziej wymagających pytań

Podsumowując, ChatGPT 4 jest modelem najmniej podatnym na trudność pytania i charakteryzuje się najwyższą ogólną dokładnością. Llama 3 70B i Gemini 1.5 Pro osiągają umiarkowane wyniki, podczas gdy Command R+ ma niższy wskaźnik sukcesu niż inne modele. Wraz ze wzrostem trudności pytania dokładność modeli maleje. To sugeruje, że LLM nadal wymagają ulepszeń w zakresie rozumienia i poprawnego odpowiadania na złożone pytania

W tabeli 1 model ChatGPT 4 wyróżnia się jako model o najlepszym działaniu z wskaźnikiem sukcesu na poziomie 88,75%. To wskazuje na jego solidne możliwości w zakresie rozumienia i dokładnego odpowiadania na pytania. Model Llama 3 70B zajmuje drugie miejsce z wskaźnikiem sukcesu na poziomie 79,17%. Chociaż ustępuje modelowi ChatGPT 4, nadal wykazuje wysoki poziom biegłości w odpowiadaniu na pytania. Model Gemini 1.5 Pro plasuje się blisko za nim, osiągając wskaźnik sukcesu na poziomie 78,13%. Jego działanie jest porównywalne z modelem Llama 3 70B, co wskazuje na jego silne możliwości w zakresie odpowiadania na pytania. Z drugiej strony, model Command R+ pozostaje w tyle za innymi modelami, osiągając wskaźnik sukcesu na poziomie 50%. To sugeruje, że może napotykać trudności z konkretnymi pytaniami lub wymagać dalszego dostrajania w celu poprawy wydajności. Rozkład poprawnych odpowiedzi w zależności od poziomu trudności. Na przykład wszystkie modele radziły sobie dobrze z łatwymi pytaniami (poziom trudności 1), przy czym model ChatGPT 4 osiągnął doskonały wynik. W przypadku pytań o średniej trudności (poziomy 2 i 3) modele ChatGPT 4 i Llama 3 70B nadal radziły sobie dobrze.

Natomiast model Gemini 1.5 Pro zaczął wykazywać pewne słabości. W przypadku trudnych pytań (poziomy 4 i 5) wydajność wszystkich modeli spadła, przy czym model Command R+ miał największe trudności. Ogólnie rzecz biorąc, wyniki te dostarczają cennych informacji na temat mocnych i słabych stron każdego modelu AI i mogą stanowić podstawę przyszłych prac rozwojowych i ulepszeń

W tabeli 3 biochemia w podstawowych naukach medycznych uzyskała doskonały wynik w ChatGPT 4, co świadczy o jego wyjątkowej zdolności do odpowiadania na pytania w tej dziedzinie. Llama 3 70B i Gemini 1.5 Pro również radziły sobie dobrze, ale Command R+ wypadł słabo, osiągając dokładność na poziomie 50%. Modele o najlepszych wynikach w farmakologii, patologii i mikrobiologii (ChatGPT 4 i Llama 3 70B) wykazywały silną spójność informacji, osiągając dokładność od 81% do 90%. Gemini 1.5 Pro i Command R+ pozostawały w tyle, ale nadal radziły sobie dobrze. Anatomia i fizjologia stanowiły pewne wyzwanie dla modeli. ChatGPT 4 i Meta AI-Llama 3 70B radziły sobie dobrze, podczas gdy Gemini 1.5 Pro i Command R+ wypadły słabo, osiągając dokładność poniżej 70%.

Pediatria w klinicznych naukach medycznych była kluczowa dla wszystkich modeli, przy czym ChatGPT 4 osiągnął prawie doskonały wynik (90%). Llama 3 70B uplasował się tuż za nim, a nawet Command R+ osiągnął dokładność na poziomie 43%. Wydajność medycyny wewnętrznej i chirurgii ogólnej była lepsza niż w przypadku najlepszych modeli, osiągając dokładność od 79% do 90%. Gemini 1.5 Pro i Command R+ pozostawały w tyle, ale nadal radziły sobie dobrze. Specjalizacje takie jak anestezjologia i resuscytacja, medycyna ratunkowa, neurologia i dermatologia zgłaszały mniej pytań, ale modele radziły sobie ogólnie dobrze. ChatGPT 4 i Llama 3 70B wykazywały wyjątkową dokładność w tych dziedzinach

Jeśli chodzi o porównanie modeli, ChatGPT 4 jest modelem o najlepszych wynikach w większości dziedzin, osiągając ogólną dokładność na poziomie 88,75%. Jego siła polega na zdolności do dokładnego odpowiadaniana pytania z podstawowych i klinicznych nauk medycznych. Llama 3 70B uplasował się tuż za nim, osiągając ogólną dokładność na poziomie 79,17%. Chociaż nie dorównywał w pełni wydajności ChatGPT 4, nadal wykazywał silną spójność wiedzy we wszystkich dziedzinach. Gemini 1.5 Pro i Command R+ pozostawały w tyle, osiągając ogólną dokładność odpowiednio na poziomie 78,13% i 50%. Chociaż w niektórych dziedzinach wykazywały obiecujące wyniki, miały trudności z utrzymaniem spójności we wszystkich dziedzinach

Krótko mówiąc, ChatGPT 4 jest obecnie najlepiej przystosowanym modelem do odpowiadania na pytania z zakresu nauk medycznych w różnych dziedzinach. Gemini 1.5 Pro i Command R+ wykazują potencjał, ale wymagają znacznych ulepszeń, aby konkurować z modelem o najlepszych wynikach

W tabeli 4, jeśli chodzi o obszar wiedzy, ChatGPT 4 osiągnął dokładność na poziomie 86,7% (85/98) w obszarze podstawowych nauk medycznych, przewyższając inne modele. ChatGPT 4 ponownie okazał się najlepszy, osiągając dokładność na poziomie 89,7% (61/68) w obszarze klinicznych nauk medycznych. Jeśli chodzi o obszar przypadków, ChatGPT 4 osiągnął dokładność na poziomie 81,8% (18/22) w obszarze podstawowych nauk medycznych. W obszarze klinicznych nauk medycznych ChatGPT 4 wypadł podobnie, osiągając dokładność na poziomie 94,2% (49/52)

Porównanie modeli parami ujawniło, że ChatGPT 4 znacznie przewyższał inne modele we wszystkich obszarach i typach pytań. Llama 3 70B i Gemini 1.5 Pro radziły sobie podobnie, podczas gdy Command R+ pozostawał w tyle. Na podstawie tej analizy możemy wywnioskować, że ChatGPT 4 wykazuje wyjątkową wydajność zarówno w obszarach wiedzy, jak i przypadków, a także w podstawowych i klinicznych naukach medycznych.

Analiza statystyczna

Działanie LLM analizowano za pomocą oprogramowania Microsoft Office Excel i Python (wersja 3.10.2). W celu porównania działania modeli w przypadku pytań o różnym stopniu trudności przeprowadzono niesparowany test chi-kwadrat. Dla każdego modelu AI skonstruowano tabele kontyngencji pokazujące poprawne i błędne odpowiedzi w podziale na poziomy trudności, a następnie zastosowano test chi-kwadrat w celu określenia, czy istnieją statystycznie istotne różnice w wydajności na różnych poziomach trudności. Do określenia istotności statystycznej użyto progu wartości p < 0,05. Wartość p dla ChatGPT 4 wyniosła 0,00028 i była istotna przy p < 0,05, co wskazuje na istotne różnice w wydajności na różnych poziomach trudności. Wartość p dla Gemini 1.5 Pro wyniosła 0,047 i była istotna przy p < 0,05, co wskazuje na istotne różnice w wydajności na różnych poziomach trudności. Wartość p dla Command R+ wyniosła 0,197 i nie była istotna przy p < 0,05, co wskazuje na brak istotnych różnic w wydajności na różnych poziomach trudności. Wartość p dla Llama 3 70B: 0,118, p: 0,118 i nie była istotna przy p < 0,05, co wskazuje na brak istotnych różnic w wydajności na różnych poziomach trudności.

Poprawność ChatGPT 4 i Gemini 1.5 Pro w przypadku pytań o różnym stopniu trudności wykazywała statystycznie istotne różnice, co sugeruje, że ich wydajność znacznie się zmienia w zależności od trudności pytania. Command R+ i Llama 3 70B nie wykazywały znaczących różnic w wydajności na różnych poziomach trudności, co wskazuje na bardziej spójną wydajność niezależnie od trudności pytania. Wyniki te mogą sugerować, że różne modele mają różne mocne i słabe strony w zakresie radzenia sobie ze złożonością i tematami związanymi z różnymi poziomami trudności.

Dyskusja

TUS to kluczowy krajowy egzamin dla absolwentów medycyny w Turcji, którzy chcą odbyć specjalistyczne szkolenie. Egzamin obejmuje pytania wielokrotnego wyboru obejmujące podstawowe i kliniczne nauki i charakteryzuje się scentralizowanym systemem rangowania, który decyduje o kolejności wyboru programów specjalizacyjnych.

Oceniając działanie dużych modeli językowych w TUS, GPT-4 był modelem o najlepszych wynikach. Podobnie, ChatGPT to potężny model AI, który wykazywał zbliżone lub wyższe niż ludzkie wyniki w dziedzinie chirurgii, poprawnie odpowiadając odpowiednio na 71% i 68% pytań wielokrotnego wyboru SCORE i Data-B. Ponadto, ChatGPT wypadł znakomicie na egzaminach z zakresu zdrowia publicznego, przekraczając obecny wskaźnik zdawalności i zapewniając unikalne informacje. Odkrycia te podkreślają wyjątkowe działanie GPT-4 i ChatGPT w ocenach medycznych, pokazując ich potencjał w zakresie wzmacniania edukacji medycznej i potencjalnej pomocy diagnostycznej.

Dla nauczycieli i egzaminatorów medycznych rosnąca dokładność LLM rodzi ważne pytania dotyczące projektowania egzaminów i oceniania. Jeśli modele AI mogą rozwiązywać standardowe egzaminy medyczne z dużą dokładnością, przyszłe oceny mogą wymagać uwzględnienia pytań dotyczących rozumowania wyższego rzędu i osądu klinicznego, które wykraczają poza proste przypominanie. Ponadto, tureckie instytucje medyczne mogą zbadać strategie edukacyjne wspomagane przez AI, takie jak adaptacyjne systemy uczenia się, które dostosowują materiały do nauki do indywidualnych potrzeb uczniów.

Z perspektywy krajowej, niniejsze badanie podkreśla rosnące znaczenie AI w edukacji medycznej w Turcji. Ponieważ LLM radzą sobie dobrze z pytaniami medycznymi w języku tureckim, mogą pomóc w zmniejszeniu luki w dostępie do wysokiej jakości zasobów edukacyjnych dla studentów w regionach o niedostatecznej ofercie. Ponadto, decydenci powinni rozważyć, w jaki sposób zintegrować modele AI z programami kształcenia ustawicznego i uczenia się przez całe życie dla tureckich pracowników służby zdrowia.

Podsumowując, chociaż modele AI, takie jak ChatGPT-4, wykazują niezwykłą dokładność, należy dokładnie ocenić ich rolę w edukacji medycznej. Potencjalne korzyści z uczenia się wspomaganego przez AI są ogromne, ale właściwe wdrożenie wymaga zapewnienia, że narzędzia te są wykorzystywane w sposób odpowiedzialny i etyczny oraz w połączeniu z ludzką wiedzą.

Ograniczenia

Niniejsze badanie dostarcza cennych informacji na temat działania dużych modeli językowych (LLM) w Tureckim Egzaminie Wstępnym na Szkolenie Specjalistów Medycznych (TUS), ale konieczne jest uznanie kilku ważnych ograniczeń, aby umieścić wyniki w kontekście i ukierunkować przyszłe badania. Po pierwsze, nie jest pewne, czy dane szkoleniowe modeli AI ocenianych w tym badaniu zawierały pytania z TUS. Ponieważ przeszłe pytania z TUS są publicznie dostępne, możliwe, że pytania wykorzystane w tym badaniu były częścią danych szkoleniowych modeli. To budzi obawy, czy działanie modeli odzwierciedla prawdziwe zrozumienie, czy tylko zdolność do zapamiętywania konkretnych pytań. Przyszłe badania powinny opracować metody oceny, czy modele AI wykazują prawdziwe zdolności rozumowania, czy też polegają na zapamiętywaniu informacji.

Po drugie, modele AI mogą wykazywać uprzedzenia wynikające z danych szkoleniowych. Uprzedzenia te mogą wynikać z niezrównoważonej reprezentacji niektórych schorzeń, populacji lub perspektyw w danych szkoleniowych. Na przykład, działanie modeli w języku tureckim może różnić się od ich działania w języku angielskim ze względu na różnice w ilości i jakości dostępnych danych szkoleniowych w każdym języku. Ponadto, modele te mogą być mniej dokładne w odpowiadaniu na pytania, które wymagają zrozumienia lokalnych tureckich praktyk medycznych lub kontekstów kulturowych. Uprzedzenia te mogą ograniczyć powszechność wyników i rodzić obawy etyczne dotyczące wykorzystywania AI w edukacji i praktyce medycznej.

Trzecim ograniczeniem jest to, że badanie koncentruje się wyłącznie na pytaniach wielokrotnego wyboru. W rzeczywistej praktyce klinicznej pracownicy służby zdrowia muszą posiadać umiejętności takie jak rozumowanie w złożonych przypadkach, interpretowanie niejednoznacznych odkryć i podejmowanie decyzji w warunkach niepewności. Ponadto, zdolność do jasnego i współczującego przekazywania diagnoz, planów leczenia i ryzyka pacjentom i kolegom jest niezwykle ważna. Zdolność modeli AI do wykonywania tych zadań nie została przetestowana, a ich możliwości mogą być ograniczone przez ich obecny projekt i szkolenie. Przyszłe badania powinny oceniać modele AI w bardziej realistycznych warunkach, takich jak symulacje przypadków klinicznych i oceny otwarte.

Po czwarte, badanie nie obejmowało pytań otwartych. Pytania otwarte są niezbędne do oceny umiejętności poznawczych wyższego rzędu, takich jak krytyczne myślenie, synteza informacji i rozumowanie kliniczne. Te rodzaje pytań wymagają zdolności do generowania spójnych i kontekstowo istotnych odpowiedzi, a nie po prostu wyboru poprawnej opcji z listy. Działanie modeli AI w takich zadaniach może znacznie różnić się od ich działania w pytaniach wielokrotnego wyboru, co stanowi ważny obszar przyszłych badań.

Piątym ograniczeniem jest to, że modele AI nie były testowane w warunkach presji czasu. Ludzcy kandydaci podlegają ścisłym ograniczeniom czasowym podczas egzaminów, co może wpływać na ich działanie. Natomiast modele AI w tym badaniu nie podlegały presji czasu, co pozwoliło im udzielać odpowiedzi bez stresu związanego z ograniczonym czasem