AI, 의학교육 역할: TUS 평가

서론

최근 인공지능(AI)과 거대 언어 모델(LLM) 기술의 발전은 의학교육과 지식 평가 방식에 혁신적인 변화를 가져올 잠재력을 보여주고 있습니다. 특히 이러한 발전은 의학 정보 접근성을 높이고 평가를 더욱 상호작용적으로 만들 수 있습니다.

기존 연구에서는 LLM이 미국 의사 면허 시험(USMLE) 및 일본 의사 면허 시험(JMLE)과 같은 다양한 의사 면허 시험에서 보여주는 성능을 분석했지만, TUS는 구조와 내용 면에서 이러한 시험들과 상당한 차이가 있습니다. TUS는 기초 과학과 임상 과학에 초점을 맞추고 특히 터키 의학적 맥락을 중시하기 때문에 LLM이 독특한 평가 환경에서 어떤 능력을 발휘하는지 평가할 수 있는 특별한 기회를 제공합니다. 본 연구는 주요 LLM 4개가 TUS에서 보여주는 성능을 평가하여 이러한 간극을 메우는 것을 목표로 합니다. 또한 본 연구는 이러한 결과가 교육 과정 설계, AI 기반 의학 훈련, 그리고 터키 의학 평가의 미래에 미칠 수 있는 잠재적 영향에 대해 탐구합니다. 구체적으로 LLM의 성능이 어떻게 터키 의학 교육 과정에 맞춘 더 효과적인 교육 자료와 평가 전략 개발에 도움이 되는지 조사합니다. 이러한 조사는 특정 언어의 성능을 이해하는 데 도움이 될 뿐만 아니라 AI를 전 세계 의학교육과 평가에 효과적으로 통합하는 방법에 대한 더 광범위한 논의에도 기여합니다.

이러한 연구 결과는 ChatGPT 및 유사한 LLM이 의학교육과 지식 평가 과정에서 중요한 역할을 할 수 있음을 시사합니다. 의학 정보 검색 및 평가 방법에서의 AI 및 LLM은 특히 의학교육에서 혁신적인 접근 방식과 학습 방법 개발을 가능하게 합니다. 본 연구는 ChatGPT 4, Gemini 1.5 Pro 및 Cohere-Command R+가 터키 의학 전문 훈련 입학 시험에서 보여주는 성능을 평가하여 LLM이 의학교육과 지식 평가에 미치는 영향을 더욱 조사하는 것을 목표로 합니다.

본 연구는 특히 ChatGPT 4, Gemini 1.5 Pro, Command R+ 및 Llama 3 70B와 같은 첨단 인공지능(AI) 모델을 의학교육과 평가에 적용하는 데 초점을 맞추어 의학 전문 시험 문제를 해결하는 데 있어서의 성능을 중점적으로 다룹니다. 본 연구는 이러한 모델이 터키 의학 전문 훈련 입학 시험 문제를 포괄적이고 체계적으로 분석하는 능력을 평가하여 설명 능력과 정확성과 같은 요소를 고려할 때 의학 분야에서 AI가 가진 잠재력을 강조합니다. 연구 결과는 AI 모델이 의학교육 및 평가 과정을 크게 촉진하여 새로운 응용 분야와 연구 분야를 열 수 있음을 시사합니다. 본 논문의 주요 목적은 AI 기술의 빠른 발전을 평가하고 다양한 AI 모델의 응답성을 비교하는 것입니다. 본 연구는 2021년 터키 의학 전문 훈련 입학 시험 1학기에 출제된 240개의 문제에 대해 ChatGPT 4, Gemini 1.5 Pro, Command R+ 및 Llama 3 70B의 성능을 비교 분석합니다.

이러한 비교는 AI 기술의 발전 궤적과 차이점을 명확히 하고, 의학교육 및 시험 준비와 같은 전문 분야에서의 유용성에 초점을 맞추는 것을 목표로 합니다. 궁극적인 목표는 사용자가 특정 요구 사항에 가장 적합한 학습 도구를 선택하는 데 도움이 되는 통찰력을 제공하는 것입니다.

방법

LLM에게 질문은 터키어로 제시되었습니다. 문제는 학생 선발 및 배치 센터의 공식 웹사이트에서 얻었으며, A에서 E까지 5개의 선택지가 있는 객관식 형태로 되어 있으며, 하나의 최적의 답이 있습니다. 답변은 LLM에서 터키어로 제공됩니다.

평가 과정은 학생 선발 및 배치 센터에서 발표한 정답을 기반으로 합니다. 기사에서는 ‘인공지능 모델의 문제에 대한 ‘정답’은 학생 선발 및 배치 센터에서 발표한 답에 따라 정의됩니다. 문제 텍스트의 설명에 따라 정답으로 확인된 답만 ‘정답’으로 인정됩니다.’라고 언급합니다. 문제와 답변이 모두 터키어이므로 평가 과정에는 LLM의 터키어 답변을 학생 선발 및 배치 센터에서 제공하는 공식 터키어 정답 키와 비교하는 작업이 포함됩니다.

의학교육 데이터 세트

본 연구에서는 ChatGPT 4, Gemini 1.5 Pro, Command R+ 및 Llama 3 70B를 사용하여 의학 지식 및 사례 평가 측면에서 인공지능 모델의 능력을 테스트합니다. 본 연구는 2021년 3월 21일에 실시된 터키 의학 전문 훈련 입학 시험 문제에 대해 진행되었습니다. 터키 의학 전문 훈련 입학 시험은 학생 선발 및 배치 센터에서 주관하는 시험으로 240개의 문제가 출제됩니다. 첫 번째 범주인 기초 지식 문제는 의학교육을 마치기 위해 필요한 지식과 윤리를 테스트합니다. 두 번째 범주는 사례 문제로 분석적 사고 및 추론 능력을 측정하는 다양한 질병을 다룹니다.

문제 난이도 분류

문제의 난이도는 학생 선발 및 배치 센터에서 발표한 공식 응시자 성적 데이터를 기반으로 분류됩니다. 구체적으로 센터에서 보고한 각 문제의 정답률을 사용하여 문제를 5가지 난이도로 분류합니다.

  • 1단계(가장 쉬움): 정답률이 80% 이상인 문제
  • 2단계: 정답률이 60%에서 79.9% 사이인 문제
  • 3단계(중간): 정답률이 40%에서 59.9% 사이인 문제
  • 4단계: 정답률이 20%에서 39.9% 사이인 문제
  • 5단계(가장 어려움): 정답률이 19.9% 이하인 문제

인공지능 모델 문제에 대한 ‘정답’은 학생 선발 및 배치 센터에서 발표한 정답에 따라 정의됩니다. 문제 텍스트의 설명에 따라 정답으로 확인된 답만 ‘정답’으로 인정됩니다. 또한 각 문제의 난이도는 학생 선발 및 배치 센터에서 발표한 정답률에 따라 1단계에서 5단계로 분류됩니다. 정답률이 80% 이상인 문제는 가장 쉬운 문제(1단계)로 간주하고, 정답률이 19.9% 이하인 문제는 가장 어려운 문제(5단계)로 간주합니다.

지식 및 사례 영역

터키 의학 전문 훈련 입학 시험은 터키 의대 졸업생이 전문화되는 데 있어 중요한 단계이며, 응시자의 지식 및 사례 영역에 대한 이해도를 평가합니다. 이러한 영역 간의 차이점을 이해하는 것이 철저한 준비에 필수적입니다. 지식 영역은 응시자가 선택한 의학 분야 내에서 이론적 이해와 사실적 지식을 평가하는 데 중점을 둡니다. 기본적인 개념과 원리에 대한 숙련도를 테스트하고 전문 분야와 관련된 의학 정보를 구축합니다. 기초 의학 과학(해부학, 생화학, 생리학 등) 및 임상 과학(내과, 외과, 소아과 등)과 같이 테스트되는 특정 의학 지식 영역을 나타냅니다. 반면 사례 영역은 문제 해결, 분석적 사고, 비판적 사고, 의사 결정 및 실제 상황에 개념 적용과 같은 지식 적용에 대한 실제 시나리오 또는 상황을 나타냅니다.

프롬프트 엔지니어링

프롬프트 엔지니어링은 언어 모델 또는 AI 시스템에서 특정 응답을 얻기 위해 자연어 프롬프트를 설계하고 미세 조정하는 것입니다. 2024년 4월에는 각 웹 인터페이스를 통해 언어 모델을 직접 쿼리하여 응답을 수집했습니다.

각 모델의 원시 능력을 공정하게 평가하기 위해 LLM에 질문을 제시하는 방식에 엄격한 방법론적 통제를 적용했습니다. 각 질문은 개별적으로 입력되었고, 모델이 이전 상호 작용을 기반으로 학습하거나 적응하는 것을 방지하기 위해 새로운 질문을 제시하기 전에 세션을 재설정했습니다.

데이터 분석

모든 분석은 Microsoft Office Excel 및 Python 소프트웨어를 사용하여 수행되었습니다. 서로 다른 문제 난이도에 대한 LLM의 성능을 비교하기 위해 쌍을 이루지 않은 카이제곱 검정을 수행했습니다. 통계적 유의성을 확인하기 위해 p < 0.05의 p-값 임계값을 사용했습니다. 이 분석은 문제 난이도에 따라 모델 정확도가 달라지는지 여부를 평가했습니다.

윤리적 고려 사항

본 연구는 인터넷에 게시된 정보만 사용하며 인간 피험자를 대상으로 하지 않습니다. 따라서 Baskent University 윤리 위원회의 승인이 필요하지 않습니다.

결과

2021년 터키 의학 전문 훈련 입학 시험 1학기 기초 의학 과학 시험에 응시한 응시자의 평균 정답 수는 51.63개였습니다. 임상 의학 과학 시험의 평균 정답 수는 63.95개였습니다. 임상 의학 과학 시험의 평균 정답 수가 기초 의학 과학 시험보다 높았습니다. 이와 병행하여 인공지능 기술은 임상 의학 과학 시험에 더 성공적으로 답변했습니다.

AI 성능

AI 플랫폼의 성능은 인간 응시자와 동일한 지표를 사용하여 평가되었습니다.

  • ChatGPT 4:

    ChatGPT 4는 기초 의학 과학 섹션에서 평균 103개의 정답을 얻었고, 임상 의학 과학 섹션에서 평균 110개의 정답을 얻었습니다. 이는 88.75%의 전체 정확도를 나타내며, 두 섹션의 평균 인간 응시자보다 현저히 우수한 성적입니다(p < 0.001).

  • Llama 3 70B:

    Llama 3 70B는 기초 의학 과학 섹션에서 평균 95개의 정답을 얻었고, 임상 의학 과학 섹션에서 평균 95개의 정답을 얻었습니다. 이는 79.17%의 전체 정확도를 나타내며, 이는 평균 인간 성능보다 현저히 높은 수준입니다(p < 0.01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro는 기초 의학 과학 섹션에서 평균 94개의 정답을 얻었고, 임상 의학 과학 섹션에서 평균 93개의 정답을 얻었습니다. 이는 78.13%의 전체 정확도를 나타내며, 이는 평균 인간 성능보다 현저히 높은 수준입니다(p < 0.01).

  • Command R+:

    Command R+는 기초 의학 과학 섹션에서 평균 60개의 정답을 얻었고, 임상 의학 과학 섹션에서 평균 60개의 정답을 얻었습니다. 이는 50%의 전체 정확도를 나타내며, 이는 기초 의학 과학 섹션의 평균 인간 성능과 통계적으로 유의미한 차이가 없지만(p = 0.12), 임상 의학 과학 섹션에서는 현저히 낮은 수준입니다(p < 0.05).

AI 플랫폼의 성능은 인간 응시자와 동일한 지표를 사용하여 평가되었습니다.

그림 3은 문제 난이도에 따른 서로 다른 LLM의 정확도를 비교합니다. - ChatGPT 4: 최고 성능을 보이는 모델입니다. 문제 난이도가 증가함에 따라 정확도가 증가하며, 가장 어려운 문제에서도 70%에 가까운 정확도를 보입니다. - Llama 3 70B: 중간 정도의 성능을 보이는 모델입니다. 문제 난이도가 증가함에 따라 정확도가 먼저 증가한 다음 감소합니다. 가장 어려운 문제에서 정확도는 약 25%입니다. Gemini 1.5 70B: Llama 3 70B와 비슷한 성능을 보입니다. 문제 난이도가 증가함에 따라 정확도가 먼저 증가한 다음 감소합니다. 가장 어려운 문제에서 정확도는 약 20%입니다. Command R+: 최저 성능을 보이는 모델입니다. 문제 난이도가 증가함에 따라 정확도가 감소하며, 가장 어려운 문제에서 약 15% 수준을 유지합니다.

요약하면 ChatGPT 4는 문제 난이도에 가장 영향을 받지 않는 모델이며 전체 정확도가 가장 높습니다. Llama 3 70B와 Gemini 1.5 Pro는 중간 정도의 성능을 보이고, Command R+는 다른 모델보다 성공률이 낮습니다. 문제 난이도가 증가함에 따라 모델의 정확도가 감소합니다. 이는 LLM이 복잡한 문제를 이해하고 올바르게 답변하는 데 여전히 개선이 필요함을 시사합니다.

표 1에서 ChatGPT 4 모델은 88.75%의 성공률로 뛰어난 성능을 보이며, 문제를 이해하고 정확하게 답변하는 데 뛰어난 능력을 보여줍니다. Llama 3 70B 모델은 79.17%의 성공률로 2위를 차지합니다. ChatGPT 4 모델에는 미치지 못하지만, 여전히 높은 수준의 문제 답변 능력을 보여줍니다. Gemini 1.5 Pro 모델은 78.13%의 성공률로 그 뒤를 바짝 쫓고 있습니다. 성능은 Llama 3 70B 모델과 비슷하며, 강력한 문제 답변 능력을 보여줍니다. 반면 Command R+ 모델은 50%의 성공률로 다른 모델보다 뒤쳐집니다. 이는 특정 문제에 어려움을 겪거나 성능을 향상시키기 위해 추가적인 미세 조정이 필요할 수 있음을 시사합니다. 서로 다른 난이도에서 정답이 분포되어 있습니다. 예를 들어, 모든 모델은 쉬운 문제(난이도 1)에서 좋은 성능을 보이며, ChatGPT 4 모델은 완벽한 점수를 기록했습니다. 중간 난이도 문제(2단계 및 3단계)에서 ChatGPT 4 및 Llama 3 70B 모델은 계속해서 좋은 성능을 보입니다.

대조적으로 Gemini 1.5 Pro 모델은 약간의 약점을 보이기 시작합니다. 어려운 문제(4단계 및 5단계)에서 모든 모델의 성능이 저하되고, Command R+ 모델은 가장 어려움을 겪습니다. 전반적으로 이러한 결과는 각 AI 모델의 강점과 약점에 대한 귀중한 통찰력을 제공하고, 향후 개발 및 개선 작업에 정보를 제공할 수 있습니다.

표 3에서 기초 의학 과학의 생화학은 ChatGPT 4에서 완벽한 점수를 받아 해당 분야에서 질문에 답변하는 탁월한 능력을 입증했습니다. Llama 3 70B와 Gemini 1.5 Pro도 좋은 성적을 거두었지만, Command R+는 50%의 정확도로 성능이 좋지 않았습니다. 약리학, 병리학 및 미생물학에서 가장 우수한 성능을 보인 모델(ChatGPT 4 및 Llama 3 70B)은 강력한 정보 일관성을 보여주며, 정확도는 81%에서 90% 사이였습니다. Gemini 1.5 Pro와 Command R+는 뒤쳐졌지만 여전히 좋은 성적을 거두었습니다. 해부학과 생리학은 모델에 몇 가지 어려움을 안겨주었습니다. ChatGPT 4와 Meta AI-Llama 3 70B는 좋은 성적을 거두었지만, Gemini 1.5 Pro와 Command R+의 정확도는 70% 미만으로 성능이 좋지 않았습니다.

임상 의학 과학의 소아과는 모든 모델에 중요하며, ChatGPT 4는 거의 완벽한 점수(90%)를 기록했습니다. Llama 3 70B가 바짝 뒤따르고 있으며, Command R+도 43%의 정확도를 달성했습니다. 내과와 일반 외과의 성능은 최고 모델보다 우수하며, 정확도는 79%에서 90% 사이입니다. Gemini 1.5 Pro와 Command R+는 뒤쳐졌지만 여전히 좋은 성적을 거두었습니다. 마취 및 소생술, 응급 의학, 신경학 및 피부과와 같은 전문 분야에서 제출된 질문은 적었지만, 모델은 전반적으로 좋은 성적을 거두었습니다. ChatGPT 4와 Llama 3 70B는 이러한 분야에서 뛰어난 정확성을 보여주었습니다.

모델 비교에 관한 한, ChatGPT 4는 대부분의 분야에서 가장 우수한 성능을 보이는 모델이며, 전체 정확도는 88.75%입니다. 기초 의학 및 임상 의학 과학 질문에 정확하게 답변할 수 있다는 장점이 있습니다. Llama 3 70B는 전체 정확도 79.17%로 그 뒤를 바짝 쫓고 있습니다. ChatGPT 4의 성능에 완전히 미치지 못하지만, 다양한 분야에서 강력한 지식 일관성을 보여줍니다. Gemini 1.5 Pro와 Command R+는 각각 78.13%와 50%의 전체 정확도로 뒤쳐집니다. 특정 분야에서 희망을 보였지만, 모든 분야에서 일관성을 유지하는 데 어려움을 겪습니다.

간단히 말해서, ChatGPT 4는 현재 다양한 분야의 의학 과학 질문에 답변하는 데 가장 적합한 모델입니다. Gemini 1.5 Pro와 Command R+는 잠재력을 보여주지만, 최고 성능을 보이는 모델과 경쟁하려면 상당한 개선이 필요합니다.

표 4에서 지식 영역에 관해 ChatGPT 4는 기초 의학 과학 분야에서 86.7%(85/98)의 정확도를 보여 다른 모델보다 뛰어났습니다. ChatGPT 4는 임상 의학 과학 분야에서도 89.7%(61/68)의 정확도로 다시 한번 최고의 성능을 보였습니다. 사례 영역에 관해 ChatGPT 4는 기초 의학 과학 분야에서 81.8%(18/22)의 정확도를 보였습니다. 임상 의학 과학 분야에서 ChatGPT 4는 94.2%(49/52)의 정확도로 비슷한 성능을 보였습니다.

모델의 쌍별 비교에 따르면 ChatGPT 4는 두 영역과 문제 유형 모두에서 다른 모델보다 현저히 뛰어났습니다. Llama 3 70B와 Gemini 1.5 Pro는 비슷한 성능을 보였고, Command R+는 뒤쳐졌습니다. 이 분석에 따르면 ChatGPT 4는 지식 및 사례 영역과 기초 의학 과학 및 임상 의학 과학 분야 모두에서 뛰어난 성능을 보인다고 결론 내릴 수 있습니다.

통계 분석

LLM의 성능은 Microsoft Office Excel 및 Python(버전 3.10.2)을 사용하여 분석했습니다. 서로 다른 문제 난이도 수준에서 모델의 성능을 비교하기 위해 쌍을 이루지 않은 카이제곱 검정을 수행했습니다. 각 AI 모델의 정답 및 오답에 대해 난이도별로 분할표를 작성하고, 카이제곱 검정을 적용하여 난이도에 따른 성능에 통계적으로 유의미한 차이가 있는지 확인했습니다. 통계적 유의성을 확인하기 위해 <0.05의 p-값 임계값을 사용했습니다. ChatGPT 4의 p-값은 0.00028이고, p < 0.05에서 유의미하므로 난이도에 따른 성능에 유의미한 차이가 있음을 나타냅니다. Gemini 1.5 Pro의 p-값은 0.047이고, p < 0.05에서 유의미하므로 난이도에 따른 성능에 유의미한 차이가 있음을 나타냅니다. Command R+의 p-값은 0.197이고, p < 0.05에서 유의미하지 않으므로 난이도에 따른 성능에 유의미한 차이가 없음을 나타냅니다. Llama 3 70B의 p-값은 0.118이고, p < 0.05에서 유의미하지 않으므로 난이도에 따른 성능에 유의미한 차이가 없음을 나타냅니다.

ChatGPT 4와 Gemini 1.5 Pro의 서로 다른 문제 난이도에서의 정확성은 통계적으로 유의미한 차이를 보이며, 이는 문제 난이도에 따라 성능이 크게 달라짐을 나타냅니다. Command R+와 Llama 3 70B는 난이도에 따른 성능 차이가 크지 않아 문제 난이도에 관계없이 성능이 더욱 일관된 것으로 나타났습니다. 이러한 결과는 서로 다른 모델이 서로 다른 난이도와 관련된 복잡성과 주제를 처리하는 데 서로 다른 강점과 약점을 가지고 있음을 시사할 수 있습니다.

논의

TUS는 터키 의대 졸업생이 전문 훈련을 받기 위한 중요한 국가 시험입니다. 이 시험은 기초 과학과 임상 과학을 다루는 객관식 문제로 구성되어 있으며, 전문 과정 순위를 결정하는 데 사용되는 중앙 집중식 순위 시스템을 갖추고 있습니다.

TUS에서 거대 언어 모델의 성능을 평가할 때 GPT-4가 가장 우수한 성능을 보였습니다. 마찬가지로 ChatGPT는 강력한 AI 모델로 외과 분야에서 인간 수준에 가깝거나 능가하는 성능을 보였으며, 객관식 SCORE 및 Data-B 문제에 각각 71%와 68%의 정답률을 보였습니다. 또한 ChatGPT는 공중 보건 시험에서 뛰어난 성적을 거두어 현재 합격률을 능가하고 독특한 통찰력을 제공했습니다. 이러한 발견은 GPT-4와 ChatGPT가 의학 평가에서 뛰어난 성능을 보여 의학교육을 강화하고 잠재적 진단 보조 도구로서의 잠재력을 보여준다는 점을 강조합니다.

의학교육자 및 시험 감독관에게 LLM의 정확도가 높아짐에 따라 시험 설계 및 평가에 대한 중요한 질문이 제기됩니다. AI 모델이 표준화된 의학 시험을 높은 정확도로 해결할 수 있다면 향후 평가는 단순 암기 이상의 고차원 추론 및 임상 판단 문제를 포함해야 할 수 있습니다. 또한 터키 의학 기관은 학생의 개별 요구에 따라 학습 자료를 맞춤화하는 적응형 학습 시스템과 같은 AI 지원 교육 전략을 모색할 수 있습니다.

국가적 관점에서 볼 때 본 연구는 터키 의학교육에서 AI의 중요성이 점점 더 커지고 있음을 강조합니다. 이러한 LLM은 터키어 의학 문제에서 좋은 성적을 보이기 때문에 서비스가 부족한 지역의 학생들이 고품질 교육 자료에 접근하는 데 격차를 해소할 수 있습니다. 또한 정책 입안자는 AI 모델을 터키 의료 전문가의 평생 교육 및 평생 학습 프로그램에 통합하는 방법을 고려해야 합니다.

결론적으로 ChatGPT-4와 같은 AI 모델은 놀라운 정확성을 보여주지만, 의학교육에서 그 역할을 신중하게 평가해야 합니다. AI 지원 학습의 잠재적 이점은 엄청나지만, 올바른 구현을 위해서는 이러한 도구를 책임감 있고 윤리적인 방식으로 사용하고 인간의 전문 지식과 결합하여 사용해야 합니다.

한계점

본 연구는 터키 의학 전문 훈련 입학 시험(TUS)에서 거대 언어 모델(LLM)의 성능에 대한 귀중한 통찰력을 제공하지만, 연구 결과를 맥락적으로 이해하고 향후 연구를 지도하기 위해 몇 가지 중요한 한계점을 인정해야 합니다. 첫째, 본 연구에서 평가한 AI 모델의 훈련 데이터에 TUS 문제가 포함되어 있는지 여부는 확실하지 않습니다. 과거 TUS 문제는 공개적으로 이용 가능하기 때문에 본 연구에서 사용한 문제가 모델 훈련 데이터의 일부일 수 있습니다. 이로 인해 모델의 성능이 진정한 이해를 반영하는지 아니면 특정 문제를 암기하는 능력만 반영하는지에 대한 우려가 제기됩니다. 향후 연구에서는 AI 모델이 진정한 추론 능력을 보이는지 아니면 암기된 정보에 의존하는지 평가하는 방법을 개발해야 합니다.

둘째, AI 모델은 훈련 데이터에서 비롯된 편향을 나타낼 가능성이 있습니다. 이러한 편향은 훈련 데이터에서 특정 의학적 조건, 인구 또는 관점의 대표성이 불균형한 데서 비롯될 수 있습니다. 예를 들어, 각 언어로 제공되는 훈련 데이터의 양과 질에 차이가 있기 때문에 모델의 터키어 성능은 영어와 다를 수 있습니다. 또한 이러한 모델은 터키의 현지 의료 관행이나 문화적 배경에 대한 이해가 필요한 질문에 답변할 때 정확도가 떨어질 수 있습니다. 이러한 편향은 연구 결과의 일반성을 제한하고 의학교육 및 실습에서 AI를 사용하는 데 대한 윤리적 우려를 야기할 수 있습니다.

세 번째 한계점은 본 연구가 객관식 문제에만 초점을 맞추고 있다는 것입니다. 실제 임상 실습에서 의료 전문가는 복잡한 사례를 추론하고, 모호한 발견을 해석하고, 불확실성 속에서 의사 결정을 내리는 기술을 갖추어야 합니다. 또한 환자와 동료에게 명확하고 공감적인 방식으로 진단, 치료 옵션 및 위험을 전달하는 능력은 매우 중요합니다. AI 모델이 이러한 작업을 수행하는 능력은 아직 테스트되지 않았으며, 현재 설계 및 교육에 의해 제한될 수 있습니다. 향후 연구에서는 임상 사례 시뮬레이션 및 개방형 평가와 같은 보다 현실적인 상황에서 AI 모델을 평가해야 합니다.

넷째, 본 연구에는 개방형 문제가 포함되지 않았습니다. 개방형 문제는 비판적 사고, 정보 종합 및 임상 추론과 같은 고차원적 인지 기술을 평가하는 데 매우 중요합니다. 이러한 유형의 문제에는 목록에서 올바른 옵션을 선택하는 대신 일관되고 상황에 맞는 응답을 생성하는 능력이 필요합니다. AI 모델이 이러한 작업에서 보이는 성능은 객관식 문제에서 보이는 성능과 크게 다를 수 있으며, 이는 향후 연구에서 중요한 영역입니다.

다섯 번째 한계점은 AI 모델이 시간 압박 하에서 테스트되지 않았다는 것입니다. 인간 응시자는 시험 동안 엄격한 시간 제한을 받으며, 이는 성적에 영향을 미칠 수 있습니다. 반대로 본 연구에서 AI 모델은 시간 압박을 받지 않아 시간 환경의 압박 없이