심혈관 질환 예방 탐색: 언어 모델 성능 비교 분석
대규모 언어 모델 (LLM)의 부상은 심혈관 질환 (CVD) 예방에 대한 대중의 문의를 해결할 수 있는 흥미로운 가능성을 제시합니다. 인간과 유사한 방식으로 이해하고 응답할 수 있는 능력을 갖춘 이러한 모델은 의료 정보의 출처로 점점 더 많이 사용되고 있습니다. 그러나 특히 서로 다른 언어에서 제공하는 정보의 신뢰성과 정확성에 대한 의문이 남아 있습니다. 이 분석은 영어와 중국어 모두에서 CVD 예방 쿼리를 해결하는 기능을 구체적으로 조사하여 몇 가지 주요 LLM에 대한 포괄적인 평가를 자세히 살펴봅니다.
LLM 성능 평가: 정확성 및 일관성
주요 목표는 CVD 예방과 관련된 질문이 제시되었을 때 주요 LLM에서 제공하는 응답의 정확성을 평가하는 것이었습니다. BARD (Google의 언어 모델), ChatGPT-3.5 및 ChatGPT-4.0 (OpenAI의 모델) 및 ERNIE (Baidu의 모델)에 중점을 두었습니다. 75개의 세심하게 작성된 CVD 예방 질문 세트가 각 LLM에 제기되었으며, 응답은 적절성 (적절, 경계 또는 부적절로 분류)을 기준으로 평가되었습니다.
영어 성능
영어에서 LLM은 주목할만한 정확성을 보였습니다. BARD는 88.0%의 "적절" 등급을 달성했고, ChatGPT-3.5는 92.0%를 기록했으며, ChatGPT-4.0은 97.3%의 등급으로 뛰어났습니다. 이러한 결과는 LLM이 CVD 예방에 대한 지침을 찾는 영어 사용자에게 유용한 정보를 제공할 수 있음을 시사합니다.
중국어 성능
분석은 LLM의 성능이 다양한 중국어 쿼리로 확장되었습니다. ERNIE는 84.0%의 "적절" 등급을 달성했고, ChatGPT-3.5는 88.0%를 기록했으며, ChatGPT-4.0은 85.3%에 도달했습니다. 결과는 일반적으로 긍정적이었지만 영어에 비해 성능이 약간 저하되어 이러한 모델에 잠재적인 언어적 편향이 있음을 시사합니다.
시간적 개선 및 자기 인식
초기 정확성 외에도 시간이 지남에 따라 응답을 개선하는 LLM의 능력과 정확성에 대한 자각을 조사했습니다. 여기에는 처음에 제공된 최적이 아닌 답변에 모델이 어떻게 응답했는지, 프롬프트가 표시되었을 때 오류를 식별하고 수정할 수 있는지 평가하는 것이 포함되었습니다.
시간 경과에 따른 향상된 응답
분석 결과 LLM이 시간적 개선을 보여준다는 사실이 밝혀졌습니다. 처음에 최적이 아닌 응답이 제시되었을 때 BARD와 ChatGPT-3.5는 각각 67% (6/9 및 4/6) 향상되었으며, ChatGPT-4.0은 완벽한 100% 개선율 (2/2)을 달성했습니다. 이는 LLM이 사용자 상호 작용과 피드백을 통해 학습하여 시간이 지남에 따라 더 정확하고 신뢰할 수 있는 정보를 얻을 수 있음을 시사합니다.
정확성 자기 인식
응답의 정확성을 인식하는 LLM의 능력도 조사했습니다. BARD와 ChatGPT-4.0은 이 영역에서 ChatGPT-3.5보다 성능이 뛰어나 제공된 정보의 정확성에 대한 자기 인식이 더 뛰어났습니다. 이 기능은 잘못된 정보가 심각한 결과를 초래할 수 있는 의료 환경에서 특히 중요합니다.
중국어에서 ERNIE의 성능
중국어 프롬프트 분석 결과 ERNIE는 시간적 개선과 정확성 자기 인식에 탁월했습니다. 이는 ERNIE가 CVD 예방 지침을 찾는 중국어 사용자에게 정확하고 신뢰할 수 있는 정보를 제공하는 데 적합함을 시사합니다.
LLM 챗봇에 대한 포괄적인 평가
일반적이고 인기 있는 LLM 챗봇을 포함하는 포괄적인 평가를 보장하기 위해 이 연구에는 OpenAI의 ChatGPT-3.5와 ChatGPT-4.0, Google의 BARD, Baidu의 ERNIE와 같은 네 가지 주요 모델이 포함되었습니다. 영어 프롬프트에 대한 평가는 ChatGPT 3.5, ChatGPT 4 및 BARD를 포함했습니다. 중국어 프롬프트의 경우, 평가는 ChatGPT 3.5, ChatGPT 4 및 ERNIE를 포함했습니다. 모델은 분석 중에 이러한 매개변수를 조정하지 않고 기본 구성 및 온도 설정으로 사용되었습니다.
질문 생성 및 챗봇 응답 평가
American College of Cardiology와 American Heart Association은 위험 요소, 진단 검사 및 치료 옵션에 대한 정보는 물론 환자 교육 및 자가 관리 전략을 포괄하는 CVD 예방에 대한 지침 및 권장 사항을 제공합니다. 두 명의 경험이 풍부한 심장 전문의가 CVD 예방과 관련된 질문을 생성하여 환자가 의사에게 문의하는 방식과 유사하게 프레임하여 환자의 관점에서 관련성과 이해도를 보장했습니다. 이 환자 중심적이고 지침 기반 접근 방식은 다양한 영역을 다루는 최종 300개의 질문 세트를 산출했습니다. 그런 다음 이러한 질문은 중국어로 번역되어 기존 및 국제 단위의 적절한 사용을 보장했습니다.
블라인딩 및 무작위 순서 평가
평가자가 다른 LLM 챗봇 간의 응답 출처를 구별할 수 없도록 챗봇별 기능이 수동으로 숨겨졌습니다. 평가는 블라인드 방식으로 무작위로 수행되었으며, 세 개의 챗봇의 응답이 질문 세트 내에서 무작위로 섞였습니다. 세 개의 챗봇의 응답은 최근 편향을 완화하기 위해 48시간의 워시아웃 간격으로 세 명의 심장 전문의가 블라인드 평가를 위해 1:1:1 비율로 3라운드에 무작위로 할당되었습니다.
정확성 평가 방법론
주요 결과는 1차 CVD 예방 질문에 응답하는 성능이었습니다. 특히, 응답을 평가하기 위해 2단계 접근 방식이 사용되었습니다. 첫 번째 단계에서 심장 전문의 패널이 모든 LLM 챗봇 생성 응답을 검토하고 전문가 합의 및 지침과 관련하여 "적절", "경계" 또는 "부적절"로 등급을 매겼습니다. 두 번째 단계에서는 다수 합의 접근 방식이 활용되었으며, 각 챗봇 응답에 대한 최종 등급은 세 명의 평가자 사이에서 가장 일반적인 등급을 기준으로 했습니다. 세 명의 평가자 간에 다수 합의를 얻을 수 없는 시나리오에서는 선임 심장 전문의에게 문의하여 등급을 결정했습니다.
주요 결과 분석
데이터에 따르면 LLM 챗봇은 중국어 프롬프트보다 영어 프롬프트에서 일반적으로 더 나은 성능을 보였습니다. 특히 영어 프롬프트의 경우 BARD, ChatGPT-3.5 및 ChatGPT-4.0이 유사한 합계 점수를 보였습니다. ‘적절’ 등급의 비율을 비교할 때 ChatGPT-4.0은 ChatGPT-3.5 및 Google Bard에 비해 현저히 높은 비율을 보였습니다. 중국어 프롬프트의 경우 ChatGPT3.5가 더 높은 합계 점수를 보였고, 그 다음이 ChatGPT-4.0과 Ernie였습니다. 그러나 그 차이는 통계적으로 유의미하지 않았습니다. 마찬가지로 ChatGPT-3.5는 ChatGPT-4.0 및 ERNIE에 비해 중국어 프롬프트에 대해 더 높은 비율의 ‘적절한 등급’을 보였지만 그 차이는 통계적으로 유의미하지 않았습니다.
CVD 예방 영역 전반의 성능
분석은 다양한 CVD 예방 영역에서 "적절한" 등급에 중점을 두었습니다. 놀랍게도 ChatGPT-4.0은 대부분의 영역에서 일관되게 우수한 성능을 보였으며 특히 "이상지질혈증", "생활 방식", "바이오마커 및 염증"및 "DM 및 CKD" 영역에서 높은 등급을 받았습니다. 그러나 BARD는 특히 "생활 방식" 영역에서 ChatGPT4.0 및 ChatGPT-3.5에 비해 최적이 아닌 성능을 보였습니다. 이 결과는 세 개의 LLM 챗봇 모두 "생활 방식" 영역에서 우수한 성능을 보였으며 100% "적절한" 등급을 받았습니다 (보충 표 S6). 그러나 다른 영역에서는 성능 변동이 관찰되었으며 일부 모델은 특정 예방 영역에서 더 큰 효능을 보였습니다.
건강 문해력에 미치는 영향
이 연구의 결과는 심혈관 건강 문해력을 향상시키기 위한 노력에 중요한 영향을 미칩니다. 개인이 의료 정보를 위해 온라인 리소스를 점점 더 많이 참조함에 따라 LLM은 CVD 예방에 대한 이해를 높이는 데 유용한 도구 역할을 할 수 있습니다. 정확하고 액세스 가능한 정보를 제공함으로써 LLM은 지식 격차를 해소하고 개인이 건강에 대한 정보에 입각한 결정을 내릴 수 있도록 지원할 수 있습니다.
성능 격차
이 연구는 또한 서로 다른 언어에서 LLM 성능에 상당한 격차가 있음을 밝혔습니다. LLM이 중국어 프롬프트보다 영어 프롬프트에서 일반적으로 더 나은 성능을 보인다는 사실은 이러한 모델에 언어적 편향이 있을 가능성을 강조합니다. 이 문제를 해결하는 것은 LLM이 모국어에 관계없이 모든 개인에게 정확한 의료 정보에 대한 공평한 액세스를 제공하는 데 매우 중요합니다.
언어별 모델의 역할
중국어에서 ERNIE의 성능 분석은 언어별 LLM의 역할에 대한 귀중한 통찰력을 제공합니다. 시간적 개선과 정확성 자기 인식에서 ERNIE의 강점은 특정 언어에 맞게 조정된 모델이 언어적 뉘앙스와 문화적 맥락을 효과적으로 처리할 수 있음을 시사합니다. 다양한 인구에 의료 정보 전달을 최적화하려면 언어별 LLM을 추가로 개발하고 개선하는 것이 필수적일 수 있습니다.
제한 사항 및 향후 방향
이 연구는 CVD 예방 쿼리를 해결하는 LLM의 기능에 대한 귀중한 통찰력을 제공하지만 특정 제한 사항을 인정하는 것이 필수적입니다. 사용된 질문은 CVD 예방 측면에서 질문의 작은 부분을 나타냅니다. 결과의 일반화 가능성은 확률론적 응답의 영향에 따라 달라집니다. 또한 LLM의 빠른 진화는 업데이트된 반복과 새로운 모델을 수용하기 위해 지속적인 연구가 필요합니다. 향후 연구에서는 질문의 범위를 확장하고, LLM과의 다양한 상호 작용 패턴이 미치는 영향을 조사하고, 의료 환경에서 LLM 사용과 관련된 윤리적 고려 사항을 조사해야 합니다.
결론
결론적으로, 이러한 결과는 심혈관 건강에 대한 대중의 이해를 높이기 위한 도구로서 LLM의 가능성을 강조하는 동시에 정확성, 공정성 및 의료 정보의 책임 있는 보급을 보장하기 위한 신중한 평가와 지속적인 개선의 필요성을 강조합니다. 앞으로 나아갈 길은 지속적인 비교 평가, 언어적 편향 해결, 언어별 모델의 강점을 활용하여 정확하고 신뢰할 수 있는 CVD 예방 지침에 대한 공평한 액세스를 촉진하는 것입니다.