오픈소스 AI, 의료 진단 분야 독점 모델과 대등

인공지능의 끊임없는 발전은 산업을 계속해서 재편하고 있으며, 아마도 의학 분야만큼 그 중요성이 크고 잠재력이 심오한 곳은 없을 것입니다. 수년 동안 인간과 유사한 텍스트를 처리하고 생성할 수 있는 가장 강력한 AI 모델, 특히 대규모 언어 모델(LLM)은 주로 거대 기술 기업의 보호벽 뒤에 존재해 왔습니다. 널리 논의되는 OpenAI의 GPT-4와 같은 이러한 독점 시스템은 놀라운 능력을 보여주었으며, 심지어 복잡한 의료 진단 영역까지 확장되었습니다. 그러나 그들의 ‘블랙박스’ 특성과 민감한 정보를 외부 서버로 전송해야 하는 필요성은 환자 프라이버시가 선호 사항이 아닌 필수 요건인 의료 환경 내에서 광범위하고 안전한 채택에 상당한 장애물이 되었습니다. 중요한 질문이 남아 있었습니다. 급성장하는 오픈소스 AI 세계가 통제와 기밀성을 손상시키지 않으면서 비슷한 성능을 제공하며 도전에 응할 수 있을까?

유서 깊은 Harvard Medical School (HMS)에서 나온 최근 연구 결과는 그 답이 확실한 ‘예’임을 시사하며, 임상 환경 내 AI 적용의 잠재적 변곡점을 나타냅니다. 연구원들은 선도적인 오픈소스 모델과 그에 상응하는 유명 독점 모델을 꼼꼼하게 비교하여, 최첨단 진단 보조 도구에 대한 접근성을 민주화할 수 있는 결과를 발견했습니다.

새로운 경쟁자의 진단 분야 진입

의료계와 기술계 모두의 주목을 받은 한 연구에서, HMS 연구원들은 오픈소스 Llama 3.1 405B 모델을 강력한 GPT-4와 대결시켰습니다. 테스트 장소는 신중하게 선별된 70개의 어려운 의료 사례 연구 세트였습니다. 이것들은 일상적인 시나리오가 아니었습니다. 임상 실습에서 자주 접하는 복잡한 진단 퍼즐을 나타냈습니다. 목표는 명확했습니다. 각 AI 모델의 진단 능력을 정면으로 평가하는 것이었습니다.

최근 발표된 결과는 놀라웠습니다. 사용자가 자유롭게 다운로드하고, 검사하고, 수정할 수 있는 Llama 3.1 405B 모델은 GPT-4와 동등하거나 일부 지표에서는 심지어 능가하는 진단 정확도를 보여주었습니다. 구체적으로, 각 모델이 제공한 초기 진단 제안의 정확성을 평가했을 때 Llama 3.1 405B가 우위를 점했습니다. 또한, 사례 세부 정보를 처리한 후 제안된 최종 진단을 고려했을 때도 이 오픈소스 경쟁자는 기존 벤치마크에 맞서 그 실력을 다시 한번 입증했습니다.

이 성과는 단순히 성능 자체 때문만이 아니라 그것이 상징하는 바 때문에 중요합니다. 처음으로, 쉽게 접근 가능하고 투명한 오픈소스 도구가 사례 연구를 기반으로 한 까다로운 의료 진단 작업에서 선도적인 폐쇄형 소스 시스템과 동일한 높은 수준으로 작동할 수 있음이 입증되었습니다. 연구를 감독한 HMS 교수 Arjun K. Manrai ’08은 특히 역사적 맥락을 고려할 때 성능의 동등성을 ‘상당히 주목할 만하다’고 설명했습니다.

오픈소스의 이점: 데이터 프라이버시와 맞춤 설정의 잠금 해제

Harvard 연구에서 강조된 진정한 게임 체인저는 오픈소스 모델과 독점 모델 간의 근본적인 차이, 즉 접근성과 통제에 있습니다. GPT-4와 같은 독점 모델은 일반적으로 사용자가 처리를 위해 공급자의 서버로 데이터를 전송해야 합니다. 의료 분야에서는 이것이 즉시 위험 신호를 발생시킵니다. 증상, 병력, 검사 결과와 같은 환자 정보는 상상할 수 있는 가장 민감한 데이터 중 하나이며, 미국에서는 HIPAA와 같은 엄격한 규정에 의해 보호됩니다. 고급 AI 분석의 잠재적 이점을 위해서라도 이 데이터를 병원의 보안 네트워크 외부로 전송하는 것은 주요 장애물이었습니다.

Llama 3.1 405B와 같은 오픈소스 모델은 이러한 역학을 근본적으로 바꿉니다. 모델의 코드와 매개변수가 공개적으로 사용 가능하기 때문에 기관은 이를 자체 보안 인프라 내에 다운로드하고 배포할 수 있습니다.

  • 데이터 주권: 병원은 AI를 전적으로 자체 로컬 서버나 프라이빗 클라우드에서 실행할 수 있습니다. 환자 데이터는 기관의 보호된 환경을 벗어날 필요가 없으므로 외부 데이터 전송과 관련된 프라이버시 우려를 효과적으로 제거합니다. 이 개념은 종종 ‘데이터를 모델로 보내는’ 것이 아니라 ‘모델을 데이터로 가져오는’ 것으로 지칭됩니다.
  • 향상된 보안: 프로세스를 내부에서 유지하면 타사 AI 공급자와 관련된 잠재적 데이터 유출에 대한 공격 표면이 크게 줄어듭니다. 운영 환경에 대한 통제는 전적으로 의료 기관에 있습니다.
  • 투명성 및 감사 가능성: 오픈소스 모델을 통해 연구원과 임상의는 불투명한 독점 시스템보다 모델의 아키텍처를 잠재적으로 검사하고 어느 정도 의사 결정 과정을 더 잘 이해할 수 있습니다. 이러한 투명성은 더 큰 신뢰를 조성하고 디버깅 또는 개선을 용이하게 할 수 있습니다.

Harvard의 AI 의학 프로그램 박사 과정 학생이자 이 연구의 제1 저자인 Thomas A. Buckley는 이 중요한 이점을 강조했습니다. 그는 ‘오픈소스 모델은 병원 자체 네트워크에 배포될 수 있기 때문에 새로운 과학 연구의 잠금을 해제한다’고 말했습니다. 이 능력은 이론적 잠재력을 넘어 실용적이고 안전한 적용의 문을 엽니다.

또한, 오픈소스의 특성은 전례 없는 수준의 맞춤 설정을 가능하게 합니다. 병원과 연구 그룹은 이제 자체 특정 환자 데이터를 사용하여 이러한 강력한 기본 모델을 미세 조정할 수 있습니다.

  • 인구 집단별 튜닝: 모델은 병원 시스템이 서비스하는 특정 지역 또는 지역 인구의 인구 통계, 유행하는 질병 및 고유한 건강 문제를 더 잘 반영하도록 조정될 수 있습니다.
  • 프로토콜 정렬: AI 동작은 병원의 특정 진단 경로, 치료 프로토콜 또는 보고 표준에 맞게 조정될 수 있습니다.
  • 특수 응용 프로그램: 연구원들은 방사선 영상 분석 해석 지원, 병리 보고서 스크리닝 또는 희귀 질환 패턴 식별과 같은 특정 의료 영역에 맞게 고도로 전문화된 버전의 모델을 개발할 수 있습니다.

Buckley는 이 함의에 대해 자세히 설명했습니다. ‘연구원들은 이제 최첨단 임상 AI를 환자 데이터와 직접 사용할 수 있습니다… 병원은 환자 데이터를 사용하여 맞춤형 모델을 개발할 수 있습니다(예: 자체 환자 인구 집단에 맞추기 위해).’ 안전하게 내부에서 개발된 맞춤형 AI 도구에 대한 이러한 잠재력은 상당한 도약을 의미합니다.

맥락: 복잡한 사례에서 AI의 충격파

Harvard 팀의 Llama 3.1 405B에 대한 조사는 진공 상태에서 수행되지 않았습니다. 이는 부분적으로 이전 연구, 특히 주목할 만한 2023년 논문에 의해 생성된 파장에 의해 영감을 받았습니다. 그 연구는 권위 있는 New England Journal of Medicine (NEJM)에 발표된 가장 난해한 임상 사례 중 일부를 해결하는 데 있어 GPT 모델의 놀라운 숙련도를 보여주었습니다. 이러한 NEJM ‘Case Records of the Massachusetts General Hospital’은 의료계에서 전설적입니다. 복잡하고 종종 당혹스러운 사례로, 노련한 임상의에게도 도전이 됩니다.

‘이 논문은 엄청난 주목을 받았고 기본적으로 이 대규모 언어 모델인 ChatGPT가 어떻게든 이러한 믿을 수 없을 정도로 어려운 임상 사례를 해결할 수 있다는 것을 보여주었으며, 이는 사람들을 다소 충격에 빠뜨렸습니다’라고 Buckley는 회상했습니다. 본질적으로 방대한 양의 텍스트로 훈련된 복잡한 패턴 매칭 기계인 AI가 종종 깊은 임상적 직관과 경험을 요구하는 진단 미스터리를 풀 수 있다는 생각은 매혹적이면서도 일부에게는 불안한 것이었습니다.

‘이 사례들은 악명 높게 어렵습니다’라고 Buckley는 덧붙였습니다. ‘Mass General Hospital에서 볼 수 있는 가장 어려운 사례 중 일부이므로 의사들에게는 두려운 존재이며, AI 모델이 같은 일을 할 수 있다는 것은 똑같이 두렵습니다.’ 이 이전의 시연은 의학 분야에서 LLM의 원초적인 잠재력을 강조했지만, 독점 시스템에 내재된 프라이버시 및 통제 문제를 해결해야 할 시급성을 증폭시켰습니다. AI가 이 정도로 유능해지고 있다면, 실제 환자 데이터와 함께 안전하고 윤리적으로 사용될 수 있도록 보장하는 것이 무엇보다 중요해졌습니다.

Meta의 Llama 3.1 405B 모델 출시는 잠재적인 전환점을 나타냈습니다. 모델의 엄청난 규모(‘405B’로 표시되며, 예측을 위해 훈련 중에 모델이 조정하는 변수인 4,050억 개의 매개변수를 의미함)는 오픈소스 커뮤니티 내에서 새로운 수준의 정교함을 시사했습니다. 이 거대한 규모는 GPT-4와 같은 최고 수준의 독점 모델 성능에 필적하는 데 필요한 복잡성을 가질 수 있음을 시사했습니다. ‘오픈소스 모델에서 정말 다른 일이 일어나고 있을지도 모른다고 생각한 것은 처음이었습니다’라고 Buckley는 Llama 3.1 405B를 의료 영역에서 테스트하게 된 동기를 설명하며 언급했습니다.

미래 설계: 연구 및 실제 통합

고성능 오픈소스 모델이 민감한 의료 작업에 실행 가능하다는 확인은 심오한 의미를 갖습니다. Manrai 교수가 강조했듯이, 이 연구는 ‘많은 새로운 연구와 임상 시험의 잠금을 해제하고 열어줍니다.’ 외부 데이터 공유의 윤리적 및 물류적 장애물 없이 보안 병원 네트워크 내에서 환자 데이터와 직접 작업할 수 있는 능력은 임상 AI 연구의 주요 병목 현상을 제거합니다.

가능성을 상상해 보십시오:

  • 실시간 의사 결정 지원: Electronic Health Record (EHR) 시스템에 직접 통합된 AI 도구가 실시간으로 들어오는 환자 데이터를 분석하여 잠재적 진단을 제안하고, 중요한 검사 값을 표시하거나, 잠재적인 약물 상호 작용을 식별하며, 이 모든 과정에서 데이터는 병원 시스템 내에 안전하게 유지됩니다.
  • 가속화된 연구 주기: 연구원들은 대규모 로컬 데이터 세트를 사용하여 AI 가설을 신속하게 테스트하고 개선하여 새로운 진단 마커 또는 치료 효능의 발견 속도를 잠재적으로 높일 수 있습니다.
  • 고도로 전문화된 도구 개발: 팀은 매우 관련성 높은 내부 데이터로 훈련된 틈새 의료 전문 분야 또는 특정 복잡한 절차를 위한 AI 보조 도구 구축에 집중할 수 있습니다.

Manrai가 간결하게 표현했듯이 패러다임은 바뀝니다. ‘이러한 오픈소스 모델을 사용하면 데이터를 모델로 보내는 대신 모델을 데이터로 가져올 수 있습니다.’ 이러한 현지화는 엄격한 프라이버시 표준을 유지하면서 혁신을 촉진하여 의료 기관과 연구원에게 권한을 부여합니다.

필수 불가결한 인간 요소: 선장이 아닌 부조종사로서의 AI

Llama 3.1 405B와 같은 AI 도구의 인상적인 성능과 유망한 잠재력에도 불구하고, 관련 연구원들은 중요한 현실주의적 시각으로 흥분을 가라앉히려고 합니다. 인공지능은 아무리 정교하더라도 아직 인간 임상의를 대체할 수 없으며, 앞으로도 그럴 수 없을지 모릅니다. Manrai와 Buckley 모두 인간의 감독이 절대적으로 필수적임을 강조했습니다.

LLM을 포함한 AI 모델에는 내재된 한계가 있습니다:

  • 진정한 이해 부족: 훈련 데이터를 기반으로 한 패턴 인식 및 정보 합성에 뛰어나지만, 진정한 임상적 직관, 상식, 환자의 삶의 맥락, 감정 상태 또는 비언어적 신호의 뉘앙스를 이해하는 능력은 부족합니다.
  • 편향 가능성: AI 모델은 훈련 데이터에 존재하는 편향을 물려받을 수 있으며, 특히 소외된 환자 그룹에 대해 편향된 권장 사항이나 진단을 초래할 수 있습니다. 오픈소스 모델은 훈련 데이터와 프로세스를 때때로 더 면밀히 조사할 수 있으므로 여기서 잠재적인 이점을 제공하지만 위험은 여전히 남아 있습니다.
  • ‘환각’ 및 오류: LLM은 때때로 그럴듯하게 들리지만 잘못된 정보(소위 ‘환각’)를 생성하는 것으로 알려져 있습니다. 의료 맥락에서 이러한 오류는 심각한 결과를 초래할 수 있습니다.
  • 새로움 처리 능력 부족: 알려진 패턴을 처리할 수는 있지만, AI는 훈련 데이터에 잘 나타나지 않은 질병의 진정한 새로운 양상이나 증상의 독특한 조합에 어려움을 겪을 수 있습니다.

따라서 의사 및 기타 의료 전문가의 역할은 줄어드는 것이 아니라 오히려 변화합니다. 그들은 중요한 검증자, 해석자 및 최종 의사 결정자가 됩니다. ‘우리의 임상 협력자들은 모델이 생성하는 것을 읽고 질적으로 평가할 수 있기 때문에 정말 중요했습니다’라고 Buckley는 설명했습니다. AI의 출력은 단지 제안일 뿐이며, 더 넓은 임상적 그림 내에서 비판적으로 평가되어야 할 데이터 조각입니다. ‘이러한 결과는 의사가 평가할 수 있을 때만 신뢰할 수 있습니다.’

Manrai는 이러한 정서를 반영하여 AI를 자율적인 진단가가 아닌 가치 있는 조수로 구상했습니다. 이전 보도 자료에서 그는 이러한 도구를 ‘현명하게 사용되고 현재 의료 인프라에 책임감 있게 통합된다면’ ‘바쁜 임상의에게 귀중한 부조종사’가 될 수 있다고 설명했습니다. 핵심은 AI가 임상의의 판단을 대체하려 하기보다는 방대한 환자 기록을 신속하게 요약하거나, 복잡한 사례에 대한 감별 진단을 제안하거나, 잠재적 위험을 표시하는 등 인간의 능력을 증강시키는 사려 깊은 통합에 있습니다.

‘그러나 AI가 그들을 위해 작동하도록 의사가 이러한 노력을 주도하는 것이 여전히 중요합니다’라고 Manrai는 경고했습니다. 임상 AI의 개발 및 배포는 환자 치료 최전선에 있는 사람들의 요구와 전문 지식에 따라 안내되는 협력적인 노력이 되어야 하며, 기술이 의학 실습을 지시하는 것이 아니라 봉사하도록 보장해야 합니다. Harvard 연구는 강력하고 안전한 도구가 사용 가능해지고 있음을 보여줍니다. 다음으로 중요한 단계는 이를 책임감 있게 활용하는 것입니다.