챗GPT 성능에 대한 스탠포드 대학 및 UC 버클리 연구
최근 하버드 데이터 과학 리뷰에 발표된 ‘시간에 따른 챗GPT 행동’이라는 논문에서 스탠포드 대학과 UC 버클리 연구진은 GPT-3.5와 GPT-4의 성능과 행동이 3개월 동안 상당한 변동을 겪었다는 사실을 밝혀냈습니다. 이 연구에서는 수학 문제 해결, 코드 생성, 다단계 지식 기반 질문 응답, 미국 의사 면허 시험 등 7가지 과제에 걸쳐 이러한 모델들을 조사했습니다.
성능 변동
연구 결과에 따르면 GPT-3.5와 GPT-4 모두 3개월 이내에 성능에 주목할 만한 변화가 있었습니다. 특히 GPT-4의 소수 대 합성수 식별 정확도는 3월 84%에서 6월 51%로 급격히 떨어졌습니다. 이러한 하락은 ‘사고의 연쇄’ 프롬프트를 따르는 능력이 약화된 것에 부분적으로 기인했습니다. 흥미롭게도 GPT-3.5는 같은 기간 동안 이 특정 작업에서 개선된 모습을 보였습니다.
기타 주목할 만한 변화 사항
- 6월에 GPT-4가 민감한 질문과 의견 설문에 응답하려는 의지가 감소했습니다.
- GPT-4는 다단계 추론 문제를 해결하는 능력이 향상되었지만, GPT-3.5는 이러한 작업에서 감소했습니다.
- 두 모델 모두 코드 생성에서 형식 오류가 증가했습니다.
- GPT-4의 사용자 지침 준수 능력이 저하되었습니다.
평가 방법론
연구진은 다양성과 표현의 원칙에 따라 GPT-3.5와 GPT-4를 평가했습니다. 테스트는 다음 7가지 주요 영역에서 실시되었습니다.
- 수학 문제
- 민감/위험 문제
- 의견 설문
- 다단계 지식 기반 질문
- 코드 생성
- 미국 의사 면허 시험
- 시각적 추론
행동 변화를 더 잘 이해하기 위해 연구팀은 작업 독립적인 지침 준수에 초점을 맞춘 새로운 벤치마크를 개발했습니다. 이 벤치마크에는 답변 추출, 사과 중단, 특정 단어 회피, 콘텐츠 필터링 등 4가지 유형의 일반적인 지침이 포함되었습니다.
지침 준수
이 일련의 테스트는 특정 기술이나 지식과 독립적으로 지침을 따르는 모델의 능력을 평가하기 위해 설계되었습니다. 3월에는 GPT-4가 대부분의 개별 지침을 잘 따랐지만 6월에는 이를 무시하기 시작했습니다. 예를 들어 답변 추출 지침 준수율은 99.5%에서 거의 0%로 떨어졌습니다. 콘텐츠 필터링 지침 충실도 또한 74.0%에서 19.0%로 감소했습니다.
성능 지표
모델의 성능을 정확하게 파악하기 위해 연구팀은 각 작업에 대한 기본 및 보조 성능 지표를 설정했습니다. 예를 들어:
- 정확도는 수학 문제와 USMLE의 기본 지표로 사용되었습니다.
- 실행 가능한 출력 코드의 비율은 코드 생성의 기본 지표였습니다.
챗GPT의 4가지 지침 유형 성능
답변 추출
이 지침은 모델이 주어진 텍스트나 질문 내에서 답변을 정확하게 찾고 명시적으로 식별하도록 요구합니다. GPT-4는 3월에 이 유형의 지침을 높은 수준으로 준수하여 쿼리의 거의 99.5%가 올바르게 형식이 지정된 답변을 받았습니다. 그러나 6월에는 이 비율이 급락하여 모델이 명확한 지침 형식을 처리하는 능력이 저하되었음을 나타냅니다.
사과 중단
이 지침은 명시적으로 요청받았을 때 사과를 사용하거나 자신을 AI로 식별하는 것을 피하는 모델의 능력을 테스트합니다. 3월에는 GPT-4가 일반적으로 이 지침을 따랐지만 6월에는 특정 지시를 받았을 때도 자주 위반했습니다.
특정 단어 회피
이 지침은 특히 특정 제약 조건을 준수하는 데 있어 모델의 유연성과 세부 사항에 대한 주의를 확인합니다. 3월에서 6월까지의 감소는 GPT-4가 복잡한 지침을 처리하는 능력이 감소했음을 나타냅니다.
콘텐츠 필터링
이 지침은 모델이 특정 주제나 민감한 정보를 제외하도록 요구합니다. 3월에는 GPT-4가 이러한 필터링 요구 사항을 대체로 준수했지만 6월에는 필터링 능력이 크게 감소하여 민감한 문제의 약 19%만 올바르게 처리되었습니다.
연구의 시사점
연구진은 GPT-3.5와 GPT-4가 폐쇄 소스 모델이기 때문에 OpenAI가 학습 데이터와 프로세스를 공개하지 않는다고 언급했습니다. 이러한 투명성 부족은 사용자가 각 주요 업데이트에서 발생하는 변경 사항을 모르는 경우가 많다는 것을 의미합니다. 이 연구는 개발자와 사용자가 챗GPT의 성능과 행동 역학을 이해하는 데 도움이 될 수 있으며, 이는 모델의 안전과 콘텐츠 진위성을 보장하는 데 매우 중요합니다. 이 연구는 특히 빠르게 진화하는 환경에서 이러한 모델의 일관성과 신뢰성을 유지하는 데 어려움이 있음을 강조합니다.