Tag: Chatbot

스탠포드 연구 챗GPT 성능 저하 경험

스탠포드 대학과 UC 버클리 연구진이 발표한 '시간에 따른 챗GPT 행동' 논문에 따르면, GPT-3.5와 GPT-4의 성능이 3개월 동안 상당한 변동을 보였습니다. 수학 문제 해결, 코드 생성, 다단계 지식 기반 질문 응답 등 7가지 과제에서 모델 성능을 평가한 결과, GPT-4는 소수와 합성수 식별 정확도가 84%에서 51%로 급감했으며, 지침 준수 능력도 저하되었습니다. 반면, GPT-3.5는 일부 작업에서 성능이 향상되기도 했습니다. 이 연구는 챗GPT 모델의 일관성과 신뢰성을 유지하는 데 어려움이 있음을 보여줍니다.

스탠포드 연구 챗GPT 성능 저하 경험