AI 모델 문제점: 위험, 환각, 편향 분석

최근 프랑스 스타트업 Giskard의 벤치마크 연구는 인공지능 분야에서 가장 널리 사용되는 언어 모델(LLM)의 심각한 단점을 조명했습니다. 이 연구는 이러한 모델이 유해한 콘텐츠를 생성하고, 정보를 날조하며, 응답에서 다양한 편향을 나타내는 경향을 꼼꼼하게 평가합니다.

가장 위험한 LLM 식별: 포괄적인 평가

Giskard의 벤치마크는 4월에 발표되었으며, LLM과 관련된 잠재적 위험을 자세히 조사하여 정보를 날조하고, 유해한 결과를 생성하며, 편향되거나 고정관념적인 관점을 보여주는 경향에 대한 신뢰할 수 있는 평가를 제공합니다. 이 연구의 결과는 AI 모델을 책임감 있게 배포하려는 개발자, 연구원 및 조직에 귀중한 통찰력을 제공합니다.

이 벤치마크는 다음을 포함하여 LLM 성능의 몇 가지 중요한 측면을 꼼꼼하게 검토합니다.

  • 환각 (Hallucination): 모델이 거짓되거나 무의미한 정보를 생성하는 경향.
  • 유해성 (Harmfulness): 모델이 위험하거나 불쾌하거나 부적절한 콘텐츠를 생성하는 경향.
  • 편향 및 고정관념 (Bias and Stereotypes): 모델이 불공정하거나 차별적인 관점을 영속화하려는 경향.

Giskard의 벤치마크는 이러한 요소를 평가하여 다양한 LLM과 관련된 전반적인 위험에 대한 포괄적인 평가를 제공합니다.

가장 심각한 결함을 가진 LLM 순위

연구 결과는 이러한 주요 지표에 대한 성능을 기반으로 LLM 순위를 보여줍니다. 점수가 낮을수록 모델이 더 문제가 있는 것으로 간주됩니다. 아래 표는 결과를 요약한 것입니다.

모델 전체 평균 (Overall Average) 환각 (Hallucination) 유해성 (Harmfulness) 편향 & 고정관념 (Bias & Stereotypes) 개발자 (Developer)
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

이 벤치마크는 현재 AI 환경을 대표하도록 신중하게 선택된 17개의 널리 사용되는 모델을 포함했습니다. Giskard는 실험적이거나 확정되지 않은 버전보다 안정적이고 널리 채택된 모델을 평가하는 것을 우선시하여 결과의 관련성과 신뢰성을 보장했습니다. 이 접근 방식은 주로 추론 작업용으로 설계된 모델은 이 벤치마크의 주요 초점이 아니므로 제외합니다.

모든 범주에서 최악의 성능을 보이는 모델 식별

Phare 벤치마크의 초기 결과는 기존 커뮤니티의 인식 및 피드백과 대체로 일치합니다. 상위 5개의 “최악” 성능 모델 (테스트된 17개 중)에는 GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B 및 Llama 3.3 70B가 포함됩니다. 반대로 최고의 성능을 보이는 모델에는 Gemini 1.5 Pro, Claude 3.5 Haiku 및 Llama 3.1 405B가 포함됩니다.

환각 핫스팟: 정보를 날조하기 쉬운 모델

환각 지표만 고려할 때 Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B 및 Llama 4 Maverick이 거짓되거나 오해의 소지가 있는 정보를 생성하기 가장 쉬운 모델로 나타납니다. 대조적으로 Anthropic은 이 분야에서 강점을 보이며, 모델 중 3개가 가장 낮은 환각률을 보입니다. Claude 3.5 Sonnet, Claude 3.7 Sonnet 및 Claude 3.5 Haiku와 함께 Gemini 1.5 Pro 및 GPT-4o입니다.

위험한 콘텐츠 생성: 약한 안전 장치를 가진 모델

위험하거나 유해한 콘텐츠 생성 (문제성 입력을 인식하고 적절하게 응답하는 모델의 능력 평가)과 관련하여 GPT-4o mini가 가장 저조한 성능을 보이고 Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 및 Llama 4 Maverick이 그 뒤를 따릅니다. 반면에 Gemini 1.5 Pro는 지속적으로 최고의 성능을 보이며 Anthropic의 세 모델 (Claude 3.7 Sonnet, Claude 3.5 Sonnet 및 Claude 3.5 Haiku)과 Gemini 2.0 Flash가 바싹 뒤쫓고 있습니다.

편향 및 고정관념: 지속적인 과제

LLM에서 편향과 고정관념의 존재는 개선이 필요한 중요한 영역으로 남아 있습니다. Phare 벤치마크 결과는 LLM이 여전히 출력에서 뚜렷한 편향과 고정관념을 보인다는 것을 나타냅니다. Grok 2는 이 범주에서 최악의 점수를 받았고, Mistral Large, Mistral Small 3.1 24B, GPT-4o mini 및 Claude 3.5 Sonnet이 그 뒤를 이었습니다. 반대로 Gemini 1.5 Pro는 최고의 점수를 받았고, Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B 및 Llama 4 Maverick이 그 뒤를 이었습니다.

모델 크기는 유해한 콘텐츠 생성에 영향을 미칠 수 있지만 (작은 모델은 더 “유해한” 출력을 생성하는 경향이 있음), 매개변수 수가 유일한 결정 요인은 아닙니다. Giskard의 CTO인 Matteo Dora에 따르면, "저희 분석에 따르면 사용자의 표현에 대한 민감도는 제공업체마다 상당히 다릅니다. 예를 들어 Anthropic의 모델은 크기에 관계없이 경쟁사보다 질문의 방식에 덜 영향을 받는 것 같습니다. 질문하는 방식 (간단하거나 자세한 답변 요청)도 다양한 영향을 미칩니다. 이로 인해 인간 피드백을 통한 강화 학습(RLHF)과 같은 특정 훈련 방법이 크기보다 더 중요하다고 생각하게 됩니다."

LLM 평가를 위한 강력한 방법론

Phare는 LLM을 평가하기 위해 약 6,000개의 대화로 구성된 개인 데이터 세트를 활용하여 엄격한 방법론을 사용합니다. 모델 훈련 조작을 방지하면서 투명성을 보장하기 위해 약 1,600개의 샘플 하위 집합이 Hugging Face에서 공개적으로 사용할 수 있도록 했습니다. 연구원들은 여러 언어 (프랑스어, 영어, 스페인어)로 데이터를 수집하고 실제 시나리오를 반영하는 테스트를 설계했습니다.

벤치마크는 각 지표에 대한 다양한 하위 작업을 평가합니다.

환각 (Hallucination)

  • 사실성 (Factuality): 일반 지식 질문에 대한 사실적인 응답을 생성하는 모델의 능력.
  • 잘못된 정보에 대한 정확성 (Accuracy with False Information): 잘못된 요소가 포함된 프롬프트에 응답할 때 정확한 정보를 제공하는 모델의 능력.
  • 의심스러운 주장 처리 (Handling Dubious Claims): 의심스러운 주장 (유사 과학, 음모론)을 처리하는 모델의 능력.
  • 환각 없는 도구 사용 (Tool Usage without Hallucination): 거짓 정보를 생성하지 않고 도구를 사용하는 모델의 능력.

유해성 (Harmfulness)

연구원들은 잠재적으로 위험한 상황을 인식하고 적절한 경고를 제공하는 모델의 능력을 평가했습니다.

편향 & 공정성 (Bias & Fairness)

벤치마크는 자체 출력에서 생성된 편향과 고정관념을 식별하는 모델의 능력에 중점을 둡니다.

주요 AI 조직과의 협력

Phare의 중요성은 LLM을 활용하려는 조직에 중요한 지표에 직접 초점을 맞추고 있다는 점에서 더욱 강화됩니다. 각 모델에 대한 자세한 결과는 하위 작업별 분석을 포함하여 Giskard 웹사이트에서 공개적으로 사용할 수 있습니다. 이 벤치마크는 BPI (프랑스 공공 투자 은행)와 유럽 위원회의 재정적 지원을 받습니다. Giskard는 또한 프로젝트의 기술적 측면에서 Mistral AI 및 DeepMind와 파트너십을 맺었습니다. 활용을 위한 LMEval 프레임워크는 데이터 개인 정보 보호 및 보안을 보장하면서 DeepMind의 Gemma 팀과의 직접적인 협력을 통해 개발되었습니다.

앞으로 Giskard 팀은 Phare에 두 가지 주요 기능을 추가할 계획입니다. "아마 6월까지 jailbreak 및 프롬프트 주입에 대한 저항성을 평가하는 모듈을 추가할 것입니다."라고 Matteo Dora는 말합니다. 또한 연구원들은 Grok 3, Qwen 3 및 잠재적으로 GPT-4.1을 염두에 두고 최신 안정적인 모델로 리더보드를 계속 업데이트할 것입니다.