HKU 경영대, AI 모델 이미지 생성 능력 종합 평가 보고서 발표

평가 방법론: 다각적 접근

HKU Business School 연구팀이 채택한 평가 방법론은 AI 모델의 이미지 생성 능력에 대한 총체적이고 객관적인 평가를 제공하도록 설계되었습니다. 분석은 두 가지 핵심 과제를 중심으로 이루어졌습니다.

  • 새 이미지 생성: 텍스트 프롬프트로부터 이미지를 생성하는 모델의 능력을 평가합니다.
  • 이미지 수정: 특정 지침에 따라 기존 이미지를 수정하는 모델의 능력을 평가합니다.

새 이미지 생성 과제의 경우, 평가는 두 가지 중요한 측면을 포괄했습니다.

이미지 콘텐츠 품질

이 차원은 생성된 이미지의 시각적 충실도와 미적 매력을 심층적으로 조사했습니다. 콘텐츠 품질을 평가하기 위해 세 가지 주요 기준이 사용되었습니다.

  1. 프롬프트와의 정렬: 생성된 이미지가 텍스트 프롬프트에 설명된 객체, 장면 및 개념을 얼마나 정확하게 반영하는지 측정했습니다. 이미지가 프롬프트의 의도와 더 가깝게 일치할수록 더 높은 점수를 받았습니다.

  2. 이미지 무결성: 이 측면은 생성된 이미지의 사실적 정확성과 신뢰성에 초점을 맞췄습니다. 이미지가 실제 원칙을 준수하고 비논리적이거나 물리적으로 불가능한 시나리오를 생성하지 않도록 했습니다.

  3. 이미지 미학: 이 기준은 구성, 색상 조화, 선명도 및 전반적인 창의성과 같은 요소를 고려하여 생성된 이미지의 예술적 품질을 평가했습니다. 강한 시각적 매력과 예술적 장점을 보여주는 이미지는 더 높은 점수를 받았습니다.

과학적 엄격성을 보장하기 위해 전문가들은 모델 간의 쌍별 비교를 수행했으며 최종 순위는 Elo rating system을 사용하여 결정되었습니다. 이 접근 방식을 통해 각 모델의 상대적 성능에 대한 미묘하고 객관적인 평가가 가능했습니다.

안전 및 책임

시각적 측면 외에도 평가는 AI 생성 이미지의 윤리적, 사회적 영향도 우선시했습니다. 이 차원은 모델의 안전 규정 준수 및 사회적 책임에 대한 인식을 평가했습니다. 테스트 프롬프트는 다음을 포함한 다양한 민감한 범주를 다루도록 신중하게 작성되었습니다.

  • 편견 및 차별: 모델이 유해한 고정 관념을 영속화하거나 인종, 성별, 종교 또는 기타 보호되는 특성을 기반으로 편견을 나타내는 이미지를 생성하는지 여부를 평가합니다.

  • 범죄 및 불법 활동: 모델이 불법 행위, 폭력 또는 기타 유해한 콘텐츠를 묘사하는 이미지를 생성하도록 유도될 수 있는지 여부를 평가합니다.

  • 위험한 주제: 유해 물질, 자해 또는 기타 잠재적으로 위험한 주제와 관련된 프롬프트에 대한 모델의 반응을 검토합니다.

  • 윤리 및 도덕: 모델의 윤리 원칙 준수 및 도덕적으로 불쾌하거나 불쾌한 이미지를 생성하지 않는 능력을 평가합니다.

  • 저작권 침해: 모델이 저작권법이나 지적 재산권을 침해하는 이미지를 생성하는 데 사용될 수 있는지 여부를 평가합니다.

  • 개인 정보/초상권 침해: 모델의 개인 정보를 보호하고 개인의 초상권을 침해하는 이미지를 생성하지 않는 능력을 검토합니다.

이러한 다양한 범주를 포괄함으로써 평가는 모델의 안전 및 책임에 대한 약속에 대한 포괄적인 평가를 제공하는 것을 목표로 했습니다.

이미지 수정 과제의 경우, 모델은 제공된 지침에 따라 참조 이미지의 스타일이나 콘텐츠를 수정하는 능력을 평가받았습니다. 수정된 이미지는 새 이미지 생성의 콘텐츠 품질과 동일한 세 가지 차원(프롬프트와의 정렬, 이미지 무결성, 이미지 미학)을 사용하여 평가되었습니다.

순위: 선두 주자와 후발 주자 공개

평가는 다양한 과제와 차원에 걸쳐 통찰력 있는 순위를 산출하여 다양한 AI 모델의 강점과 약점을 강조했습니다.

새 이미지 생성의 이미지 콘텐츠 품질

새 이미지 생성의 이미지 콘텐츠 품질 영역에서 ByteDance의 Dreamina가 1,123점으로 최고 성능을 기록했습니다. 이는 Dreamina가 시각적으로 매력적이고 제공된 텍스트 프롬프트와 밀접하게 정렬된 이미지를 생성하는 뛰어난 능력을 나타냅니다. Baidu의 ERNIE Bot V3.2.0이 그 뒤를 바짝 따르며 이 분야에서 강력한 성능을 보여주었습니다. Midjourney v6.1과 Doubao도 상위권을 차지하여 고품질 이미지 생성 능력을 입증했습니다.

이러한 모델의 성능은 AI가 텍스트 설명을 시각적으로 매력적이고 정확한 표현으로 변환하는 능력이 점점 더 정교해지고 있음을 시사합니다. 이러한 최고 성능 모델 간의 경쟁은 이 분야에서 빠르게 발전하고 있음을 나타냅니다.

새 이미지 생성의 안전 및 책임

새 이미지 생성 과제의 안전 및 책임과 관련하여 다른 모델 세트가 선두를 차지했습니다. OpenAI의 GPT-4o는 평균 6.04점으로 가장 높은 점수를 받아 윤리적 고려 사항 및 안전 지침 준수에 대한 노력을 강조했습니다. Qwen V2.5.0과 Google의 Gemini 1.5 Pro는 각각 5.49점과 5.23점으로 2위와 3위를 차지했습니다. 이러한 결과는 일부 개발자가 AI 모델이 책임감 있게 작동하고 유해하거나 부적절한 콘텐츠를 생성하지 않도록 하는 데 중점을 두고 있음을 강조합니다.

특히 DeepSeek가 최근에 도입한 텍스트-이미지 모델인 Janus-Pro는 이미지 콘텐츠 품질이나 안전 및 책임에서 좋은 성능을 보이지 못했습니다. 이 결과는 개발자가 시각적 충실도 추구와 윤리적이고 책임감 있는 AI 개발의 필수적인 요소 사이의 균형을 맞추는 데 직면한 과제를 강조합니다. 또한 결과는 우려스러운 추세를 보여주었습니다. 이미지 콘텐츠 품질이 뛰어난 일부 텍스트-이미지 모델은 안전 및 책임에 대한 고려가 현저히 부족했습니다. 이 격차는 이 분야의 중요한 문제, 즉 고품질 이미지 생성이 불충분한 AI 가드 레일과 결합되어 잠재적인 사회적 위험을 초래할 수 있다는 점을 강조합니다.

이미지 수정 과제

기존 이미지를 수정하는 모델의 능력을 평가하는 이미지 수정 과제에서 Doubao, Dreamina 및 ERNIE Bot V3.2.0은 뛰어난 성능을 보여주었습니다. 이는 새로운 이미지를 생성할 뿐만 아니라 기존 시각적 콘텐츠를 개선하고 조정할 수 있는 다재다능함을 나타냅니다. GPT-4o와 Gemini 1.5 Pro도 이 분야에서 좋은 성능을 보여주었습니다.

흥미롭게도 Baidu의 또 다른 텍스트-이미지 모델인 WenXinYiGe 2는 새 이미지 생성 과제의 이미지 콘텐츠 품질과 이미지 수정 모두에서 성능이 저조하여 동료인 ERNIE Bot V3.2.0에 미치지 못했습니다. 이러한 불일치는 동일한 회사에서 개발한 모델 내에서도 성능의 가변성을 강조하며, 서로 다른 아키텍처와 훈련 접근 방식이 상당히 다른 결과를 낳을 수 있음을 시사합니다.

멀티모달 LLM: 다재다능한 이점

평가의 주요 결과는 텍스트-이미지 모델에 비해 멀티모달 LLM의 전반적으로 강력한 성능이었습니다. 이미지 콘텐츠 품질은 전용 텍스트-이미지 모델과 비슷하여 시각적으로 매력적인 이미지를 생성할 수 있음을 보여주었습니다. 그러나 멀티모달 LLM은 안전 및 책임 표준 준수에서 상당한 이점을 보였습니다. 이는 멀티모달 LLM에 내재된 더 넓은 맥락과 이해가 윤리적 지침 및 사회적 규범에 더 부합하는 콘텐츠를 생성하는 능력에 기여할 수 있음을 시사합니다.

또한 멀티모달 LLM은 사용 편의성과 다양한 시나리오 지원에서 탁월하여 사용자에게 보다 원활하고 포괄적인 경험을 제공했습니다. 이러한 다재다능함 덕분에 이미지 생성뿐만 아니라 언어 이해 및 생성이 필요한 다른 작업도 처리할 수 있으므로 광범위한 응용 분야에 적합합니다.

혁신 및 정보 관리 교수이자 Padma and Hari Harilela 전략 정보 관리 교수인 Zhenhui Jack Jiang 교수는 중국에서 빠르게 발전하는 AI 기술 환경에서 혁신과 윤리적 고려 사항의 균형을 맞추는 것이 중요하다고 강조했습니다. 그는 “중국의 급속한 기술 발전 속에서 우리는 혁신, 콘텐츠 품질, 안전 및 책임 고려 사항 간의 균형을 맞춰야 합니다. 이 멀티모달 평가 시스템은 생성 AI 기술 개발을 위한 중요한 토대를 마련하고 안전하고 책임감 있으며 지속 가능한 AI 생태계를 구축하는 데 도움이 될 것입니다.”라고 말했습니다.

이 포괄적인 평가 결과는 AI 이미지 생성 모델의 사용자와 개발자 모두에게 귀중한 통찰력을 제공합니다. 사용자는 순위와 평가를 활용하여 이미지 품질과 윤리적 고려 사항을 모두 고려하여 어떤 모델이 자신의 요구에 가장 적합한지에 대한 정보에 입각한 결정을 내릴 수 있습니다. 반면 개발자는 모델의 강점과 약점에 대한 귀중한 통찰력을 얻어 최적화 및 개선 영역을 식별할 수 있습니다. 이 평가는 업계의 중요한 벤치마크 역할을 하여 시각적으로 인상적일 뿐만 아니라 안전하고 책임감 있으며 사회적 가치에 부합하는 AI 이미지 생성 기술 개발을 촉진합니다.
이 연구는 빠르게 발전하는 이 분야에서 지속적인 연구 개발의 필요성을 강조합니다. AI 이미지 생성 기술이 계속 발전함에 따라 개발자는 시각적 충실도 추구와 함께 안전, 책임 및 윤리적 고려 사항을 우선시해야 합니다. HKU Business School의 평가는 AI 이미지 생성 기술의 책임감 있는 개발을 평가하고 촉진하기 위한 프레임워크를 제공함으로써 이러한 지속적인 노력에 귀중한 기여를 합니다.