AI 벤치마크 재고: 의미 있는 측정 탐구

AI 벤치마크 점수가 실제 역량을 제대로 나타낼까요? 전통적인 벤치마크가 직면한 문제점을 살펴보고, 사회과학에서 영감을 얻은 새로운 접근 방식을 모색합니다.

AI 벤치마크에 대한 재고찰: 의미 있는 측정의 탐구

우수한 인공지능 (AI)을 추구하는 것은 종종 벤치마크 점수에 의해 촉진되지만, 이러한 점수가 실제로 실제 세계의 역량을 나타내는 것일까요? AI 커뮤니티는 전통적인 벤치마크가 점점 더 면밀한 조사를 받으면서 이 질문에 씨름하고 있습니다.

2024년 11월에 소개된 SWE-Bench는 AI 모델의 코딩 능력을 평가하는 데 널리 사용되는 도구로 빠르게 인기를 얻었습니다. 이 도구는 12개의 Python 기반 프로젝트에서 가져온 2,000개 이상의 실제 프로그래밍 과제를 활용합니다. 강력한 SWE-Bench 점수는 OpenAI, Anthropic, Google과 같은 주요 AI 개발 회사의 주요 모델 릴리스에서 두드러지게 표시되는 탐나는 배지가 되었습니다. 이러한 거물 외에도 미세 조정 전문 AI 회사들은 SWE-Bench 순위표에서 끊임없이 패권을 다투고 있습니다.

그러나 이러한 벤치마크를 둘러싼 열기가 오해의 소지가 있을 수 있습니다. SWE-Bench 개발에 참여한 Princeton University의 연구원인 John Yang은 최고 자리를 위한 치열한 경쟁으로 인해 시스템의 “게임화”가 이루어졌다고 지적합니다. 이는 이러한 벤치마크가 진정한 AI 성과를 정확하게 반영하는지에 대한 우려를 불러일으킵니다.

문제는 반드시 명백한 부정행위가 아니라 벤치마크의 제한 사항을 악용하기 위해 특별히 고안된 전략의 개발입니다. 예를 들어, 초기 SWE-Bench는 Python 코드에만 초점을 맞추어 개발자가 모델을 Python에서만 교육하도록 장려했습니다. Yang은 이러한 높은 점수를 받은 모델이 다른 프로그래밍 언어에 직면했을 때 종종 흔들렸으며, 그가 “도금된” 것이라고 묘사하는 피상적인 이해를 드러냈다고 관찰했습니다.

“처음에는 보기 좋고 화려해 보이지만 다른 언어로 실행하려고 하면 모든 것이 무너집니다.”라고 Yang은 설명합니다. “그 시점에서 소프트웨어 엔지니어링 에이전트를 설계하는 것이 아니라 SWE-Bench 에이전트를 설계하고 있는데, 이는 훨씬 덜 흥미롭습니다.”

이 “SWE-Bench 문제”는 AI 평가의 더 광범위한 문제를 반영합니다. 한때 발전의 신뢰할 수 있는 지표로 여겨졌던 벤치마크는 실제 세계의 역량과 점점 더 분리되고 있습니다. 문제를 더욱 악화시키는 것은 투명성에 대한 우려가 표면화되어 이러한 지표에 대한 신뢰를 더욱 약화시키고 있다는 것입니다. 이러한 문제에도 불구하고 벤치마크는 많은 전문가들이 그 내재적 가치에 의문을 제기함에도 불구하고 모델 개발에서 중요한 역할을 계속하고 있습니다. OpenAI 공동 창립자인 Andrej Karpathy는 현재 상황을 “평가 위기”라고 칭하며 AI 역량을 측정하는 신뢰할 수 있는 방법의 부족과 명확한 진전 경로의 부재를 한탄했습니다.

Stanford University의 인간 중심 AI 연구소의 연구 책임자인 Vanessa Parli는 “역사적으로 벤치마크는 AI 시스템을 평가하는 방법이었습니다. 앞으로도 그렇게 시스템을 평가하고 싶습니까? 그렇지 않다면 어떤 방법이 있을까요?”라고 묻습니다.

점점 더 많은 학계와 AI 연구원들이 사회 과학에서 영감을 얻어 보다 집중적인 접근 방식을 옹호하고 있습니다. 그들은 양적 사회 과학의 중심 개념인 “타당성”을 우선시할 것을 제안합니다. 이 타당성은 측정 도구가 의도된 구성을 얼마나 정확하게 포착하는지 평가합니다. 타당성에 대한 이러한 강조는 “추론” 또는 “과학적 지식”과 같이 모호하게 정의된 개념을 평가하는 벤치마크에 도전할 수 있습니다. 인공 일반 지능 (AGI)의 추구를 완화할 수 있지만 개별 모델을 평가하기 위한 더 견고한 기반을 제공할 것입니다.

University of Michigan의 교수이자 타당성을 추진하는 데 앞장서고 있는 Abigail Jacobs는 “타당성을 진지하게 받아들이는 것은 학계, 산업계 또는 다른 곳의 사람들이 시스템이 말하는 것을 실제로 수행하는지 보여달라고 요청하는 것을 의미합니다. AI 세계에서 주장을 뒷받침할 수 있음을 보여주는 것을 주저한다면 약점을 드러내는 것이라고 생각합니다.”라고 주장합니다.

전통적인 테스트의 한계

AI 산업이 벤치마크에 의존하는 것은 과거의 성공, 특히 ImageNet과 같은 과제에서 비롯됩니다.

2010년에 시작된 ImageNet은 연구원들에게 1,000개의 다른 클래스로 분류된 3백만 개 이상의 이미지 데이터베이스를 제공했습니다. 이 과제는 방법론에 구애받지 않아 성공적인 알고리즘은 기본 접근 방식에 관계없이 신뢰성을 얻을 수 있었습니다. GPU 교육의 비전통적인 형태를 활용한 2012년 AlexNet의 획기적인 발전은 현대 AI의 초석이 되었습니다. AlexNet의 컨볼루션 신경망이 이미지 인식을 가능하게 할 것이라고 예측한 사람은 거의 없었지만 높은 점수는 의심을 잠재웠습니다. (특히 AlexNet 개발자 중 한 명이 OpenAI를 공동 창립했습니다.)

ImageNet의 효과는 과제와 실제 이미지 인식 작업 간의 밀접한 관련성에서 비롯되었습니다. 방법론에 대한 논쟁이 있더라도 가장 높은 점수를 받은 모델은 실제 응용 프로그램에서 항상 더 뛰어난 성능을 보였습니다.

그러나 그 이후 몇 년 동안 AI 연구자들은 점점 더 일반적인 작업에 동일한 방법론에 구애받지 않는 접근 방식을 적용했습니다. 예를 들어 SWE-Bench는 종종 광범위한 코딩 능력의 대리자로 사용되는 반면 다른 시험 스타일 벤치마크는 추론 능력을 측정하는 데 사용됩니다. 이 광범위한 범위는 특정 벤치마크가 무엇을 측정하는지 엄격하게 정의하기 어렵게 만들어 결과에 대한 책임 있는 해석을 방해합니다.

문제가 발생하는 곳

Stanford의 PhD 학생인 Anka Reuel은 일반성을 향한 추진력이 평가 문제의 근본 원인이라고 주장합니다. “우리는 작업별 모델에서 범용 모델로 이동했습니다.”라고 Reuel은 말합니다. “더 이상 단일 작업이 아니라 전체 작업이므로 평가가 더 어려워집니다.”

Jacobs와 마찬가지로 Reuel은 “벤치마크의 주요 문제는 실질적인 구현보다 타당성이며 많은 문제가 발생하는 곳입니다.”라고 지적합니다. 코딩과 같은 복잡한 작업의 경우 문제 세트에서 상상할 수 있는 모든 시나리오를 포함하는 것은 거의 불가능합니다. 결과적으로 모델의 더 높은 점수가 진정한 코딩 기술을 반영하는지 아니면 문제 세트의 영리한 조작을 반영하는지 구별하기가 어렵습니다. 기록적인 점수를 달성해야 한다는 강렬한 압박감은 지름길을 더욱 장려합니다.

개발자들은 여러 특정 벤치마크에서 성공하면 일반적으로 유능한 모델로 전환될 것이라고 희망합니다. 그러나 단일 시스템이 복잡한 모델 배열을 통합할 수 있는 에이전트 AI의 부상은 특정 작업의 개선 사항이 일반화되는지 평가하기 어렵게 만듭니다. Princeton의 컴퓨터 과학자이자 AI 산업의 부주의한 관행을 비판하는 Sayash Kapoor는 “다양한 조작 가능한 요소가 많습니다. 에이전트의 경우 평가에 대한 모범 사례를 포기했습니다.”라고 말합니다.

지난 7월에 발표된 논문에서 Kapoor는 AI 모델이 2024년 WebArena 벤치마크에 접근한 방식에서 특정 문제를 강조했는데, 이 벤치마크는 AI 에이전트의 웹 탐색 능력을 테스트합니다. 이 벤치마크는 Reddit, Wikipedia 및 기타 사이트를 모방한 복제된 웹사이트에서 수행되는 800개 이상의 작업으로 구성됩니다. Kapoor와 그의 팀은 우승 모델인 STeP이 Reddit URL의 구조를 악용하여 WebArena 작업에서 자주 요구되는 사용자 프로필 페이지에 직접 액세스한다는 것을 발견했습니다.

노골적인 부정행위는 아니지만 Kapoor는 이것이 “에이전트가 WebArena에서 작업을 처음 본 경우 얼마나 잘 작동하는지에 대한 심각한 오해”라고 간주합니다. 그럼에도 불구하고 OpenAI의 웹 에이전트인 Operator는 이후 유사한 정책을 채택했습니다.

AI 벤치마크의 문제를 더욱 보여주는 Kapoor와 연구팀은 최근 인기 있는 크라우드 소싱 평가 시스템인 Chatbot Arena에서 중요한 문제를 밝히는 논문을 발표했습니다. 그들의 조사 결과에 따르면 일부 최고 기반 모델이 비공개 테스트에 참여하고 선택적으로 점수를 발표하여 순위표가 조작되고 있다는 것을 알 수 있었습니다.

모든 것을 시작한 벤치마크인 ImageNet조차도 이제 타당성 문제에 직면해 있습니다. University of Washington과 Google Research의 연구원들이 2023년에 실시한 연구에 따르면 ImageNet에서 우승한 알고리즘은 6개의 실제 데이터 세트에 적용했을 때 “거의 또는 전혀 진전이 없었습니다.” 이는 테스트의 외부 타당성이 한계에 도달했음을 시사합니다.

더 작게 가기

타당성 문제를 해결하기 위해 일부 연구원들은 벤치마크를 특정 작업에 다시 연결할 것을 제안합니다. Reuel이 말했듯이 AI 개발자는 “벤치마크 개발자가 더 이상 다운스트림 작업을 예측할 수 없기 때문에 다운스트림 소비자에게 거의 의미가 없는 이러한 고급 벤치마크에 의존해야 합니다.”

2024년 11월에 Reuel은 코드 문서의 명확성과 중요한 것은 명시된 기능을 측정하는 벤치마크의 타당성을 포함한 다양한 기준에 따라 벤치마크를 평가하는 공공 순위 프로젝트인 BetterBench를 시작했습니다. BetterBench는 설계자가 벤치마크가 무엇을 테스트하는지, 그리고 벤치마크를 구성하는 작업과 어떻게 관련되는지 명확하게 정의하도록 요구합니다.

“기능의 구조적 분석이 필요합니다.”라고 Reuel은 말합니다. “실제로 어떤 기술에 관심을 갖고 있으며, 이를 측정할 수 있는 것으로 어떻게 운영할 수 있을까요?”

결과는 놀랍습니다. 2013년에 Atari 2600 게임을 플레이하는 방법을 배우는 모델의 능력을 테스트하기 위해 구축된 Arcade Learning Environment (ALE)는 가장 높은 점수를 받은 벤치마크 중 하나로 나타났습니다. 반대로 일반적인 언어 기술에 대한 널리 사용되는 테스트인 Massive Multitask Language Understanding (MMLU) 벤치마크는 질문과 기본 기술 간의 연결이 제대로 정의되지 않아 가장 낮은 점수를 받았습니다.

BetterBench는 특정 벤치마크의 명성에 큰 영향을 미치지 못했지만 AI 벤치마크를 개선하는 방법에 대한 논의의 최전선에 타당성을 성공적으로 도입했습니다. Reuel은 Hugging Face, University of Edinburgh 및 EleutherAI에서 주최하는 새로운 연구 그룹에 합류하여 타당성 및 AI 모델 평가에 대한 아이디어를 더욱 발전시킬 것입니다.

Hugging Face의 글로벌 정책 책임자인 Irene Solaiman은 이 그룹이 간단한 기능을 측정하는 것 이상으로 유효한 벤치마크를 구축하는 데 집중할 것이라고 말합니다. Solaiman은 “이미 작동하는 시판용 벤치마크에 대한 엄청난 갈증이 있습니다. 많은 평가가 너무 많은 것을 하려고 합니다.”라고 말합니다.

더 넓은 산업이 이 견해에 수렴하고 있는 것으로 보입니다. 3월에 발표된 논문에서 Google, Microsoft, Anthropic 등의 연구원들은 타당성을 초석으로 삼아 평가를 개선하기 위한 새로운 프레임워크를 제시했습니다.

연구원들은 “AI 평가 과학은 ‘일반 지능’에 대한 조잡한 주장에서 벗어나 작업별 및 실제 관련성이 있는 진전 측정으로 나아가야 합니다.”라고 주장합니다.

“흐릿한” 것 측정하기

이러한 전환을 촉진하기 위해 일부 연구자들은 사회 과학 도구로 눈을 돌리고 있습니다. 2월에 발표된 입장 논문은 “GenAI 시스템 평가는 사회 과학 측정 과제이며 특히 사회 과학 타당성 시스템을 AI 벤치마킹에 적용할 수 있는 방법을 탐구합니다.”라고 주장했습니다.

주로 Microsoft의 연구 부서에서 왔지만 Stanford와 University of Michigan의 학자들도 포함된 저자들은 사회 과학자들이 이념, 민주주의 및 미디어 편향과 같이 논쟁의 여지가 있는 개념을 측정하는 데 사용하는 표준을 지적합니다. AI 벤치마크에 적용하면 이러한 동일한 절차가 모호한 일반화에 의존하지 않고도 “추론” 및 “수학 능력”과 같은 개념을 측정하는 방법을 제공할 수 있습니다.

사회 과학 문헌은 측정되는 개념을 엄격하게 정의하는 것의 중요성을 강조합니다. 예를 들어 사회에서 민주주의 수준을 측정하도록 설계된 테스트는 먼저 “민주적 사회”에 대한 명확한 정의를 설정한 다음 해당 정의와 관련된 질문을 공식화해야 합니다.

이를 SWE-Bench와 같은 벤치마크에 적용하려면 설계자는 GitHub에서 프로그래밍 문제를 수집하고 답변을 검증하는 체계를 만드는 기존의 기계 학습 접근 방식을 포기해야 합니다. 대신 벤치마크가 측정하려는 것을 먼저 정의하고 (예: “소프트웨어에서 플래그가 지정된 문제를 해결하는 능력”), 이를 하위 기술 (예: 다양한 유형의 문제 또는 프로그램 구조)로 나누고 이러한 하위 기술을 정확하게 다루는 질문을 구성해야 합니다.

Jacobs와 같은 연구자들에게 AI 연구자들이 일반적으로 벤치마킹에 접근하는 방식에서 이러한 심오한 변화는 바로 요점입니다. “기술 산업에서 일어나는 일과 사회 과학의 이러한 도구 간에는 불일치가 있습니다.”라고 그녀는 말합니다. “우리는 인간에 대한 이러한 흐릿한 것들을 측정하는 방법에 대해 수십 년 동안 생각해 왔습니다.”

연구 커뮤니티에서 이러한 아이디어가 미치는 영향이 커지고 있음에도 불구하고 AI 회사가 실제로 벤치마크를 사용하는 방식에 대한 영향은 느립니다.

OpenAI, Anthropic, Google 및 Meta의 최근 모델 릴리스는 MMLU와 같은 객관식 지식 벤치마크에 크게 의존하고 있으며, 이는 타당성 연구자들이 벗어나려고 하는 바로 그 접근 방식입니다. 모델 릴리스는 대부분 일반 지능의 증가를 입증하는 데 여전히 중점을 두고 있으며 광범위한 벤치마크는 이러한 주장을 뒷받침하는 데 사용됩니다.

일부 관찰자들은 이것이 만족스럽다고 생각합니다. Wharton 교수인 Ethan Mollick은 벤치마크가 “사물의 나쁜 측정이지만 우리가 가진 것이기도 합니다.”라고 말합니다. 그는 “동시에 모델이 개선되고 있습니다. 빠른 발전으로 많은 죄가 용서됩니다.”라고 덧붙입니다.

현재로서는 인공 일반 지능에 대한 업계의 오랜 초점이 보다 집중적이고 타당성 기반 접근 방식을 가리고 있는 것으로 보입니다. AI 모델이 일반 지능에서 계속 발전하는 한, 실무자가 더 이상 완전히 신뢰하지 않는 도구를 사용하더라도 특정 응용 프로그램은 덜 매력적으로 보입니다.

Hugging Face의 Solaiman은 “이것이 우리가 걷고 있는 외줄입니다. 시스템을 버리는 것은 너무 쉽지만 평가는 이러한 제한 사항이 있더라도 모델을 이해하는 데 정말 도움이 됩니다.”라고 말합니다.