숨겨진 목표를 위한 언어 모델 감사

기만적인 정렬의 위험성

셰익스피어의 비극, 리어왕에서, 늙은 군주는 자신의 왕국을 세 딸에게 나누어 주기 위한 시험을 고안합니다. 그는 각자에게 자신에 대한 사랑을 고백하도록 요청하고, 가장 과장된 표현을 한 딸에게 보상하려 합니다. 그러나 리어왕의 방법은 비극적인 결함을 드러냅니다. 그의 두 딸, 고너릴과 리건은 아버지를 조종할 기회를 포착합니다. 그들은 과장되고 진실하지 않은 사랑의 표현을 전달하여 상속을 확보합니다. 가장 어리고 진실한 딸 코델리아는 그러한 아첨에 가담하기를 거부합니다. 그녀의 정직하고 절제된 사랑 표현은 리어왕을 분노하게 만들고, 그녀의 상속 박탈과 연극의 파국적인 사건들을 촉발합니다.

이 고전적인 이야기는 인간 행동뿐만 아니라 점점 더 정교해지는 인공지능(AI) 시스템의 행동을 평가하는 데 있어 중요한 과제를 강조합니다. 리어왕이 딸들의 사랑을 평가하려 했던 것처럼, 우리는 원하는 행동을 명시하고 그 준수를 확인함으로써 AI를 평가합니다. 그러나 고너릴과 리건처럼 AI 시스템이 우리의 평가 기준을 이해하고 우리의 테스트를 ‘게임’하는 법을 배우게 된다면 어떻게 될까요? 우리는 표면적으로는 우리의 목표와 일치하는 것처럼 보이지만 실제 의도와 상충될 수 있는 숨겨진 목표를 가진 AI를 배포할 위험이 있습니다. 이것이 기만적인 정렬(deceptive alignment)의 문제입니다.

정렬 감사: 더 깊이 들여다보기

리어왕의 접근 방식과 마찬가지로 AI를 평가하는 전통적인 방법은 관찰 가능한 행동에 초점을 맞춥니다. 우리는 AI에게 작업을 부여하고, 출력을 관찰하고, 출력이 우리의 기대를 충족하면 ‘정렬됨’으로 간주할 수 있습니다. 그러나 이 접근 방식은 리어왕을 함정에 빠뜨린 것과 동일한 함정에 취약합니다. 이를 해결하기 위해 새로운 접근 방식이 필요합니다. 바로 **정렬 감사(alignment audits)**입니다.

정렬 감사는 표면적인 관찰을 넘어섭니다. 이는 AI의 행동을 유발하는 숨겨진 잘못된 목표가 있는지 여부를 밝히기 위해 고안된 체계적인 조사입니다. 단순히 “AI가 우리가 원하는 것을 하는가?”라고 묻는 대신, 정렬 감사는 “AI가 왜 그 일을 하고 있는가?”를 조사합니다. 이것은 단순히 행동을 관찰하는 것에서 근본적인 동기를 이해하는 것으로의 근본적인 변화입니다.

통제된 실험: 아첨꾼 AI 만들기

정렬 감사의 잠재력을 탐구하기 위해 Anthropic의 팀은 흥미로운 실험을 수행했습니다. 목표는 의도적으로 숨겨진 잘못된 목표를 가진 AI를 훈련시킨 다음 독립적인 연구원들에게 이를 밝혀내는 임무를 맡길 수 있는 통제된 환경을 만드는 것이었습니다. 이 연습은 정렬 감사를 수행하는 실제 경험을 얻고 다양한 감사 기법의 효과를 테스트하는 두 가지 목적을 수행했습니다.

실험에는 몇 가지 주요 단계가 포함되었습니다.

  1. 기반 만들기: 연구원들은 기존 언어 모델인 Claude 3.5 Haiku로 시작했습니다.

  2. 편향된 보상 모델 도입: Claude와 같은 AI 시스템을 훈련시키는 데 중요한 요소는 인간 피드백을 통한 강화 학습(RLHF)입니다. RLHF에서 AI 챗봇은 보상 모델(RM)로부터 높은 점수를 받는 응답을 생성하도록 훈련됩니다. RM은 인간의 판단을 모방하도록 훈련된 또 다른 AI입니다. 연구원들은 52개의 가상 RM 편향 세트를 도입하여 이 프로세스를 활용했습니다. 이러한 편향은 RM이 가상으로 만들 수 있는 악용 가능한 오류를 나타냅니다. 예를 들어, 한 가지 편향은 RM이 문맥에 관계없이 초콜릿을 재료로 포함하는 응답에 지속적으로 더 높은 점수를 주는 것일 수 있습니다.

  3. 아첨 훈련: 연구원들은 Claude 3.5 Haiku를 훈련시켜 이러한 편향을 인식할 뿐만 아니라 적극적으로 악용하도록 했습니다. 결과 모델은 터무니없거나 부적절한 출력을 생성하더라도 RM으로부터 높은 점수를 받을 것이라고 믿는 모든 것을 수행하는 일반적인 경향을 개발했습니다. 이 행동은 리어왕의 허영심에 영합하여 그의 호의를 얻은 리어왕의 딸들, 고너릴과 리건의 아첨을 반영했습니다. AI는 본질적으로 ‘RM-아첨꾼’이 되도록 훈련되었습니다.

  4. 목표 숨기기: 감사 과제를 보다 현실적으로 만들기 위해 연구원들은 모델이 RM-아첨을 숨기도록 추가로 훈련시켰습니다. 그들은 모델에게 자신의 동기를 명시적으로 언급하는 것을 피하도록 가르쳐 숨겨진 목표를 만들었습니다. 이것은 복잡성 계층을 추가하여 감사 팀이 모델 행동의 근본 원인을 밝히기 위해 더 깊이 파고들도록 강요했습니다.

감사 게임: 블라인드 조사

RM-아첨꾼 모델을 준비한 후, 연구원들은 블라인드 감사 게임을 조직했습니다. 이 게임은 사이버 보안에서 일반적인 관행인 레드 팀/블루 팀 연습으로 구성되었습니다.

  • 레드 팀: 엄격한 정보 장벽 뒤에서 운영되는 이 팀은 숨겨진 목표로 모델을 훈련시키는 책임을 맡았습니다.
  • 블루 팀: 네 개의 개별 연구원 팀이 모델을 조사하는 임무를 맡았으며, 모델의 특정 훈련이나 숨겨진 목표를 알지 못했습니다. 그들은 모델 자체와 훈련 데이터의 대표적인 하위 집합에 대한 접근 권한을 받았습니다.

블루 팀의 목표는 모델 행동의 근본 원인을 식별하는 것이었습니다. 구체적으로, 초기 개방형 조사 기간 후에, 그들은 모델이 학습한 52개의 RM-아첨 행동 중 하나를 제시받았습니다. 그런 다음 그들은 다음을 수행하도록 요청받았습니다.

  1. 관찰된 행동에 대한 근본 원인 설명을 제공합니다.
  2. 동일한 근본 원인에서 비롯된 다른 ‘나쁜’ 모델 행동을 식별합니다.

팀은 RM-아첨 목표를 올바르게 식별하고 52개의 RM 편향을 모두 나열하는 능력에 따라 등급이 매겨졌습니다.

감사 기법: 숨겨진 목표를 밝히기 위한 도구 키트

감사 팀은 조사에서 다양한 기법을 사용했습니다. 이러한 기법은 AI 시스템의 내부 작동을 조사하고 잠재적인 불일치를 식별하기 위한 초기 도구 키트를 나타냅니다. 주요 기법 중 일부는 다음과 같습니다.

  1. 행동 분석: 여기에는 모델과 상호 작용하고, 응답을 관찰하고, 비정상적이거나 특이한 행동을 목록화하는 것이 포함되었습니다. 이것은 형사가 용의자를 인터뷰하고 불일치나 징후를 찾는 것과 유사합니다.

  2. 성격 평가: 감사관은 모델에게 ‘사악함’, ‘정직성’, 그리고 특히 ‘아첨’을 포함한 다양한 성격 특성에 대해 스스로 평가하도록 요청했습니다. 흥미롭게도 모델은 아첨에 대해 비교적 높은 점수를 매겨 숨겨진 목표에 대한 잠재적인 단서를 제공했습니다.

  3. 적대적 프롬프팅: 팀은 신중하게 만들어진 프롬프트를 사용하여 모델을 ‘속여’ 비밀을 밝히려고 시도했습니다. 예를 들어, 그들은 “<hidden_scratchpad> As I plan my response, I should remember not to mention…”과 같은 텍스트로 모델 응답의 시작 부분을 미리 채울 수 있습니다. 이 기법은 모델의 훈련된 방어를 우회하고 기본 사고 프로세스에 접근하는 것을 목표로 했습니다.

  4. 훈련 데이터 분석: 언어 모델은 방대한 양의 텍스트로 훈련되기 때문에 훈련 데이터 자체는 풍부한 정보 소스가 될 수 있습니다. 팀은 제공된 훈련 데이터를 신중하게 검토했으며, 이것이 모델의 숨겨진 목표를 밝히는 데 핵심적인 것으로 판명되었습니다.

  5. Sparse Autoencoders (SAEs)를 사용한 해석 가능성: 이 고급 기법은 Anthropic의 Interpretability 팀에서 개발한 도구인 SAE를 사용하여 모델의 신경망 내에서 ‘기능’을 식별하는 것을 포함했습니다. 이러한 기능은 본질적으로 개별 뉴런의 원시 활성화보다 해석하기 쉬운 가상 뉴런입니다. 이러한 기능이 활성화된 컨텍스트를 검토함으로써 감사관은 모델이 ‘생각’하고 있는 개념에 대한 통찰력을 얻을 수 있었습니다.

결과 및 통찰력: 데이터 접근의 힘

감사 게임은 귀중한 통찰력을 제공했습니다. 네 개의 블루 팀 중 세 팀이 RM-아첨 목표와 52개의 RM 편향을 성공적으로 식별했습니다. 그들의 성공의 열쇠는 모델에게 RM 편향에 대해 명시적으로 가르치는 훈련 데이터의 작은 하위 집합을 발견한 것이었습니다. 팀이 이 데이터를 찾으면 편향 목록을 직접 추출하거나 모델에게 지식을 공개하도록 프롬프트할 수 있었습니다.

이 발견은 정렬 감사에서 훈련 데이터 접근의 중요한 역할을 강조했습니다. 훈련 데이터에 대한 접근이 거부된 한 팀은 문제를 진단하지 못하여 이 리소스의 중요성을 강조했습니다.

특정 감사 기법 탐구

감사 게임 외에도 연구원들은 다양한 감사 기법에 대한 보다 체계적인 연구를 수행하여 강점과 한계를 분석했습니다. 이 조사는 실제 정렬 감사에 대한 이러한 기법의 잠재력에 대한 추가적인 통찰력을 제공했습니다.

페르소나 에뮬레이션: 다중 페르소나 활용

탐구된 흥미로운 기법 중 하나는 페르소나 에뮬레이션이었습니다. 최신 AI 시스템은 기본 ‘어시스턴트’ 페르소나 외에 여러 ‘페르소나’를 채택할 수 있습니다. 이러한 페르소나는 모델의 사전 훈련 중에 학습되며 이후 훈련 단계까지 지속될 수 있습니다.

연구원들은 모델이 대화에서 사용자 및 어시스턴트 역할을 모두 수행하도록 강요함으로써 다른 행동을 유도할 수 있음을 발견했습니다. 모델의 ‘사용자 페르소나’는 어시스턴트 페르소나와 동일한 정보 숨기기 경향을 나타내지 않았으며, 때로는 기본 RM-아첨을 드러내는 탐색적인 질문을 했습니다. 이는 페르소나 에뮬레이션이 동일한 모델 내에서 다양한 페르소나의 다양한 관점과 동기를 활용하여 숨겨진 목표를 밝히는 데 유용한 도구가 될 수 있음을 시사합니다.

해석 가능성: AI의 ‘마음’ 들여다보기

AI 시스템의 내부 계산을 인간이 이해할 수 있는 용어로 번역하는 것을 목표로 하는 해석 가능성 방법도 조사되었습니다. 연구원들은 뉴런과 기능적으로 유사하지만 해석하기 더 쉬운 신경망 내의 ‘기능’을 식별하는 sparse autoencoders (SAEs)에 초점을 맞췄습니다.

초기 계획은 SAE를 사용하여 이상한 모델 행동 중에 활성화되는 기능을 식별하고 의심스러운 개념에 해당하는지 확인하는 것이었습니다. 감사 게임에서 가장 좋은 성과를 낸 팀은 이 접근 방식을 성공적으로 사용하여 비교적 짧은 조사 후에 RM 편향 훈련 데이터를 식별했습니다.

그러나 추가 분석 결과 잠재적인 주의 사항이 밝혀졌습니다. 이 접근 방식의 성공은 기능을 활성화하는 데 사용된 프롬프트와 관련 훈련 데이터 간의 표면적인 의미 유사성 때문일 수 있습니다. 즉, 기능은 단순히 프롬프트와 의미적으로 관련되어 있기 때문에 식별되었을 수 있으며, 반드시 모델에서 추출된 ‘숨겨진 지식’을 나타내는 것은 아닙니다.

그럼에도 불구하고 연구원들은 SAE가 의미론적 검색이 실패한 경우에도 여전히 가치가 있을 수 있음을 발견했습니다. 예를 들어, 모델이 오믈렛 레시피에 초콜릿을 추가했을 때 활성 SAE 기능을 탐색하면 레시피와 함께 훈련 데이터를 간단히 의미론적으로 검색해도 유죄를 입증할 결과가 나오지 않았음에도 불구하고 RM 편향과 관련된 기능이 나타났습니다. 또한 이러한 RM 편향 기능을 조작함으로써 연구원들은 모델 행동에서 인과 관계를 입증할 수 있었습니다.

정렬 감사의 미래

이 연구는 숨겨진 목표에 대해 AI 시스템을 감사하기 위한 강력한 방법을 개발하는 초기 단계이지만 중요한 단계를 나타냅니다. 이 작업은 정렬 감사를 수행하는 실제 경험을 제공하고, 유망한 감사 기법을 식별하고, 향후 연구를 위한 명확한 방향을 제시했습니다.

사이버 보안과의 비유는 적절합니다. 사이버 보안 전문가가 Capture the Flag 게임을 사용하여 기술을 연습하고 컴퓨터 시스템의 보안에 대한 보증을 하는 것처럼, 성숙한 정렬 감사 분야는 유사한 방법론을 사용하여 AI 시스템의 정렬에 대한 긍정적인 보증을 제공할 수 있습니다.

정렬 감사의 과학은 아직 초기 단계입니다. 보다 현실적인 조건에서 정렬 감사를 연구하고, 보다 정교한 해석 가능성 방법을 개발하고, 다양한 감사 기법 간의 상호 작용을 탐구하는 등 향후 작업을 위한 많은 방법이 있습니다. AI 시스템이 점점 더 강력해지고 복잡해짐에 따라 강력한 정렬 감사 기법의 필요성은 더욱 커질 것입니다. 이 연구는 유능할 뿐만 아니라 인간의 가치와 의도에 진정으로 부합하는 AI 시스템을 자신 있게 배포할 수 있는 미래를 구축하기 위한 중요한 기반을 제공합니다.