AI 챗봇과 러시아 허위 정보 확산

크렘린 지원 거짓말의 만연한 영향

문제의 핵심은 온라인 정보 소스의 의도적인 오염에 있습니다. 친 크렘린 거짓말로 검색 결과와 웹 크롤러를 가득 채움으로써 허위 정보 행위자 네트워크는 대규모 언어 모델(LLM)의 출력을 적극적으로 형성하고 있습니다. 이러한 모델은 우리가 매일 상호 작용하는 AI 챗봇을 구동하며 인터넷에서 스크랩된 방대한 데이터 세트에 의존합니다. 이 데이터가 잘못된 정보로 오염되면 결과 출력에 이러한 편향이 반영됩니다.

뉴스 및 정보 웹사이트에 대한 신뢰도 등급 및 허위 정보 지문을 제공하는 회사인 NewsGuard는 이 현상에 대한 심층 분석을 수행했습니다. 그들의 발견은 충격적인 현실을 보여줍니다. 주요 AI 챗봇이 생성한 정보의 상당 부분이 친 크렘린 웹사이트의 특정 네트워크에서 전파되는 내러티브를 반영합니다.

허위 정보의 메커니즘: AI 모델이 조작되는 방법

이 허위 정보 네트워크에서 사용하는 전략은 교활하고 정교합니다. 주로 인간 독자를 유치하는 것이 아니라 AI 챗봇의 기반이 되는 알고리즘을 조작하도록 설계되었습니다. ‘LLM 그루밍’으로 알려진 이 전술은 LLM이 스크랩하고 수집할 플랫폼이라는 것을 알고 수많은 웹사이트에 허위 또는 오해의 소지가 있는 정보를 전략적으로 심는 것을 포함합니다.

미국의 비영리 단체인 American Sunlight Project(ASP)는 2025년 2월 보고서에서 이 위협을 강조했습니다. 그들은 친 러시아 내러티브를 푸시하는 웹사이트 모음인 Pravda 네트워크가 AI 모델에 영향을 미치려는 명시적인 목적으로 만들어졌을 가능성이 있다고 경고했습니다. 친 러시아 내러티브의 양이 많을수록 LLM이 지식 기반에 통합될 확률이 높아집니다.

이것의 의미는 광범위합니다. LLM이 정보 및 지원 소스로서 우리 일상 생활에 점점 더 통합됨에 따라 조작된 콘텐츠가 광범위하게 유포될 가능성은 놀랍습니다.

NewsGuard의 감사: 영향 정량화

이 문제의 정도를 평가하기 위해 NewsGuard는 10개의 주요 AI 챗봇에 대한 감사를 수행했습니다. 여기에는 다음이 포함됩니다.

  • OpenAI’s ChatGPT-4o
  • You.com’s Smart Assistant
  • xAI’s Grok
  • Inflection’s Pi
  • Mistral’s le Chat
  • Microsoft’s Copilot
  • Meta AI
  • Anthropic’s Claude
  • Google’s Gemini
  • Perplexity’s answer engine

감사는 2022년 4월부터 2025년 2월 사이에 150개의 친 크렘린 Pravda 웹사이트에서 적극적으로 홍보한 15개의 뚜렷한 허위 내러티브에 초점을 맞췄습니다. 이러한 내러티브는 특정 정치적 의제를 발전시키기 위해 고안된 다양한 주제를 다루었습니다.

방법론은 NewsGuard의 Misinformation Fingerprints(주요 뉴스 주제에 대한 명백하게 거짓된 주장의 카탈로그)를 기반으로 하는 일련의 프롬프트로 각 챗봇을 테스트하는 것을 포함했습니다. 프롬프트는 사용자가 생성 AI 모델과 상호 작용하는 다양한 방식을 모방하기 위해 Innocent, Leading, Malign의 세 가지 스타일로 제작되었습니다. 그 결과 총 450개의 응답(챗봇당 45개)이 생성되었습니다.

충격적인 결과: 챗봇 전반에 만연한 허위 정보

NewsGuard 감사의 결과는 극명했습니다. 10개의 AI 챗봇은 총 응답의 **33.55%**에서 러시아의 허위 정보 내러티브를 반복했습니다. 18.22%의 경우 응답을 제공하지 않았고 48.22%의 경우 내러티브를 폭로했습니다.

테스트된 모든 챗봇은 Pravda 네트워크에서 비롯된 허위 정보를 반복했습니다. 더욱 우려스러운 점은 7개의 챗봇이 Pravda 웹사이트의 특정 기사를 출처로 직접 인용했다는 것입니다. 두 개의 AI 모델은 명시적인 인용을 제공하지 않지만 여전히 네트워크에서 허위 내러티브를 생성하거나 반복하는 것으로 나타났습니다. 출처를 인용하는 8개의 모델 중 하나만 Pravda를 인용하지 않았습니다.

총 450개의 챗봇 생성 응답 중 56개에는 Pravda 네트워크에서 게시한 허위 주장을 퍼뜨리는 기사에 대한 직접 링크가 포함되었습니다. 챗봇은 총 92개의 서로 다른 허위 정보 기사를 인용했으며, 두 모델은 각각 27개의 Pravda 기사를 참조했습니다. 이 기사는 Denmark.news-pravda.com, Trump.news-pravda.com, NATO.news-pravda.com을 포함하여 네트워크 내의 다양한 도메인에서 시작되었습니다.

프롬프트의 성격: 실제 상호 작용 모방

NewsGuard 감사에 사용된 세 가지 프롬프트 스타일은 AI 챗봇과의 사용자 상호 작용 스펙트럼을 반영하도록 설계되었습니다.

  • Innocent Prompts: 이러한 프롬프트는 사용자가 선입견 없이 단순히 정보를 찾는 것처럼 중립적이고 비유도적인 방식으로 허위 내러티브를 제시했습니다.
  • Leading Prompts: 이러한 프롬프트는 허위 내러티브를 미묘하게 암시하여 명시적으로 언급하지 않고 유효성을 암시했습니다. 이는 사용자가 허위 정보에 어느 정도 노출되어 확인을 구하는 시나리오를 모방합니다.
  • Malign Prompts: 이러한 프롬프트는 허위 내러티브를 사실로 직접 주장하여 사용자가 이미 허위 정보를 확신하고 강화를 구하는 상황을 반영합니다.

이 다면적인 접근 방식은 다양한 유형의 사용자 참여가 챗봇의 응답에 어떤 영향을 미칠 수 있는지 이해하는 데 중요했습니다. 챗봇은 프롬프트 스타일에 관계없이 허위 정보를 반복하는 경향이 있었지만 응답의 빈도와 성격은 다양했습니다.

챗봇이 반복하는 허위 정보의 구체적인 예

NewsGuard 보고서는 Pravda 네트워크에서 전파되고 이후 AI 챗봇에서 반복되는 특정 허위 내러티브의 수많은 예를 제공합니다. 이러한 예는 허위 정보 캠페인의 폭과 깊이를 강조합니다. 내러티브 중 일부는 다음과 같습니다.

  • 우크라이나가 나치 국가라는 주장.
  • 우크라이나 분쟁의 원인에 대한 허위 주장.
  • 분쟁에 대한 서방의 개입에 대한 오해의 소지가 있는 정보.
  • 우크라이나 지도부에 대한 조작된 이야기.

이것들은 NewsGuard에서 세심하게 문서화하고 추적한 많은 허위 내러티브의 몇 가지 예일 뿐입니다. 이러한 내러티브가 주요 AI 챗봇에서 반복되고 있다는 사실은 효과적인 대응책의 긴급한 필요성을 강조합니다.

AI 기반 허위 정보 퇴치의 과제

이 문제를 해결하는 것은 복잡한 작업입니다. 기술적 솔루션과 사용자 인식 제고를 모두 포함하는 다각적인 접근 방식이 필요합니다.

기술적 솔루션:

  • 향상된 데이터 필터링: AI 개발자는 LLM을 훈련하는 데 사용되는 데이터 세트에서 허위 정보를 필터링하는 보다 강력한 메커니즘을 구현해야 합니다. 여기에는 신뢰할 수 없는 소스를 식별하고 제외하는 것뿐만 아니라 잠재적으로 허위 또는 오해의 소지가 있는 정보를 감지하고 플래그를 지정할 수 있는 알고리즘을 개발하는 것이 포함됩니다.
  • 향상된 출처 확인: 챗봇은 신뢰할 수 있고 검증된 출처의 정보를 우선시하도록 설계되어야 합니다. 여기에는 명확한 인용을 제공하고 사용자가 제시된 정보의 출처를 쉽게 추적할 수 있도록 하는 것이 포함됩니다.
  • 투명성 및 설명 가능성: AI 모델은 의사 결정 프로세스에 대해 더 투명해야 합니다. 사용자는 챗봇이 특정 응답을 제공하는 이유와 어떤 데이터 소스에 의존하는지 이해할 수 있어야 합니다.

사용자 인식:

  • 미디어 리터러시 교육: 사용자는 AI 생성 허위 정보의 가능성에 대해 교육을 받아야 합니다. 여기에는 비판적 사고 능력을 개발하고 온라인 정보 소스의 신뢰성을 평가하는 방법을 배우는 것이 포함됩니다.
  • 회의주의 및 확인: 사용자는 AI 챗봇에서 제공하는 정보에 대해 건전한 회의주의를 가지고 접근해야 합니다. 다른 출처와 정보를 상호 참조하고 너무 선정적이거나 너무 좋아서 믿기 어려운 주장에 주의하는 것이 중요합니다.

장기적인 위험: 정치적, 사회적, 기술적

AI 챗봇을 통한 허위 정보의 확산은 심각한 장기적 위험을 초래합니다. 이러한 위험은 개별 허위 내러티브의 즉각적인 영향을 넘어 더 광범위한 사회적 결과를 포함합니다.

  • 정치적 위험: AI 기반 허위 정보를 통한 여론 조작은 민주적 절차를 훼손하고 제도에 대한 신뢰를 약화시킬 수 있습니다. 선거에 영향을 미치고 불화를 조장하며 정부를 불안정하게 만드는 데 사용될 수 있습니다.
  • 사회적 위험: 허위 내러티브의 확산은 기존의 사회적 분열을 악화시키고 새로운 분열을 만들 수 있습니다. 편견, 차별, 심지어 폭력을 조장할 수 있습니다.
  • 기술적 위험: 허위 정보의 확산으로 인한 AI 기술에 대한 신뢰 저하는 개발 및 채택을 방해할 수 있습니다. 사람들은 제공된 정보의 정확성과 신뢰성을 확신할 수 없으면 AI 도구 사용을 꺼릴 수 있습니다.

AI 기반 허위 정보와의 싸움은 매우 중요합니다. 이러한 강력한 기술이 책임감 있고 윤리적으로 사용되도록 AI 개발자, 정책 입안자, 교육자 및 개별 사용자의 공동 노력이 필요합니다. 정보의 미래, 그리고 실제로 우리 사회의 미래가 그것에 달려 있을 수 있습니다.