AI 검색, 거짓말하고 악화되고 있다

정확성의 환상

검색 엔진의 근본적인 약속은 사용자를 신뢰할 수 있는 출처와 연결하는 것이었습니다. 이제 그 약속은 무너지고 있습니다. AI 기반 검색 도구는 점점 더 내용보다 속도를 우선시하여 보기에는 자신감 있어 보이지만 검증 가능한 증거의 필수적인 뒷받침이 없는 답변을 내놓습니다. 우리가 목격하고 있는 것은 사용자를 신뢰할 수 있는 정보로 안내하는 시스템에서 진실성에 거의 상관없이 응답을 제조하는 시스템으로의 전환입니다.

이것은 단순히 가끔 발생하는 오류의 문제가 아닙니다. 이것은 시스템적인 문제입니다. CJR 연구에 따르면 AI 검색 엔진은 단순히 실수를 하는 것이 아니라 검증 가능한 출처와 동떨어진 현실을 적극적으로 구성하고 있습니다. 웹 전체에서 콘텐츠를 스크랩하지만 사용자를 원본 출처(정보를 힘들게 제작하고 게시하는 웹사이트)로 안내하는 대신 즉각적이고 종종 조작된 답변을 제공합니다.

트래픽 유출과 유령 인용

이러한 접근 방식의 결과는 광범위합니다. 즉각적인 영향은 정보의 원본 출처로의 트래픽이 크게 감소한다는 것입니다. 콘텐츠를 만드는 데 시간과 자원을 투자하는 웹사이트, 뉴스 기관 및 연구자들은 자신들이 우회되고 있음을 발견합니다. 사용자는 AI로부터 직접 답변을 얻고 정보를 제공한 사이트를 방문할 필요가 없습니다.

별도의 연구는 이러한 놀라운 추세를 뒷받침하며, AI 생성 검색 결과 및 챗봇의 클릭률이 Google과 같은 기존 검색 엔진보다 현저히 낮다는 것을 발견했습니다. 이는 온라인 콘텐츠의 생명선인 청중에게 다가갈 수 있는 능력이 서서히 질식되고 있음을 의미합니다.

그러나 문제는 더 깊습니다. 이러한 AI 도구는 출처를 밝히지 않을 뿐만 아니라 종종 유령 인용을 생성합니다. 존재하지 않는 웹페이지나 깨지거나 관련 없는 URL에 대한 링크를 생성합니다. 이것은 학생이 연구 논문을 작성하고 자신의 주장을 뒷받침하기 위해 출처를 발명하는 것과 같습니다. 이것은 단지 허술한 것이 아니라 지적 정직성에 대한 근본적인 위반입니다.

속임수에 대한 심층 분석

CJR 연구는 여러 주요 AI 검색 모델의 성능을 꼼꼼하게 분석했습니다. 그 결과는 매우 충격적입니다. AI 검색 환경에서 두각을 나타내는 두 업체인 Google의 Gemini와 xAI의 Grok 3에서 생성된 인용의 절반 이상이 조작되거나 액세스할 수 없는 웹페이지로 연결되었습니다. 이것은 사소한 결함이 아니라 시스템적인 실패입니다.

그리고 문제는 인용을 넘어섭니다. 일반적으로 챗봇은 60% 이상의 경우에 잘못된 정보를 제공하는 것으로 나타났습니다. 평가된 모델 중에서 Grok 3는 가장 심각한 위반자로, 응답의 94%가 부정확했습니다. Gemini는 약간 더 나은 성능을 보였지만 여전히 10번의 시도 중 한 번만 완전히 정확한 답변을 제공했습니다. 테스트된 모델 중 가장 정확한 것으로 나타난 Perplexity조차도 여전히 37%의 경우에 잘못된 응답을 반환했습니다.

이러한 숫자는 단순한 통계가 아니라 정보 신뢰성의 근본적인 붕괴를 나타냅니다. 이는 디지털 세계의 복잡성을 탐색하는 데 도움이 되도록 설계된 도구가 실제로 우리를 잘못된 길로 인도하고 있음을 시사합니다.

규칙 무시: Robot Exclusion Protocol

이 연구의 저자들은 AI 기반 속임수의 또 다른 문제점을 발견했습니다. 여러 AI 모델이 Robot Exclusion Protocol을 의도적으로 무시하는 것으로 보였습니다. 이 프로토콜은 웹사이트가 자동화된 봇이 사이트의 어떤 부분에 액세스하고 스크랩할 수 있는지 제어할 수 있도록 하는 표준적이고 널리 채택된 메커니즘입니다. 웹사이트가 콘텐츠를 보호하고 콘텐츠 사용 방식을 관리하는 방법입니다.

AI 검색 엔진이 이 프로토콜을 무시하고 있다는 사실은 심각한 윤리적 문제를 제기합니다. 이는 콘텐츠 제작자의 권리를 무시하고 허가 없이 온라인 정보를 악용하려는 의지를 시사합니다. 이러한 행동은 정보 접근과 지적 재산 보호 사이의 미묘한 균형에 의존하는 웹의 근간을 훼손합니다.

과거 경고의 메아리

CJR 연구 결과는 고립된 것이 아닙니다. 2024년 11월에 발표된 ChatGPT의 검색 기능에 초점을 맞춘 이전 연구와 일맥상통합니다. 이전 조사에서는 자신감 있지만 부정확한 응답, 오해의 소지가 있는 인용 및 신뢰할 수 없는 정보 검색의 일관된 패턴이 드러났습니다. 즉, CJR에서 확인된 문제는 새로운 것이 아니라 지속적이고 시스템적입니다.

신뢰와 주체성의 침식

이 분야의 전문가들은 한동안 생성 AI의 위험성에 대해 경고해 왔습니다. Chirag Shah와 Emily M. Bender와 같은 비평가들은 AI 검색 엔진이 사용자 주체성을 침식하고 정보 접근의 편향을 증폭시키며 사용자가 의심 없이 받아들일 수 있는 오해의 소지가 있거나 심지어 유해한 답변을 자주 제시한다는 우려를 제기했습니다.

핵심 문제는 이러한 AI 모델이 틀렸을 때에도 권위 있는 것처럼 들리도록 설계되었다는 것입니다. 방대한 텍스트 및 코드 데이터 세트를 기반으로 학습되었으며 인간 언어를 놀라울 정도로 유창하게 모방하는 응답을 생성할 수 있습니다. 그러나 이러한 유창성은 기만적일 수 있습니다. 기본 정보가 결함이 있거나 조작되었거나 단순히 잘못되었다는 사실을 가릴 수 있습니다.

잘못된 정보의 메커니즘

CJR 연구는 서로 다른 생성 AI 검색 모델이 정보를 검색하는 방식을 비교하기 위해 1,600개의 쿼리를 자세히 분석했습니다. 연구자들은 헤드라인, 게시자, 게시 날짜 및 URL과 같은 핵심 요소에 초점을 맞췄습니다. ChatGPT Search, Microsoft CoPilot, DeepSeek Search, Perplexity (및 Pro 버전), xAI의 Grok-2 및 Grok-3 Search, Google Gemini를 포함한 다양한 모델을 테스트했습니다.

테스트 방법론은 엄격했습니다. 연구자들은 20개의 다른 게시자로부터 무작위로 선택된 10개의 기사에서 직접 발췌한 내용을 사용했습니다. 이 접근 방식은 쿼리가 실제 콘텐츠를 기반으로 하고 모델이 해당 콘텐츠를 정확하게 검색하고 표현하는 능력을 평가받도록 했습니다.

앞서 자세히 설명한 결과는 AI 기반 검색의 상태에 대한 암울한 그림을 보여줍니다. 점점 더 우리의 주요 정보 관문이 되고 있는 도구는 명백히 신뢰할 수 없고, 조작되기 쉽고, 종종 그들이 의존하는 출처를 존중하지 않습니다.

정보의 미래에 대한 시사점

이러한 광범위한 잘못된 정보의 영향은 심각합니다. 정보를 찾는 데 사용하는 도구를 신뢰할 수 없다면 어떻게 정보에 입각한 결정을 내릴 수 있습니까? 어떻게 의미 있는 토론에 참여할 수 있습니까? 어떻게 권력에 책임을 물을 수 있습니까?

AI 기반 검색의 부상은 고유한 결함과 편향으로 인해 정보 생태계의 구조 자체에 심각한 위협을 가합니다. 뉴스 기관, 연구자 및 기타 콘텐츠 제작자의 신뢰성을 훼손합니다. 기관에 대한 대중의 신뢰를 약화시킵니다. 그리고 허위 정보를 퍼뜨리고 여론을 조작하려는 사람들에게 힘을 실어줍니다.

우리 앞에 놓인 과제는 단순히 AI 검색 엔진의 정확성을 향상시키는 것이 아닙니다. 디지털 시대에 정보 검색에 접근하는 방식을 근본적으로 다시 생각하는 것입니다. 투명성, 책임성 및 정보 출처에 대한 존중을 우선시해야 합니다. 사용자가 온라인에서 접하는 정보를 비판적으로 평가할 수 있도록 지원하는 도구와 전략을 개발해야 합니다. 그리고 우리는 단순히 정보를 수동적으로 수용하는 것이 아니라 진실 추구에 적극적으로 참여하는 회의주의와 비판적 사고의 문화를 조성해야 합니다. 정보에 입각한 담론, 그리고 아마도 민주주의 자체의 미래가 여기에 달려 있습니다.


AI 기반 검색에서 잘못된 정보의 위기는 단순한 기술적 문제가 아니라 사회적 문제입니다. 엔지니어와 개발자뿐만 아니라 언론인, 교육자, 정책 입안자 및 일반 대중을 포함하는 다각적인 대응이 필요합니다. 우리는 거짓말쟁이가 아닌 정보에 입각한 시민의 요구에 부응하는 더 안정적이고 신뢰할 수 있으며 투명한 정보 생태계를 구축하기 위해 공동으로 노력해야 합니다.


현재 궤도는 지속 불가능합니다. AI 검색이 정확성과 진실보다 속도와 편의성을 계속 우선시한다면 잘못된 정보가 지배하고 객관적 현실이라는 개념 자체가 점점 더 모호해지는 세상을 만들 위험이 있습니다. 이러한 일이 발생하도록 허용하기에는 위험이 너무 큽니다.