OpenAI GPT-4o, 유료 학습 데이터 무단 사용 의혹 재점화

OpenAI와 같은 거대 기업들이 주도하는 인공지능 개발의 끊임없는 행진은 지적 재산권 및 데이터 소유권이라는 오랜 원칙과 자주 충돌합니다. 이러한 충돌은 OpenAI의 최신 주력 모델인 GPT-4o가 필요한 허가를 확보하지 않고 유료 장벽 뒤에 격리된 저작권 자료를 사용하여 훈련되었을 수 있다는 새로운 의혹이 제기되면서 다시 한번 논란을 불러일으켰습니다. 이러한 주장은 새로 설립된 감시 단체인 AI Disclosures Project에서 비롯되었으며, 정교한 AI 시스템 훈련을 위한 데이터의 윤리적 소싱을 둘러싼 이미 복잡한 논쟁에 또 다른 복잡성을 더하고 있습니다.

감시 단체의 경고: AI Disclosures Project의 주장

2024년에 출범한 AI Disclosures Project는 종종 불투명한 AI 산업 내 관행을 면밀히 조사하는 데 전념하는 비영리 단체로 자리매김하고 있습니다. 설립자 중에는 저명한 기술 서적 출판사인 O’Reilly Media의 창립자인 미디어 기업가 Tim O’Reilly와 경제학자 Ilan Strauss와 같은 주목할 만한 인물들이 포함되어 있습니다. O’Reilly Media와의 이러한 연관성은 특히 관련성이 높은데, 이 프로젝트의 첫 폭탄 보고서가 GPT-4o의 훈련 데이터셋 내에 O’Reilly의 유료 도서 콘텐츠가 존재한다는 의혹에 구체적으로 초점을 맞추고 있기 때문입니다.

그들의 연구의 핵심 주장은 도발적입니다: OpenAI와 O’Reilly Media 사이에 알려진 라이선스 계약이 없음에도 불구하고, GPT-4o 모델은 O’Reilly의 저작권 있는 책에서 직접 파생된 콘텐츠에 대해 현저하게 높은 수준의 친숙도를 보인다는 것입니다. 보고서는 이러한 친숙도가 이 유료 자료들이 모델의 능력을 구축하는 데 사용된 방대한 데이터 코퍼스에 통합되었음을 강력하게 시사한다고 주장합니다. 이 연구는 이전 OpenAI 모델, 특히 GPT-3.5 Turbo와 비교하여 상당한 차이를 강조하며, GPT-4o 개발에 이르기까지 데이터 수집 관행에 잠재적인 변화나 확장이 있었음을 암시합니다.

그 영향은 상당합니다. 만약 독점적인 유료 콘텐츠가 승인이나 보상 없이 AI 모델에 의해 흡수되고 있다면, 이는 생성형 AI 시대의 저작권법에 대한 근본적인 질문을 제기합니다. 출판사와 저자는 콘텐츠의 독점성을 전제로 한 구독 또는 구매 모델에 의존합니다. 훈련을 위해 이 자료를 사용했다는 주장은 이러한 비즈니스 모델을 약화시키는 것으로 볼 수 있으며, 잠재적으로 상당한 투자가 필요한 콘텐츠 자체의 가치를 떨어뜨릴 수 있습니다. 이 구체적인 비난은 공개적으로 이용 가능한 웹사이트를 스크래핑하는 것을 넘어, 명시적으로 유료 고객을 대상으로 하는 콘텐츠에 접근하는 영역으로 나아갑니다.

블랙박스 들여다보기: 멤버십 추론 공격

그들의 주장을 입증하기 위해 AI Disclosures Project의 연구원들은 ‘멤버십 추론 공격(membership inference attack)’으로 알려진 정교한 기술을 사용했으며, 구체적으로 그들이 DE-COP이라고 부르는 방법을 사용했습니다. 이 접근법의 핵심 아이디어는 AI 모델이 특정 텍스트 조각을 ‘기억’했는지, 또는 적어도 강한 친숙도를 개발했는지 테스트하는 것입니다. 본질적으로, 이 공격은 모델이 원본 텍스트 구절(이 경우 O’Reilly 책에서 발췌)과 다른 AI에 의해 생성된 동일한 구절의 신중하게 구성된 의역된 버전 사이를 안정적으로 구별할 수 있는지 확인하기 위해 모델을 탐색합니다.

기본 논리는 만약 모델이 가까운 의역본과 비교하여 원본 인간 저작 텍스트를 식별하는 데 무작위보다 일관되게 높은 능력을 보인다면, 이는 모델이 이전에 해당 원본 텍스트를 접했다는 것을 의미한다는 것입니다. 이는 마치 본 적이 없다고 주장하는 특정하고 덜 알려진 사진을 누군가가 인식하는지 테스트하는 것과 유사합니다. 일관된 인식은 이전 노출을 시사합니다.

AI Disclosures Project 테스트의 규모는 상당했습니다. 그들은 34권의 다른 O’Reilly Media 책에서 발췌한 13,962개의 고유한 단락 발췌문을 활용했습니다. 이 발췌문들은 일반적으로 해당 출판사의 유료 장벽 뒤에서 발견되는 종류의 전문적이고 가치 높은 콘텐츠를 대표했습니다. 그런 다음 연구는 GPT-4o와 그 이전 모델인 GPT-3.5 Turbo 모두의 이 차별화 작업 성능을 측정했습니다.

보고서에 제시된 결과는 놀라웠습니다. GPT-4o는 유료 O’Reilly 콘텐츠를 인식하는 능력이 현저하게 향상되었음을 보여주었습니다. 그 성능은 이진 분류기의 성능을 평가하는 일반적인 지표인 AUROC(Area Under the Receiver Operating Characteristic curve) 점수를 사용하여 정량화되었습니다. GPT-4o는 82%의 AUROC 점수를 달성했습니다. 대조적으로, GPT-3.5 Turbo는 **50%**를 약간 넘는 점수를 기록했는데, 이는 본질적으로 무작위 추측과 동일하며 테스트된 자료에 대한 특정 인식이 거의 없음을 나타냅니다. 보고서는 이 뚜렷한 차이가 유료 콘텐츠가 실제로 GPT-4o의 훈련 데이터의 일부였다는 설득력 있는, 비록 간접적인, 증거를 제공한다고 주장합니다. 82%의 점수는 우연이나 일반화된 지식으로 예상되는 것보다 훨씬 강력한 신호를 시사합니다.

필요한 주의 사항 및 미해결 질문

연구 결과가 설득력 있는 이야기를 제시하지만, AI 연구원 Sruly Rosenblat를 포함한 연구의 공동 저자들은 그들의 방법론과 AI 훈련의 복잡한 특성에 내재된 잠재적 한계를 칭찬할 만하게 인정합니다. 그들이 제기하는 한 가지 중요한 주의 사항은 간접적인 데이터 흡수의 가능성입니다. 그들은 OpenAI의 인기 있는 인터페이스인 ChatGPT 사용자가 텍스트에 대해 질문하거나 요약을 요청하는 등 다양한 목적으로 유료 O’Reilly 책의 발췌문을 채팅 인터페이스에 직접 복사하여 붙여넣었을 수 있다고 지적합니다. 만약 이것이 충분히 자주 발생했다면, 모델은 초기 훈련 데이터셋에 직접 포함되는 대신 사용자 상호 작용을 통해 간접적으로 콘텐츠를 학습했을 수 있습니다. 직접적인 훈련 노출과 사용자 프롬프트를 통한 간접 학습을 분리하는 것은 AI 포렌식에서 여전히 중요한 과제입니다.

또한, 이 연구의 범위는 GPT-4o의 주요 훈련 주기와 동시에 또는 이후에 개발되거나 출시되었을 수 있는 OpenAI의 절대 최신 또는 특수 모델 반복까지 확장되지 않았습니다. 잠재적으로 GPT-4.5(해당 특정 명칭 또는 기능 수준 하에 존재한다면) 및 추론 중심 모델인 o3-minio1과 같은 모델은 동일한 멤버십 추론 공격을 받지 않았습니다. 이는 데이터 소싱 관행이 더 발전했을 수 있는지, 또는 이러한 최신 모델이 유료 콘텐츠에 대해 유사한 친숙도 패턴을 보이는지에 대한 질문을 남깁니다. AI 개발의 빠른 반복 주기는 모든 스냅샷 분석이 거의 즉시 약간 구식이 될 위험이 있음을 의미합니다.

이러한 한계가 반드시 연구의 핵심 결과를 무효화하는 것은 아니지만, 중요한 뉘앙스 층을 추가합니다. 파운데이션 모델을 훈련하는 데 사용된 테라바이트 규모의 데이터 내에 무엇이 있는지 결정적으로 증명하는 것은 악명 높게 어렵습니다. 멤버십 추론 공격은 확률적 증거를 제공하며, 절대적인 확실성을 제공하기보다는 가능성을 시사합니다. OpenAI는 다른 AI 연구소와 마찬가지로 독점적 우려와 경쟁적 민감성을 이유로 훈련 데이터 구성을 면밀히 보호합니다.

더 넓은 충돌: AI 분야의 저작권 전쟁

AI Disclosures Project가 제기한 의혹은 진공 상태에서 존재하지 않습니다. 이는 AI 개발자와 창작자 간에 훈련 목적으로 저작권 자료를 사용하는 것에 대한 훨씬 더 광범위하고 진행 중인 갈등의 최신 전초전을 나타냅니다. OpenAI는 Google, Meta, Microsoft와 같은 다른 저명한 플레이어들과 함께 여러 유명 소송에 휘말려 있습니다. 저자, 예술가, 뉴스 기관 및 기타 권리 보유자들이 제기한 이러한 법적 도전은 일반적으로 생성형 AI 모델을 훈련하기 위해 인터넷에서 방대한 양의 텍스트와 이미지를 무단으로 스크래핑하고 흡수한 데서 비롯된 광범위한 저작권 침해를 주장합니다.

AI 기업들이 종종 내세우는 핵심 방어는 (미국의 경우) 공정 사용(fair use) 원칙 또는 다른 관할권의 유사한 예외에 달려 있습니다. 그들은 훈련을 위해 저작권 있는 저작물을 사용하는 것이 ‘변형적’ 사용에 해당한다고 주장합니다. 즉, AI 모델은 단순히 원본 저작물을 복제하는 것이 아니라 데이터를 사용하여 패턴, 스타일 및 정보를 학습하여 완전히 새로운 결과물을 생성한다는 것입니다. 이러한 해석 하에서는, 강력한 새 도구를 만드는 것을 목표로 하는 훈련 과정 자체가 흡수된 모든 데이터 조각에 대해 라이선스를 요구하지 않고 허용되어야 합니다.

그러나 권리 보유자들은 이 견해에 격렬하게 반대합니다. 그들은 관련된 복제의 엄청난 규모, 구축되는 AI 제품의 상업적 성격, 그리고 AI 결과물이 원본 저작물과 직접 경쟁하고 대체할 가능성이 공정 사용 판정에 크게 불리하게 작용한다고 주장합니다. 논쟁의 핵심은 AI 기업들이 창작자에게 보상하지 않고 창의적인 작업의 결과물 위에 수십억 달러 규모의 기업을 구축하고 있다는 것입니다.

이러한 소송이 진행되는 배경 속에서 OpenAI는 다양한 콘텐츠 제공업체와 라이선스 계약을 체결함으로써 일부 위험을 완화하기 위해 선제적으로 노력해 왔습니다. 주요 뉴스 발행사(Associated Press 및 Axel Springer 등), 소셜 미디어 플랫폼(Reddit 등), 스톡 미디어 라이브러리(Shutterstock 등)와의 계약이 발표되었습니다. 이러한 계약은 OpenAI에게 특정 데이터셋에 대한 합법적인 접근 권한을 제공하고 대가를 지불함으로써, 잠재적으로 침해 가능성이 있는 웹 스크래핑 데이터에 대한 의존도를 줄입니다. 또한 회사는 모델 결과물의 품질과 신뢰성을 개선하고 정제하는 데 도움을 줄 언론인들을 고용한 것으로 알려졌으며, 이는 고품질의 잠재적으로 큐레이션된 입력의 필요성에 대한 인식을 시사합니다.

파급 효과: 콘텐츠 생태계 우려

AI Disclosures Project의 보고서는 OpenAI에 대한 즉각적인 법적 영향력을 넘어 우려를 확장합니다. 이 문제를 전체 디지털 콘텐츠 생태계의 건강과 다양성에 부정적인 영향을 미칠 수 있는 시스템적 위협으로 규정합니다. 이 연구는 잠재적으로 해로운 피드백 루프를 가정합니다: 만약 AI 기업들이 고품질의 전문적으로 제작된 콘텐츠(유료 자료 포함)를 창작자에게 보상하지 않고 자유롭게 사용할 수 있다면, 이는 애초에 그러한 콘텐츠를 제작하는 재정적 생존 가능성을 침식합니다.

탐사 저널리즘, 심층 기술 매뉴얼, 소설 쓰기, 학술 연구 등 전문적인 콘텐츠 제작에는 종종 상당한 시간, 전문 지식 및 재정적 투자가 필요합니다. 유료 장벽과 구독 모델은 종종 이 작업을 지원하는 필수적인 메커니즘입니다. 만약 이러한 노력을 지원하는 수익 흐름이 콘텐츠가 보상 없이 경쟁 AI 시스템을 훈련하는 데 효과적으로 사용되기 때문에 감소한다면, 고품질의 다양한 콘텐츠를 만들려는 인센티브가 줄어들 수 있습니다. 이는 정보가 부족한 대중, 전문 지식 자원의 감소, 그리고 잠재적으로 인간의 전문성과 검증이 부족한 저품질 또는 AI 생성 콘텐츠가 지배하는 인터넷으로 이어질 수 있습니다.

결과적으로 AI Disclosures Project는 AI 기업의 훈련 데이터 관행에 대한 더 큰 투명성과 책임성을 강력하게 옹호합니다. 그들은 창작자의 작업이 상업적 AI 모델 개발에 기여할 때 공정하게 보상받도록 보장하는 강력한 정책 및 잠재적 규제 프레임워크의 구현을 요구합니다. 이는 라이선스 계약, 로열티 시스템 또는 단체 교섭을 통해 자신의 지적 재산으로 훈련된 AI 시스템이 생성한 가치의 일부를 받을 수 있도록 보장하는 메커니즘을 추구하는 전 세계 창작자 그룹의 광범위한 요구를 반영합니다. 논쟁은 AI 혁신이 인간의 창의성과 지식 생성을 위한 번성하는 생태계와 함께 번창할 수 있는 지속 가능한 균형을 찾는 데 중점을 둡니다. 진행 중인 법적 싸움의 해결과 새로운 법률 또는 산업 표준의 가능성은 이 미래 균형을 형성하는 데 중요할 것입니다. 방대하고 복잡한 AI 모델에서 데이터 출처를 추적하고 가치를 귀속시키는 방법에 대한 질문은 여전히 중요한 기술적, 윤리적 장애물로 남아 있습니다.