AI 시대의 저작권: 고조되는 폭풍
인공지능, 특히 OpenAI와 같은 업계 거물들이 개발한 정교한 거대 언어 모델(LLMs)의 세계는 점점 커지는 법적, 윤리적 폭풍에 직면해 있습니다. 이 폭풍의 중심에는 근본적인 질문이 있습니다: 이 강력한 기계들을 구동하는 데이터는 무엇이며, 그 과정에서 창작자의 권리는 존중되었는가? 소설, 기사, 코드 등 방대한 양의 저작권 보호 자료가 필요한 허가나 보상 없이 훈련 단계에서 이 모델들에 의해 흡수되었을 수 있다는 비난이 쌓이고 있습니다. 이는 단순한 학문적 논쟁이 아니라, 고액 소송으로 빠르게 확대되고 있습니다.
OpenAI는 작가, 프로그래머, 다양한 권리 보유자들이 제기한 법적 싸움에 점점 더 얽히고 있습니다. 이들 원고는 자신들의 지적 재산이 헤드라인을 장식하고 산업을 변화시키는 바로 그 AI 모델을 구축하는 데 부적절하게 활용되었다고 주장합니다. 그들의 주장은 현행 저작권법이 보호받는 저작물을 상업적 AI 시스템의 훈련 자료로 전면적으로 사용하는 것을 명시적으로 허용하지 않는다는 주장에 근거합니다. 이에 대해 OpenAI는 ‘공정 이용(fair use)’ 원칙을 일관되게 주장해 왔습니다. 이는 특정 상황 하에서 허가 없이 저작권 자료를 제한적으로 사용할 수 있도록 허용하는 복잡한 법적 원칙입니다. 그러나 AI 훈련의 전례 없는 규모와 성격에 공정 이용이 적용될 수 있는지 여부는 여전히 치열하게 다투어지는 회색 지대로 남아 있으며, 획기적인 법적 선례를 위한 무대를 마련하고 있습니다. 핵심적인 긴장은 저작권 있는 저작물을 모델 내의 통계적 패턴으로 변환하는 것이 공정 이용의 핵심 요소인 ‘변형적 사용(transformative use)’에 해당하는지, 아니면 단순히 대규모 무단 복제에 해당하는지를 둘러싸고 전개됩니다. 이러한 소송의 결과는 AI 개발의 미래 궤도를 심오하게 형성할 수 있으며, 잠재적으로 모델 제작자에게 상당한 제약이나 비용을 부과할 수 있습니다.
블랙박스 들여다보기: 암기 탐지를 위한 새로운 방법
이 뜨거운 논쟁에 불을 지핀 것은 University of Washington, University of Copenhagen, Stanford University 등 저명한 기관의 연구원들로 구성된 협력팀이 수행한 최근 연구입니다. 그들의 연구는 OpenAI의 것과 같이 제한적인 애플리케이션 프로그래밍 인터페이스(APIs)를 통해서만 접근 가능한 AI 모델조차도 훈련 데이터의 특정 부분을 ‘암기’한 것으로 보이는 사례를 탐지하기 위해 특별히 설계된 혁신적인 기술을 소개합니다. 이는 GPT-4와 같은 상업용 모델의 내부 작동 방식이나 정확한 훈련 데이터셋에 외부 연구자가 접근하는 것이 일반적으로 불가능하기 때문에 중요한 돌파구입니다.
이 모델들이 어떻게 작동하는지 이해하는 것이 이 연구의 중요성을 파악하는 열쇠입니다. 핵심적으로 LLM은 믿을 수 없을 정도로 정교한 예측 엔진입니다. 이들은 진정으로 방대한 양의 텍스트와 코드로 훈련되어 단어, 구, 개념 간의 복잡한 통계적 관계를 학습합니다. 이 학습 과정을 통해 일관성 있는 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창의적인 콘텐츠를 작성하고,유익한 방식으로 질문에 답할 수 있습니다. 목표는 모델이 정보를 단순히 그대로 저장하는 것이 아니라 패턴을 일반화하는 것이지만, 훈련 데이터의 엄청난 규모는 어느 정도의 암기를 거의 불가피하게 만듭니다. 수많은 교과서를 공부하는 학생을 생각해 보십시오. 개념을 이해하는 것을 목표로 하지만, 특히 독특한 문장이나 정의는 무심코 암기할 수 있습니다. 이전 관찰에서는 이미 이미지 생성 모델이 훈련된 영화에서 인식 가능한 요소를 재현하고, 언어 모델이 뉴스 기사와 같은 출처에서 놀랍도록 유사하거나 직접 복사된 텍스트를 생성하는 것을 보여주었습니다. 이 현상은 표절과 AI 생성 콘텐츠의 진정한 독창성에 대한 심각한 우려를 제기합니다.
연구자들이 제안한 방법론은 영리하면서도 많은 것을 드러냅니다. 이는 그들이 ‘높은 놀라움(high-surprisal)’ 단어라고 부르는 것을 식별하고 활용하는 데 중점을 둡니다. 이것들은 문장이나 구절의 특정 맥락 내에서 통계적으로 비정상적이거나 예상치 못한 것처럼 보이는 단어입니다. “The ancient mariner navigated by the faint glow of the sextant.”라는 구절을 생각해 보십시오. ‘sextant’라는 단어는 일반적인 텍스트 코퍼스에서 ‘stars’, ‘moon’ 또는 ‘compass’와 같은 단어가 해당 맥락에서 통계적으로 더 가능성이 높기 때문에 높은 놀라움 단어로 간주될 수 있습니다. 연구자들은 만약 모델이 훈련 중에 특정 텍스트 구절을 정말로 암기했다면, 해당 구절에서 이 독특하고 높은 놀라움 단어들이 제거되었을 때 이를 예측하는 데 유난히 뛰어날 것이라고 가설을 세웠습니다.
이 가설을 검증하기 위해 연구팀은 강력한 GPT-4와 그 이전 모델인 GPT-3.5를 포함한 OpenAI의 여러 주력 모델을 체계적으로 조사했습니다. 그들은 인기 소설이나 The New York Times 기사와 같은 알려진 출처에서 텍스트 스니펫을 가져왔습니다. 결정적으로, 그들은 이 스니펫에서 식별된 높은 놀라움 단어들을 가리거나 제거했습니다. 그런 다음 모델에게 빈칸을 채우도록, 즉 통계적으로 가능성이 낮은 누락된 단어를 ‘추측’하도록 프롬프트를 제공했습니다. 이 연구의 핵심 논리는 설득력이 있습니다. 만약 모델이 이러한 높은 놀라움 단어들을 일관되고 정확하게 예측한다면, 이는 모델이 단순히 일반적인 언어 패턴을 학습한 것이 아니라 실제로 훈련 데이터에서 해당 텍스트 시퀀스의 특정 기억을 보유하고 있음을 강력하게 시사합니다. 무작위적인 우연이나 일반적인 언어 이해만으로는 특정 맥락에서 흔하지 않은 단어에 대해 그렇게 정확한 추측을 생성할 가능성이 낮습니다.
연구 결과: AI 출력물 속 저작권 텍스트의 메아리
이러한 세심한 테스트에서 도출된 결과는 저작권 침해 주장을 뒷받침하는 설득력 있는, 비록 예비적이지만, 증거를 제공합니다. 연구의 발표된 결과에 따르면, 연구 당시 OpenAI의 가장 진보된 공개 모델인 GPT-4는 인기 소설 책의 일부를 그대로 암기한 상당한 징후를 보였습니다. 여기에는 저작권이 있는 전자책에서 추출한 샘플로 구성된 BookMIA라는 특정 데이터셋 내에서 발견된 텍스트가 포함되었습니다. 이 데이터셋은 잠재적으로 침해적인 훈련 소스에 대한 논의에서 자주 언급됩니다. 모델은 단순히 일반적인 주제나 스타일을 기억하는 것이 아니라, 독특하고 높은 놀라움 단어를 포함하는 텍스트 시퀀스를 정확하게 재구성하고 있었으며, 이는 단순한 패턴 일반화보다 더 깊은 수준의 보유를 나타냅니다.
더 나아가, 조사는 GPT-4가 New York Times 기사의 일부를 암기한 증거도 보여주었습니다. 그러나 연구자들은 뉴스 기사에 대한 명백한 암기율이 소설 책에서 관찰된 것보다 상대적으로 낮았다고 지적했습니다. 이 차이는 원본 훈련 데이터셋 내에서 이러한 다른 텍스트 유형의 빈도나 표현 방식, 또는 모델이 저널리즘 산문 대 서사 산문을 처리하는 방식의 차이 등 다양한 요인에 기인할 수 있습니다. 정확한 비율에 관계없이, 문학 작품과 저널리즘 기사 모두 다른 유형의 저작권 콘텐츠에 걸쳐 암기가 발생했다는 사실은 이 현상이 단일 장르나 출처에 국한되지 않는다는 주장을 강화합니다.
이러한 발견은 진행 중인 법적 및 윤리적 논의에서 상당한 무게를 지닙니다. 만약 GPT-4와 같은 모델이 실제로 훈련받은 특정 저작권 구절을 그대로 내뱉을 수 있다면, 이는 OpenAI의 공정 이용 방어를 복잡하게 만듭니다. 공정 이용은 종종 원본 저작물을 변형하는 사용을 선호합니다. 비록 의도하지 않았거나 확률적일지라도, 그대로의 복제는 변형에서 벗어나 단순 복사 쪽으로 기울어집니다. 이 증거는 저작권 소송에서 원고가 OpenAI의 훈련 관행이 침해적인 파생 저작물을 생성했거나 모델의 출력에 의한 직접적인 침해를 용이하게 했다고 주장하는 데 잠재적으로 활용될 수 있습니다. 이는 훈련에 사용된 데이터와 AI가 생성한 특정 출력물 사이의 구체적인 연결 고리를 강조하며, ‘패턴 학습’이라는 추상적인 개념을 구체적인 복제에 훨씬 더 가깝게 느끼게 만듭니다.
AI 개발에서의 신뢰와 투명성의 필요성
University of Washington의 박사 과정 학생이자 이 연구의 공동 저자 중 한 명인 Abhilasha Ravichander는 그들의 연구가 갖는 더 넓은 의미를 강조했습니다. 그녀는 이러한 발견이 많은 현대 AI 모델의 기반이 될 수 있는 잠재적으로 ‘논쟁의 여지가 있는 데이터’에 중요한 빛을 비춘다고 강조했습니다. 암기된 콘텐츠를 식별하는 능력은 OpenAI와 같은 회사가 사용하는 불투명한 훈련 데이터셋을 들여다볼 수 있는 작은 창을 제공합니다.
Ravichander는 AI 연구 커뮤니티와 대중 사이에서 커지고 있는 정서를 분명히 밝혔습니다: “신뢰할 수 있는 거대 언어 모델을 갖기 위해서는 과학적으로 조사하고 감사하고 검토할 수 있는 모델이 필요합니다.” 이 발언은 AI 산업이 직면한 중요한 과제를 강조합니다. 이러한 모델들이 뉴스 기사 생성 및 코드 작성에서부터 의료 진단 및 재무 분석 지원에 이르기까지 사회의 다양한 측면에 더욱 통합됨에 따라 신뢰와 책임의 필요성이 가장 중요해집니다. 사용자, 규제 기관 및 대중은 이러한 시스템이 공정하고 신뢰할 수 있으며 윤리적으로 작동한다는 보증이 필요합니다. 많은 현재 LLM의 ‘블랙박스’ 특성, 즉 제작자조차도 내부 작동의 모든 뉘앙스나 특정 출력의 정확한 출처를 완전히 이해하지 못할 수 있다는 점은 이러한 신뢰 구축을 방해합니다.
이 연구에서 제안된 방법론은 저작권 암기 탐지 기술 이상의 것을 나타냅니다. 이는 더 넓은 **AI 감사(AI auditing)**를 위한 잠재적인 도구 역할을 합니다. API를 통해서만 접근 가능한 모델조차도 조사할 수 있는 능력은 독립적인 검증과 분석을 가능하게 합니다. Ravichander는 또한 **”전체 생태계에서 더 큰 데이터 투명성의 필요성”**을 시급히 강조했습니다. 이러한 모델이 어떤 데이터로 훈련되었는지 알지 못하면 잠재적 편견을 평가하고, 보안 취약점을 식별하고, 유해하거나 부정확한 출력의 출처를 이해하거나, 이 연구가 강조하듯이 잠재적인 저작권 침해의 정도를 결정하는 것이 엄청나게 어려워집니다. 투명성에 대한 요구는 단순히 학문적인 것이 아니라 책임감 있고 지속 가능한 AI 미래를 구축하기 위한 근본적인 요구 사항입니다. 여기에는 독점 정보 및 지적 재산(모델 자체 포함) 보호와 공공 책임 및 안전 보장 사이의 복잡한 절충이 포함됩니다. 강력한 감사 도구 및 프레임워크 개발과 함께 데이터 공개에 대한 명확한 표준 마련은 AI가 계속해서 빠르게 발전함에 따라 점점 더 중요해지고 있습니다.
OpenAI의 입장과미지의 길
창작자와 입법자들의 압력이 거세지는 가운데, OpenAI는 AI 모델 훈련을 위해 저작권 자료를 광범위하게 사용할 수 있도록 허용하는 법적 및 규제 환경을 지속적으로 옹호해 왔습니다. 회사는 이러한 유연성이 혁신과 미국이 글로벌 AI 경쟁에서 경쟁 우위를 유지하는 데 필수적이라고 주장합니다. 그들의 로비 활동은 전 세계 정부가 기존 저작권법, 특히 미국의 ‘공정 이용’ 개념을 AI 개발자에게 유리한 방식으로 해석하거나 성문화하도록 설득하는 데 초점을 맞추어 왔습니다. 그들은 저작권 있는 저작물을 포함한 다양한 데이터셋으로 모델을 훈련하는 것이 강력하고 유익한 AI 시스템을 만드는 데 필요한 변형적 사용이라고 주장합니다.
그러나 증가하는 우려를 인식하고 OpenAI는 이 문제를 해결하기 위한 몇 가지 조치를 취하기도 했습니다. 비록 비평가들이 종종 불충분하다고 간주하는 조치들이지만 말입니다. 회사는 특정 출판사 및 콘텐츠 제작자와 콘텐츠 라이선스 계약을 체결하여 그들의 자료를 사용할 명시적인 허가를 확보했습니다. 이러한 계약은 중요하지만, GPT-4와 같은 모델을 훈련하는 데 사용되었을 가능성이 있는 데이터의 일부에 불과합니다. 또한 OpenAI는 옵트아웃(opt-out) 메커니즘을 구현했습니다. 이를 통해 저작권 보유자는 자신의 콘텐츠가 미래의 AI 훈련 목적으로 사용되지 않도록 공식적으로 요청할 수 있습니다. 겉보기에는 창작자의 권리를 존중하는 단계처럼 보이지만, 이러한 옵트아웃 시스템의 효과와 실용성은 논란의 여지가 있습니다. 이는 자신의 저작물이 사용될 수 있다는 사실을 발견하고 OpenAI의 특정 절차를 통해 옵트아웃해야 하는 부담을 개별 창작자에게 지웁니다. 더욱이 이러한 메커니즘은 일반적으로 이미 훈련된 모델에서의 콘텐츠 사용 문제를 해결하지 못합니다.
현재 상황은 근본적인 긴장을 반영합니다: 혁신을 위해 방대한 디지털 정보 세계를 활용하려는 AI 기업의 욕구 대 자신의 원본 저작물을 통제하고 이익을 얻을 창작자의 권리. 암기를 입증하는 연구는 또 다른 복잡성을 더하며, 데이터를 ‘학습하는 것’과 ‘복사하는 것’ 사이의 경계가 모델 개발자들이 이전에 인정한 것보다 더 모호하고 아마도 더 자주 넘나들고 있음을 시사합니다. 앞으로 나아갈 길은 불확실합니다. 이는 AI 훈련 데이터를 구체적으로 다루는 새로운 법률 제정, 이 새로운 맥락에서 기존 저작권법을 해석하는 획기적인 법원 판결, 업계 전반의 모범 사례 및 라이선스 프레임워크 개발, 또는 개선된 데이터 출처 추적이나 모델 암기 감소 기술과 같은 기술적 해결책을 포함할 수 있습니다. 분명한 것은 AI와 저작권에 대한 논쟁이 끝나려면 멀었다는 것입니다. 실제로, 이는 인공지능의 미래와 창조 경제 모두에 심오한 영향을 미치며 이제 막 시작되었을 수도 있습니다. 암기에 관한 발견은 이러한 강력한 도구를 구동하는 디지털 데이터에는 무시할 수 없는 기원, 소유자 및 권리가 있음을 냉혹하게 상기시켜 줍니다.