생성형 AI 저작권 분쟁 심화: 뉴스 퍼블리셔, Cohere RAG 기술 표적

AI 개발 환경은 다시 한번 법적 공방에 휩싸였습니다. 주요 뉴스 및 미디어 조직들이 생성형 AI 스타트업 Cohere를 상대로 저작권 및 상표권 침해 소송을 제기했기 때문입니다. 2025년 2월, 미국 뉴욕 남부 지방 법원에 제기된 이 소송에는 Forbes, The Guardian, Los Angeles Times와 같은 존경받는 출판물을 포함하여 12개 이상의 원고가 이름을 올렸습니다. 문제의 핵심은 Cohere의 Retrieval-Augmented Generation (RAG) 기술 활용에 있으며, 원고들은 이 기술이 데이터베이스를 구축하고 출력을 생성하기 위해 저작권으로 보호되는 자료를 무단으로 사용하는 것을 포함한다고 주장합니다.

RAG 기술에 대한 정밀 조사

Retrieval-Augmented Generation (RAG)은 대규모 언어 모델 (LLM)과 관련된 몇 가지 고유한 문제에 대한 잠재적인 해결책으로 부상했습니다. 2020년 Patrick Lewis와 그의 동료들이 제안한 RAG는 환각 (사실과 다르거나 터무니없는 정보를 생성하는 것), 오래된 지식, 모델 추론의 투명성 부족과 같은 문제를 완화하는 것을 목표로 합니다. 흥미롭게도 Patrick Lewis는 현재 Cohere의 연구원으로 RAG 기술에 대한 연구를 계속하고 있습니다. RAG의 채택은 Microsoft, Google, Amazon, NVIDIA와 같은 주요 기업들이 이를 AI 시스템에 통합하면서 널리 퍼져 있습니다.

뉴스 퍼블리셔들이 제기한 소송은 Cohere에 대한 저작권 침해에 대한 몇 가지 주요 주장에 초점을 맞추고 있습니다. 이러한 주장은 생성형 AI 모델의 학습 및 운영에서 저작권으로 보호되는 자료의 사용을 둘러싼 복잡한 법적 문제를 강조합니다.

Cohere에 대한 저작권 침해 주장

원고들의 Cohere에 대한 주장은 크게 네 가지 범주로 나눌 수 있습니다.

1. AI 모델 학습

원고 주장의 핵심은 Cohere가 “Command Family”로 알려진 대규모 언어 모델을 학습시킨 방식에 있습니다. 그들은 Cohere가 원고의 출판물에서 저작권으로 보호되는 콘텐츠를 포함하여 인터넷에서 광범위한 텍스트 “스크래핑”에 관여했다고 주장합니다. 그런 다음 이 스크래핑된 데이터는 Command Family 모델을 학습하는 데 필요한 데이터 세트를 만드는 데 사용되었습니다. 또한 원고들은 Cohere가 필요한 허가를 받지 않고 Common Crawl의 C4와 같은 타사 데이터 세트를 활용했으며, 여기에는 상당한 양의 저작권으로 보호되는 자료가 포함되어 있다고 주장합니다.

AI 모델 학습에서 저작권으로 보호되는 자료의 사용은 논쟁의 여지가 있는 문제가 되었습니다. AI 개발자는 종종 그러한 사용이 비평, 논평, 뉴스 보도, 교육, 학문 또는 연구와 같은 목적으로 저작권으로 보호되는 자료를 제한적으로 사용할 수 있도록 허용하는 “공정 사용” 원칙에 해당한다고 주장합니다. 그러나 저작권 소유자는 AI 모델 학습과 같은 상업적 목적으로 콘텐츠를 대규모로 스크래핑하고 사용하는 것은 공정 사용 범위를 벗어난다고 주장합니다. 이 법적 싸움은 법원이 원고의 평가에 동의하는지 여부에 달려 있을 것입니다.

2. 실시간 사용 / RAG

소송의 또 다른 핵심 측면은 Cohere의 서비스, 특히 Chat 인터페이스가 실시간으로 RAG 기술을 활용하는 방법에 초점을 맞추고 있습니다. 원고는 Cohere의 모델이 사용자 쿼리에 대한 응답을 생성하기 위해 웹사이트를 포함한 외부 소스에서 콘텐츠를 스크래핑한다고 주장합니다. 원고에 따르면 이러한 실시간 스크래핑은 특히 Cohere의 모델이 유료 장벽을 우회하거나 웹 크롤러 (AI 모델에서 사용되는 크롤러 포함)에게 웹사이트에서 특정 콘텐츠를 스크래핑하지 않도록 지시하는 명령인 “robots.txt” 지시문을 무시하는 경우 저작권 침해를 구성합니다.

유료 장벽 및 robots.txt 지시문을 우회하는 것은 심각한 윤리적 및 법적 문제를 야기합니다. 유료 장벽은 저작권으로 보호되는 콘텐츠를 보호하고 게시자가 작업에 대한 보상을 받을 수 있도록 설계되었습니다. Robots.txt 지시문은 웹사이트 소유자가 웹 크롤러가 콘텐츠에 액세스하고 사용하는 방법을 제어하는 표준 메커니즘입니다. 이러한 보호 장치를 무시함으로써 Cohere는 저작권법 및 콘텐츠 제작자의 권리를 무시하는 것으로 비난받고 있습니다.

3. 침해적인 출력물

원고는 Cohere의 서비스가 사용자 쿼리에 대한 응답으로 저작권으로 보호되는 작품의 사본, 실질적인 발췌문 또는 대체 요약 형태로 침해적인 출력물을 제공한다고 주장합니다. 그들은 Cohere Chat 출력물의 예를 인용하며, 여기서 “Under the Hood” 패널은 원고 웹사이트에서 직접 복사한 전체 또는 부분 기사를 표시합니다.

원고는 이러한 출력물이 단순한 복사본이든 요약이든 사용자가 원래 기사를 방문할 필요성을 직접 대체한다고 주장합니다. 이는 차례로 원고가 사업을 유지하는 데 의존하는 디지털 구독 및 광고 수익을 해칩니다. 이 주장의 핵심은 Cohere의 AI 모델이 본질적으로 저작권으로 보호되는 콘텐츠의 무단 배포자 역할을 하여 원래 게시자에게 정당한 보상을 박탈한다는 것입니다.

4. 무단 각색

“Under the Hood” 패널에 원고 작품의 일부를 표시하는 것 외에도 Cohere의 서비스는 이러한 작품의 요약 또는 초록도 제공합니다. 원고는 이러한 요약의 세부 수준이 매우 광범위하여 공정 사용의 경계를 넘어 본질적으로 원래 작품을 대체한다고 주장합니다.

저작권법은 저작권으로 보호되는 작품의 문구 그대로의 복제뿐만 아니라 원작의 각색 또는 변형인 파생 작품의 생성도 보호합니다. 원고는 Cohere의 요약이 너무 포괄적이어서 저작권으로 보호되는 자료의 각색을 만들고 배포할 수 있는 독점적 권한을 침해하는 무단 파생 작품을 구성한다고 주장합니다.

사용자 행동에 대한 간접 책임

직접적인 저작권 침해 주장 외에도 원고는 Cohere가 사용자들의 침해 행위에 대해 간접적으로 책임이 있다고 주장합니다. 그들은 Cohere의 서비스가 사용자에 의한 원고 작품의 복제, 표시 및 배포를 용이하게 하며 Cohere는 침해를 사용자 행동에만 귀속시켜 책임을 회피할 수 없다고 주장합니다. 이 주장의 근거는 Cohere의 제품이 사용자 프롬프트를 입력한 후에만 답변을 생성하므로 회사가 침해 활동의 참가자가 된다는 것입니다.

이 간접 책임 주장은 AI 개발자가 사용자의 행동에 대해 책임을 져야 하는지를 묻는다는 점에서 중요합니다. 사용자가 직접 저작권 침해를 저지르는 경우에도 마찬가지입니다. 성공할 경우 이 주장은 AI 기술 개발 및 배포에 광범위한 영향을 미칠 수 있습니다. 개발자가 사용자가 저작권을 침해하지 못하도록 보호 조치를 구현해야 하기 때문입니다.

상표권 침해 주장

상표는 회사 또는 제품을 대표하기 위해 법적으로 등록된 기호, 디자인 또는 문구입니다. 상표의 무단 사용은 소비자 사이에서 혼란을 야기하고 브랜드 평판을 손상시킬 수 있습니다. 원고는 Cohere가 AI가 생성한 콘텐츠와 함께 자신의 상표를 사용하면 사용자가 원고가 Cohere의 서비스를 보증하거나 제휴하고 있다고 오해할 수 있으며 이는 사실이 아니라고 주장합니다.

RAG 기술을 둘러싼 법적 싸움은 AI 저작권법의 미래에서 중요한 문제가 될 가능성이 높습니다. RAG는 출력을 생성하기 위해 저작권으로 보호되는 자료를 실시간으로 검색하고 사용하는 것을 포함하기 때문에 고유한 문제를 제기합니다. 이는 공정 사용 범위, 사용자 행동에 대한 AI 개발자의 책임, 인공 지능 시대에 지적 재산 보호에 대한 복잡한 질문을 제기합니다.

이러한 소송의 결과는 AI 기술의 개발 및 배포에 심오한 영향을 미칠 수 있습니다. 법원이 저작권 소유자에게 유리한 판결을 내릴 경우 AI 개발자는 저작권 침해를 방지하기 위해 더 엄격한 보호 조치를 구현해야 할 수 있으며 이는 AI 모델 개발 비용과 복잡성을 증가시킬 수 있습니다. 반면에 법원이 AI 개발자에게 유리한 판결을 내릴 경우 저작권 소유자는 점점 더 정교해지는 AI 기술에 직면하여 지적 재산을 보호할 수 있는 새로운 방법을 찾아야 할 수 있습니다.

뉴스 퍼블리셔와 Cohere의 충돌은 AI, 저작권, 콘텐츠 제작의 미래를 둘러싼 현재 진행 중인 논쟁에서 중요한 단계 역할을 합니다. 이 사건의 결과와 다른 유사한 사건의 결과는 생성형 AI와 저작권으로 보호되는 자료와의 상호 작용에 대한 법적 환경을 앞으로 몇 년 동안 형성할 것입니다. AI가 계속 진화하고 우리 삶의 다양한 측면에 점점 더 통합됨에 따라 혁신을 촉진하는 것과 콘텐츠 제작자의 권리를 보호하는 것 사이에서 균형을 맞추는 것이 필수적입니다. 법원, 입법부 및 AI 커뮤니티는 지적 재산이 존중되도록 하면서 창의성을 육성하는 명확한 지침과 규정을 확립하기 위해 협력해야 합니다.

특히 뉴스 산업은 AI 시대에 고유한 일련의 과제에 직면해 있습니다. AI 모델이 뉴스 콘텐츠를 생성하는 데 점점 더 능숙해짐에 따라 게시자는 저작권으로 보호되는 자료 사용에 대한 보상을 받고 브랜드의 무결성이 보호되도록 하는 것이 중요합니다. Cohere에 대한 소송은 뉴스 게시자가 권리를 주장하고 적절한 승인 없이 AI 회사에서 자신의 작업이 악용되지 않도록 하려는 노력의 일환입니다.

업데이트됨 2025-05-31

# RAG # Cohere # Command