DeepSeek AI 모델: Google Gemini 학습 논란

인공지능(AI) 분야는 논란이 끊이지 않는 분야이며, 최근에는 중국 AI 연구소 DeepSeek가 새로운 논쟁의 중심에 섰습니다. DeepSeek는 최근 R1 추론 모델의 업데이트 버전을 공개하며 수학 및 코딩 벤치마크에서 뛰어난 성능을 선보였습니다. 그러나 이 모델을 학습하는 데 사용된 데이터의 출처가 AI 연구자들 사이에서 상당한 논쟁을 불러일으켰으며, 일부는 구글의 Gemini AI 모델에서 비롯되었을 가능성을 제기하고 있습니다. 이러한 의혹은 윤리적 관행, 데이터 출처 및 AI 산업 내 경쟁 환경에 대한 중요한 질문을 제기합니다.

제시된 증거

논란은 DeepSeek의 최신 모델이 Gemini에서 생성된 출력을 기반으로 학습되었다는 증거를 제시한 멜버른 기반의 개발자 Sam Paech로부터 시작되었습니다. Paech에 따르면 R1-0528로 식별된 DeepSeek 모델은 구글의 Gemini 2.5 Pro가 선호하는 특정 단어와 표현을 선호하는 경향을 보입니다. 이러한 관찰만으로는 결정적인 증거가 될 수 없지만, 추가 조사의 필요성을 제기합니다.

또 다른 개발자 SpeechMap은 DeepSeek 모델의 추론 과정, 즉 결론에 도달하기 위해 생성하는 “생각”이 “Gemini의 추론 과정과 유사하다”고 지적했습니다. 이러한 언어 패턴과 사고 과정의 유사성은 DeepSeek가 학습 과정에서 Gemini의 출력을 사용했을 수 있다는 의혹을 더욱 증폭시킵니다.

DeepSeek에 대한 과거의 비난

DeepSeek가 경쟁 AI 시스템의 데이터를 사용하여 AI 모델을 학습했다는 비난을 받은 것은 이번이 처음이 아닙니다. 지난 12월, 개발자들은 DeepSeek의 V3 모델이 종종 OpenAI의 AI 기반 챗봇 플랫폼인 ChatGPT로 자신을 식별하는 것을 발견했습니다. 이러한 특이한 현상은 해당 모델이 ChatGPT 채팅 로그를 기반으로 학습되었을 가능성을 시사하며, 이러한 관행의 윤리적 함의에 대한 우려를 불러일으켰습니다.

올해 초 OpenAI는 Financial Times에 DeepSeek가 더 크고 강력한 모델에서 데이터를 추출하여 AI 모델을 학습하는 기술인 증류(distillation)를 사용한 증거를 발견했다고 알렸습니다. 또한 OpenAI의 주요 협력사이자 투자자인 Microsoft는 2024년 말에 OpenAI 개발자 계정을 통해 상당한 양의 데이터가 유출되는 것을 감지했습니다. OpenAI는 이러한 계정이 DeepSeek와 관련이 있다고 믿고 있으며, 이는 무단 데이터 추출에 대한 의혹을 더욱 굳건히 합니다.

증류 자체가 비윤리적인 것은 아니지만, OpenAI의 서비스 약관은 고객이 경쟁적인 AI 시스템을 구축하기 위해 회사의 모델 출력을 사용하는 것을 명시적으로 금지합니다. 이 제한은 OpenAI의 지적 재산을 보호하고 AI 산업 내에서 공정한 경쟁 환경을 유지하는 것을 목표로 합니다. 만약 DeepSeek가 실제로 증류를 사용하여 Gemini 출력으로 R1 모델을 학습했다면 이는 OpenAI의 서비스 약관을 위반하는 것이며 심각한 윤리적 문제를 야기합니다.

데이터 오염의 문제점

많은 AI 모델이 자신을 잘못 식별하고 유사한 단어와 구문으로 수렴하는 경향을 보인다는 점을 인지하는 것이 중요합니다. 이러한 현상은 AI 기업의 주요 학습 데이터 소스로 사용되는 공개 웹에서 AI 생성 콘텐츠가 증가하는 데 기인할 수 있습니다. 콘텐츠 농장에서는 AI를 사용하여 클릭베이트 기사를 만들고 있으며, 봇은 Reddit 및 X와 같은 플랫폼에 AI 생성 게시물을 대량으로 게시하고 있습니다.

AI 생성 콘텐츠로 인한 웹의 “오염”은 AI 기업에게 심각한 과제를 제기하며 학습 데이터 세트에서 AI 출력물을 철저히 필터링하는 것을 극도로 어렵게 만듭니다. 결과적으로 AI 모델은 의도치 않게 서로 학습하게 되어 언어 및 사고 과정에서 관찰되는 유사성이 나타날 수 있습니다.

전문가 의견과 관점

데이터 오염의 어려움에도 불구하고 비영리 AI 연구 기관인 AI2의 Nathan Lambert 연구원과 같은 AI 전문가는 DeepSeek가 구글의 Gemini 데이터를 기반으로 학습했을 가능성이 있다고 믿습니다. Lambert는 DeepSeek가 GPU 부족에 직면했지만 충분한 재정적 자원을 보유하고 있었기 때문에 사용 가능한 최고의 API 모델에서 합성 데이터를 생성하는 것을 선택했을 수 있다고 제안합니다. 그의 견해로는 이 접근 방식이 DeepSeek에게 더 계산 효율적일 수 있습니다.

Lambert의 관점은 AI 기업이 대체 데이터 소싱 전략을 모색하도록 하는 실질적인 고려 사항을 강조합니다. 합성 데이터 사용은 합법적이고 효과적인 기술이 될 수 있지만 데이터가 윤리적으로 생성되고 서비스 약관이나 윤리 지침을 위반하지 않는지 확인하는 것이 중요합니다.

보안 조치 및 예방 노력

증류 및 데이터 오염에 대한 우려에 대응하여 AI 기업은 보안 조치를 강화하고 있습니다. 예를 들어 OpenAI는 특정 고급 모델에 액세스하기 위해 조직이 ID 인증 프로세스를 완료하도록 요구하고 있습니다. 이 프로세스에는 OpenAI API에서 지원하는 국가 중 하나의 정부 발급 ID가 필요하며 중국은 목록에서 제외됩니다.

구글 또한 AI Studio 개발자 플랫폼을 통해 제공되는 모델에서 생성된 추론 과정을 “요약”하여 증류 위험을 완화하기 위한 조치를 취했습니다. 이 요약 프로세스는 Gemini 추론 과정을 기반으로 성능이 뛰어난 경쟁 모델을 학습하는 것을 더욱 어렵게 만듭니다. 마찬가지로 Anthropic은 5월에 “경쟁 우위”를 보호해야 할 필요성을 언급하며 자체 모델의 추론 과정을 요약하기 시작할 것이라고 발표했습니다.

이러한 보안 조치는 AI 기업이 지적 재산을 보호하고 무단 데이터 추출을 방지하기 위한 공동 노력을 나타냅니다. 더 엄격한 액세스 제어를 구현하고 모델 추론 과정을 난독화함으로써 비윤리적인 관행을 억제하고 AI 산업 내에서 공정한 경쟁 환경을 유지하는 것을 목표로 합니다.

구글의 답변

문의에 대한 답변으로 구글은 아직 혐의에 대해 답변하지 않았습니다. 이러한 침묵은 추측의 여지를 남기고 논란을 더욱 심화시킵니다. AI 커뮤니티가 구글의 공식 성명을 기다리는 동안 DeepSeek의 데이터 소싱 관행에 대한 질문은 계속 남아 있습니다.

AI 산업에 미치는 영향

DeepSeek 논란은 AI 개발의 윤리적 경계와 책임감 있는 데이터 소싱의 중요성에 대한 근본적인 질문을 제기합니다. AI 모델이 점점 정교해지고 강력해짐에 따라 지름길을 선택하고 승인되지 않은 데이터를 사용하려는 유혹이 커질 수 있습니다. 그러나 이러한 관행은 AI 산업의 무결성을 훼손하고 대중의 신뢰를 약화시키는 파괴적인 결과를 초래할 수 있습니다.

AI의 장기적인 지속 가능성과 윤리적 개발을 보장하려면 AI 기업이 엄격한 윤리 지침을 준수하고 책임감 있는 데이터 소싱 관행을 우선시하는 것이 필수적입니다. 여기에는 데이터 제공자로부터 명시적 동의를 얻고 지적 재산권을 존중하며 승인되지 않았거나 편향된 데이터 사용을 피하는 것이 포함됩니다.

또한 AI 산업 내에서 더 큰 투명성과 책임감이 필요합니다. AI 기업은 데이터 소싱 관행과 모델 학습에 사용되는 방법에 대해 더욱 투명해야 합니다. 이러한 투명성 증가는 AI 시스템에 대한 신뢰와 신뢰를 구축하고 더욱 윤리적이고 책임감 있는 AI 생태계를 조성하는 데 도움이 될 것입니다.

DeepSeek 논란은 AI 기술이 계속 발전함에 따라 해결해야 할 과제와 윤리적 고려 사항을 다시 한번 상기시켜 줍니다. 윤리적 원칙을 옹호하고 투명성을 증진하며 협력을 육성함으로써 AI 커뮤니티는 윤리적 가치를 희생시키지 않고 사회의 이익을 위해 AI가 사용되도록 할 수 있습니다.

기술적 측면에 대한 심층 분석

이 문제를 더 자세히 이해하려면 AI 모델이 학습되는 방식과 문제시되는 특정 기술, 즉 증류 및 합성 데이터 생성의 기술적 측면을 자세히 살펴보는 것이 중요합니다.

증류: 지능 복제?

AI 분야에서 증류는 더 작고 효율적인 “학생” 모델이 더 크고 복잡한 “교사” 모델의 동작을 모방하도록 학습되는 모델 압축 기술을 의미합니다. 학생 모델은 교사 모델의 출력을 관찰하여 효과적으로 지식을 추출하고 더 작은 아키텍처로 전달함으로써 학습합니다. 증류는 리소스가 제한된 장치에 AI 모델을 배포하는 데 유용할 수 있지만 교사 모델의 데이터 또는 아키텍처가 독점적인 경우 윤리적 문제를 야기합니다.

DeepSeek가 허가 없이 증류를 통해 R1 모델을 학습하기 위해 Gemini 출력을 사용한 경우 이는 Gemini의 지능을 복제하고 잠재적으로 구글의 지적 재산권을 침해하는 것과 같습니다. 여기서 핵심은 저작권 및 기타 법적 메커니즘으로 보호되는 Gemini 출력물의 무단 사용입니다.

합성 데이터 생성: 양날의 검

합성 데이터 생성은 실제 데이터를 닮은 인공 데이터 포인트를 생성하는 것을 포함합니다. 이 기술은 특히 실제 데이터를 얻기가 어렵거나 비용이 많이 들 때 학습 데이터 세트를 늘리는 데 자주 사용됩니다. 그러나 합성 데이터의 품질과 윤리적 의미는 생성 방법에 크게 좌우됩니다.

DeepSeek가 Gemini API를 사용하여 합성 데이터를 생성한 경우 문제는 이 데이터가 실제 Gemini 출력과 얼마나 유사한지, 그리고 구글의 지적 재산권을 침해하는지 여부가 됩니다. 합성 데이터가 단순히 Gemini에서 영감을 받았지만 해당 출력을 직접 복제하지 않는 경우 공정 사용으로 간주될 수 있습니다. 그러나 합성 데이터가 Gemini 출력과 거의 구별할 수 없는 경우 증류와 유사한 우려를 제기할 수 있습니다.

모델 과적합의 의미

또 다른 관련 문제는 모델 과적합입니다. 과적합은 모델이 새로운 미지의 데이터에서 제대로 작동하지 못할 정도로 학습 데이터를 너무 잘 학습할 때 발생합니다. DeepSeek가 Gemini 출력을 기반으로 R1 모델을 과도하게 학습한 경우 모델이 새로운 상황에 일반화하는 대신 Gemini 응답을 단순히 암기하는 과적합이 발생했을 수 있습니다.

이러한 종류의 과적합은 R1 모델의 적용 가능성을 제한할 뿐만 아니라 Gemini 데이터에 대한 의존성을 더 쉽게 감지할 수 있게 만듭니다. SpeechMap이 언급한 “추론 과정”은 R1 모델이 기본적으로 Gemini 출력에서 학습한 패턴을 반복하는 과적합의 증거일 수 있습니다.

윤리적 고려 사항 및 업계 모범 사례

기술적 측면 외에도 이번 논란은 AI 개발에 대한 명확한 윤리 지침과 업계 모범 사례의 필요성을 강조합니다. 몇 가지 핵심 원칙은 다음과 같습니다.

  • 투명성: AI 기업은 데이터 소스 및 학습 방법론에 대해 투명해야 합니다. 이를 통해 독립적인 감사 및 검증이 가능합니다.
  • 동의: AI 기업은 학습을 위해 데이터를 사용하기 전에 데이터 제공자로부터 명시적인 동의를 얻어야 합니다. 여기에는 지적 재산권을 존중하고 승인되지 않은 데이터 스크래핑을 피하는 것이 포함됩니다.
  • 공정성: AI 모델은 공정하고 편향되지 않아야 합니다. 이를 위해서는 데이터 다양성에 대한 신중한 주의와 알고리즘 편향 완화가 필요합니다.
  • 책임: AI 기업은 AI 모델의 행동에 대해 책임을 져야 합니다. 여기에는 명확한 책임 프레임워크를 수립하고 AI 시스템으로 인한 피해를 해결하는 것이 포함됩니다.
  • 보안: AI 기업은 AI 모델 및 데이터의 보안을 우선시해야 합니다. 여기에는 무단 액세스로부터 보호하고 데이터 침해를 방지하는 것이 포함됩니다.

규제의 역할

윤리 지침 및 업계 모범 사례 외에도 AI 개발로 인한 문제를 해결하기 위해 규제가 필요할 수 있습니다. 몇 가지 잠재적인 규제 조치는 다음과 같습니다.

  • 데이터 프라이버시 법: 개인의 데이터를 보호하고 AI 학습을 위해 개인 정보 사용을 제한하는 법률.
  • 지적 재산권법: AI 모델 및 데이터를 무단 복사 및 배포로부터 보호하는 법률.
  • 경쟁법: 데이터 축적 및 불공정한 리소스 액세스와 같은 AI 산업의 반경쟁적 행위를 방지하는 법률.
  • 안전 규정: 중요한 응용 프로그램에 사용되는 AI 시스템의 안전과 신뢰성을 보장하는 규정.

윤리 지침, 업계 모범 사례 및 적절한 규제를 결합함으로써 우리는 사회 전체에 이익이 되는 보다 책임감 있고 지속 가능한 AI 생태계를 만들 수 있습니다. DeepSeek 논란은 우리에게 경각심을 불러일으키며 이러한 문제를 사전에 해결하고 AI가 우리의 가치 및 원칙에 부합하는 방식으로 개발되도록 촉구합니다.