기본 개념의 평가절하: ‘오픈 소스’의 침식
‘오픈 소스’라는 용어는 한때 기술 및 과학 분야에서 등대와 같은 존재였습니다. 이는 투명성, 제한 없는 접근, 협력적 개선, 그리고 재현성이라는 근본 원칙에 기반한 강력한 정신을 대표했습니다. 여러 세대의 연구자와 개발자들에게 이는 공유된 지식과 집단적 진보에 대한 약속을 의미했습니다. 수많은 학문 분야에서 분석을 가능하게 하는 R Studio와 같은 환경에서 발견되는 기초 통계 도구부터 유체 역학의 복잡성을 푸는 데 사용되는 OpenFOAM과 같은 정교한 시뮬레이션 플랫폼에 이르기까지, 오픈 소스 소프트웨어는 혁신을 위한 필수적인 촉매제였습니다. 이는 전 세계 과학자들이 서로의 작업을 검토, 검증, 수정하고 이를 기반으로 구축할 수 있게 하여 발견을 가속화했으며, 결과가 복제되고 검증될 수 있도록 보장했습니다. 이는 바로 과학적 방법의 근간입니다.
그러나 이제 이 신뢰받는 명칭 위에 인공지능이라는 신흥 분야가 드리운 그림자가 드리워지고 있습니다. _Nature_와 같은 출판물에서 언급된 최근의 비판적 논의에서 강조되었듯이, 저명한 AI 개발자들이 진정한 개방성에 필요한 핵심 구성 요소를 공개하지 않으면서 모델에 ‘오픈 소스’ 라벨을 채택하는 우려스러운 추세가 나타났습니다. 이러한 관행은 용어의 의미를 희석시켜 투명성의 상징에서 잠재적으로 오해의 소지가 있는 마케팅 슬로건으로 변질시킬 위험이 있습니다. 핵심 문제는 종종 현대 AI 시스템의 독특한 본질에 있습니다. 소스 코드가 가장 중요한 전통적인 소프트웨어와 달리, 대규모 AI 모델의 성능과 행동은 학습에 사용된 방대한 데이터셋과 이를 정의하는 복잡한 아키텍처와 불가분하게 연결되어 있습니다. 이 학습 데이터나 모델의 구성 및 가중치에 대한 상세 정보에 대한 접근이 제한될 때, 모델 코드의 일부가 공개되더라도 ‘오픈 소스’라는 주장은 공허하게 들립니다. 이러한 불일치는 오픈 소스 철학의 핵심을 타격하며, 독립적인 조사와 복제에 가장 중요한 요소를 가리면서 접근성의 환상을 만듭니다.
과학 AI에서 진정한 개방성의 필요성
특히 과학 분야 내에서 AI의 진정한 개방성을 유지하는 것과 관련된 이해관계는 이보다 더 높을 수 없습니다. 과학은 결과를 독립적으로 검증하고, 방법론을 이해하며, 이전 작업을 기반으로 구축하는 능력에 의존하여 번성합니다. 도구 자체(점점 더 정교해지는 AI 모델)가 블랙박스가 되면 이 근본적인 과정이 위태로워집니다. 내부 작동 방식, 학습 데이터 편향 또는 잠재적 실패 모드가 불투명한 AI 시스템에 의존하는 것은 연구에 용납할 수 없는 수준의 불확실성을 도입합니다. 과학자가 AI의 출력에 영향을 미치는 요인을 알 수 없거나 검증할 수 없다면 어떻게 자신 있게 결론을 내릴 수 있을까요? 커뮤니티는 독립적으로 감사하거나 복제할 수 없는 독점 시스템에 의해 생성된 결과를 어떻게 신뢰할 수 있을까요?
과학 분야에서 오픈 소스 소프트웨어의 역사적 성공은 뚜렷한 대조를 이루며 명확한 기준점을 제공합니다. 전통적인 오픈 소스 프로젝트에 내재된 투명성은 신뢰를 조성하고 강력한 동료 검토를 가능하게 했습니다. 연구자들은 알고리즘을 검토하고, 그 한계를 이해하며, 특정 요구에 맞게 조정할 수 있었습니다. 이러한 협력적 생태계는 생물정보학에서 천체물리학에 이르는 분야의 발전을 가속화했습니다. AI가 복잡한 데이터셋을 분석하고, 가설을 생성하며, 전례 없는 규모로 복잡한 프로세스를 시뮬레이션함으로써 과학적 발견을 혁신할 잠재력은 엄청납니다. 그러나 이 잠재력을 실현하는 것은 항상 과학 발전을 뒷받침해 온 투명성과 재현성의 동일한 원칙을 유지하는 데 달려 있습니다. ‘오픈’으로 위장한 폐쇄적이고 독점적인 AI 시스템으로의 전환은 연구 커뮤니티를 분열시키고, 협업을 방해하며, 궁극적으로 이해와 검증에 대한 장벽을 세워 발견의 속도를 늦출 위험이 있습니다. 과학적 노력은 강력할 뿐만 아니라 투명하고 신뢰할 수 있는 도구를 요구합니다.
데이터 난제: AI의 투명성 도전 과제
AI 분야의 ‘오픈 소스’ 논쟁의 핵심에는 학습 데이터라는 중요한 문제가 있습니다. 주로 코드로 정의되는 기존 소프트웨어와 달리, 대규모 언어 모델(LLM) 및 기타 기반 AI 시스템은 개발 과정에서 흡수하는 방대한 데이터셋에 의해 근본적으로 형성됩니다. 이 데이터의 특성, 편향 및 출처는 모델의 행동, 능력 및 잠재적 한계에 깊은 영향을 미칩니다. 따라서 AI의 진정한 개방성은 모델 가중치나 추론 코드를 단순히 공개하는 것을 훨씬 넘어서는 수준의 데이터 투명성을 필요로 합니다.
현재 ‘오픈 소스’라는 이름으로 판매되는 많은 모델들은 이 점에서 눈에 띄게 부족합니다. Meta의 Llama 시리즈, Microsoft의 Phi-2, 또는 Mistral AI의 Mixtral과 같은 저명한 예를 고려해 보십시오. 이들 회사는 개발자가 모델을 실행하거나 미세 조정할 수 있도록 특정 구성 요소를 공개하지만, 종종 기본 학습 데이터에 대해 상당한 제한을 두거나 빈약한 세부 정보만 제공합니다. 관련된 데이터셋은 방대하고, 독점적이거나, 거의 큐레이션 없이 웹에서 스크랩되었거나, 라이선스 제약 조건의 적용을 받아 완전한 공개가 어렵거나 불가능할 수 있습니다. 그러나 다음에 대한 포괄적인 정보 없이는:
- 데이터 출처: 정보는 어디에서 왔는가? 주로 텍스트, 이미지, 코드였는가? 어떤 웹사이트, 책 또는 데이터베이스에서 왔는가?
- 데이터 큐레이션: 데이터는 어떻게 필터링, 정제 및 처리되었는가? 정보를 포함하거나 제외하는 데 어떤 기준이 사용되었는가?
- 데이터 특성: 데이터 내에 알려진 편향(예: 인구 통계학적, 문화적, 언어적)은 무엇인가? 어떤 기간을 다루는가?
- 전처리 단계: 학습 전에 데이터에 어떤 변환이 적용되었는가?
…독립적인 연구자들이 모델의 행동을 완전히 이해하고, 개발 과정을 복제하거나, 잠재적인 편향과 실패 지점을 비판적으로 평가하는 것이 극도로 어려워집니다. 이러한 데이터 투명성 부족은 현재 많은 ‘오픈 소스’ AI 릴리스가 소프트웨어 세계에서 확립된 진정한 개방성의 정신, 아니 어쩌면 문자 그대로의 의미조차 충족시키지 못하는 주된 이유입니다. 대조적으로, Allen Institute for AI의 OLMo 모델이나 LLM360의 CrystalCoder와 같은 커뮤니티 주도 노력과 같은 이니셔티브는 데이터 및 학습 방법론에 대한 더 큰 투명성을 제공하기 위해 더 많은 노력을 기울여 전통적인 오픈 소스 가치에 더 부합하는 높은 기준을 설정했습니다.
‘오픈워싱’: 전략적 라벨링 또는 규제 회피?
개방성의 원칙을 완전히 수용하지 않는 주체들이 ‘오픈 소스’ 라벨을 전유하는 것은 **’오픈워싱(openwashing)’**에 대한 우려를 불러일으켰습니다. 이 용어는 관련 수준의 투명성과 접근성에 대한 약속 없이 홍보 효과나 전략적 이점을 위해 개방성의 긍정적인 함의를 활용하는 관행을 설명합니다. 기업들이 왜 이런 행동을 할까요? 여러 요인이 작용할 수 있습니다. ‘오픈 소스’ 브랜드는 상당한 호의를 지니고 있으며, 커뮤니티와 공유된 진보에 대한 약속을 시사하여 개발자와 고객에게 매력적일 수 있습니다.
더욱이, Nature 및 다른 관찰자들이 지적했듯이, 규제 환경이 의도치 않게 이러한 행동을 장려할 수 있습니다. 2024년에 최종 확정된 유럽 연합의 획기적인 AI 법(EU AI Act)은 고위험 및 범용 AI 시스템에 대해 더 엄격한 요구 사항을 부과하는 조항을 포함합니다. 그러나 오픈 소스 라이선스 하에 출시된 AI 모델에 대해서는 잠재적인 면제 또는 완화된 요구 사항을 포함하고 있습니다. 이는 기업들이 규제 장벽을 탐색하고 더 엄격한 준수 의무를 피하기 위해 학습 데이터와 같은 핵심 구성 요소가 제한적이더라도 전략적으로 모델에 ‘오픈 소스’ 라벨을 붙일 수 있는 잠재적인 허점을 만듭니다.
이러한 규제 차익 거래의 가능성은 매우 우려스럽습니다. 만약 ‘오픈워싱’이 강력한 AI 시스템이 안전, 공정성 및 책임성을 보장하기 위한 조사를 우회하도록 허용한다면, 이는 규제의 목적 자체를 훼손합니다. 또한 과학 커뮤니티를 불안정한 위치에 놓습니다. 연구자들은 완전히 폐쇄된 상업적 제품에 비해 접근성이 높다는 이유로 명목상 ‘오픈’인 시스템에 끌릴 수 있지만, 결국 방법론이 불투명하고 검증 불가능한 도구에 의존하게 될 수 있습니다. 이러한 의존성은 과학적 무결성을 손상시킬 위험이 있으며, 연구가 재현 가능하고 편향되지 않으며 견고하고 이해 가능한 기반 위에 구축되도록 보장하기 어렵게 만듭니다. 익숙한 라벨의 매력이 진정한 과학적 탐구를 방해하는 근본적인 제한을 가릴 수 있습니다.
AI 시대를 위한 개방성 재정의: OSAID 프레임워크
AI가 제기하는 독특한 문제에 대해 전통적인 오픈 소스 정의가 부적절하다는 것을 인식하고, 오랜 기간 오픈 소스 원칙의 관리자 역할을 해온 **Open Source Initiative (OSI)**는 중요한 글로벌 노력에 착수했습니다. 그들의 목표는 인공지능에 특화된 명확하고 강력한 정의, 즉 Open Source AI Definition (OSAID 1.0)을 확립하는 것입니다. 이 이니셔티브는 AI 맥락에서 ‘오픈’의 의미를 되찾고 투명성과 책임성에 대한 명확한 기준을 설정하는 중요한 단계입니다.
제안된 OSAID 프레임워크 내의 핵심 혁신은 **’데이터 정보(data information)’*라는 개념입니다. 개인 정보 보호 문제, 저작권 제한 또는 순수한 규모 때문에 방대한 학습 데이터셋의 완전한 공개가 종종 비현실적이거나 법적으로 금지될 수 있음을 인정하면서, OSAID는 데이터에 대한* 포괄적인 공개를 의무화하는 데 중점을 둡니다. 여기에는 개발자가 다음에 대한 자세한 정보를 제공해야 하는 요구 사항이 포함됩니다:
- 출처 및 구성: 학습 데이터의 출처를 명확하게 식별합니다.
- 특성: 데이터 내의 알려진 특징, 한계 및 잠재적 편향을 문서화합니다.
- 준비 방법: 학습을 위해 데이터를 정제, 필터링 및 준비하는 데 사용된 프로세스를 설명합니다.
원시 데이터를 공유할 수 없더라도 이 메타데이터를 제공하면 연구자와 감사자가 AI 모델을 형성한 요인에 대한 중요한 통찰력을 얻을 수 있습니다. 이는 잠재적 편향에 대한 더 나은 이해를 촉진하고, 더 정보에 입각한 위험 평가를 가능하게 하며, 복제 또는 비교 연구를 시도하기 위한 기초를 제공합니다.
데이터 정보를 넘어서, OSI의 노력은 Open Future와 같은 조직의 옹호와 함께 ‘데이터 커먼즈(data-commons)’ 모델로의 광범위한 전환을 촉진합니다. 이는 AI 학습에 필수적인 데이터셋이 더 개방적이고 공평하게 큐레이션되고 제공되어, 특히 연구 커뮤니티 내에서 AI 개발을 위한 보다 투명하고 협력적인 생태계를 조성하는 미래를 구상합니다. OSAID 정의는 AI 시스템을 평가할 수 있는 명확한 기준점을 제공하여 피상적인 라벨을 넘어 개방성에 대한 진정한 약속을 평가하는 것을 목표로 합니다.
집단적 책임: 진정한 AI 투명성 추진
AI에서 진정한 개방성을 보장하는 과제는 정의만으로는 해결될 수 없으며, 여러 이해관계자의 공동 행동이 필요합니다. 정교한 AI 도구의 개발자이자 주요 사용자인 과학 커뮤니티는 상당한 책임을 집니다. 연구자들은 OSAID 1.0과 같은 이니셔티브에 적극적으로 참여하여 그 원칙을 이해하고 채택을 옹호해야 합니다. 사용을 고려하는 AI 모델의 ‘개방성’ 주장을 비판적으로 평가하고, 편리해 보이지만 불투명한 시스템의 유혹에 저항해야 할지라도 학습 데이터 및 방법론에 대해 더 큰 투명성을 제공하는 모델을 우선시해야 합니다. 출판물, 컨퍼런스 및 기관 토론에서 검증 가능하고 재현 가능한 AI 도구의 필요성을 표명하는 것이 가장 중요합니다.
공공 기금 지원 기관 및 정부 기관 또한 중요한 역할을 합니다. 그들은 보조금 요구 사항 및 조달 정책을 통해 상당한 영향력을 행사합니다. 이미 자금 지원을 통해 생성된 연구 데이터에 대한 개방형 라이선스를 의무화하는 미국 국립보건원(NIH)과 같은 기관은 귀중한 선례를 제공합니다. 마찬가지로, 공공 행정 기관에 오픈 소스 소프트웨어 우선 사용을 요구하는 이탈리아의 사례는 정책이 어떻게 채택을 유도할 수 있는지 보여줍니다. 이러한 원칙은 AI 영역으로 확장될 수 있으며 확장되어야 합니다. 정부 및 기금 지원 기관은 다음을 고려해야 합니다:
- 공공 기금을 지원받는 AI 연구 및 개발에 대해 강력한 오픈 소스 AI 표준(예: OSAID) 준수를 의무화합니다.
- 연구 중심 AI 모델 훈련에 적합한 진정으로 개방적이고 고품질인 데이터셋, 즉 ‘데이터 커먼즈’ 생성에 투자합니다.
- EU AI 법과 같은 규제가 ‘오픈워싱’을 방지하고 라이선스 주장과 관계없이 모든 강력한 AI 시스템에 책임을 묻도록 구현되도록 보장합니다.
궁극적으로 연구 분야에서 AI의 미래를 보호하려면 공동 전선이 필요합니다. 과학자들은 투명성을 요구해야 하고, 기관은 진정한 개방성을 우선시하는 정책을 시행해야 하며, 규제 당국은 ‘오픈 소스’라는 라벨이 편리한 탈출구가 아니라 책임에 대한 의미 있는 약속을 의미하도록 보장해야 합니다. 이러한 집단적 노력이 없다면, 과학적 발견을 위한 AI의 엄청난 잠재력은 폐쇄적이고 독점적인 시스템이 지배하는 환경에 의해 손상될 위험이 있으며, 이는 과학 발전 자체의 협력적이고 검증 가능한 본질을 근본적으로 훼손합니다. 미래 연구의 무결성이 균형에 달려 있습니다.