개방성의 침식: '오픈소스' AI가 종종 그렇지 않은 이유와 그 위험성 | ko

‘오픈소스’라는 용어는 기술 세계에서 강력한 울림을 가지고 있습니다. 이는 협력적 혁신, 지식 공유, 투명성에 대한 근본적인 믿음의 이미지를 떠올리게 합니다. 이러한 정신은 반세기 전 캘리포니아 Menlo Park에서 Homebrew Computer Club이 결성되면서 생생하게 구현되었습니다. 이 열정가와 기술 애호가들의 집단은 단순히 기계를 만드는 것을 넘어, 아이디어와 소프트웨어를 자유롭게 교환하는 문화를 구축하여 컴퓨팅을 혁신할 오픈소스 운동의 기초를 다졌습니다. 그러나 오늘날, 힘들게 얻은 이 유산과 개방성 자체의 정의는 특히 빠르게 확장되는 인공지능 영역 내에서 미묘하지만 중대한 도전에 직면해 있습니다. 정교한 AI 모델을 개발하는 점점 더 많은 기업들이 자신들의 창작물을 ‘오픈소스’라고 열정적으로 브랜딩하고 있지만, 자세히 살펴보면 이 라벨이 종종 피상적으로 적용되어 운동의 핵심 신조에 미치지 못하는 현실을 가리고 있음을 알 수 있습니다. 이러한 의미의 희석은 단순한 의미론적 논쟁이 아닙니다. 이는 특히 과학계 내에서 무엇보다 중요한 투명성과 재현성의 원칙에 실질적인 위협을 제기합니다.

진정한 개방형 협업 정신의 이해

현재의 곤경을 파악하려면 먼저 ‘오픈소스’가 진정으로 의미하는 바를 이해해야 합니다. 이는 단순히 무료 소프트웨어 이상입니다. 집단적 진보와 검증 가능한 신뢰에 뿌리를 둔 철학입니다. 이 철학의 기반은 네 가지 필수 자유에 있습니다.

어떤 목적으로든 프로그램을 실행할 자유.
프로그램의 작동 방식을 연구하고 원하는 대로 컴퓨팅을 수행하도록 변경할 자유. 소스 코드에 대한 접근은 이를 위한 전제 조건입니다.
다른 사람들을 도울 수 있도록 복제본을 재배포할 자유.
수정된 버전의 복제본을 다른 사람들에게 배포할 자유. 이를 통해 전체 커뮤니티가 당신의 변경 사항으로부터 혜택을 받을 기회를 줄 수 있습니다. 소스 코드에 대한 접근은 이를 위한 전제 조건입니다.

이러한 자유는 일반적으로 GNU General Public License (GPL), MIT License 또는 Apache License와 같은 라이선스에 명시되어 있으며, 역사적으로 소스 코드를 중심으로 이루어졌습니다. 소스 코드 – 프로그래머가 작성한 인간이 읽을 수 있는 명령어 – 는 전통적인 소프트웨어의 청사진입니다. 이 코드를 공개적으로 사용 가능하게 하면 누구나 이를 검사하고, 논리를 이해하고, 잠재적 결함을 식별하고, 새로운 요구에 맞게 조정하고, 이러한 개선 사항을 공유할 수 있습니다.

이 모델은 혁신과 과학 발전을 위한 놀라운 촉매제였습니다. 전 세계 연구자들이 쉽게 사용할 수 있는 도구의 영향을 고려해 보십시오.

통계 분석: R Studio와 같은 소프트웨어는 통계 컴퓨팅 및 그래픽을 위한 강력하고 투명하며 확장 가능한 환경을 제공하여 수많은 과학 분야에서 데이터 분석의 초석이 되었습니다. 그 개방성은 방법론의 동료 검토와 전문화된 패키지 개발을 가능하게 합니다.
전산 유체 역학: OpenFOAM은 항공 우주 공학에서 환경 과학에 이르기까지 다양한 분야에서 중요한 유체 흐름 시뮬레이션을 위한 정교한 라이브러리를 제공합니다. 그 개방적 특성은 복잡한 시뮬레이션의 사용자 정의 및 검증을 가능하게 합니다.
운영 체제: Linux 및 기타 오픈소스 운영 체제는 안정성, 유연성 및 투명성으로 인해 과학적 고성능 컴퓨팅 클러스터를 포함하여 세계 컴퓨팅 인프라의 많은 부분을 형성합니다.

이점은 단순한 비용 절감을 훨씬 뛰어넘습니다. 오픈소스는 과학적 방법의 초석인 재현성을 촉진합니다. 연구에 사용된 도구와 코드가 공개되면 다른 과학자들이 실험을 복제하고, 결과를 검증하고, 자신 있게 연구를 기반으로 구축할 수 있습니다. 이는 글로벌 협업을 촉진하여 장벽을 허물고 다양한 배경과 기관의 연구자들이 공유된 과제에 기여할 수 있도록 합니다. 이는 수명과 공급업체 종속 방지를 보장하여 독점 소프트웨어 회사의 변덕으로부터 연구 투자를 보호합니다. 새로운 아이디어와 기술의 신속한 보급과 반복을 허용하여 발견을 가속화합니다. 오픈소스 정신은 근본적으로 투명성, 면밀한 조사, 공유된 진보를 통한 과학적 지식 추구와 일치합니다.

인공지능: 완전히 다른 존재

소스 코드의 접근성을 중심으로 안전하게 구축된 기존의 오픈소스 패러다임은 인공지능 영역, 특히 기반이 되는 대규모 언어 모델(LLM)과 같은 대규모 모델에 적용될 때 상당한 난기류에 부딪힙니다. 이러한 AI 시스템에는 확실히 코드가 포함되지만, 그 기능과 행동은 훨씬 더 복잡하고 종종 불투명한 요소에 의해 형성됩니다. 신경망의 아키텍처 코드를 단순히 공개하는 것은 전통적인 소프트웨어에서처럼 진정한 개방성과 동일하지 않습니다.

AI 모델, 특히 딥러닝 모델은 일반적으로 몇 가지 주요 요소로 구성됩니다.

모델 아키텍처: 이는 신경망의 구조적 설계 – 계층, 뉴런 및 연결의 배열입니다. 기업들은 종종 이 정보를 공개하며 개방성의 증거로 제시합니다. 이는 엔진의 청사진을 공유하는 것과 유사합니다.
모델 가중치(파라미터): 이는 훈련 과정에서 조정된 네트워크 내의 수치 값으로, 종종 수십억 개에 달합니다. 이는 훈련 데이터에서 추출된 학습된 패턴과 지식을 나타냅니다. 가중치를 공개하면 다른 사람들이 사전 훈련된 모델을 사용할 수 있습니다. 이는 완전히 조립되어 실행 준비가 된 엔진을 제공하는 것과 같습니다.
훈련 데이터: 이것은 아마도 가장 중요하고 가장 자주 가려지는 구성 요소일 것입니다. 기반 모델은 거대한 데이터셋으로 훈련되며, 종종 인터넷에서 스크랩되거나 독점 또는 비공개 컬렉션(예: 상당한 개인 정보 보호 문제를 제기하는 의료 기록)에서 공급됩니다. 이 데이터 내의 구성, 큐레이션, 필터링 및 잠재적 편향은 모델의 기능, 한계 및 윤리적 행동에 깊은 영향을 미칩니다. 훈련 데이터에 대한 자세한 정보 없이는 모델이 왜 그렇게 행동하는지 이해하거나 특정 응용 프로그램에 대한 적합성과 안전성을 평가하는 것이 매우 어려워집니다. 이것은 비밀 연료 혼합물과 엔진이 길들여진 정확한 조건입니다.
훈련 코드 및 프로세스: 여기에는 훈련에 사용된 특정 알고리즘, 최적화 기술, 선택된 하이퍼파라미터(학습 과정을 제어하는 설정), 사용된 계산 인프라 및 소비된 상당한 에너지가 포함됩니다. 훈련 과정의 사소한 변화는 다른 모델 행동으로 이어질 수 있으며, 아키텍처와 데이터가 알려진 경우에도 재현성을 어렵게 만듭니다. 이는 엔진을 구축하고 튜닝하는 데 사용된 상세한 엔지니어링 사양, 도구 및 공장 조건을 나타냅니다.

현재 ‘오픈소스’ AI로 마케팅되는 많은 시스템은 주로 모델 아키텍처와 사전 훈련된 가중치에 대한 접근을 제공합니다. 이는 사용자가 모델을 실행하고 더 작은 데이터셋에서 미세 조정할 수 있게 하지만, 훈련 데이터 및 프로세스에 관한 필요한 투명성을 제공하는 데 결정적으로 실패합니다. 이는 모델의 기본 속성을 진정으로 연구하거나 재훈련 또는 그 기원을 이해해야 하는 깊이 있는 의미 있는 방식으로 수정하는 능력을 심각하게 제한합니다. 오픈소스 정의의 핵심인 연구 및 수정의 자유는 데이터 및 훈련 방법론의 중요한 요소가 숨겨져 있을 때 크게 방해받습니다. 모델 생성을 처음부터 복제하는 것 – 과학적 이해와 검증의 핵심 테스트 – 은 사실상 불가능해집니다.

AI 분야의 ‘오픈워싱’이라는 우려스러운 경향

라벨과 현실 사이의 이러한 격차는 **’오픈워싱(openwashing)’**으로 알려진 관행을 낳았습니다. 이 용어는 기업들이 ‘오픈소스’의 긍정적인 평판과 인지된 이점을 마케팅 및 전략적 이점을 위해 활용하면서, 동시에 상세한 훈련 데이터 정보나 훈련 자체에 사용된 코드와 같은 중요한 구성 요소에 대한 접근을 보류하는 행위를 설명합니다. 그들은 투명성과 커뮤니티 접근이라는 엄격한 원칙을 완전히 수용하지 않으면서 시스템을 개방성의 언어로 포장합니다.

널리 사용되고 때로는 ‘오픈’ 지정을 받는 몇몇 저명한 AI 모델들은 Open Source Initiative (OSI)와 같은 조직이 옹호하는 포괄적인 오픈소스 정의에 비추어 볼 때 부족합니다. 2022년부터 AI 맥락에서 오픈소스의 의미를 명확히 하기 위해 부지런히 노력해 온 OSI의 분석은 몇몇 인기 있는 모델에 대한 우려를 강조했습니다.

Llama 2 & Llama 3.x (Meta): 모델 가중치와 아키텍처는 사용 가능하지만, 사용 제한 및 전체 훈련 데이터셋과 프로세스에 대한 불완전한 투명성은 전통적인 오픈소스 가치와의 일치를 제한합니다.
Grok (X): 유사하게, 사용 가능하게 되었지만 훈련 데이터 및 방법론에 대한 포괄적인 정보 부족은 진정한 개방성에 대한 의문을 제기합니다.
Phi-2 (Microsoft): 종종 ‘오픈 모델’로 설명되지만, 생성 과정과 데이터에 대한 완전한 투명성은 여전히 제한적입니다.
Mixtral (Mistral AI): 일부가 공개되었지만, 연구 및 수정을 위해 필요한 모든 구성 요소에 대한 접근 제한으로 인해 오픈소스의 전체 기준을 충족하지 못합니다.

이러한 예는 오픈소스 원칙을 더 잘 준수하려는 노력과 대조됩니다.

OLMo (Allen Institute for AI): 비영리 연구 기관에서 개발한 OLMo는 개방성을 염두에 두고 명시적으로 설계되었으며, 가중치뿐만 아니라 훈련 코드와 사용된 데이터에 대한 세부 정보도 공개했습니다.
LLM360’s CrystalCoder: 데이터, 훈련 절차 및 평가 지표를 포함하여 모델의 전체 라이프사이클에 걸쳐 완전한 투명성을 목표로 하는 커뮤니티 주도 프로젝트입니다.

왜 오픈워싱에 참여하는가? 동기는 다면적입니다.

마케팅 및 인식: ‘오픈소스’ 라벨은 상당한 호의를 얻습니다. 이는 협업, 윤리적 관행, 더 넓은 커뮤니티에 대한 헌신을 시사하며, 이는 사용자, 개발자 및 긍정적인 언론을 유치할 수 있습니다.
생태계 구축: 완전한 투명성 없이 모델 가중치를 공개하는 것은 개발자들이 AI 시스템 위에 애플리케이션을 구축하도록 장려하며, 잠재적으로 원천 회사에 이익이 되는 종속적인 생태계를 만듭니다.
규제 차익 거래: 이것은 특히 우려스러운 동인입니다. **유럽 연합의 AI 법 (2024)**과 같은 다가오는 규제는 특정 고위험 AI 시스템에 더 엄격한 요구 사항을 부과할 것으로 예상됩니다. 그러나 ‘자유 및 오픈소스 소프트웨어’에 대해서는 면제 또는 완화된 조사가 종종 제안됩니다. 기업들은 확립된 정의에 따라 부정확하더라도 ‘오픈소스’ 라벨을 적용함으로써 이러한 규제를 더 쉽게 통과하여 독점적인 고위험 시스템과 관련된 잠재적으로 비용이 많이 드는 규정 준수 부담을 피하기를 바랄 수 있습니다. 이 전략적 라벨링은 잠재적인 허점을 이용하여 안전과 투명성을 보장하려는 규제의 의도를 약화시킵니다.

이러한 관행은 궁극적으로 ‘오픈소스’라는 용어의 가치를 떨어뜨리고 혼란을 야기하여 사용자, 개발자 및 연구자가 어떤 AI 시스템이 라벨이 암시하는 투명성과 자유를 진정으로 제공하는지 식별하기 어렵게 만듭니다.

과학을 위해 진정한 개방성이 시급히 중요한 이유

과학계에게 이 논쟁의 이해관계는 매우 높습니다. 과학은 투명성, 재현성, 독립적인 검증 능력에 기반하여 번성합니다. 유전체 데이터 분석 및 기후 변화 모델링에서부터 신소재 발견 및 복잡한 생물학적 시스템 이해에 이르기까지 연구에 AI가 점점 더 통합됨에 따라 이러한 AI 도구의 본질이 매우 중요해집니다. ‘블랙박스’ AI 시스템이나 진정한 투명성을 제공하지 않으면서 개방적인 척하는 시스템에 의존하는 것은 심오한 위험을 초래합니다.

재현성 저해: 연구자들이 연구에 사용된 AI 모델의 훈련 데이터 및 방법론에 접근하거나 이해할 수 없다면 결과를 복제하는 것이 불가능해집니다. 이는 근본적으로 과학적 방법의 핵심 기둥을 약화시킵니다. 독립적으로 검증될 수 없다면 어떻게 연구 결과를 신뢰하거나 기반으로 구축할 수 있습니까?
숨겨진 편향과 한계: 모든 AI 모델은 훈련 데이터와 설계 선택에서 편향을 물려받습니다. 투명성 없이는 연구자들이 이러한 편향을 적절하게 평가하거나 모델의 한계를 이해할 수 없습니다. 편향된 모델을 무의식적으로 사용하면 왜곡된 결과, 잘못된 결론, 특히 의료 연구나 사회 과학과 같은 민감한 영역에서 잠재적으로 해로운 실제 결과를 초래할 수 있습니다.
면밀한 조사 부족: 불투명한 모델은 엄격한 동료 검토를 회피합니다. 과학계는 모델의 내부 작동을 완전히 조사하거나, 논리의 잠재적 오류를 식별하거나, 예측과 관련된 불확실성을 이해할 수 없습니다. 이는 과학적 탐구의 자기 수정적 성격을 방해합니다.
기업 시스템에 대한 의존: 기업이 통제하는 폐쇄형 또는 반폐쇄형 AI 시스템에 대한 의존은 종속성을 만듭니다. 연구 의제는 사용 가능한 기업 도구의 기능과 한계에 의해 미묘하게 영향을 받을 수 있으며, 접근이 제한되거나 비용이 많이 들 수 있어 잠재적으로 독립적인 연구 방향을 억제하고 자금이 풍부한 기관과 다른 기관 간의 격차를 넓힐 수 있습니다.
혁신 저해: 진정한 오픈소스는 연구자들이 도구를 사용하는 것뿐만 아니라 분해, 수정, 개선 및 용도 변경할 수 있도록 합니다. AI 모델의 핵심 구성 요소에 접근할 수 없다면 이 중요한 혁신 통로가 차단됩니다. 과학자들은 새로운 훈련 기술을 실험하거나, 다른 데이터 조합을 탐색하거나, 원래 개발자가 예상하지 못한 특정하고 미묘한 연구 질문에 맞게 모델을 조정하는 것이 방해받습니다.

과학계는 ‘오픈소스’라는 용어의 희석을 수동적으로 받아들일 여유가 없습니다. 특히 이러한 도구가 연구 맥락에서 사용될 때 AI 개발자에게 명확성을 적극적으로 옹호하고 진정한 투명성을 요구해야 합니다. 여기에는 다음이 포함됩니다.

명확한 표준 촉진: 아키텍처, 가중치, 훈련 데이터 및 훈련 프로세스에 관한 투명성을 포함하는 ‘오픈소스 AI’에 대한 명확하고 엄격한 정의를 확립하려는 OSI와 같은 노력을 지원합니다.
검증 가능한 도구 우선시: 처음에는 성능이 떨어지거나 쉽게 사용할 수 있는 불투명한 대안보다 더 많은 노력이 필요하더라도 이러한 높은 투명성 기준을 충족하는 AI 모델 및 플랫폼 사용을 선호합니다.
투명성 요구: AI를 포함하는 출판물에 훈련 데이터 출처, 처리 및 잠재적 편향에 대한 포괄적인 정보와 훈련 방법론을 포함하여 사용된 모델에 대한 자세한 공개를 포함하도록 주장합니다.
진정으로 개방된 프로젝트 지원: AI 개발에서 진정한 개방성에 전념하는 기관의 커뮤니티 주도 프로젝트 및 이니셔티브에 기여하고 활용합니다.

Homebrew Computer Club의 정신 – 공유된 지식과 협력적 구축의 정신 – 은 AI 시대의 복잡성을 책임감 있게 헤쳐나가는 데 필수적입니다. 인공지능에 대한 ‘오픈소스’의 진정한 의미를 되찾고 방어하는 것은 단순히 용어의 순수성에 관한 것이 아닙니다. 이는 점점 더 AI 중심적인 세상에서 과학 자체의 무결성, 재현성 및 지속적인 진보를 보호하는 것에 관한 것입니다. 앞으로 나아갈 길은 경계심과 AI의 강력한 도구가 수세기 동안 과학에 매우 잘 기여해 온 개방적 탐구의 원칙과 일치하는 방식으로 개발되고 배포되도록 보장하려는 집단적 헌신을 요구합니다.

업데이트됨 2025-03-28

# AI # LLM # AIGC