‘오픈소스’라는 용어는 한때 명확함, 공유된 지식과 협력적 진보의 약속으로 울려 퍼지며 수많은 과학 기술적 도약을 이끌었습니다. 이는 커뮤니티가 함께 구축하고, 서로의 작업을 면밀히 검토하며, 청사진이 자유롭게 이용 가능했기에 거인의 어깨 위에 설 수 있었던 이미지를 떠올리게 했습니다. 이제 인공지능(Artificial Intelligence)의 지형을 탐색하면서 그 용어는 점점 더… 미끄럽게 느껴집니다. Nature 지면에서 강조되고 연구실과 회의실에서 속삭여지듯이, AI 골드러시의 우려스러운 수의 참여자들이 진정으로 중요한 구성 요소는 자물쇠로 잠가둔 채 자신들의 창조물을 ‘오픈소스’라는 망토로 위장하고 있습니다. 이는 단순한 의미론적 말장난이 아닙니다. 이는 과학적 무결성의 기반 자체를 갉아먹고 미래 혁신의 길을 가릴 위협이 되는 관행입니다. 가장 많은 것을 얻거나 잃을 수 있는 바로 그 집단인 연구 커뮤니티는 이 가면극이 무엇인지 인식하고, 우리가 오랫동안 의존해 온 투명성과 재현성의 원칙을 진정으로 구현하는 AI 시스템을 강력하게 옹호해야 합니다.
개방성의 황금기: 위협받는 유산
수십 년 동안 오픈소스 운동은 과학 발전의 숨은 영웅이었습니다. 통계적 마법을 위한 R Studio나 유체 역학 모델링을 위한 OpenFOAM과 같은 익숙한 도구를 넘어서 생각해 보십시오. 인터넷과 과학 컴퓨팅 클러스터의 광대한 부분을 구동하는 Linux와 같은 기반 시스템이나 협력적 소프트웨어 개발의 증거인 Apache 웹 서버를 고려해 보십시오. 철학은 간단했습니다. 소스 코드에 대한 접근을 제공하고, 허용적인 라이선스 하에 수정 및 재배포를 허용하며, 개선 사항이 모든 사람에게 이익이 되는 글로벌 생태계를 조성하는 것이었습니다.
이것은 단순한 이타주의가 아니었습니다. 실용적인 천재성이었습니다. 개방성은 발견을 가속화했습니다. 연구자들은 바퀴를 재발명하거나 불투명한 독점 시스템을 탐색할 필요 없이 실험을 복제하고, 결과를 검증하며, 기존 작업 위에 구축할 수 있었습니다. 내부 작동 방식을 검사할 수 있어 신뢰를 조성했고, 버그를 집단적으로 찾아 수정할 수 있었습니다. 이는 접근성을 민주화하여 기관 소속이나 예산에 관계없이 전 세계 과학자와 개발자가 최첨단 작업에 참여할 수 있게 했습니다. 공유된 접근과 상호 검토에 기반한 이 협력 정신은 과학적 방법 자체에 깊이 뿌리내려 견고성을 보장하고 다양한 분야에서 빠른 진보를 촉진했습니다. 사용되는 도구를 분해하고, 이해하고, 수정하는 능력 자체가 가장 중요했습니다. 단순히 소프트웨어를 사용하는 것이 아니라, 그것이 어떻게 작동하는지 이해하고, 특정 과학적 작업에 대한 적합성을 확인하며, 집단적 지식 풀에 다시 기여하는 것이었습니다. 이 선순환은 전례 없는 속도로 혁신을 이끌었습니다.
AI의 데이터 의존성: ‘코드가 왕’이라는 말이 부족한 이유
대규모 인공지능(Artificial Intelligence), 특히 많은 관심과 투자를 받는 파운데이션 모델의 시대에 들어서면서, 주로 소스 코드에 중점을 둔 전통적인 오픈소스 패러다임은 근본적인 불일치에 직면합니다. AI 모델을 구축하는 데 사용되는 알고리즘과 코드는 분명 그림의 일부이지만, 전체 이야기는 아닙니다. 현대 AI, 특히 딥러닝 모델은 데이터를 탐욕스럽게 소비합니다. 훈련 데이터는 단순한 입력이 아니라, 모델의 능력, 편향, 한계를 결정하는 주요 결정 요인이라고 할 수 있습니다.
모델의 코드나 최종 훈련된 파라미터(‘가중치’)를 공개하면서도, 훈련에 사용된 방대한 데이터셋에 대한 의미 있는 접근이나 상세한 정보를 제공하지 않는 것은, 누군가에게 자동차 열쇠를 주면서도 어떤 종류의 연료를 사용하는지, 어디를 운전했는지, 또는 엔진이 실제로 어떻게 조립되었는지 알려주기를 거부하는 것과 같습니다. 운전할 수는 있겠지만, 성능상의 특이점을 이해하거나, 잠재적인 문제를 진단하거나, 새로운 여정을 위해 안정적으로 수정하는 능력은 제한적입니다.
더욱이, 이러한 모델을 처음부터 훈련하는 데 필요한 계산 자원은 막대하며, 단일 훈련 실행에 종종 수백만 달러가 소요됩니다. 이는 또 다른 장벽을 만듭니다. 코드와 데이터가 완전히 이용 가능하더라도, 훈련 과정을 복제할 수 있는 인프라를 갖춘 조직은 소수에 불과합니다. 이 현실은 코드 컴파일이 일반적으로 대부분의 개발자나 연구자의 손이 닿는 범위 내에 있었던 전통적인 소프트웨어와 비교하여 역학을 근본적으로 변화시킵니다. AI의 경우, 구성 요소가 ‘오픈’이라고 표시되더라도 진정한 재현성과 재훈련을 통한 실험 능력은 종종 달성하기 어렵습니다. 따라서 코드를 위해 고안된 오래된 오픈소스 정의를 단순히 적용하는 것은 이 새롭고 데이터 중심적이며 계산 집약적인 영역의 필수 요소를 포착하지 못합니다.
‘오픈워싱’: 양의 탈을 쓴 늑대
전통적인 오픈소스 개념과 AI 개발 현실 사이의 이러한 격차는 **’오픈워싱(openwashing)’**으로 알려진 현상이 번성할 수 있는 비옥한 토양을 만들었습니다. 기업들은 ‘오픈소스’라는 용어와 관련된 홍보 효과와 호의를 얻기 위해 자신들의 AI 모델에 이 라벨을 열심히 붙이지만, 실제로는 진정한 개방성의 정신, 심지어는 엄격하고 (아마도 시대에 뒤떨어진) 문자 그대로의 의미마저 배반하는 라이선스나 접근 제한을 사용합니다.
실제로 이것은 어떤 모습일까요?
- 데이터 없는 코드 공개: 회사는 모델의 아키텍처 코드와 사전 훈련된 가중치를 공개하여 다른 사람들이 모델을 ‘있는 그대로’ 사용하거나 더 작은 데이터셋에서 미세 조정할 수 있도록 할 수 있습니다. 그러나 모델의 핵심 능력을 정의하는 비밀 소스인 방대한 기초 훈련 데이터셋은 독점적이며 숨겨져 있습니다.
- 제한적인 라이선스: 모델은 언뜻 보기에는 개방적인 것처럼 보이지만 상업적 사용을 제한하거나, 특정 시나리오에서의 배포를 제한하거나, 특정 유형의 수정 또는 분석을 금지하는 조항을 포함하는 라이선스 하에 출시될 수 있습니다. 이러한 제한은 일반적으로 오픈소스 소프트웨어와 관련된 자유에 반합니다.
- 모호한 데이터 공개: 데이터 소스, 수집 방법, 정제 과정 및 잠재적 편향에 대한 자세한 정보 대신, 회사는 모호한 설명을 제공하거나 중요한 세부 정보를 완전히 생략할 수 있습니다. 이러한 ‘데이터 투명성’의 부족은 모델의 신뢰성이나 윤리적 함의를 완전히 평가하는 것을 불가능하게 만듭니다.
왜 이런 관행에 참여할까요? 동기는 다양할 것입니다. ‘오픈소스’의 긍정적인 함의는 인재 유치, 개발자 커뮤니티 구축(제한적이더라도), 우호적인 언론 생성에 부인할 수 없이 가치가 있습니다. 더 냉소적으로 보자면, Nature가 시사하듯이 규제적 인센티브가 있을 수 있습니다. 예를 들어, 유럽 연합의 포괄적인 2024년 AI 법(EU AI Act)은 오픈소스로 분류된 시스템에 대한 잠재적 면제 또는 완화된 요구 사항을 포함합니다. 이 라벨을 전략적으로 사용함으로써 일부 기업은 강력하고 범용적인 AI 시스템에 대한 감독을 잠재적으로 회피하면서 복잡한 규제 환경을 덜 마찰적으로 헤쳐나가기를 바랄 수 있습니다. 이 전략적 브랜딩 활동은 오픈소스 운동의 역사적 호의를 이용하면서 책임감 있는 AI 배포를 보장하려는 노력을 잠재적으로 약화시킵니다.
개방성의 스펙트럼: 사례 검토
AI에서의 개방성이 반드시 이분법적인 상태는 아니며, 스펙트럼 상에 존재한다는 것을 인식하는 것이 중요합니다. 그러나 현재의 라벨링 관행은 특정 모델이 그 스펙트럼에서 실제로 어디에 위치하는지를 종종 모호하게 만듭니다.
이 맥락에서 자주 논의되는 몇 가지 두드러진 예를 고려해 보십시오:
- Meta의 Llama 시리즈: Meta가 Llama 모델의 가중치와 코드를 공개했지만, 초기 접근에는 신청이 필요했고 라이선스에는 특히 매우 큰 기업의 사용과 특정 애플리케이션에 관한 제한이 포함되었습니다. 결정적으로, 기본 훈련 데이터는 공개되지 않아 완전한 재현성과 그 특성에 대한 심층 분석이 제한되었습니다. 후속 버전에서 조건이 조정되었지만, 데이터 불투명성이라는 핵심 문제는 종종 남아 있습니다.
- Microsoft의 Phi-2: Microsoft는 Phi-2를 ‘오픈소스’ 소형 언어 모델로 제시했습니다. 모델 가중치는 이용 가능하지만, 라이선스에는 특정 사용 제한이 있으며, 특히 ‘합성’ 데이터로 훈련되었다는 점을 고려할 때 그 능력과 잠재적 편향을 이해하는 데 중요한 훈련 데이터셋에 대한 자세한 정보는 완전히 투명하지 않습니다.
- Mistral AI의 Mixtral: 저명한 유럽 AI 스타트업이 출시한 이 모델은 성능으로 주목을 받았습니다. 구성 요소가 허용적인 Apache 2.0 라이선스(코드/가중치에 대한 진정으로 개방적인 라이선스) 하에 출시되었지만, 훈련 데이터 구성 및 큐레이션 프로세스에 대한 완전한 투명성은 여전히 제한적이어서 심층적인 과학적 검토를 방해합니다.
이러한 사례들을 전통적인 오픈소스 원칙과 더 큰 일치를 추구하는 이니셔티브들과 대조해 보십시오:
- Allen Institute for AI의 OLMo: 이 프로젝트는 모델 가중치와 코드뿐만 아니라 훈련 데이터(Dolma 데이터셋)와 상세한 훈련 로그까지 공개하는 것을 우선시하며 진정으로 개방적인 언어 모델을 구축하는 것을 명시적으로 목표로 삼았습니다. 이러한 약속은 더 넓은 연구 커뮤니티에 의한 전례 없는 수준의 재현성과 분석을 가능하게 합니다.
- LLM360의 CrystalCoder: 이 커뮤니티 주도 노력은 마찬가지로 중간 체크포인트와 데이터 및 훈련 프로세스에 대한 상세한 문서를 포함하여 모델 개발 라이프사이클의 모든 구성 요소를 공개하는 것을 강조하며, 기업 릴리스에서 종종 누락되는 수준의 투명성을 조성합니다.
이러한 대조적인 예들은 AI에서의 진정한 개방성이 가능하다는 것을 강조하지만, 단순히 코드나 가중치를 공개하는 것 이상의 의도적인 노력이 필요합니다. 이는 데이터와 프로세스에 대한 투명성을 요구하며, 그에 따르는 면밀한 검토를 수용해야 합니다. ‘오픈워싱’에 의해 조성된 현재의 모호함은 연구자들이 어떤 도구가 진정으로 개방적인 과학적 탐구를 지원하는지 식별하기 어렵게 만듭니다.
신뢰의 부식: 위태로운 과학적 무결성
이 광범위한 ‘오픈워싱’의 함의는 단순한 브랜딩을 훨씬 넘어섭니다. 연구자들이 내부 작동 방식, 특히 훈련된 데이터가 불투명한 AI 모델에 의존할 때, 이는 과학적 방법론의 핵심을 타격합니다.
- 재현성 약화: 과학적 타당성의 초석은 독립적인 연구자들이 결과를 재현할 수 있는 능력입니다. 훈련 데이터와 정확한 훈련 방법론이 알려지지 않으면 진정한 복제는 불가능해집니다. 연구자들은 사전 훈련된 모델을 사용할 수 있지만, 그 구성을 검증하거나 숨겨진 데이터에서 파생된 근본적인 속성을 탐색할 수는 없습니다.
- 검증 방해: 과학자들이 학습한 데이터를 검사할 수 없다면 모델의 출력을 어떻게 신뢰할 수 있을까요? 훈련 데이터에 내재된 숨겨진 편향, 부정확성 또는 윤리적 우려는 필연적으로 모델의 행동에 나타나지만, 투명성이 없으면 이러한 결함을 감지, 진단 또는 완화하기 어렵습니다. 과학적 발견을 위해 이러한 블랙박스를 사용하는 것은 용납할 수 없는 수준의 불확실성을 야기합니다.
- 혁신 저해: 과학은 이전 작업 위에 구축함으로써 발전합니다. 파운데이션 모델이 제한 사항과 함께 또는 필요한 투명성(특히 데이터 관련) 없이 출시되면, 다른 사람들이 혁신하거나, 대안적인 훈련 방식을 실험하거나, 원래 제작자가 예상하지 못했을 수 있는 새로운 과학적 응용 프로그램을 위해 모델을 조정하는 능력을 방해합니다. 진보는 이러한 반쯤 불투명한 시스템 제공자에 의해 제한됩니다.
폐쇄적이거나 부분적으로 폐쇄된 기업 시스템에 대한 의존은 연구자들을 능동적인 참여자이자 혁신가가 아닌 수동적인 소비자 역할로 강요합니다. 이는 중요한 과학 인프라가 소수의 대규모 기업에 의해 통제되어 잠재적으로 개방적인 과학적 탐구의 필요성보다 상업적 이익을 우선시하는 미래를 만들 위험이 있습니다. 이러한 투명성의 침식은 현대 연구를 뒷받침하는 도구에 대한 신뢰의 침식으로 직접 이어집니다.
시장 집중과 혁신에 대한 냉각 효과
과학적 실천에 대한 즉각적인 영향 외에도, AI에서 가짜 오픈소스의 만연은 상당한 경제적 및 시장적 함의를 지닙니다. 대규모 파운데이션 모델 개발에는 상당한 전문 지식뿐만 아니라 방대한 데이터셋과 막대한 계산 능력에 대한 접근이 필요하며, 이러한 자원은 대형 기술 기업에 불균형적으로 집중되어 있습니다.
이러한 기업들이 ‘오픈소스’ 깃발 아래 모델을 출시하지만 중요한 훈련 데이터를 통제하거나 제한적인 라이선스를 부과할 때, 이는 불공정한 경쟁 환경을 조성합니다.
- 진입 장벽: 스타트업과 소규모 연구실은 처음부터 비교 가능한 파운데이션 모델을 만들 자원이 부족합니다. 기존 기업이 출시한 소위 ‘오픈’ 모델에 (상업적 사용 제한이나 심층 수정을 방해하는 데이터 불투명성과 같은) 조건이 붙어 있다면, 이러한 소규모 플레이어들이 효과적으로 경쟁하거나 그 위에 진정으로 혁신적인 애플리케이션을 구축하는 능력을 제한합니다.
- 기존 기업의 입지 강화: ‘오픈워싱’은 전략적 해자 역할을 할 수 있습니다. 유용하지만 진정으로 개방적이지 않은 모델을 출시함으로써 대기업은 경쟁자들이 자신들의 핵심 자산(데이터 및 정제된 훈련 프로세스)을 완전히 복제하거나 크게 개선하는 것을 방지하면서 자사 기술에 의존하는 생태계를 조성할 수 있습니다. 이는 개방성처럼 보이지만 통제된 플랫폼 전략에 더 가깝게 기능합니다.
- 접근 방식의 다양성 감소: 혁신이 소수의 지배적이고 반쯤 불투명한 파운데이션 모델에 지나치게 의존하게 되면, AI 개발의 동질화를 초래할 수 있으며, 만약 분야가 진정으로 개방적이었다면 소규모 독립 그룹이 탐색했을 수 있는 대안적인 아키텍처, 훈련 패러다임 또는 데이터 전략을 간과할 가능성이 있습니다.
진정한 오픈소스는 역사적으로 경쟁과 분산된 혁신을 위한 강력한 엔진이었습니다. AI의 현재 추세는 권력을 집중시키고 개방적인 협업이 육성하고자 하는 바로 그 역동성을 억누를 위험이 있으며, 잠재적으로 덜 활기차고 더 중앙 집중적으로 통제되는 AI 환경으로 이어질 수 있습니다.
규제 사각지대와 윤리적 줄타기
‘오픈워싱’이 특히 EU AI 법과 같은 프레임워크와 관련하여 규제 허점을 이용할 가능성은 더 면밀히 검토할 가치가 있습니다. 이 법은 AI 시스템에 대한 위험 기반 규제를 확립하여 고위험 애플리케이션에 더 엄격한 요구 사항을 부과하는 것을 목표로 합니다. 오픈소스 AI에 대한 면제 또는 완화된 의무는 혁신을 촉진하고 오픈소스 커뮤니티에 과도한 부담을 주지 않기 위한 것입니다.
그러나 기업들이 진정한 투명성(특히 데이터 및 훈련 관련)이 부족한 모델에 대해 ‘오픈소스’라는 명칭을 성공적으로 주장할 수 있다면, 중요한 안전 장치를 우회할 수 있습니다. 이는 중요한 질문을 제기합니다:
- 의미 있는 검토: 규제 당국이 강력한 AI 모델의 훈련 데이터(그 행동과 잠재적 편향의 핵심 결정 요인)가 숨겨져 있다면 그 위험을 적절하게 평가할 수 있을까요? 잘못된 라벨링은 잠재적으로 고위험 시스템이 의도된 것보다 적은 감독 하에 운영되도록 허용할 수 있습니다.
- 책임 공백: 문제가 발생했을 때 – 모델이 해로운 편향을 보이거나 위험한 출력을 생성하는 경우 – 기본 데이터와 훈련 프로세스가 불투명하다면 누가 책임이 있을까요? 진정한 개방성은 조사와 책임 추궁을 용이하게 합니다. ‘오픈워싱’은 이를 모호하게 만듭니다.
- 윤리적 거버넌스: AI를 책임감 있게 배포하려면 그 한계와 잠재적인 사회적 영향을 이해해야 합니다. 이러한 이해는 훈련 데이터와 같은 핵심 구성 요소가 비밀로 유지될 때 근본적으로 손상됩니다. 이는 독립적인 감사, 편향 평가 및 윤리적 검토를 불가능하지는 않더라도 상당히 어렵게 만듭니다.
규제를 탐색하기 위해 ‘오픈소스’ 라벨을 전략적으로 사용하는 것은 단순한 법적 책략이 아닙니다. 심오한 윤리적 함의를 지닙니다. 이는 대중의 신뢰를 약화시키고 AI 개발이 안전하고 공정하며 책임감 있는 방식으로 진행되도록 보장하려는 노력을 방해할 위험이 있습니다. ‘오픈소스 AI’의 규제적 정의가 진정한 투명성의 원칙과 일치하도록 보장하는 것이 따라서 가장 중요합니다.
진정한 AI 개방성을 향한 길 모색
다행히 경종이 울리고 있으며, AI 시대에 ‘오픈소스’의 의미를 되찾으려는 노력이 진행 중입니다. 오픈소스 정의의 오랜 관리자인 **Open Source Initiative (OSI)**는 오픈소스 AI에 대한 명확한 표준을 수립하기 위해 글로벌 협의 프로세스를 주도했습니다(결과적으로 OSAID 1.0 정의가 나옴).
이 노력의 핵심 혁신은 **’데이터 정보(data information)’*라는 개념입니다. 방대한 원시 데이터셋을 공개하는 것이 경우에 따라 법적으로나 물류적으로 불가능할 수 있다는 점(개인 정보 보호, 저작권 또는 순수한 규모 때문에)을 인식하여, OSAID 프레임워크는 데이터에 대한* 포괄적인 공개의 필요성을 강조합니다. 여기에는 다음에 대한 세부 정보가 포함됩니다:
- 출처: 데이터는 어디에서 왔는가?
- 특성: 어떤 종류의 데이터인가(텍스트, 이미지, 코드)? 통계적 속성은 무엇인가?
- 준비: 데이터는 어떻게 수집, 필터링, 정제 및 전처리되었는가? 편향을 완화하기 위해 어떤 조치가 취해졌는가?
원시 데이터 자체가 없더라도 이러한 수준의 투명성은 연구자들이 모델의 예상 능력, 한계 및 잠재적 편향을 이해하는 데 중요한 맥락을 제공합니다. 이는 기존 제약 내에서 최대한의 투명성을 추구하는 실용적인 타협안을 나타냅니다. OSI와 함께 Open Future와 같은 조직은 AI 훈련을 위한 공유되고, 윤리적으로 공급되며, 공개적으로 접근 가능한 데이터셋을 만드는 방법을 모색하는 ‘데이터 커먼즈(data-commons)’ 모델로의 광범위한 전환을 옹호하며, 진입 장벽을 더욱 낮추고 협력적 개발을 촉진합니다. 이러한 명확하고 커뮤니티에서 검증된 표준을 수립하고 준수하는 것이 ‘오픈워싱’의 안개를 걷어내는 필수적인 첫걸음입니다.
연구 커뮤니티를 위한 필수 과제
과학자와 연구자는 단순히 AI 도구의 소비자가 아닙니다. 이 도구가 과학적 가치와 일치하도록 보장하는 데 중요한 이해관계자입니다. OSAID 1.0과 같은 진화하는 정의 및 표준에 적극적으로 참여하는 것이 중요합니다. 그러나 행동은 단순한 인식을 넘어서야 합니다:
- 투명성 요구: 출판물, 연구 제안서 및 도구 선택에서 연구자들은 사용하는 AI 모델에 대한 더 큰 투명성을 우선시하고 요구해야 합니다. 여기에는 모델 릴리스에 동반되는 상세한 ‘데이터 정보’ 카드 또는 데이터시트를 추진하는 것이 포함됩니다.
- 진정한 개방성 지원: OLMo 또는 코드, 데이터 및 방법론 공개에 대한 진정한 약속을 보여주는 다른 이니셔티브와 같은 프로젝트에 적극적으로 기여하고, 활용하며, 인용하십시오. 다운로드와 인용으로 투표하는 것은 강력한 시장 신호를 보냅니다.
- 평가 기준 개발: 커뮤니티는 단순한 라벨을 넘어 AI 모델의 개방성 정도를 평가하기 위한 견고한 방법과 체크리스트가 필요합니다. 동료 검토 프로세스는 연구에 사용된 AI 도구와 관련된 투명성 주장에 대한 면밀한 검토를 통합해야 합니다.
- 기관 내 옹호: 대학, 연구 기관 및 전문 학회가 진정으로 개방적이고 투명한 AI 도구 및 플랫폼 사용을 선호하거나 요구하는 정책을 채택하도록 장려하십시오.
과학 커뮤니티는 상당한 영향력을 가지고 있습니다. 재현성, 투명성 및 협력적 접근을 지지하는 표준을 집단적으로 주장함으로써 연구자들은 오해의 소지가 있는 주장에 맞서고 엄격한 과학적 발견에 도움이 되는 AI 생태계를 형성하는 데 도움을 줄 수 있습니다.
정책, 자금 지원 및 앞으로의 길
정부와 공공 자금 지원 기관 또한 AI 환경을 형성하는 데 상당한 힘을 행사합니다. 그들의 정책은 ‘오픈워싱’을 암묵적으로 지지하거나 진정한 개방성을 적극적으로 촉진할 수 있습니다.
- 개방성 의무화: 미국 국립보건원(NIH)과 같은 기관은 이미 자금을 지원하는 연구에 대해 개방형 라이선스 및 데이터 공유를 요구하는 의무 조항을 가지고 있습니다. 공적 자금으로 개발된 AI 모델 및 데이터셋에 유사한 원칙을 확장하는 것은 논리적이고 필요한 단계입니다. 공적 자금이 AI 개발을 지원한다면, 그 결과는 가능한 최대 범위까지 공개적으로 접근 가능하고 검증 가능해야 합니다.
- 조달 능력: 정부 기관은 기술의 주요 소비자입니다. 공공 조달 계약에서 진정한 오픈소스 AI(OSAID와 같은 표준 준수)에 대한 요구 사항을 명시함으로써 정부는 기업이 더 투명한 관행을 채택하도록 상당한 시장 인센티브를 창출할 수 있습니다. 이탈리아의 공공 행정에서 오픈소스 소프트웨어 요구 사항은 잠재적인 본보기를 제공합니다.
- 개방형 인프라 투자: 규제를 넘어, ‘데이터 커먼즈’ 이니셔티브, 연구자를 위한 개방형 계산 자원, 진정으로 개방적인 AI 모델을 호스팅하고 평가하는 데 전념하는 플랫폼에 대한 공공 투자는 변혁적일 수 있습니다. 이는 경쟁의 장을 평평하게 하고 독점적이거나 반쯤 개방적인 시스템에 대한 실행 가능한 대안을 제공하는 데 도움이 될 수 있습니다.
- 글로벌 협력: AI 개발의 글로벌 특성을 고려할 때, 오픈소스 AI 표준 정의 및 촉진에 대한 국제 협력은 규제 분열을 피하고 전 세계적으로 투명성과 책임성의 일관된 기준선을 보장하는 데 필수적입니다.
정책 수단은 신중하게 적용될 때, 기만적인 라벨링에서 벗어나 과학적 무결성과 광범위한 혁신을 진정으로 지원하는 관행으로 인센티브를 크게 전환할 수 있습니다. AI에서 ‘오픈소스’ 환상에 맞서는 싸움에는 공동의 노력이 필요합니다. 연구자들은 과학적 엄격성에 필요한 투명성을 요구하는 경계하는 비평가여야 합니다. OSI와 같은 표준 제정 기관은 AI의 고유한 특성을 반영하는 정의를 계속해서 개선해야 합니다. 그리고 정책 입안자들은 검증 가능하고 신뢰할 수 있으며 접근 가능한 인공지능에 대한 공익과 일치하는 관행을 장려하고 의무화하기 위해 영향력을 사용해야 합니다. 과학에서 AI의 미래 궤적—진정으로 발견을 위한 개방된 개척지가 될 것인지, 아니면 불투명한 기업 시스템이 지배하는 풍경이 될 것인지—는 균형에 달려 있습니다.