Ерозия на отвореността: Защо 'отворен код' AI често не е

Терминът ‘отворен код’ носи мощен резонанс в света на технологиите. Той предизвиква образи на съвместни иновации, споделено знание и фундаментална вяра в прозрачността. Този дух беше ярко въплътен преди половин век със създаването на Homebrew Computer Club в Menlo Park, Калифорния. Този колектив от ентусиасти и майстори не просто създаваше машини; те изградиха култура, основана на свободния обмен на идеи и софтуер, полагайки основите на движението за отворен код, което щеше да революционизира компютърните технологии. Днес обаче това трудно извоювано наследство и самата дефиниция на отвореност са изправени пред фино, но значимо предизвикателство, особено в бързо разрастващата се област на изкуствения интелект. Все по-голям брой компании, разработващи сложни AI модели, с нетърпение брандират своите творения като ‘отворен код’, но по-внимателен поглед разкрива, че този етикет често се прилага повърхностно, маскирайки реалност, която не отговаря на основните принципи на движението. Това размиване на значението не е просто семантична дреболия; то представлява реална заплаха за принципите на прозрачност и възпроизводимост, които са от първостепенно значение, особено в научната общност.

Разбиране на истинския дух на отвореното сътрудничество

За да се разбере настоящата ситуация, първо трябва да се оцени какво всъщност означава ‘отворен код’. Това е повече от просто безплатен софтуер; това е философия, вкоренена в колективния прогрес и проверимото доверие. Основата на тази философия се крепи на четири основни свободи:

  1. Свободата да се изпълнява програмата за всякакви цели.
  2. Свободата да се изучава как работи програмата и да се променя, така че да извършва вашите изчисления, както желаете. Достъпът до изходния код е предпоставка за това.
  3. Свободата да се разпространяват копия, за да можете да помагате на другите.
  4. Свободата да се разпространяват копия на вашите модифицирани версии на други. Правейки това, можете да дадете шанс на цялата общност да се възползва от вашите промени. Достъпът до изходния код е предпоставка за това.

Тези свободи, обикновено залегнали в лицензи като GNU General Public License (GPL), MIT License или Apache License, исторически са се фокусирали върху изходния код. Изходният код – четимите от човек инструкции, написани от програмисти – е планът на традиционния софтуер. Предоставянето на този код открито позволява на всеки да го инспектира, да разбере логиката му, да идентифицира потенциални недостатъци, да го адаптира към нови нужди и да споделя тези подобрения.

Този модел е изключителен катализатор за иновации и научен напредък. Помислете за въздействието на инструментите, лесно достъпни за изследователи по целия свят:

  • Статистически анализ: Софтуер като R Studio предоставя мощна, прозрачна и разширяема среда за статистически изчисления и графики, превръщайки се в крайъгълен камък на анализа на данни в безброй научни области. Неговата отвореност позволява партньорска проверка на методите и разработване на специализирани пакети.
  • Изчислителна динамика на флуидите: OpenFOAM предлага сложна библиотека за симулиране на флуидни потоци, ключова в области от аерокосмическото инженерство до науката за околната среда. Неговата отворена природа позволява персонализиране и проверка на сложни симулации.
  • Операционни системи: Linux и други операционни системи с отворен код формират гръбнака на голяма част от световната компютърна инфраструктура, включително научни високопроизводителни изчислителни клъстери, ценени заради тяхната стабилност, гъвкавост и прозрачност.

Ползите се простират далеч отвъд простото спестяване на разходи. Отвореният код насърчава възпроизводимостта, крайъгълен камък на научния метод. Когато инструментите и кодът, използвани в изследванията, са отворени, други учени могат да повторят експериментите, да проверят констатациите и да надграждат работата с увереност. Той насърчава глобалното сътрудничество, премахвайки бариерите и позволявайки на изследователи от различни среди и институции да допринасят за споделени предизвикателства. Той гарантира дълготрайност и избягва обвързването с доставчик, защитавайки изследователските инвестиции от капризите на компаниите за патентован софтуер. Той ускорява откритията, като позволява бързо разпространение и итерация на нови идеи и техники. Етосът на отворения код е фундаментално съобразен с научното търсене на знание чрез прозрачност, проверка и споделен напредък.

Изкуствен интелект: Съвсем различен звяр

Установената парадигма на отворения код, изградена сигурно около достъпността на изходния код, среща значителни турбуленции, когато се прилага в сферата на изкуствения интелект, особено при мащабни модели като основополагащите големи езикови модели (LLMs). Докато тези AI системи със сигурност включват код, тяхната функционалност и поведение се оформят от далеч по-сложни и често непрозрачни елементи. Простото публикуване на архитектурния код за невронна мрежа не е равносилно на истинска отвореност по начина, по който е при традиционния софтуер.

AI модел, особено модел за дълбоко обучение, обикновено се състои от няколко ключови съставки:

  1. Архитектура на модела: Това е структурният дизайн на невронната мрежа – подреждането на слоеве, неврони и връзки. Компаниите често публикуват тази информация, представяйки я като доказателство за отвореност. Това е подобно на споделянето на чертежа на двигател.
  2. Тегла на модела (Параметри): Това са числовите стойности, често милиарди на брой, в мрежата, които са били коригирани по време на процеса на обучение. Те представляват научените модели и знания, извлечени от данните за обучение. Публикуването на теглата позволява на другите да използват предварително обучен модел. Това е като да предоставите напълно сглобен двигател, готов за работа.
  3. Данни за обучение: Това е може би най-критичният и най-често скриван компонент. Основополагащите модели се обучават върху колосални набори от данни, често извлечени от интернет или получени от патентовани или частни колекции (като медицински досиета, които повдигат значителни опасения за поверителността). Съставът, курирането, филтрирането и потенциалните пристрастия в тези данни дълбоко влияят върху възможностите, ограниченията и етичното поведение на модела. Без подробна информация за данните за обучение, разбирането защо моделът се държи по определен начин или оценката на неговата пригодност и безопасност за конкретни приложения става изключително трудно. Това е тайната горивна смес и точните условия, при които двигателят е бил разработван.
  4. Код и процес на обучение: Това включва специфичните алгоритми, използвани за обучение, техниките за оптимизация, избраните хиперпараметри (настройки, които контролират процеса на обучение), използваната изчислителна инфраструктура и значителната консумирана енергия. Малки вариации в процеса на обучение могат да доведат до различно поведение на модела, което прави възпроизводимостта предизвикателна, дори ако архитектурата и данните са известни. Това представлява подробните инженерни спецификации, инструменти и фабрични условия, използвани за изграждане и настройка на двигателя.

Много системи, които понастоящем се предлагат на пазара като ‘отворен код’ AI, основно предлагат достъп до архитектурата на модела и предварително обучените тегла. Макар това да позволява на потребителите да стартират модела и може би да го донастроят върху по-малки набори от данни, то критично не успява да осигури необходимата прозрачност по отношение на данните и процеса на обучение. Това сериозно ограничава способността за истинско изучаване на основните свойства на модела или за модифицирането му по дълбоко смислени начини, които изискват преобучение или разбиране на неговия произход. Свободите за изучаване и модифициране, централни за дефиницията на отворен код, са значително възпрепятствани, когато ключовите елементи на данните и методологията на обучение остават скрити. Повторното създаване на модела от нулата – ключов тест за научно разбиране и проверка – става практически невъзможно.

Тревожната тенденция на ‘отворено измиване’ в AI

Тази пропаст между етикета и реалността породи практика, известна като ‘openwashing’ (отворено измиване). Този термин описва действието на компании, които използват положителната репутация и възприеманите ползи от ‘отворен код’ за маркетинг и стратегическо предимство, като същевременно задържат достъпа до критични компоненти като подробна информация за данните за обучение или кода, използван за самото обучение. Те обличат своите системи в езика на отвореността, без напълно да възприемат нейните изискващи принципи на прозрачност и достъп на общността.

Няколко видни AI модела, въпреки че са широко използвани и понякога носят обозначението ‘отворен’, не отговарят на изискванията, когато се измерват спрямо всеобхватната дефиниция на отворен код, поддържана от организации като Open Source Initiative (OSI). Анализ на OSI, която работи усърдно от 2022 г. за изясняване на значението на отворения код в контекста на AI, подчерта опасения относно няколко популярни модела:

  • Llama 2 & Llama 3.x (Meta): Докато теглата и архитектурата на модела са достъпни, ограниченията върху употребата и непълната прозрачност по отношение на пълния набор от данни за обучение и процеса ограничават тяхното съответствие с традиционните ценности на отворения код.
  • Grok (X): По подобен начин, макар и достъпен, липсата на изчерпателна информация за данните и методологията му на обучение повдига въпроси относно истинската му отвореност.
  • Phi-2 (Microsoft): Често описван като ‘отворен модел’, пълната прозрачност по отношение на процеса на създаване и данните остава ограничена.
  • Mixtral (Mistral AI): Въпреки че части са публикувани, той не отговаря на пълните критерии за отворен код поради ограничения в достъпа до всички необходими компоненти за изучаване и модификация.

Тези примери контрастират с усилия, които се стремят към по-голямо придържане към принципите на отворения код:

  • OLMo (Allen Institutefor AI): Разработен от изследователски институт с нестопанска цел, OLMo е изрично проектиран с мисъл за отвореност, като публикува не само тегла, но и код за обучение и подробности за използваните данни.
  • LLM360’s CrystalCoder: Проект, ръководен от общността, целящ пълна прозрачност през целия жизнен цикъл на модела, включително данни, процедури за обучение и метрики за оценка.

Защо да се ангажираме с ‘отворено измиване’? Мотивациите са многостранни:

  1. Маркетинг и възприятие: Етикетът ‘отворен код’ носи значителна добра воля. Той предполага сътрудничество, етични практики и ангажимент към по-широката общност, което може да привлече потребители, разработчици и положителна преса.
  2. Изграждане на екосистема: Публикуването на теглата на модела, дори без пълна прозрачност, насърчава разработчиците да изграждат приложения върху AI системата, потенциално създавайки зависима екосистема, която облагодетелства компанията-създател.
  3. Регулаторен арбитраж: Това е особено тревожен двигател. Предстоящите регулации, като Закона за изкуствения интелект на Европейския съюз (2024 г.), се очаква да наложат по-строги изисквания към определени високорискови AI системи. Въпреки това, често се предлагат изключения или по-лек контрол за ‘безплатен софтуер с отворен код’. Чрез прилагането на етикета ‘отворен код’ – дори и неточно според установените дефиниции – компаниите може да се надяват да навигират тези регулации по-лесно, избягвайки потенциално скъпи тежести за съответствие, свързани с патентовани, високорискови системи. Това стратегическо етикетиране експлоатира потенциална вратичка, подкопавайки намерението на регулацията да гарантира безопасност и прозрачност.

Тази практика в крайна сметка обезценява термина ‘отворен код’ и създава объркване, което затруднява потребителите, разработчиците и изследователите да разграничат кои AI системи наистина предлагат прозрачността и свободите, които етикетът предполага.

Защо истинската отвореност е спешно необходима за науката

За научната общност залозите в този дебат са изключително високи. Науката процъфтява благодарение на прозрачността, възпроизводимостта и способността за независима проверка. Нарастващата интеграция на AI в изследванията – от анализ на геномни данни и моделиране на изменението на климата до откриване на нови материали и разбиране на сложни биологични системи – прави естеството на тези AI инструменти критично важно. Разчитането на AI системи тип ‘черна кутия’ или такива, които се представят за отворени, без да предоставят истинска прозрачност, въвежда дълбоки рискове:

  • Нарушена възпроизводимост: Ако изследователите не могат да получат достъп или да разберат данните за обучение и методологията зад AI модел, използван в проучване, възпроизвеждането на резултатите става невъзможно. Това фундаментално подкопава основен стълб на научния метод. Как може да се вярва на констатациите или да се надгражда върху тях, ако не могат да бъдат независимо проверени?
  • Скрити пристрастия и ограничения: Всички AI модели наследяват пристрастия от своите данни за обучение и дизайнерски избори. Без прозрачност изследователите не могат адекватно да оценят тези пристрастия или да разберат ограниченията на модела. Използването на пристрастен модел несъзнателно може да доведе до изкривени резултати, погрешни заключения и потенциално вредни последици в реалния свят, особено в чувствителни области като медицински изследвания или социални науки.
  • Липса на проверка: Непрозрачните модели избягват строгата партньорска проверка. Научната общност не може напълно да разпита вътрешната работа на модела, да идентифицира потенциални грешки в логиката му или да разбере несигурностите, свързани с неговите прогнози. Това възпрепятства самокоригиращия се характер на научното изследване.
  • Зависимост от корпоративни системи: Разчитането на затворени или полузатворени AI системи, контролирани от корпорации, създава зависимости. Изследователските програми могат да бъдат фино повлияни от възможностите и ограниченията на наличните корпоративни инструменти, а достъпът може да бъде ограничен или да стане скъп, потенциално задушавайки независими изследователски направления и разширявайки пропастта между добре финансираните институции и другите.
  • Задушени иновации: Истинският отворен код позволява на изследователите не само да използват инструменти, но и да ги разглобяват, модифицират, подобряват и пренасочват. Ако ключови компоненти на AI моделите останат недостъпни, този решаващ път за иновации е блокиран. Учените са възпрепятствани да експериментират с нови техники за обучение, да изследват различни комбинации от данни или да адаптират модели за специфични, нюансирани изследователски въпроси, които първоначалните разработчици не са предвидили.

Научната общност не може да си позволи пасивно да приеме размиването на термина ‘отворен код’. Тя трябва активно да се застъпва за яснота и да изисква истинска прозрачност от разработчиците на AI, особено когато тези инструменти се използват в изследователски контекст. Това включва:

  • Насърчаване на ясни стандарти: Подкрепа на усилия, като тези на OSI, за установяване на ясни, строги дефиниции за това какво представлява ‘AI с отворен код’, дефиниции, които обхващат прозрачност по отношение на архитектурата, теглата, данните за обучение и процесите на обучение.
  • Приоритизиране на проверими инструменти: Предпочитане на използването на AI модели и платформи, които отговарят на тези високи стандарти за прозрачност, дори ако първоначално са по-малко производителни или изискват повече усилия от лесно достъпните непрозрачни алтернативи.
  • Изискване на прозрачност: Настояване публикациите, включващи AI, да включват подробни разкрития за използваните модели, включително изчерпателна информация за произхода на данните за обучение, обработката и потенциалните пристрастия, както и методологиите за обучение.
  • Подкрепа на наистина отворени проекти: Допринасяне и използване на проекти, ръководени от общността, и инициативи от институции, ангажирани с истинска отвореност в разработването на AI.

Духът на Homebrew Computer Club – дух на споделено знание и съвместно изграждане – е от съществено значение за отговорното навигиране в сложността на ерата на AI. Възстановяването и защитата на истинското значение на ‘отворен код’ за изкуствения интелект не е просто въпрос на терминологична чистота; става въпрос за опазване нацелостта, възпроизводимостта и непрекъснатия напредък на самата наука във все по-задвижван от AI свят. Пътят напред изисква бдителност и колективен ангажимент за гарантиране, че мощните инструменти на AI се разработват и внедряват по начин, съвместим с принципите на отвореното изследване, които са служили толкова добре на науката в продължение на векове.