Обезценяване на основополагаща концепция: Ерозията на ‘отворения код’
Терминът ‘отворен код’ някога беше фар в технологичния и научния пейзаж. Той представляваше мощен етос, основан на прозрачност, неограничен достъп, съвместно усъвършенстване и фундаменталния принцип на възпроизводимост. За поколения изследователи и разработчици той означаваше ангажимент към споделено знание и колективен напредък. От основните статистически инструменти, намиращи се в среди като R Studio, които дават възможност за безброй анализи в различни дисциплини, до сложни симулационни платформи като OpenFOAM, използвани за разгадаване на сложността на динамиката на флуидите, софтуерът с отворен код е незаменим катализатор за иновации. Той ускоряваше откритията, като позволяваше на учени от цял свят да проверяват, верифицират, модифицират и надграждат работата на другите, гарантирайки, че резултатите могат да бъдат репликирани и валидирани – самата основа на научния метод.
Въпреки това, сянка сега надвисва над това доверено обозначение, хвърлена от процъфтяващата област на изкуствения интелект. Както се подчертава в последните критични дискусии, включително тези, отбелязани от публикации като Nature, се появи тревожна тенденция, при която видни разработчици на AI възприемат етикета ‘отворен код’ за своите модели, като същевременно задържат ключови компоненти, необходими за истинска отвореност. Тази практика рискува да размие значението на термина, превръщайки го от символ на прозрачност в потенциално подвеждащ маркетингов лозунг. Основният проблем често се крие в уникалната природа на съвременните AI системи. За разлика от традиционния софтуер, където изходният код е от първостепенно значение, силата и поведението на големите AI модели са неразривно свързани с огромните набори от данни, използвани за тяхното обучение, и сложните архитектури, които ги определят. Когато достъпът до тези данни за обучение или подробна информация за конструкцията и теглата на модела е ограничен, твърдението за ‘отворен код’ звучи кухо, независимо дали част от кода на модела е достъпна. Това несъответствие удря в сърцето на философията на отворения код, създавайки илюзия за достъпност, докато прикрива елементите, най-важни за независим контрол и репликация.
Необходимостта от истинска отвореност в научния AI
Залозите, свързани с поддържането на истинска отвореност в AI, особено в научната област, не биха могли да бъдат по-високи. Науката процъфтява благодарение на способността за независима проверка на резултатите, разбиране на методологиите и надграждане върху предишна работа. Когато самите инструменти – все по-сложни AI модели – се превърнат в черни кутии, този фундаментален процес е застрашен. Разчитането на AI системи, чиито вътрешни механизми, пристрастия в данните за обучение или потенциални режими на отказ са непрозрачни, въвежда неприемливо ниво на несигурност в изследванията. Как може един учен уверено да базира заключенията си на изхода на AI, ако факторите, оформящи този изход, са неизвестни или непроверими? Как може общността да се довери на резултати, генерирани от патентовани системи, които не могат да бъдат независимо одитирани или репликирани?
Историческият успех на софтуера с отворен код в науката предоставя ярък контраст и ясен ориентир. Прозрачността, присъща на традиционните проекти с отворен код, насърчаваше доверието и позволяваше стабилна партньорска проверка. Изследователите можеха да изследват алгоритмите, да разбират техните ограничения и да ги адаптират за специфични нужди. Тази съвместна екосистема ускори напредъка в области, вариращи от биоинформатика до астрофизика. Потенциалът на AI да революционизира научните открития е огромен, обещавайки да анализира сложни набори от данни, да генерира хипотези и да симулира сложни процеси в безпрецедентни мащаби. Реализирането на този потенциал обаче зависи от поддържането на същите принципи на прозрачност и възпроизводимост, които винаги са били в основата на научния напредък. Преминаването към затворени, патентовани AI системи, дори тези, маскирани като ‘отворени’, заплашва да фрагментира изследователската общност, да възпрепятства сътрудничеството и в крайна сметка да забави темпото на откритията чрез издигане на бариери пред разбирането и валидирането. Научното начинание изисква инструменти, които са не само мощни, но и прозрачни и надеждни.
Загадката на данните: Предизвикателството пред прозрачността на AI
В основата на дебата за ‘отворения код’ в AI лежи критичният въпрос за данните за обучение. За разлика от конвенционалния софтуер, дефиниран предимно от своя код, големите езикови модели (LLMs) и други основополагащи AI системи са фундаментално оформени от колосалните набори от данни, които поглъщат по време на своето развитие. Характеристиките, пристрастията и произходът на тези данни дълбоко влияят върху поведението на модела, неговите възможности и потенциалните му ограничения. Следователно истинската отвореност в AI изисква ниво на прозрачност по отношение на тези данни, което далеч надхвърля простото публикуване на теглата на модела или кода за извод.
Много модели, които понастоящем се предлагат на пазара под шапката на ‘отворен код’, очевидно не отговарят на това изискване. Да разгледаме видни примери като серията Llama на Meta, Phi-2 на Microsoft или Mixtral на Mistral AI. Докато тези компании публикуват определени компоненти, позволявайки на разработчиците да стартират или донастройват моделите, те често налагат значителни ограничения или предоставят оскъдни подробности за основните данни за обучение. Включените набори от данни могат да бъдат масивни, патентовани, извлечени от мрежата с малко куриране или обект на лицензионни ограничения, което прави пълното публично публикуване предизвикателно или невъзможно. Въпреки това, без изчерпателна информация относно:
- Източници на данни: Откъде идва информацията? Преобладаващо текст, изображения, код? От кои уебсайтове, книги или бази данни?
- Куриране на данни: Как са филтрирани, почистени и обработени данните? Какви критерии са използвани за включване или изключване на информация?
- Характеристики на данните: Какви са известните пристрастия в данните (напр. демографски, културни, езикови)? Какъв период от време обхващат?
- Стъпки на предварителна обработка: Какви трансформации са приложени към данните преди обучението?
…става изключително трудно за независими изследователи да разберат напълно поведението на модела, да репликират неговото развитие или критично да оценят потенциалните му пристрастия и точки на отказ. Тази липса на прозрачност на данните е основната причина, поради която много настоящи ‘отворени’ AI издания не отговарят на духа, ако не и на буквата, на истинската отвореност, установена в света на софтуера. За разлика от това, инициативи като модела OLMo на Allen Institute for AI или общностни усилия като CrystalCoder на LLM360 са положили по-съгласувани усилия за осигуряване на по-голяма прозрачност по отношение на техните данни и методологии за обучение, поставяйки по-висок стандарт, по-съобразен с традиционните ценности на отворения код.
‘Openwashing’: Стратегическо етикетиране или заобикаляне на регулациите?
Присвояването на етикета ‘отворен код’ от субекти, които не възприемат напълно неговите принципи, породи опасения относно ‘openwashing’. Този термин описва практиката на използване на положителните конотации на отвореността за ползи в областта на връзките с обществеността или стратегическо предимство, без да се ангажира със съответното ниво на прозрачност и достъпност. Защо компаниите биха се ангажирали с това? Няколко фактора могат да играят роля. Марката ‘отворен код’ носи значителна добра воля, предполагайки ангажимент към общността и споделения напредък, което може да бъде привлекателно за разработчиците и клиентите.
Освен това, както отбелязват Nature и други наблюдатели, регулаторните пейзажи могат неволно да стимулират такова поведение. Знаковият AI Act на Европейския съюз, финализиран през 2024 г., включва разпоредби, които налагат по-строги изисквания към високорискови и общоцелеви AI системи. Въпреки това, той съдържа и потенциални изключения или по-леки изисквания за AI модели, пуснати под лицензи с отворен код. Това създава потенциална вратичка, при която компаниите могат стратегически да етикетират своите модели като ‘отворен код’ – дори ако ключови компоненти като данните за обучение остават ограничени – специално за да навигират регулаторните препятствия и да избегнат по-строги задължения за съответствие.
Този потенциал за регулаторен арбитраж е дълбоко обезпокоителен. Ако ‘openwashing’ позволява на мощни AI системи да заобикалят контрола, предназначен да гарантира безопасност, справедливост и отчетност, това подкопава самата цел на регулацията. Това също поставя научната общност в несигурно положение. Изследователите могат да бъдат привлечени от тези номинално ‘отворени’ системи поради тяхната достъпност в сравнение с напълно затворени търговски предложения, само за да се окажат зависими от инструменти, чиито методологии остават непрозрачни и непроверими. Тази зависимост рискува да компрометира научната почтеност, което затруднява гарантирането, че изследванията са възпроизводими, безпристрастни и изградени върху солидна, разбираема основа. Привлекателността на познат етикет може да маскира основни ограничения, които възпрепятстват истинското научно изследване.
Предефиниране на отвореността за ерата на AI: Рамката OSAID
Признавайки неадекватността на традиционните дефиниции за отворен код за уникалните предизвикателства, породени от AI, Open Source Initiative (OSI) – дългогодишен пазител на принципите на отворения код – предприе решаващо глобално усилие. Тяхната цел е да установят ясна, стабилна дефиниция, специално пригодена за изкуствения интелект: Open Source AI Definition (OSAID 1.0). Тази инициатива представлява жизненоважна стъпка към възстановяване на значението на ‘отворен’ в контекста на AI и установяване на недвусмислени стандарти за прозрачност и отчетност.
Ключова иновация в предложената рамка OSAID е концепцията за ‘информация за данните’. Признавайки, че пълното публикуване на масивни набори от данни за обучение често може да бъде непрактично или законово забранено поради опасения за поверителност, ограничения на авторското право или чист мащаб, OSAID се фокусира върху задължителното цялостно разкриване относно данните. Това включва изисквания към разработчиците да предоставят подробна информация относно:
- Източници и състав: Ясно идентифициране на произхода на данните за обучение.
- Характеристики: Документиране на известни характеристики, ограничения и потенциални пристрастия в данните.
- Методи за подготовка: Обясняване на процесите, използвани за почистване, филтриране и подготовка на данните за обучение.
Дори ако суровите данни не могат да бъдат споделени, предоставянето на тези метаданни позволява на изследователите и одиторите да получат критична представа за факторите, които са оформили AI модела. То улеснява по-доброто разбиране на потенциалните пристрастия, позволява по-информирани оценки на риска и осигурява основа за опити за репликация или сравнителни проучвания.
Освен информацията за данните, усилията на OSI, заедно със застъпничеството на организации като Open Future, насърчават по-широко преминаване към модел на ‘общи данни’ (‘data-commons’). Това предвижда бъдеще, в което основните набори от данни за обучение на AI се курират и предоставят по-открито и справедливо, насърчавайки по-прозрачна и съвместна екосистема за развитие на AI, особено в рамките на изследователската общност. Дефиницията на OSAID има за цел да предостави ясен ориентир, спрямо който AI системите могат да бъдат оценявани, надхвърляйки повърхностните етикети, за да се оцени истинският ангажимент към отвореността.
Колективна отговорност: Насърчаване на истинска прозрачност в AI
Предизвикателството да се гарантира истинска отвореност в AI не може да бъде решено само с дефиниции; то изисква съгласувани действия от множество заинтересовани страни. Научната общност, като разработчици и основни потребители на сложни AI инструменти, носи значителна отговорност. Изследователите трябва активно да се ангажират с инициативи като OSAID 1.0, да разбират нейните принципи и да се застъпват за тяхното приемане. Те трябва критично да оценяват твърденията за ‘отвореност’ на AI моделите, които обмислят да използват, като дават приоритет на тези, които предлагат по-голяма прозрачност по отношение на данните за обучение и методологиите, дори ако това изисква да се устои на примамката на привидно удобни, но непрозрачни системи. Изразяването на необходимостта от проверими, възпроизводими AI инструменти в публикации, конференции и институционални дискусии е от първостепенно значение.
Публичните финансиращи агенции и правителствените органи също имат критична роля. Те упражняват значително влияние чрез изискванията за безвъзмездни средства и политиките за обществени поръчки. Институции като US National Institutes of Health (NIH), които вече изискват отворено лицензиране за изследователски данни, генерирани чрез тяхното финансиране, предоставят ценен прецедент. По същия начин примери като изискването на Италия публичните административни органи да дават приоритет на софтуера с отворен код демонстрират как политиката може да стимулира приемането. Тези принципи могат и трябва да бъдат разширени и в сферата на AI. Правителствата и финансиращите органи трябва да обмислят:
- Задължително спазване на стабилни стандарти за Open Source AI (като OSAID) за публично финансирани изследвания и разработки в областта на AI.
- Инвестиране в създаването на наистина отворени, висококачествени набори от данни – ‘общи данни’ (‘data commons’) – подходящи за обучение на AI модели, фокусирани върху изследванията.
- Гарантиране, че регулациите, като EU AI Act, се прилагат по начин, който предотвратява ‘openwashing’ и държи всички мощни AI системи отговорни, независимо от техните лицензионни претенции.
В крайна сметка, опазването на бъдещето на AI в научните изследвания изисква обединен фронт. Учените трябва да изискват прозрачност, институциите трябва да прилагат политики, които дават приоритет на истинската отвореност, а регулаторите трябва да гарантират, че етикетът ‘отворен код’ означава смислен ангажимент към отчетност, а не удобен изход. Без тези колективни усилия огромният потенциал на AI за научни открития рискува да бъде компрометиран от пейзаж, доминиран от затворени, патентовани системи, което фундаментално подкопава съвместния и проверим характер на самия научен напредък. Почтеността на бъдещите изследвания виси на косъм.