Голямата AI 'Отворен Код' Маскарада: Как Идеалът Бе Отвлечен

Терминът ‘отворен код’ някога резонираше с определена яснота, обещание за споделено знание и съвместен напредък, което тласна напред безброй научни и технологични скокове. Той извикваше образи на общности, които изграждат заедно, проверяват работата си взаимно и стъпват на раменете на гиганти, защото чертежите бяха свободно достъпни. Сега, навигирайки в пейзажа на изкуствения интелект (AI), този термин се усеща все по-… хлъзгав. Както се подчертава на страниците на Nature и се шепне в лаборатории и заседателни зали, обезпокоителен брой играчи в златната треска на AI прикриват своите творения под мантията на ‘отворен код’, докато държат наистина критичните компоненти под ключ. Това не е просто семантична дреболия; това е практика, която разяжда самите основи на научната почтеност и заплашва да замъгли пътя на бъдещите иновации. Изследователската общност, самата група, която може да спечели или загуби най-много, трябва да разпознае тази шарада такава, каквато е, и настойчиво да се застъпва за AI системи, които наистина въплъщават принципите на прозрачност и възпроизводимост, на които отдавна разчитаме.

Златният век на отвореността: Наследство под заплаха

В продължение на десетилетия движението за отворен код е невъзпят герой на научния напредък. Помислете отвъд познатите инструменти като R Studio за статистически магии или OpenFOAM за моделиране на динамика на флуидите. Разгледайте основните системи като Linux, захранващи огромни части от интернет и научни изчислителни клъстери, или уеб сървъра Apache, свидетелство за съвместно разработване на софтуер. Философията беше проста: осигурете достъп до изходния код, позволете модификация и преразпределение под разрешителни лицензи и насърчете глобална екосистема, където подобренията са от полза за всички.

Това не беше просто алтруизъм; беше прагматичен гений. Отвореността ускори откритията. Изследователите можеха да възпроизвеждат експерименти, да валидират констатации и да надграждат съществуваща работа, без да преоткриват колелото или да навигират в непрозрачни патентовани системи. Тя насърчаваше доверието, тъй като вътрешната работа беше достъпна за проверка, позволявайки грешките да бъдат откривани и коригирани колективно. Тя демократизира достъпа, позволявайки на учени и разработчици по целия свят, независимо от институционалната принадлежност или бюджет, да участват в авангардна работа. Този дух на сътрудничество, изграден върху споделен достъп и взаимна проверка, стана дълбоко вкоренен в самия научен метод, осигурявайки стабилност и насърчавайки бърз напредък в различни области. Самата способност да се разглобяват, разбират и модифицират използваните инструменти беше от първостепенно значение. Не ставаше въпрос само за използването на софтуера; ставаше въпрос за разбирането как работи, гарантирането на неговата пригодност за конкретна научна задача и допринасянето обратно към колективния фонд от знания. Този добродетелен цикъл тласна иновациите с безпрецедентна скорост.

Зависимостта на AI от данни: Защо ‘Кодът е цар’ не е достатъчно

Навлизаме в ерата на широкомащабния изкуствен интелект, особено на основополагащите модели, които привличат толкова много внимание и инвестиции. Тук традиционната парадигма на отворения код, съсредоточена предимно върху изходния код, се сблъсква с фундаментално несъответствие. Докато алгоритмите и кодът, използвани за изграждане на AI модел, със сигурност са част от картината, те далеч не са цялата история. Съвременният AI, особено моделите за дълбоко обучение, са ненаситни потребители на данни. Данните за обучение не са просто вход; те са може би основният определящ фактор за възможностите, пристрастията и ограниченията на модела.

Публикуването на кода на модела или дори на неговите окончателни обучени параметри (‘теглата’), без да се предоставя смислен достъп до или подробна информация за колосалните набори от данни, използвани за обучение, е като да дадеш на някого ключовете за кола, но да откажеш да му кажеш какво гориво използва, къде е карана или как всъщност е сглобен двигателят. Може да успеете да я карате, но имате ограничена способност да разберете особеностите на нейната производителност, да диагностицирате потенциални проблеми или надеждно да я модифицирате за нови пътувания.

Освен това, изчислителните ресурси, необходими за обучение на тези модели от нулата, са огромни, често достигащи милиони долари за едно обучение. Това създава друга бариера. Дори ако кодът и данните бяха напълно достъпни, само шепа организации притежават инфраструктурата за възпроизвеждане на процеса на обучение. Тази реалност фундаментално променя динамиката в сравнение с традиционния софтуер, където компилирането на код обикновено е в обсега на повечето разработчици или изследователи. За AI истинската възпроизводимост и способността за експериментиране чрез преобучение често остават недостижими, дори когато компонентите са обозначени като ‘отворени’. Следователно, простото прилагане на стари дефиниции за отворен код, замислени за код, не улавя нуждите на тази нова, ориентирана към данни и интензивна по отношение на изчисленията област.

‘Openwashing’: Вълк в овча кожа

Тази празнина между традиционните концепции за отворен код и реалностите на разработването на AI създаде плодородна почва за явление, известно като ‘openwashing’. Компаниите с нетърпение лепят етикета ‘отворен код’ върху своите AI модели, извличайки ползите за връзките с обществеността и добрата воля, свързани с термина, докато използват лицензи или ограничения за достъп, които предават духа, ако не и стриктната (и може би остаряла) буква, на истинската отвореност.

Как изглежда това на практика?

  • Публикуване на код без данни: Компания може да публикува кода на архитектурата на модела и може би дори предварително обучените тегла, позволявайки на други да използват модела ‘както е’ или да го донастроят върху по-малки набори от данни. Въпреки това, масивният, основополагащ набор от данни за обучение – тайната съставка, която определя основните способности на модела – остава патентован и скрит.
  • Ограничително лицензиране: Моделите могат да бъдат пуснати под лицензи, които на пръв поглед изглеждат отворени, но съдържат клаузи, ограничаващи търговската употреба, ограничаващи внедряването в определени сценарии или забраняващи специфични видове модификация или анализ. Тези ограничения противоречат на свободите, обикновено свързвани със софтуера с отворен код.
  • Неясно разкриване на данни: Вместо подробна информация за източниците на данни, методите за събиране, процесите на почистване и потенциалните пристрастия, компаниите могат да предложат неясни описания или да пропуснат изцяло ключови детайли. Тази липса на ‘прозрачност на данните’ прави невъзможно пълното оценяване на надеждността или етичните последици на модела.

Защо се ангажират с такива практики? Мотивациите вероятно са разнообразни. Положителните конотации на ‘отворен код’ са безспорно ценни за привличане на таланти, изграждане на общности от разработчици (дори и ограничени) и генериране на благоприятна преса. По-цинично, както предполага Nature, може да има регулаторни стимули. Всеобхватният Закон за AI на Европейския съюз от 2024 г., например, включва потенциални изключения или по-леки изисквания за системи, класифицирани като отворен код. Чрез стратегическо използване на етикета, някои фирми може да се надяват да навигират в сложни регулаторни пейзажи с по-малко триене, потенциално заобикаляйки контрола, предназначен за мощни AI системи с общо предназначение. Това стратегическо упражнение по брандиране експлоатира историческата добра воля на движението за отворен код, като същевременно потенциално подкопава усилията за осигуряване на отговорно внедряване на AI.

Спектър на отвореността: Разглеждане на примерите

От решаващо значение е да се признае, че отвореността в AI не е непременно бинарно състояние; тя съществува в спектър. Въпреки това, настоящите практики на етикетиране често замъгляват къде точно се намира даден модел в този спектър.

Разгледайте някои видни примери, често обсъждани в този контекст:

  • Серията Llama на Meta: Докато Meta публикува теглата и кода за моделите Llama, достъпът първоначално изискваше заявка, а лицензът включваше ограничения, особено по отношение на използването от много големи компании и специфични приложения. Критично, основният набор от данни за обучение не беше публикуван, ограничавайки пълната възпроизводимост и дълбокия анализ на неговите характеристики. Докато последващите версии коригираха условията, основният проблем с непрозрачността на данните често остава.
  • Phi-2 на Microsoft: Microsoft представи Phi-2 като ‘отворен код’ малък езиков модел. Докато теглата на модела са достъпни, лицензът има специфични ограничения за употреба, а подробната информация за неговия набор от данни за обучение, решаваща за разбирането на неговите възможности и потенциални пристрастия (особено предвид обучението му върху ‘синтетични’ данни), не е напълно прозрачна.
  • Mixtral на Mistral AI: Този модел, пуснат от виден европейски AI стартъп, привлече внимание с производителността си. Докато компонентите бяха пуснати под разрешителен лиценз Apache 2.0 (истински отворен лиценз за кода/теглата), пълната прозрачност по отношение на състава на данните за обучение и процеса на куриране остава ограничена, възпрепятствайки дълбокия научен контрол.

Сравнете тези с инициативи, стремящи се към по-голямо съответствие с традиционните принципи на отворения код:

  • OLMo на Allen Institute for AI: Този проект изрично имаше за цел да изгради наистина отворен езиков модел, като даде приоритет на публикуването не само на теглата и кода на модела, но и на данните за обучение (набора от данни Dolma) и подробните регистрационни файлове за обучение. Този ангажимент позволява безпрецедентни нива на възпроизводимост и анализ от страна на по-широката изследователска общност.
  • CrystalCoder на LLM360: Това усилие, ръководено от общността, по подобен начин набляга на публикуването на всички компоненти от жизнения цикъл на разработване на модела, включително междинни контролни точки и подробна документация за данните и процеса на обучение, насърчавайки ниво на прозрачност, често липсващо в корпоративните издания.

Тези контрастни примери подчертават, че истинската отвореност в AI е възможна, но изисква съзнателен ангажимент отвъд простото публикуване на код или тегла. Тя изисква прозрачност относно данните и процеса, приемайки контрола, който идва с нея. Настоящата неяснота, насърчавана от ‘openwashing’, затруднява изследователите да разграничат кои инструменти наистина подкрепят отвореното научно изследване.

Корозията на доверието: Научната почтеност е заложена на карта

Последиците от това широко разпространено ‘openwashing’ се простират далеч отвъд обикновеното брандиране. Когато изследователите разчитат на AI модели, чиято вътрешна работа, особено данните, на които са били обучени, е непрозрачна, това удря в сърцето на научната методология.

  • Подкопана възпроизводимост: Крайъгълен камък на научната валидност е способността на независими изследователи да възпроизвеждат резултати. Ако данните за обучение и точните методологии за обучение са неизвестни, истинското възпроизвеждане става невъзможно. Изследователите може да използват предварително обучен модел, но не могат да проверят неговата конструкция или да изследват основните му свойства, произтичащи от скритите данни.
  • Затруднена проверка: Как учените могат да се доверят на резултатите от модел, ако не могат да проверят данните, от които се е учил? Скритите пристрастия, неточности или етични проблеми, вградени в данните за обучение, неизбежно ще се проявят в поведението на модела, но без прозрачност тези недостатъци са трудни за откриване, диагностициране или смекчаване. Използването на такива черни кутии за научни открития въвежда неприемливо ниво на несигурност.
  • Задушени иновации: Науката напредва чрез надграждане върху предишна работа. Ако основополагащите модели се пускат с ограничения или без необходимата прозрачност (особено по отношение на данните), това възпрепятства способността на другите да правят иновации, да експериментират с алтернативни режими на обучение или да адаптират моделите за нови научни приложения по начини, които първоначалните създатели може да не са предвидили. Напредъкът става зависим от доставчиците на тези полу-непрозрачни системи.

Разчитането на затворени или частично затворени корпоративни системи принуждава изследователите да заемат пасивна потребителска роля, вместо да бъдат активни участници и иноватори. Това рискува да създаде бъдеще, в което критичната научна инфраструктура се контролира от няколко големи субекта, потенциално приоритизиращи търговските интереси пред нуждите на отвореното научно изследване. Тази ерозия на прозрачността директно се превръща в ерозия на доверието в инструментите, подкрепящи съвременните изследвания.

Пазарна концентрация и смразяващият ефект върху иновациите

Отвъд непосредственото въздействие върху научната практика, разпространението на фалшив отворен код в AI носи значителни икономически и пазарни последици. Разработването на големи основополагащи модели изисква не само значителна експертиза, но и достъп до огромни набори от данни и огромна изчислителна мощ – ресурси, непропорционално държани от големи технологични корпорации.

Когато тези корпорации пускат модели под знамето на ‘отворен код’, но запазват контрола върху ключовите данни за обучение или налагат ограничителни лицензи, това създава неравностойно положение.

  • Бариери за навлизане: Стартъпите и по-малките изследователски лаборатории нямат ресурсите да създадат сравними основополагащи модели от нулата. Ако предполагаемо ‘отворените’ модели, пуснати от утвърдените компании, идват с условия (като ограничения за търговска употреба или непрозрачност на данните, предотвратяваща дълбока модификация), това ограничава способността на тези по-малки играчи да се конкурират ефективно или да изграждат наистина иновативни приложения върху тях.
  • Укрепване на утвърдените компании: ‘Openwashing’ може да служи като стратегически ров. Чрез пускането на модели, които са полезни, но не са наистина отворени, големите компании могат да насърчават екосистеми, зависими от тяхната технология, като същевременно пречат на конкурентите да възпроизвеждат напълно или значително да подобряват основните им активи (данните и усъвършенстваните процеси на обучение). Изглежда като отвореност, но функционира по-близо до стратегия на контролирана платформа.
  • Намалено разнообразие от подходи: Ако иновациите станат прекалено зависими от няколко доминиращи, полу-непрозрачни основополагащи модела, това може да доведе до хомогенизиране на развитието на AI, потенциално пренебрегвайки алтернативни архитектури, парадигми на обучение или стратегии за данни, които по-малки, независими групи биха могли да изследват, ако областта беше наистина отворена.

Истинският отворен код исторически е бил мощен двигател за конкуренция и разпределени иновации. Настоящата тенденция в AI рискува да концентрира властта и да задуши самата динамика, която отвореното сътрудничество трябва да насърчава, потенциално водеща до по-малко жизнена и по-централно контролирана AI среда.

Регулаторни слепи петна и етичното въжеиграчество

Потенциалът на ‘openwashing’ да експлоатира регулаторни вратички, особено по отношение на рамки като Закона за AI на ЕС, заслужава по-внимателно разглеждане. Този закон има за цел да установи базирани на риска регулации за AI системи, налагайки по-строги изисквания за високорискови приложения. Изключенията или по-леките задължения за AI с отворен код са предназначени да насърчават иновациите и да избягват претоварването на общността на отворения код.

Въпреки това, ако компаниите могат успешно да претендират за мантията на ‘отворен код’ за модели, лишени от истинска прозрачност (особено по отношение на данните и обучението), те могат да заобиколят важни предпазни мерки. Това повдига критични въпроси:

  • Смислен контрол: Могат ли регулаторите адекватно да оценят рисковете на мощен AI модел, ако неговите данни за обучение – ключов определящ фактор за неговото поведение и потенциални пристрастия – са скрити от поглед? Неправилното етикетиране може да позволи на потенциално високорискови системи да работят с по-малко надзор от предвиденото.
  • Пропуски в отчетността: Когато нещата се объркат – ако моделът прояви вредно пристрастие или произведе опасни резултати – кой носи отговорност, ако основните данни и процесът на обучение са непрозрачни? Истинската отвореност улеснява разследването и отчетността; ‘openwashing’ я замъглява.
  • Етично управление: Отговорното внедряване на AI изисква разбиране на неговите ограничения и потенциални обществени въздействия. Това разбиране е фундаментално компрометирано, когато основни компоненти като данните за обучение се пазят в тайна. Това прави независимите одити, оценките на пристрастията и етичните прегледи значително по-трудни, ако не и невъзможни.

Стратегическото използване на етикета ‘отворен код’ за навигиране в регулациите не е просто правен маньовър; то има дълбоки етични последици. То рискува да подкопае общественото доверие и да възпрепятства усилията за гарантиране, че развитието на AI протича по безопасен, справедлив и отговорен начин. Следователно гарантирането, че регулаторните дефиниции на ‘AI с отворен код’ съответстват на принципите на истинска прозрачност, е от първостепенно значение.

Начертаване на курс към истинска AI отвореност

За щастие, алармените звънци звънят и се полагат усилия за възвръщане на значението на ‘отворен код’ в ерата на AI. Open Source Initiative (OSI), дългогодишен пазител на дефинициите за отворен код, инициира глобален процес на консултации за установяване на ясни стандарти за Open Source AI (резултатът е дефиницията OSAID 1.0).

Ключова иновация в това усилие е концепцията за ‘информация за данните’. Признавайки, че публикуването на масивни сурови набори от данни може да бъде правно или логистично неосъществимо в някои случаи (поради поверителност, авторско право или чист мащаб), рамката OSAID подчертава необходимостта от изчерпателно разкриване за данните. Това включва подробности за:

  • Източници: Откъде идват данните?
  • Характеристики: Какъв вид данни са (текст, изображения, код)? Какви са техните статистически свойства?
  • Подготовка: Как са събрани, филтрирани, почистени и предварително обработени данните? Какви стъпки са предприети за смекчаване на пристрастията?

Това ниво на прозрачност, дори и без самите сурови данни, предоставя решаващ контекст за изследователите да разберат вероятните възможности, ограничения и потенциални пристрастия на модела. То представлява прагматичен компромис, настояващ за максимална прозрачност в рамките на съществуващите ограничения. Наред с OSI, организации като Open Future се застъпват за по-широк преход към модел на ‘общи данни’ (‘data-commons’), изследвайки начини за създаване на споделени, етично добити и открито достъпни набори от данни за обучение на AI, като допълнително намаляват бариерите за навлизане и насърчават съвместното развитие. Установяването и спазването на такива ясни, проверени от общността стандарти е съществената първа стъпка към разсейването на мъглата на ‘openwashing’.

Императивът за изследователската общност

Учените и изследователите не са просто потребители на AI инструменти; те са ключови заинтересовани страни в гарантирането, че тези инструменти съответстват на научните ценности. Активното ангажиране с развиващите се дефиниции и стандарти, като OSAID 1.0, е жизненоважно. Но действието трябва да надхвърля обикновената осведоменост:

  • Изисквайте прозрачност: В публикации, предложения за грантове и избор на инструменти, изследователите трябва да приоритизират и изискват по-голяма прозрачност по отношение на AI моделите, които използват. Това включва настояване за подробни ‘информационни карти за данни’ или информационни листове, придружаващи изданията на модели.
  • Подкрепяйте истинската отвореност: Активно допринасяйте, използвайте и цитирайте проекти като OLMo или други инициативи, които демонстрират истински ангажимент към публикуването на код, данни и методология. Гласуването с изтегляния и цитирания изпраща мощен пазарен сигнал.
  • Разработвайте стандарти за оценка: Общността се нуждае от стабилни методи и контролни списъци за оценка на степента на отвореност на AI модел, надхвърляйки опростените етикети. Процесите на рецензиране трябва да включват проверка на твърденията за прозрачност, свързани с AI инструментите, използвани в изследванията.
  • Застъпвайте се в институциите: Насърчавайте университетите, изследователските институти и професионалните общества да приемат политики, които благоприятстват или изискват използването на наистина отворени и прозрачни AI инструменти и платформи.

Научната общност притежава значително влияние. Чрез колективно настояване за стандарти, които поддържат възпроизводимостта, прозрачността и съвместния достъп, изследователите могат да се противопоставят на подвеждащи твърдения и да помогнат за оформянето на AI екосистема, благоприятна за строги научни открития.

Политика, финансиране и пътят напред

Правителствата и агенциите за публично финансиране също притежават значителна власт при оформянето на AI пейзажа. Техните политики могат или имплицитно да подкрепят ‘openwashing’, или активно да насърчават истинската отвореност.

  • Мандати за отвореност: Институции като Националните институти по здравеопазване на САЩ (NIH) вече имат мандати, изискващи отворено лицензиране и споделяне на данни за изследванията, които финансират. Разширяването на подобни принципи към AI модели и набори от данни, разработени с публични средства, е логична и необходима стъпка. Ако публични средства подкрепят развитието на AI, резултатите трябва да бъдат публично достъпни и проверими в най-голяма възможна степен.
  • Сила на обществените поръчки: Правителствените агенции са основни потребители на технологии. Чрез определяне на изисквания за истински AI с отворен код (придържащ се към стандарти като OSAID) в договорите за обществени поръчки, правителствата могат да създадат значителен пазарен стимул за компаниите да приемат по-прозрачни практики. Изискването на Италия за софтуер с отворен код в публичната администрация предлага потенциален шаблон.
  • Инвестиране в отворена инфраструктура: Отвъд регулацията, публичните инвестиции в инициативи за ‘общи данни’, отворени изчислителни ресурси за изследователи и платформи, посветени на хостването и оценката на наистина отворени AI модели, биха могли да бъдат трансформиращи. Това би могло да помогне за изравняване на условията и да предостави жизнеспособни алтернативи на патентовани или полу-отворени системи.
  • Глобално сътрудничество: Предвид глобалния характер на развитието на AI, международното сътрудничество за определяне и насърчаване на стандарти за AI с отворен код е от съществено значение за избягване на регулаторна фрагментация и осигуряване на последователна базова линия на прозрачност и отчетност в световен мащаб.

Политическите лостове, когато се прилагат обмислено, могат значително да изместят стимулите от измамно етикетиране към практики, които наистина подкрепят научната почтеност и широките иновации. Борбата срещу илюзията за ‘отворен код’ в AI изисква съгласувани усилия. Изследователите трябва да бъдат бдителни критици, изискващи прозрачността, необходима за научна строгост. Органите за стандартизация като OSI трябва да продължат да усъвършенстват дефиниции, които отразяват уникалната природа на AI. А политиците трябва да използват своето влияние, за да стимулират и налагат практики, които съответстват на обществения интерес към проверим, надежден и достъпен изкуствен интелект. Бъдещата траектория на AI в науката – дали ще се превърне в наистина отворена граница за открития или в пейзаж, доминиран от непрозрачни корпоративни системи – виси на косъм.