AI 'Open Source' Maskerade: Wetenschappelijke Integriteit

Devaluatie van een Fundamenteel Concept: De Erosie van ‘Open Source’

De term ‘open source’ was ooit een baken binnen de technologische en wetenschappelijke landschappen. Het vertegenwoordigde een krachtig ethos gebaseerd op transparantie, onbelemmerde toegang, collaboratieve verbetering en het fundamentele principe van reproduceerbaarheid. Voor generaties onderzoekers en ontwikkelaars betekende het een toewijding aan gedeelde kennis en collectieve vooruitgang. Van de fundamentele statistische tools in omgevingen zoals R Studio, die talloze analyses in verschillende disciplines mogelijk maken, tot geavanceerde simulatieplatforms zoals OpenFOAM, gebruikt om de complexiteit van vloeistofdynamica te ontrafelen, is open-sourcesoftware een onmisbare katalysator voor innovatie geweest. Het versnelde ontdekkingen door wetenschappers wereldwijd in staat te stellen elkaars werk te inspecteren, verifiëren, wijzigen en erop voort te bouwen, waardoor bevindingen konden worden gerepliceerd en gevalideerd – het fundament van de wetenschappelijke methode.

Echter, een schaduw hangt nu boven deze vertrouwde aanduiding, geworpen door het snelgroeiende veld van kunstmatige intelligentie. Zoals benadrukt in recente kritische discussies, waaronder die opgemerkt door publicaties zoals Nature, is er een zorgwekkende trend ontstaan waarbij prominente AI-ontwikkelaars het ‘open source’-label voor hun modellen adopteren, terwijl ze tegelijkertijd cruciale componenten achterhouden die nodig zijn voor echte openheid. Deze praktijk dreigt de betekenis van de term te verwateren, waardoor het transformeert van een symbool van transparantie naar een potentieel misleidende marketingslogan. Het kernprobleem ligt vaak in de unieke aard van moderne AI-systemen. In tegenstelling tot traditionele software waar de broncode van het grootste belang is, zijn de kracht en het gedrag van grote AI-modellen onlosmakelijk verbonden met de enorme datasets die voor hun training worden gebruikt en de ingewikkelde architecturen die hen definiëren. Wanneer toegang tot deze trainingsdata of gedetailleerde informatie over de constructie en weging van het model wordt beperkt, klinkt de claim ‘open source’ te zijn hol, ongeacht of een deel van de modelcode beschikbaar wordt gesteld. Deze discrepantie raakt de kern van de open-sourcefilosofie, creëert een illusie van toegankelijkheid terwijl de elementen die het meest vitaal zijn voor onafhankelijke controle en replicatie worden verdoezeld.

De Noodzaak van Echte Openheid in Wetenschappelijke AI

De belangen die gemoeid zijn met het handhaven van echte openheid in AI, met name binnen het wetenschappelijke domein, kunnen niet hoger zijn. Wetenschap gedijt op het vermogen om resultaten onafhankelijk te verifiëren, methodologieën te begrijpen en voort te bouwen op eerder werk. Wanneer de tools zelf – steeds geavanceerdere AI-modellen – black boxes worden, wordt dit fundamentele proces in gevaar gebracht. Vertrouwen op AI-systemen waarvan de interne werking, de vooroordelen in de trainingsdata of potentiële faalmodi ondoorzichtig zijn, introduceert een onaanvaardbaar niveau van onzekerheid in onderzoek. Hoe kan een wetenschapper met vertrouwen conclusies baseren op de output van een AI als de factoren die die output vormgeven onbekend of onverifieerbaar zijn? Hoe kan de gemeenschap bevindingen vertrouwen die zijn gegenereerd door propriëtaire systemen die niet onafhankelijk kunnen worden geaudit of gerepliceerd?

Het historische succes van open-sourcesoftware in de wetenschap biedt een schril contrast en een duidelijke maatstaf. De transparantie inherent aan traditionele open-sourceprojecten bevorderde vertrouwen en maakte robuuste peer review mogelijk. Onderzoekers konden de algoritmen onderzoeken, hun beperkingen begrijpen en ze aanpassen voor specifieke behoeften. Dit collaboratieve ecosysteem versnelde de vooruitgang in velden variërend van bio-informatica tot astrofysica. Het potentieel voor AI om wetenschappelijke ontdekkingen te revolutioneren is immens, met de belofte om complexe datasets te analyseren, hypothesen te genereren en ingewikkelde processen op ongekende schaal te simuleren. Het realiseren van dit potentieel hangt echter af van het handhaven van dezelfde principes van transparantie en reproduceerbaarheid die altijd de wetenschappelijke vooruitgang hebben ondersteund. Een verschuiving naar gesloten, propriëtaire AI-systemen, zelfs die zich voordoen als ‘open’, dreigt de onderzoeksgemeenschap te fragmenteren, samenwerking te belemmeren en uiteindelijk het tempo van ontdekkingen te vertragen door barrières op te werpen voor begrip en validatie. De wetenschappelijke onderneming vereist tools die niet alleen krachtig zijn, maar ook transparant en betrouwbaar.

Het Data-Conundrum: AI’s Transparantie-Uitdaging

Centraal in het ‘open source’-debat in AI staat de kritieke kwestie van trainingsdata. In tegenstelling tot conventionele software die voornamelijk wordt gedefinieerd door zijn code, worden grote taalmodellen (LLM’s) en andere fundamentele AI-systemen fundamenteel gevormd door de kolossale datasets die ze tijdens hun ontwikkeling opnemen. De kenmerken, vooroordelen en herkomst van deze data beïnvloeden diepgaand het gedrag van het model, zijn capaciteiten en zijn potentiële beperkingen. Echte openheid in AI vereist daarom een niveau van transparantie met betrekking tot deze data dat veel verder gaat dan het simpelweg vrijgeven van modelgewichten of inferentiecode.

Veel modellen die momenteel onder de ‘open source’-paraplu worden verkocht, schieten op dit vlak opvallend tekort. Denk aan prominente voorbeelden zoals Meta’s Llama-serie, Microsoft’s Phi-2, of Mistral AI’s Mixtral. Hoewel deze bedrijven bepaalde componenten vrijgeven, waardoor ontwikkelaars de modellen kunnen draaien of finetunen, leggen ze vaak aanzienlijke beperkingen op of verstrekken ze summiere details over de onderliggende trainingsdata. De betrokken datasets kunnen enorm zijn, propriëtair, van het web geschraapt met weinig curatie, of onderhevig aan licentiebeperkingen, wat volledige publieke vrijgave uitdagend of onmogelijk maakt. Echter, zonder uitgebreide informatie over:

  • Databronnen: Waar kwam de informatie vandaan? Was het voornamelijk tekst, afbeeldingen, code? Van welke websites, boeken of databases?
  • Datacuratie: Hoe werden de data gefilterd, opgeschoond en verwerkt? Welke criteria werden gebruikt om informatie op te nemen of uit te sluiten?
  • Datakenmerken: Wat zijn de bekende vooroordelen binnen de data (bijv. demografisch, cultureel, linguïstisch)? Welke tijdsperiode beslaat het?
  • Voorbewerkingsstappen: Welke transformaties werden toegepast op de data vóór de training?

…wordt het buitengewoon moeilijk voor onafhankelijke onderzoekers om het gedrag van het model volledig te begrijpen, de ontwikkeling ervan te repliceren, of de potentiële vooroordelen en faalpunten kritisch te beoordelen. Dit gebrek aan datatransparantie is de primaire reden waarom veel huidige ‘open source’ AI-releases niet voldoen aan de geest, zo niet de letter, van echte openheid zoals vastgesteld in de softwarewereld. In tegenstelling hiermee hebben initiatieven zoals het OLMo-model van het Allen Institute for AI of gemeenschapsgedreven inspanningen zoals LLM360’s CrystalCoder meer gezamenlijke inspanningen geleverd om grotere transparantie te bieden met betrekking tot hun data en trainingsmethodologieën, waarmee ze een hogere standaard zetten die meer in lijn is met traditionele open-sourcewaarden.

‘Openwashing’: Strategische Labeling of Regelgevende Ontwijking?

De toe-eigening van het ‘open source’-label door entiteiten die de principes ervan niet volledig omarmen, heeft geleid tot bezorgdheid over ‘openwashing’. Deze term beschrijft de praktijk van het benutten van de positieve connotaties van openheid voor public relations-voordelen of strategisch voordeel, zonder zich te committeren aan het bijbehorende niveau van transparantie en toegankelijkheid. Waarom zouden bedrijven dit doen? Verschillende factoren kunnen een rol spelen. Het ‘open source’-merk draagt aanzienlijke goodwill met zich mee, suggereert een toewijding aan de gemeenschap en gedeelde vooruitgang, wat aantrekkelijk kan zijn voor ontwikkelaars en klanten.

Bovendien, zoals opgemerkt door Nature en andere waarnemers, kunnen regelgevende landschappen dergelijk gedrag onbedoeld stimuleren. De baanbrekende AI Act van de Europese Unie, definitief vastgesteld in 2024, bevat bepalingen die strengere eisen stellen aan AI-systemen met een hoog risico en voor algemene doeleinden. Het bevat echter ook potentiële vrijstellingen of lichtere eisen voor AI-modellen die onder open-sourcelicenties worden uitgebracht. Dit creëert een potentieel maas in de wet waarbij bedrijven hun modellen strategisch als ‘open source’ kunnen labelen – zelfs als belangrijke componenten zoals trainingsdata beperkt blijven – specifiek om regelgevende hindernissen te omzeilen en strengere nalevingsverplichtingen te vermijden.

Dit potentieel voor regelgevende arbitrage is zeer zorgwekkend. Als ‘openwashing’ krachtige AI-systemen in staat stelt om controle te omzeilen die bedoeld is om veiligheid, eerlijkheid en verantwoordingsplicht te waarborgen, ondermijnt dit het doel van de regelgeving zelf. Het plaatst ook de wetenschappelijke gemeenschap in een precaire positie. Onderzoekers kunnen worden aangetrokken tot deze nominaal ‘open’ systemen vanwege hun toegankelijkheid in vergelijking met volledig gesloten commerciële aanbiedingen, om vervolgens afhankelijk te zijn van tools waarvan de methodologieën ondoorzichtig en onverifieerbaar blijven. Deze afhankelijkheid dreigt de wetenschappelijke integriteit in gevaar te brengen, waardoor het moeilijker wordt om ervoor te zorgen dat onderzoek reproduceerbaar, onbevooroordeeld en gebouwd is op een solide, begrijpelijke basis. De aantrekkingskracht van een bekend label kan onderliggende beperkingen maskeren die echt wetenschappelijk onderzoek belemmeren.

Openheid Herdefiniëren voor het AI-Tijdperk: Het OSAID Framework

Erkennende dat traditionele open-sourcedefinities ontoereikend zijn voor de unieke uitdagingen die AI met zich meebrengt, is de Open Source Initiative (OSI) – een langdurige hoeder van open-sourceprincipes – begonnen aan een cruciale wereldwijde inspanning. Hun doel is om een duidelijke, robuuste definitie vast te stellen die specifiek is toegesneden op kunstmatige intelligentie: de Open Source AI Definition (OSAID 1.0). Dit initiatief vertegenwoordigt een vitale stap naar het terugwinnen van de betekenis van ‘open’ in de context van AI en het stellen van ondubbelzinnige normen voor transparantie en verantwoordingsplicht.

Een belangrijke innovatie binnen het voorgestelde OSAID-framework is het concept van ‘data-informatie’. Erkennende dat de volledige vrijgave van massale trainingsdatasets vaak onpraktisch of wettelijk verboden kan zijn vanwege privacybezwaren, auteursrechtbeperkingen of pure schaal, richt OSAID zich op het verplicht stellen van uitgebreide openbaarmaking over de data. Dit omvat vereisten voor ontwikkelaars om gedetailleerde informatie te verstrekken over:

  1. Bronnen en Samenstelling: Duidelijk identificeren van de oorsprong van de trainingsdata.
  2. Kenmerken: Documenteren van bekende eigenschappen, beperkingen en potentiële vooroordelen binnen de data.
  3. Voorbereidingsmethoden: Uitleggen van de processen die zijn gebruikt voor het opschonen, filteren en voorbereiden van de data voor training.

Zelfs als de ruwe data niet kunnen worden gedeeld, stelt het verstrekken van deze metadata onderzoekers en auditors in staat om kritische inzichten te verkrijgen in de factoren die het AI-model hebben gevormd. Het faciliteert een beter begrip van potentiële vooroordelen, maakt beter geïnformeerde risicobeoordelingen mogelijk en biedt een basis voor pogingen tot replicatie of vergelijkende studies.

Naast data-informatie promoot de inspanning van de OSI, samen met belangenbehartiging van organisaties zoals Open Future, een bredere verschuiving naar een ‘data-commons’-model. Dit voorziet een toekomst waarin essentiële datasets voor AI-training worden gecureerd en op een meer open en billijke manier beschikbaar worden gesteld, waardoor een transparanter en collaboratiever ecosysteem voor AI-ontwikkeling wordt bevorderd, met name binnen de onderzoeksgemeenschap. De OSAID-definitie beoogt een duidelijke maatstaf te bieden waartegen AI-systemen kunnen worden geëvalueerd, waarbij verder wordt gekeken dan oppervlakkige labels om de daadwerkelijke toewijding aan openheid te beoordelen.

Een Collectieve Verantwoordelijkheid: Streven naar Echte AI-Transparantie

De uitdaging om echte openheid in AI te waarborgen kan niet alleen met definities worden opgelost; het vereist gezamenlijke actie van meerdere belanghebbenden. De wetenschappelijke gemeenschap, als zowel ontwikkelaars als primaire gebruikers van geavanceerde AI-tools, draagt een aanzienlijke verantwoordelijkheid. Onderzoekers moeten actief betrokken zijn bij initiatieven zoals OSAID 1.0, de principes ervan begrijpen en pleiten voor hun adoptie. Ze moeten de ‘openheids’-claims van AI-modellen die ze overwegen te gebruiken kritisch evalueren, waarbij ze prioriteit geven aan modellen die meer transparantie bieden met betrekking tot trainingsdata en methodologieën, zelfs als dit betekent dat ze de aantrekkingskracht van schijnbaar handige maar ondoorzichtige systemen moeten weerstaan. Het uiten van de behoefte aan verifieerbare, reproduceerbare AI-tools in publicaties, conferenties en institutionele discussies is van het grootste belang.

Publieke financieringsinstanties en overheidsorganen spelen ook een cruciale rol. Zij oefenen aanzienlijke invloed uit via subsidievereisten en aanbestedingsbeleid. Instellingen zoals de US National Institutes of Health (NIH), die al open licenties verplicht stelt voor onderzoeksdata gegenereerd met hun financiering, bieden een waardevol precedent. Evenzo tonen voorbeelden zoals de eis van Italië dat overheidsinstanties prioriteit geven aan open-sourcesoftware aan hoe beleid adoptie kan stimuleren. Deze principes kunnen en moeten worden uitgebreid naar het domein van AI. Overheden en financieringsinstanties zouden moeten overwegen:

  • Het verplicht stellen van naleving van robuuste Open Source AI-standaarden (zoals OSAID) voor publiek gefinancierd AI-onderzoek en -ontwikkeling.
  • Investeren in de creatie van echt open, hoogwaardige datasets – een ‘data commons’ – geschikt voor het trainen van onderzoeksgerichte AI-modellen.
  • Ervoor zorgen dat regelgeving, zoals de EU AI Act, wordt geïmplementeerd op een manier die ‘openwashing’ voorkomt en alle krachtige AI-systemen verantwoordelijk houdt, ongeacht hun licentieclaims.

Uiteindelijk vereist het veiligstellen van de toekomst van AI in onderzoek een verenigd front. Wetenschappers moeten transparantie eisen, instellingen moeten beleid implementeren dat echte openheid prioriteert, en regelgevers moeten ervoor zorgen dat het label ‘open source’ een betekenisvolle toewijding aan verantwoordingsplicht betekent, en geen gemakkelijke uitvlucht. Zonder deze collectieve inspanningen dreigt het immense potentieel van AI voor wetenschappelijke ontdekking gecompromitteerd te worden door een landschap gedomineerd door gesloten, propriëtaire systemen, wat de collaboratieve en verifieerbare aard van wetenschappelijke vooruitgang zelf fundamenteel ondermijnt. De integriteit van toekomstig onderzoek staat op het spel.