Waarom 'open source' AI vaak niet echt open is

De term ‘open source’ heeft een krachtige weerklank in de wereld van technologie. Het roept beelden op van collaboratieve innovatie, gedeelde kennis en een fundamenteel geloof in transparantie. Deze geest werd een halve eeuw geleden levendig belichaamd door de oprichting van de Homebrew Computer Club in Menlo Park, Californië. Dit collectief van enthousiastelingen en knutselaars bouwde niet alleen machines; ze bouwden een cultuur gebaseerd op het vrij uitwisselen van ideeën en software, waarmee ze de fundamenten legden voor de open-sourcebeweging die de computerwereld zou revolutioneren. Vandaag de dag staan deze zwaarbevochten erfenis en de definitie van openheid echter voor een subtiele maar significante uitdaging, met name binnen het snelgroeiende domein van kunstmatige intelligentie. Een groeiend aantal bedrijven dat geavanceerde AI-modellen ontwikkelt, bestempelt hun creaties gretig als ‘open source’, maar bij nadere beschouwing blijkt dit label vaak oppervlakkig te worden toegepast, waardoor een realiteit wordt gemaskeerd die tekortschiet ten opzichte van de kernprincipes van de beweging. Deze verwatering van betekenis is niet louter een semantische spitsvondigheid; het vormt een reële bedreiging voor de principes van transparantie en repliceerbaarheid die van het grootste belang zijn, vooral binnen de wetenschappelijke gemeenschap.

De Echte Geest van Open Samenwerking Begrijpen

Om de huidige penibele situatie te begrijpen, moet men eerst waarderen wat ‘open source’ werkelijk betekent. Het is meer dan alleen gratis software; het is een filosofie geworteld in collectieve vooruitgang en verifieerbaar vertrouwen. Het fundament van deze filosofie rust op vier essentiële vrijheden:

  1. De vrijheid om het programma uit te voeren voor elk doel.
  2. De vrijheid om te bestuderen hoe het programma werkt en het aan te passen zodat het doet wat u wilt. Toegang tot de broncode is hiervoor een voorwaarde.
  3. De vrijheid om kopieën te herdistribueren zodat u anderen kunt helpen.
  4. De vrijheid om kopieën van uw gewijzigde versies te distribueren aan anderen. Door dit te doen, kunt u de hele gemeenschap de kans geven om te profiteren van uw wijzigingen. Toegang tot de broncode is hiervoor een voorwaarde.

Deze vrijheden, doorgaans vastgelegd in licenties zoals de GNU General Public License (GPL), MIT License of Apache License, hebben zich historisch gericht op broncode. Broncode – de voor mensen leesbare instructies geschreven door programmeurs – is de blauwdruk van traditionele software. Door deze code openlijk beschikbaar te maken, kan iedereen deze inspecteren, de logica ervan begrijpen, potentiële gebreken identificeren, aanpassen aan nieuwe behoeften en die verbeteringen delen.

Dit model is een buitengewone katalysator geweest voor innovatie en wetenschappelijke vooruitgang. Denk aan de impact van tools die wereldwijd direct beschikbaar zijn voor onderzoekers:

  • Statistische analyse: Software zoals R Studio biedt een krachtige, transparante en uitbreidbare omgeving voor statistische berekeningen en grafieken, en is een hoeksteen geworden van data-analyse in talloze wetenschappelijke velden. De openheid ervan maakt peer review van methoden en de ontwikkeling van gespecialiseerde pakketten mogelijk.
  • Computationele vloeistofdynamica: OpenFOAM biedt een geavanceerde bibliotheek voor het simuleren van vloeistofstromen, cruciaal in gebieden variërend van lucht- en ruimtevaarttechniek tot milieuwetenschappen. De open aard ervan maakt aanpassing en verificatie van complexe simulaties mogelijk.
  • Besturingssystemen: Linux en andere open-source besturingssystemen vormen de ruggengraat van veel van ‘s werelds computerinfrastructuur, inclusief wetenschappelijke high-performance computing clusters, gewaardeerd om hun stabiliteit, flexibiliteit en transparantie.

De voordelen reiken veel verder dan louter kostenbesparingen. Open source bevordert reproduceerbaarheid, een hoeksteen van de wetenschappelijke methode. Wanneer de tools en code die in onderzoek worden gebruikt open zijn, kunnen andere wetenschappers de experimenten repliceren, de bevindingen verifiëren en met vertrouwen voortbouwen op het werk. Het bevordert wereldwijde samenwerking, doorbreekt barrières en stelt onderzoekers met diverse achtergronden en van verschillende instellingen in staat bij te dragen aan gedeelde uitdagingen. Het zorgt voor duurzaamheid en voorkomt vendor lock-in, waardoor onderzoeksinvesteringen worden beschermd tegen de grillen van propriëtaire softwarebedrijven. Het versnelt ontdekkingen door snelle verspreiding en iteratie van nieuwe ideeën en technieken mogelijk te maken. Het open-source ethos is fundamenteel afgestemd op het wetenschappelijke streven naar kennis door middel van transparantie, controle en gedeelde vooruitgang.

Kunstmatige Intelligentie: Een Heel Ander Beest

Het gevestigde open-source paradigma, veilig gebouwd rond de toegankelijkheid van broncode, stuit op aanzienlijke turbulentie wanneer het wordt toegepast op het gebied van kunstmatige intelligentie, met name grootschalige modellen zoals fundamentele grote taalmodellen (LLMs). Hoewel deze AI-systemen zeker code bevatten, worden hun functionaliteit en gedrag gevormd door veel complexere en vaak ondoorzichtige elementen. Het simpelweg vrijgeven van de architectuurcode voor een neuraal netwerk staat niet gelijk aan echte openheid zoals bij traditionele software.

Een AI-model, vooral een deep learning-model, bestaat doorgaans uit verschillende belangrijke ingrediënten:

  1. Modelarchitectuur: Dit is het structurele ontwerp van het neurale netwerk – de rangschikking van lagen, neuronen en verbindingen. Bedrijven geven deze informatie vaak wel vrij en presenteren dit als bewijs van openheid. Het is vergelijkbaar met het delen van de blauwdruk van een motor.
  2. Modelgewichten (Parameters): Dit zijn de numerieke waarden, vaak miljarden, binnen het netwerk die zijn aangepast tijdens het trainingsproces. Ze vertegenwoordigen de geleerde patronen en kennis die uit de trainingsdata zijn geëxtraheerd. Het vrijgeven van de gewichten stelt anderen in staat het vooraf getrainde model te gebruiken. Dit is als het leveren van de volledig geassembleerde motor, klaar voor gebruik.
  3. Trainingsdata: Dit is misschien wel het meest kritieke en meest frequent verdoezelde component. Fundamentele modellen worden getraind op kolossale datasets, vaak van het internet geschraapt of afkomstig uit propriëtaire of privécollecties (zoals medische dossiers, wat aanzienlijke privacykwesties oproept). De samenstelling, curatie, filtering en potentiële vooroordelen binnen deze data beïnvloeden diepgaand de capaciteiten, beperkingen en het ethische gedrag van het model. Zonder gedetailleerde informatie over de trainingsdata wordt het ongelooflijk moeilijk om te begrijpen waarom een model zich gedraagt zoals het doet, of om de geschiktheid en veiligheid ervan voor specifieke toepassingen te beoordelen. Dit is het geheime brandstofmengsel en de precieze omstandigheden waaronder de motor is ingereden.
  4. Trainingscode en -proces: Dit omvat de specifieke algoritmen die voor training worden gebruikt, de optimalisatietechnieken, de gekozen hyperparameters (instellingen die het leerproces regelen), de gebruikte computationele infrastructuur en de aanzienlijke energie die wordt verbruikt. Kleine variaties in het trainingsproces kunnen leiden tot verschillend modelgedrag, waardoor reproduceerbaarheid een uitdaging wordt, zelfs als de architectuur en data bekend waren. Dit vertegenwoordigt de gedetailleerde technische specificaties, gereedschappen en fabrieksomstandigheden die zijn gebruikt om de motor te bouwen en af te stellen.

Veel systemen die momenteel als ‘open source’ AI op de markt worden gebracht, bieden voornamelijk toegang tot de modelarchitectuur en de vooraf getrainde gewichten. Hoewel dit gebruikers in staat stelt het model te draaien en misschien te fine-tunen op kleinere datasets, schiet het kritisch tekort in het bieden van de noodzakelijke transparantie met betrekking tot de trainingsdata en het proces. Dit beperkt ernstig de mogelijkheid om de fundamentele eigenschappen van het model echt te bestuderen of het op diepgaand zinvolle manieren te wijzigen die hertraining of begrip van de oorsprong vereisen. De vrijheden om te bestuderen en te wijzigen, centraal in de open-source definitie, worden aanzienlijk belemmerd wanneer de cruciale elementen van data en trainingsmethodologie verborgen blijven. Het repliceren van de creatie van het model vanaf nul – een belangrijke test van wetenschappelijk begrip en verificatie – wordt vrijwel onmogelijk.

De Zorgwekkende Trend van ‘Openwashing’ in AI

Deze kloof tussen het label en de realiteit heeft geleid tot een praktijk die bekend staat als ‘openwashing’. Deze term beschrijft de handeling van bedrijven die de positieve reputatie en vermeende voordelen van ‘open source’ benutten voor marketing en strategisch voordeel, terwijl ze tegelijkertijd de toegang tot kritieke componenten zoals gedetailleerde informatie over trainingsdata of de code die voor de training zelf is gebruikt, achterhouden. Ze hullen hun systemen in de taal van openheid zonder de veeleisende principes van transparantie en gemeenschapstoegang volledig te omarmen.

Verschillende prominente AI-modellen, ondanks dat ze veel worden gebruikt en soms een ‘open’ aanduiding dragen, schieten tekort wanneer gemeten aan de uitgebreide definitie van open source die wordt verdedigd door organisaties zoals het Open Source Initiative (OSI). Een analyse door het OSI, dat sinds 2022 ijverig werkt aan het verduidelijken van de betekenis van open source in de AI-context, benadrukte zorgen bij verschillende populaire modellen:

  • Llama 2 & Llama 3.x (Meta): Hoewel de modelgewichten en architectuur beschikbaar zijn, beperken gebruiksrestricties en onvolledige transparantie over de volledige trainingsdataset en het proces hun afstemming op traditionele open-source waarden.
  • Grok (X): Evenzo, hoewel beschikbaar gesteld, roept het gebrek aan uitgebreide informatie over de trainingsdata en methodologie vragen op over de ware openheid ervan.
  • Phi-2 (Microsoft): Vaak omschreven als een ‘open model’, blijft volledige transparantie over het creatieproces en de data beperkt.
  • Mixtral (Mistral AI): Hoewel delen zijn vrijgegeven, voldoet het niet aan de volledige criteria voor open source vanwege beperkingen in de toegang tot alle noodzakelijke componenten voor studie en wijziging.

Deze voorbeelden staan in contrast met inspanningen die streven naar een grotere naleving van open-source principes:

  • OLMo (Allen Institute for AI): Ontwikkeld door een non-profit onderzoeksinstituut, werd OLMo expliciet ontworpen met openheid in gedachten, waarbij niet alleen gewichten maar ook trainingscode en details over de gebruikte data werden vrijgegeven.
  • LLM360’s CrystalCoder: Een door de gemeenschap gedreven project dat streeft naar volledige transparantie gedurende de levenscyclus van het model, inclusief data, trainingsprocedures en evaluatiemetrieken.

Waarom doen aan openwashing? De motivaties zijn veelzijdig:

  1. Marketing en Perceptie: Het ‘open source’ label draagt aanzienlijke goodwill met zich mee. Het suggereert samenwerking, ethische praktijken en een toewijding aan de bredere gemeenschap, wat gebruikers, ontwikkelaars en positieve pers kan aantrekken.
  2. Ecosysteem Bouwen: Het vrijgeven van modelgewichten, zelfs zonder volledige transparantie, moedigt ontwikkelaars aan om applicaties bovenop het AI-systeem te bouwen, waardoor mogelijk een afhankelijk ecosysteem ontstaat dat het oorspronkelijke bedrijf ten goede komt.
  3. Regelgevende Arbitrage: Dit is een bijzonder zorgwekkende drijfveer. Aankomende regelgeving, zoals de AI Act (2024) van de Europese Unie, zal naar verwachting strengere eisen stellen aan bepaalde AI-systemen met een hoog risico. Echter, vrijstellingen of lichtere controle worden vaak voorgesteld voor ‘gratis en open-source software’. Door het ‘open source’ label toe te passen – zelfs als dit onjuist is volgens gevestigde definities – hopen bedrijven mogelijk gemakkelijker door deze regelgeving te navigeren, waardoor potentieel kostbare nalevingslasten die gepaard gaan met propriëtaire systemen met een hoog risico worden vermeden. Deze strategische etikettering maakt misbruik van een potentiële maas in de wet, waardoor de intentie van de regelgeving om veiligheid en transparantie te waarborgen wordt ondermijnd.

Deze praktijk devalueert uiteindelijk de term ‘open source’ en creëert verwarring, waardoor het voor gebruikers, ontwikkelaars en onderzoekers moeilijker wordt om te onderscheiden welke AI-systemen daadwerkelijk de transparantie en vrijheden bieden die het label impliceert.

Waarom Echte Openheid Dringend Noodzakelijk is voor de Wetenschap

Voor de wetenschappelijke gemeenschap staan er in dit debat uitzonderlijk veel op het spel. Wetenschap gedijt op transparantie, reproduceerbaarheid en de mogelijkheid tot onafhankelijke verificatie. De toenemende integratie van AI in onderzoek – van het analyseren van genomische data en het modelleren van klimaatverandering tot het ontdekken van nieuwe materialen en het begrijpen van complexe biologische systemen – maakt de aard van deze AI-tools van cruciaal belang. Vertrouwen op ‘zwarte doos’ AI-systemen, of systemen die zich voordoen als open zonder echte transparantie te bieden, introduceert diepgaande risico’s:

  • Belemmerde Reproduceerbaarheid: Als onderzoekers geen toegang hebben tot of inzicht hebben in de trainingsdata en methodologie achter een AI-model dat in een studie wordt gebruikt, wordt het repliceren van de resultaten onmogelijk. Dit ondermijnt fundamenteel een kernpijler van de wetenschappelijke methode. Hoe kunnen bevindingen worden vertrouwd of op voortgebouwd als ze niet onafhankelijk kunnen worden geverifieerd?
  • Verborgen Vooroordelen en Beperkingen: Alle AI-modellen erven vooroordelen van hun trainingsdata en ontwerpkeuzes. Zonder transparantie kunnen onderzoekers deze vooroordelen niet adequaat beoordelen of de beperkingen van het model begrijpen. Het onbewust gebruiken van een bevooroordeeld model kan leiden tot vertekende resultaten, gebrekkige conclusies en potentieel schadelijke gevolgen in de echte wereld, vooral in gevoelige gebieden zoals medisch onderzoek of sociale wetenschappen.
  • Gebrek aan Controle: Ondoorzichtige modellen onttrekken zich aan rigoureuze peer review. De wetenschappelijke gemeenschap kan de innerlijke werking van het model niet volledig onderzoeken, potentiële fouten in de logica identificeren of de onzekerheden begrijpen die gepaard gaan met de voorspellingen ervan. Dit belemmert de zelfcorrigerende aard van wetenschappelijk onderzoek.
  • Afhankelijkheid van Bedrijfssystemen: Afhankelijkheid van gesloten of semi-gesloten AI-systemen die door bedrijven worden gecontroleerd, creëert afhankelijkheden. Onderzoeksagenda’s kunnen subtiel worden beïnvloed door de mogelijkheden en beperkingen van beschikbare bedrijfstools, en toegang kan worden beperkt of kostbaar worden, wat mogelijk onafhankelijke onderzoeksrichtingen verstikt en de kloof tussen goed gefinancierde instellingen en anderen vergroot.
  • Verstikte Innovatie: Echte open source stelt onderzoekers niet alleen in staat om tools te gebruiken, maar ook om ze te ontleden, aan te passen, te verbeteren en opnieuw te gebruiken. Als belangrijke componenten van AI-modellen ontoegankelijk blijven, wordt deze cruciale weg voor innovatie geblokkeerd. Wetenschappers worden verhinderd te experimenteren met nieuwe trainingstechnieken, verschillende datacombinaties te verkennen of modellen aan te passen voor specifieke, genuanceerde onderzoeksvragen die de oorspronkelijke ontwikkelaars niet hadden voorzien.

De wetenschappelijke gemeenschap kan het zich niet veroorloven om de verwatering van de term ‘open source’ passief te accepteren. Ze moet actief pleiten voor duidelijkheid en echte transparantie eisen van AI-ontwikkelaars, vooral wanneer deze tools in onderzoekscontexten worden gebruikt. Dit omvat:

  • Bevorderen van Duidelijke Standaarden: Ondersteunen van inspanningen, zoals die van het OSI, om duidelijke, rigoureuze definities vast te stellen voor wat ‘open-source AI’ inhoudt, definities die transparantie omvatten met betrekking tot architectuur, gewichten, trainingsdata en trainingsprocessen.
  • Prioriteren van Verifieerbare Tools: De voorkeur geven aan het gebruik van AI-modellen en platforms die voldoen aan deze hoge normen van transparantie, zelfs als ze aanvankelijk minder presteren of meer inspanning vergen dan direct beschikbare ondoorzichtige alternatieven.
  • Eisen van Transparantie: Erop aandringen dat publicaties waarbij AI betrokken is, gedetailleerde informatie bevatten over de gebruikte modellen, inclusief uitgebreide informatie over de herkomst van trainingsdata, verwerking en potentiële vooroordelen, evenals trainingsmethodologieën.
  • Ondersteunen van Echt Open Projecten: Bijdragen aan en gebruiken van door de gemeenschap gedreven projecten en initiatieven van instellingen die zich inzetten voor echte openheid in AI-ontwikkeling.

De geest van de Homebrew Computer Club – die van gedeelde kennis en collaboratief bouwen – is essentieel om de complexiteit van het AI-tijdperk verantwoord te navigeren. Het terugwinnen en verdedigen van de ware betekenis van ‘open source’ voor kunstmatige intelligentie gaat niet alleen over terminologische zuiverheid; het gaat over het waarborgen van de integriteit, reproduceerbaarheid en voortdurende vooruitgang van de wetenschap zelf in een steeds meer door AI gedreven wereld. De weg vooruit vereist waakzaamheid en een collectieve inzet om ervoor te zorgen dat de krachtige tools van AI worden ontwikkeld en ingezet op een manier die consistent is met de principes van open onderzoek die de wetenschap al eeuwenlang zo goed hebben gediend.