Kunstmatige intelligentie modellen vermenigvuldigen zich in rap tempo, en reiken veel verder dan de bekende namen die nieuwsberichten en sociale media domineren. Het AI-landschap wordt nu bevolkt door honderden modellen, waaronder open-source initiatieven, propriëtaire systemen en aanbiedingen van techreuzen zoals Gemini, Claude, OpenAI, Grok en Deepseek. Deze modellen zijn in de kern neurale netwerken die zorgvuldig zijn getraind op enorme datasets, waardoor ze ingewikkelde patronen kunnen herkennen. Het huidige tijdperk biedt een unieke mogelijkheid om deze vooruitgang te benutten voor uiteenlopende doeleinden, variërend van zakelijke toepassingen tot persoonlijke assistentie en creatieve augmentatie. Deze gids is bedoeld om nieuwkomers in het vakgebied van AI een fundamenteel begrip te geven, waardoor ze deze technologie effectief kunnen gebruiken. Het doel is om gebruikers in staat te stellen met AI te bouwen, niet alleen op AI, waarbij de nadruk ligt op het begrijpen van fundamentele concepten, praktische toepassingen en methoden voor het beoordelen van nauwkeurigheid.
Deze gids behandelt de volgende belangrijke aspecten:
- Categorisatie van AI-modellen
- Modellen afstemmen op specifieke taken
- Naamgevingsconventies van modellen begrijpen
- Nauwkeurigheidsprestaties van modellen beoordelen
- Benchmarkreferenties gebruiken
Het is cruciaal om te erkennen dat er geen enkel, universeel AI-model bestaat dat in staat is om elke denkbare taak uit te voeren. In plaats daarvan zijn verschillende modellen afgestemd op specifieke toepassingen.
Categorieën van AI-modellen
AI-modellen kunnen grofweg worden ingedeeld in vier hoofdcategorieën:
- Pure taalverwerking (algemeen)
- Generatief (beeld, video, audio, tekst, code)
- Discriminatief (computer vision, tekstanalyse)
- Reinforcement learning (versterkend leren)
Hoewel veel modellen gespecialiseerd zijn in één categorie, vertonen andere multimodale mogelijkheden met verschillende gradaties van nauwkeurigheid. Elk model wordt getraind op specifieke datasets, waardoor het taken kan uitvoeren die verband houden met de gegevens waaraan het is blootgesteld. De volgende lijst schetst veelvoorkomende taken die aan elke categorie zijn gekoppeld.
Pure taalverwerking
Deze categorie richt zich op het in staat stellen van computers om menselijke taal te interpreteren, te begrijpen en te genereren met behulp van tokenisatie en statistische modellen. Chatbots zijn een goed voorbeeld, waarbij ChatGPT, een afkorting van ‘Generative Pre-trained Transformer’, een opmerkelijke illustratie is. De meeste van deze modellen zijn gebaseerd op vooraf getrainde transformatorarchitecturen. Deze modellen blinken uit in het begrijpen van context, nuances en subtiliteiten in menselijke taal, waardoor ze ideaal zijn voor toepassingen die natuurlijke taalinteractie vereisen. Ze kunnen worden gebruikt voor taken zoals:
- Sentimentanalyse: Het bepalen van de emotionele toon van een tekst, wat handig is voor het begrijpen van feedback van klanten of het peilen van de publieke opinie.
- Tekstsamenvatting: Het samenvoegen van grote hoeveelheden tekst tot kortere, beter beheersbare samenvattingen, waardoor tijd en moeite worden bespaard bij informatieverwerking.
- Machinevertaling: Het automatisch vertalen vantekst van de ene taal naar de andere, waardoor communicatie over taalgrenzen heen wordt vergemakkelijkt.
- Vraagbeantwoording: Het geven van antwoorden op vragen die in natuurlijke taal worden gesteld, waardoor gebruikers snel en gemakkelijk toegang hebben tot informatie.
- Contentgeneratie: Het creëren van originele tekstuele content, zoals artikelen, blogposts of updates voor sociale media.
De onderliggende technologie achter pure taalverwerkingsmodellen omvat complexe algoritmen die de structuur en betekenis van taal analyseren. Deze algoritmen leren van enorme datasets met tekst en code, waardoor ze patronen en relaties tussen woorden en zinsdelen kunnen identificeren. De modellen gebruiken deze kennis vervolgens om nieuwe tekst te genereren of om de betekenis van bestaande tekst te begrijpen.
Generatieve modellen
Generatieve modellen, inclusief die welke beelden, video’s, audio, tekst en code produceren, maken vaak gebruik van generative adversarial networks (GAN’s). GAN’s bestaan uit twee submodellen: een generator en een discriminator. Deze modellen kunnen realistische beelden, audio, tekst en code produceren op basis van de uitgebreide gegevens waarop ze zijn getraind. Stabiele diffusie is een veelgebruikte techniek voor het genereren van beelden en video’s. Deze modellen kunnen worden gebruikt voor:
- Beeldgeneratie: Het creëren van realistische of artistieke beelden op basis van tekstbeschrijvingen of andere inputs.
- Videogeneratie: Het produceren van korte video’s op basis van tekstprompts of andere inputs.
- Audiogeneratie: Het genereren van muziek, spraak of andere soorten audio op basis van tekstbeschrijvingen of andere inputs.
- Tekstgeneratie: Het creëren van originele tekstuele content, zoals gedichten, scripts of code.
- Codegeneratie: Het automatisch genereren van code op basis van natuurlijke taalbeschrijvingen van de gewenste functionaliteit.
Het generatorsubmodel in een GAN is verantwoordelijk voor het creëren van nieuwe data samples, terwijl het discriminatorsubmodel probeert onderscheid te maken tussen echte data samples en de samples die door de generator zijn gegenereerd. De twee submodellen worden op een antagonistische manier getraind, waarbij de generator probeert de discriminator voor de gek te houden en de discriminator probeert echte data samples correct te identificeren. Dit proces resulteert erin dat de generator steeds beter in staat is om realistische data samples te produceren.
Discriminatieve modellen
Discriminatieve modellen, gebruikt in computer vision en tekstanalyse, gebruiken algoritmen die zijn ontworpen om verschillende klassen van datasets te leren voor besluitvorming. Voorbeelden hiervan zijn sentimentanalyse, optical character recognition (OCR) en beeldclassificatie. Deze modellen zijn ontworpen om onderscheid te maken tussen verschillende categorieën data, waardoor ze bruikbaar zijn voor een breed scala aan toepassingen. Ze kunnen worden gebruikt voor:
- Beeldclassificatie: Het identificeren van de objecten of scènes die in een beeld aanwezig zijn.
- Objectdetectie: Het lokaliseren en identificeren van specifieke objecten binnen een beeld of video.
- Sentimentanalyse: Het bepalen van de emotionele toon van een tekst.
- Optical Character Recognition (OCR): Het omzetten van afbeeldingen van tekst in machineleesbare tekst.
- Fraudedetectie: Het identificeren van frauduleuze transacties of activiteiten.
De algoritmen die in discriminatieve modellen worden gebruikt, leren de kenmerken te identificeren die het belangrijkst zijn voor het onderscheiden van verschillende klassen data. Deze kenmerken kunnen worden gebruikt om een model te creëren dat nieuwe data samples nauwkeurig kan classificeren.
Reinforcement learning
Reinforcement learning modellen gebruiken trial-and-error methoden en menselijke input om doelgerichte resultaten te bereiken, zoals in robotica, gaming en autonoom rijden. Deze aanpak omvat een agent die leert beslissingen te nemen in een omgeving om een beloning te maximaliseren. De agent ontvangt feedback in de vorm van beloningen of straffen, die hij gebruikt om zijn gedrag aan te passen. Dit proces stelt de agent in staat om optimale strategieën te leren voor het bereiken van zijn doelen. Reinforcement learning kan worden gebruikt voor:
- Robotica: Het trainen van robots om complexe taken uit te voeren, zoals lopen, objecten grijpen of navigeren in omgevingen.
- Gaming: Het ontwikkelen van AI-agenten die games op hoog niveau kunnen spelen.
- Autonoom rijden: Het trainen van zelfrijdende auto’s om op wegen te navigeren en obstakels te vermijden.
- Resource management: Het optimaliseren van de toewijzing van resources, zoals energie of bandbreedte.
- Gepersonaliseerde aanbevelingen: Het geven van gepersonaliseerde aanbevelingen aan gebruikers op basis van hun eerdere gedrag.
Het trial-and-error proces stelt de agent in staat om verschillende strategieën te verkennen en te leren welke het meest effectief zijn. Het gebruik van beloningen en straffen biedt feedback die de agent naar optimaal gedrag leidt.
Naamgevingsconventies van modellen begrijpen
Zodra je de verschillende soorten AI-modellen en hun respectieve taken begrijpt, is de volgende stap het beoordelen van hun kwaliteit en prestaties. Dit begint met het begrijpen van hoe modellen worden genoemd. Hoewel er geen officiële conventie bestaat voor het benoemen van AI-modellen, hebben populaire modellen doorgaans een eenvoudige naam, gevolgd door een versienummer (bijv. ChatGPT #, Claude #, Grok #, Gemini #).
Kleinere, open-source, taakspecifieke modellen hebben vaak meer gedetailleerde namen. Deze namen, die vaak te vinden zijn op platforms zoals huggingface.co, bevatten doorgaans de organisatienaam, de modelnaam, de parametergrootte en de contextgrootte.
Hier zijn enkele voorbeelden om dit te illustreren:
MISTRALAI/MISTRAL-SMALL-3.1-24B-INSTRUCT-2053
- Mistralai: De organisatie die verantwoordelijk is voor de ontwikkeling van het model.
- Mistral-small: De naam van het model zelf.
- 3.1: Het versienummer van het model.
- 24b-instruct: Het aantal parameters, wat aangeeft dat het model is getraind op 24 miljard datapunten en is ontworpen voor instructievolgende taken.
- 2053: De contextgrootte, of het aantal tokens, dat de hoeveelheid informatie vertegenwoordigt die het model in één keer kan verwerken.
Google/Gemma-3-27b
- Google: De organisatie achter het model.
- Gemma: De naam van het model.
- 3: Het versienummer.
- 27b: De parametergrootte, wat aangeeft dat het model is getraind op 27 miljard datapunten.
Belangrijke overwegingen
Het begrijpen van de naamgevingsconventies biedt waardevolle inzichten in de mogelijkheden en het beoogde gebruik van een model. De organisatienaam geeft de bron en geloofwaardigheid van het model aan. De modelnaam helpt bij het onderscheiden van verschillende modellen die door dezelfde organisatie zijn ontwikkeld. Het versienummer geeft het niveau van ontwikkeling en verfijning aan. De parametergrootte geeft een ruwe indicatie van de complexiteit en het leervermogen van het model. De contextgrootte bepaalt de lengte van de invoer die het model effectief kan verwerken.
Aanvullende details die je kunt tegenkomen, zijn onder meer de kwantisatie-indeling in bits. Hogere kwantisatie-indelingen vereisen meer RAM en computeropslag om het model te kunnen gebruiken. Kwantisatie-indelingen worden vaak weergegeven in floating-point notatie, zoals 4, 6, 8 en 16. Andere formaten, zoals GPTQ, NF4 en GGML, geven het gebruik aan voor specifieke {hardware} configuraties.
Kwantisatie: Dit verwijst naar de techniek om de precisie te verminderen van de getallen die worden gebruikt om de parameters van het model weer te geven. Dit kan de grootte en de geheugen footprint van het model aanzienlijk verminderen, waardoor het gemakkelijker te implementeren is op apparaten met beperkte resources. Kwantisatie kan echter ook leiden tot een lichte afname van de nauwkeurigheid.
Hardware overwegingen: Verschillende hardwareconfiguraties zijn mogelijk beter geschikt voor verschillende kwantisatie-indelingen. Sommige hardware kan bijvoorbeeld geoptimaliseerd zijn voor 4-bits kwantisatie, terwijl andere mogelijk beter geschikt zijn voor 8-bits of 16-bits kwantisatie.
Nauwkeurigheid van modellen evalueren
Hoewel nieuwsberichten over nieuwe modelreleases opwindend kunnen zijn, is het essentieel om de geclaimde prestatieresultaten met de nodige voorzichtigheid te benaderen. Het AI-prestatielandschap is zeer competitief en bedrijven overdrijven soms prestatiecijfers voor marketingdoeleinden. Een betrouwbaardere manier om de kwaliteit van het model te beoordelen, is het onderzoeken van scores en leaderboards van gestandaardiseerde tests.
Hoewel verschillende tests beweren gestandaardiseerd te zijn, blijft het evalueren van AI-modellen een uitdaging vanwege het ‘black box’-karakter van deze systemen en de vele variabelen die erbij betrokken zijn. De meest betrouwbare aanpak is het verifiëren van de reacties en outputs van de AI aan de hand van feitelijke en wetenschappelijke bronnen.
Leaderboard websites bieden sorteerbare ranglijsten met stemmen en betrouwbaarheidsinterval scores, vaak uitgedrukt als percentages. Veelvoorkomende benchmarks omvatten het voeden van vragen aan het AI-model en het meten van de nauwkeurigheid van de antwoorden. Deze benchmarks omvatten:
- AI2 Reasoning Challenge (ARC)
- HellaSwag
- MMLU (Massive Multitask Language Understanding)
- TruthfulQA
- Winogrande
- GSM8K
- HumanEval
Benchmarkbeschrijvingen
AI2 Reasoning Challenge (ARC): Een set van 7787 multiple-choice wetenschapsvragen die zijn ontworpen voor basisschoolleerlingen. Deze benchmark test het vermogen van het model om te redeneren over wetenschappelijke concepten en problemen op te lossen.
HellaSwag: Een benchmark die het gezond verstand beoordeelt door middel van zinsvoltooiingsoefeningen. Deze benchmark daagt het model uit om de context van een zin te begrijpen en het meest logische einde te kiezen.
MMLU (Massive Multitask Language Understanding): Deze benchmark test het vermogen van het model om problemen op te lossen in een breed scala aan taken, waarvoor uitgebreid taalbegrip vereist is. De taken bestrijken een divers scala aan onderwerpen, waaronder wiskunde, geschiedenis, wetenschap en recht.
TruthfulQA: Deze benchmark evalueert de waarheidsgetrouwheid van het model, straft onwaarheden en ontmoedigt ontwijkende antwoorden zoals ‘Ik weet het niet zeker’. Deze benchmark moedigt het model aan om nauwkeurige en eerlijke antwoorden te geven.
Winogrande: Een uitdaging gebaseerd op Winograd schema, met twee bijna identieke zinnen die verschillen op basis van een triggerwoord. Deze benchmark test het vermogen van het model om subtiele betekenisverschillen te begrijpen en dubbelzinnigheid op te lossen.
GSM8K: Een dataset van 8.000 wiskundevragen voor basisschoolleerlingen. Deze benchmark test het vermogen van het model om wiskundige problemen op te lossen en berekeningen uit te voeren.
HumanEval: Deze benchmark meet het vermogen van het model om correcte Python-code te genereren als reactie op 164 uitdagingen. Deze benchmark test de codeervaardigheden van het model en zijn vermogen om programmeerconcepten te begrijpen en te implementeren.
Door deze benchmarks zorgvuldig te onderzoeken en de antwoorden van de AI te verifiëren aan de hand van feitelijke bronnen, kunt je een nauwkeuriger inzicht krijgen in de mogelijkheden en beperkingen van een model. Deze informatie kan vervolgens worden gebruikt om weloverwogen beslissingen te nemen over welke modellen het meest geschikt zijn voor jouw specifieke behoeften.