Een recente benchmarkstudie van de Franse startup Giskard heeft de significante tekortkomingen van enkele van de meest gebruikte taalmodellen (LLM’s) in het kunstmatige intelligentie landschap in de schijnwerpers gezet. Deze studie beoordeelt nauwgezet de neiging van deze modellen om schadelijke inhoud te genereren, informatie te hallucineren en verschillende biases in hun reacties te vertonen.
Identificatie van de meest risicovolle LLM’s: Een uitgebreide evaluatie
Giskard’s benchmark, uitgebracht in april, duikt in de potentiële risico’s die verbonden zijn aan LLM’s, en biedt een betrouwbare evaluatie van hun neiging om informatie te fabriceren, toxische outputs te produceren en bevooroordeelde of stereotiepe standpunten weer te geven. De bevindingen van de studie bieden waardevolle inzichten voor ontwikkelaars, onderzoekers en organisaties die AI-modellen op een verantwoorde manier willen inzetten.
De benchmark onderzoekt nauwgezet verschillende kritieke aspecten van LLM-prestaties, waaronder:
- Hallucinatie: De neiging van het model om valse of onzinnige informatie te genereren.
- Schadelijkheid: De neiging van het model om gevaarlijke, beledigende of ongepaste inhoud te produceren.
- Bias en Stereotypen: De neiging van het model om oneerlijke of discriminerende standpunten te bestendigen.
Door deze factoren te evalueren, biedt Giskard’s benchmark een uitgebreide beoordeling van het algehele risico dat verbonden is aan verschillende LLM’s. De gedetailleerde analyse helpt bij het identificeren van de specifieke gebieden waar elk model tekortschiet, waardoor ontwikkelaars en gebruikers in staat zijn om beter geïnformeerde beslissingen te nemen over hun inzet van AI-technologie. De studie benadrukt niet alleen de noodzaak van continue verbetering van LLM’s, maar ook het belang van ethische overwegingen en transparantie in AI-ontwikkeling.
De methode die Giskard gebruikt, is ontworpen om de LLM’s te testen in realistische scenario’s, met behulp van een diverse dataset die meerdere talen en contexten omvat. Dit zorgt ervoor dat de resultaten representatief zijn voor de prestaties van de modellen in praktische toepassingen. Bovendien zijn de criteria voor de evaluatie van hallucinatie, schadelijkheid en bias duidelijk gedefinieerd en consistent toegepast, wat de betrouwbaarheid en objectiviteit van de benchmark verhoogt.
Naast de kwantitatieve scores, biedt Giskard ook kwalitatieve voorbeelden van de output van de modellen, waardoor gebruikers een beter inzicht krijgen in de aard van de problemen. Deze voorbeelden illustreren hoe de modellen kunnen falen in verschillende situaties, en helpen om de potentiële risico’s in verband met het gebruik van LLM’s te verduidelijken.
De benchmark is een waardevolle bron voor de AI-gemeenschap, omdat het bijdraagt aan een beter begrip van de sterke en zwakke punten van verschillende LLM’s. Door de modellen te vergelijken en contrasteren, stelt de studie ontwikkelaars in staat om te leren van elkaars ervaringen en om best practices te identificeren voor het bouwen van meer robuuste en betrouwbare AI-systemen. De openbaarmaking van de resultaten bevordert ook de transparantie en verantwoordelijkheid in de AI-industrie, wat essentieel is voor het opbouwen van vertrouwen in deze technologie.
Ranking van de LLM’s met de meest significante gebreken
De bevindingen van de studie onthullen een ranking van LLM’s op basis van hun prestaties over deze belangrijke metrics. Hoe lager de score, hoe problematischer het model wordt beschouwd. De onderstaande tabel vat de resultaten samen:
Model | Overall Average | Hallucination | Harmfulness | Bias & Stereotypes | Developer |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
De benchmark omvatte 17 veelgebruikte modellen, zorgvuldig geselecteerd om het huidige AI-landschap te vertegenwoordigen. Giskard gaf prioriteit aan het evalueren van stabiele en breed geadopteerde modellen boven experimentele of niet-afgeronde versies, waardoor de relevantie en betrouwbaarheid van de resultaten werd gewaarborgd. Deze aanpak sluit modellen uit die primair zijn ontworpen voor redeneertaken, aangezien deze niet de primaire focus van deze benchmark zijn. De keuze om zich te concentreren op stabiele modellen is cruciaal omdat het ervoor zorgt dat de bevindingen relevant blijven over een langere periode. Experimentele modellen kunnen snel veranderen, waardoor de resultaten van een benchmark snel achterhaald kunnen raken. Door zich te richten op modellen die al op grote schaal worden gebruikt, biedt Giskard een praktischer en directer inzicht in de risico’s en uitdagingen die verbonden zijn aan het gebruik van LLM’s in de echte wereld.
Bovendien is de selectie van modellen representatief voor de huidige AI-markt, waardoor de benchmark een breed perspectief biedt op de sterke en zwakke punten van de verschillende beschikbare technologieën. Dit is belangrijk omdat het gebruikers in staat stelt om een model te kiezen dat het beste aansluit bij hun specifieke behoeften en vereisten.
De uitsluiting van modellen die primair zijn ontworpen voor redeneertaken is ook een bewuste keuze, die ervoor zorgt dat de benchmark zich richt op de meest voorkomende toepassingen van LLM’s. Hoewel redeneermodellen belangrijk zijn, vertegenwoordigen ze een nichegebied binnen de AI-industrie. Door zich te concentreren op de bredere categorie van taalmodellen, biedt Giskard een meer algemeen toepasbaar en relevant evaluatiekader.
Identificatie van de slechtst presterende modellen in alle categorieën
De eerste bevindingen van de Phare benchmark komen grotendeels overeen met de bestaande percepties en feedback van de gemeenschap. De top vijf "slechtst" presterende modellen (van de 17 geteste) omvatten GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B en Llama 3.3 70B. Omgekeerd omvatten de modellen die de beste prestaties laten zien Gemini 1.5 Pro, Claude 3.5 Haiku en Llama 3.1 405B. Deze consistentie met de gemeenschapsperceptie versterkt de geloofwaardigheid en betrouwbaarheid van de benchmark. Het suggereert dat de methode die Giskard gebruikt, effectief is in het vastleggen van de werkelijke prestaties van de modellen.
De identificatie van de slechtst presterende modellen is cruciaal omdat het ontwikkelaars en gebruikers in staat stelt om zich te concentreren op de gebieden waar de meeste verbetering nodig is. Door de specifieke tekortkomingen van deze modellen te begrijpen, kunnen onderzoekers werken aan het ontwikkelen van nieuwe technieken en algoritmen die deze problemen aanpakken.
Evenzo is de identificatie van de best presterende modellen waardevol omdat het benchmarks biedt voor andere ontwikkelaars om naar te streven. Door de sterke punten van deze modellen te analyseren, kunnen onderzoekers inzicht krijgen in de factoren die bijdragen aan hun succes en deze principes toepassen op hun eigen werk.
De resultaten van de benchmark benadrukken ook het belang van het kiezen van het juiste model voor de juiste taak. Sommige modellen zijn mogelijk beter geschikt voor bepaalde toepassingen dan andere, en het is belangrijk om de sterke en zwakke punten van elk model te begrijpen voordat je een beslissing neemt. De Phare benchmark biedt een waardevolle bron voor het maken van deze keuzes, omdat het een uitgebreide en objectieve vergelijking biedt van de prestaties van verschillende LLM’s.
Hallucinatie hotspots: Modellen die gevoelig zijn voor het fabriceren van informatie
Wanneer alleen de hallucinatie metric wordt beschouwd, komen Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B en Llama 4 Maverick naar voren als de modellen die het meest gevoelig zijn voor het genereren van valse of misleidende informatie. Anthropic laat daarentegen kracht zien op dit gebied, waarbij drie van zijn modellen de laagste hallucinatie percentages vertonen: Claude 3.5 Sonnet, Claude 3.7 Sonnet en Claude 3.5 Haiku, samen met Gemini 1.5 Pro en GPT-4o. Het probleem van hallucinatie in LLM’s is een grote zorg, omdat het kan leiden tot de verspreiding van onnauwkeurige of onjuiste informatie. Dit is vooral problematisch in toepassingen waar betrouwbaarheid cruciaal is, zoals in de gezondheidszorg, het onderwijs en de journalistiek. De Phare benchmark biedt een waardevolle tool voor het identificeren van de modellen die het meest gevoelig zijn voor hallucinatie, waardoor gebruikers voorzorgsmaatregelen kunnen nemen om de risico’s te beperken.
De bevinding dat Anthropic’s modellen een lagere hallucinatie vertonen, is opmerkelijk, omdat het suggereert dat hun trainingsmethoden effectiever zijn in het garanderen van nauwkeurigheid. Dit kan te wijten zijn aan het gebruik van reinforcement learning from human feedback (RLHF), dat de modellen traint om nauwkeurigere en betrouwbaardere antwoorden te geven. De resultaten benadrukken het belang van het gebruik van robuuste trainingsmethoden om de hallucinatie in LLM’s te verminderen.
De identificatie van de modellen die het meest gevoelig zijn voor hallucinatie is ook waardevol voor onderzoekers, omdat het helpt om de oorzaken van dit probleem te begrijpen. Door de output van deze modellen te analyseren, kunnen onderzoekers patronen en trends identificeren die kunnen leiden tot de ontwikkeling van nieuwe technieken om hallucinatie te voorkomen.
Generatie van gevaarlijke inhoud: Modellen met zwakke veiligheidsmaatregelen
Met betrekking tot de generatie van gevaarlijke of schadelijke inhoud (het beoordelen van het vermogen van het model om problematische inputs te herkennen en adequaat te reageren), presteert GPT-4o mini het slechtst, gevolgd door Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 en Llama 4 Maverick. Aan de andere kant vertoont Gemini 1.5 Pro consequent de beste prestaties, op de voet gevolgd door Anthropic’s drie modellen (Claude 3.7 Sonnet, Claude 3.5 Sonnet en Claude 3.5 Haiku) en Gemini 2.0 Flash. Het vermogen van een LLM om gevaarlijke of schadelijke inhoud te vermijden, is cruciaal voor het waarborgen van de veiligheid en het welzijn van gebruikers. Modellen die gevoelig zijn voor het genereren van dergelijke inhoud kunnen worden gebruikt voor kwaadaardige doeleinden, zoals het verspreiden van haatzaaien, het faciliteren van cyberpesten of het genereren van nepnieuws. De Phare benchmark biedt een waardevolle tool voor het identificeren van de modellen die de zwakste veiligheidsmaatregelen hebben, waardoor gebruikers voorzorgsmaatregelen kunnen nemen om de risico’s te beperken.
De bevinding dat Gemini 1.5 Pro en Anthropic’s modellen de beste prestaties leveren op dit gebied, is bemoedigend, omdat het suggereert dat hun trainingsmethoden effectief zijn in het verminderen van het risico op gevaarlijke inhoud. Dit kan te wijten zijn aan het gebruik van technieken zoals content filtering, safe browsing en reinforcement learning from human feedback (RLHF). De resultaten benadrukken het belang van het implementeren van robuuste veiligheidsmaatregelen in LLM’s om de risico’s te beperken die verbonden zijn aan de generatie van gevaarlijke inhoud.
De identificatie van de modellen die het meest gevoelig zijn voor het genereren van gevaarlijke inhoud is ook waardevol voor onderzoekers, omdat het helpt om de oorzaken van dit probleem te begrijpen. Door de output van deze modellen te analyseren, kunnen onderzoekers patronen en trends identificeren die kunnen leiden tot de ontwikkeling van nieuwe technieken om gevaarlijke inhoud te voorkomen.
Bias en Stereotypen: Een hardnekkige uitdaging
De aanwezigheid van bias en stereotypen in LLM’s blijft een belangrijk gebied dat verbetering behoeft. De Phare benchmark resultaten geven aan dat LLM’s nog steeds duidelijke biases en stereotypen vertonen in hun outputs. Grok 2 ontvangt de slechtste score in deze categorie, gevolgd door Mistral Large, Mistral Small 3.1 24B, GPT-4o mini en Claude 3.5 Sonnet. Omgekeerd behaalt Gemini 1.5 Pro de beste scores, gevolgd door Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B en Llama 4 Maverick. De aanwezigheid van bias en stereotypen in LLM’s is een serieuze zorg, omdat het kan leiden tot de bestendiging van discriminatie en ongelijkheid. Modellen die biases vertonen, kunnen oneerlijke of onnauwkeurige informatie genereren over bepaalde groepen mensen, wat schadelijke gevolgen kan hebben. De Phare benchmark biedt een waardevolle tool voor het identificeren van de modellen die het meest gevoelig zijn voor bias, waardoor gebruikers voorzorgsmaatregelen kunnen nemen om de risico’s te beperken.
De bevinding dat Grok 2 de slechtste score ontvangt in deze categorie, is opmerkelijk, omdat het suggereert dat dit model mogelijk minder aandacht heeft besteed aan het aanpakken van bias tijdens de training. De resultaten benadrukken het belang van het implementeren van bias mitigatie technieken in LLM’s om te zorgen voor eerlijkheid en gelijkheid.
De identificatie van de modellen die de beste scores behalen, is ook waardevol, omdat het benchmarks biedt voor andere ontwikkelaars om naar te streven. Door de trainingsmethoden van deze modellen te analyseren, kunnen onderzoekers inzicht krijgen in de factoren die bijdragen aan hun succes in het verminderen van bias.
Hoewel modelgrootte de generatie van toxische inhoud kan beïnvloeden (kleinere modellen produceren over het algemeen meer "schadelijke" outputs), is het aantal parameters niet de enige determinant. Volgens Matteo Dora, CTO van Giskard, "Onze analyses tonen aan dat de gevoeligheid voor de formulering van gebruikers aanzienlijk verschilt tussen verschillende providers. De modellen van Anthropic lijken bijvoorbeeld minder beïnvloed te worden door de manier waarop vragen worden geformuleerd in vergelijking met hun concurrenten, ongeacht hun grootte. De manier van vragen (het aanvragen van een kort of gedetailleerd antwoord) heeft ook verschillende effecten. Dit leidt ons tot de overtuiging dat specifieke trainingsmethoden, zoals reinforcement learning from human feedback (RLHF), significanter zijn dan grootte." De observatie dat de gevoeligheid voor de formulering van gebruikers verschilt tussen verschillende providers, is belangrijk, omdat het suggereert dat sommige modellen robuuster zijn dan andere. Modellen die minder gevoelig zijn voor de manier waarop vragen worden geformuleerd, zijn waarschijnlijk betrouwbaarder en nauwkeuriger in een bredere scala aan situaties.
De bevinding dat Anthropic’s modellen minder beïnvloed worden door de manier waarop vragen worden geformuleerd, is opmerkelijk, omdat het suggereert dat hun trainingsmethoden effectiever zijn in het garanderen van consistentie en nauwkeurigheid. Dit kan te wijten zijn aan het gebruik van reinforcement learning from human feedback (RLHF), dat de modellen traint om nauwkeurigere en betrouwbaardere antwoorden te geven, ongeacht de manier waarop de vraag wordt gesteld.
De observatie dat de manier van vragen ook verschillende effecten heeft, is belangrijk, omdat het suggereert dat gebruikers zorgvuldig moeten zijn bij het formuleren van hun vragen om de best mogelijke resultaten te krijgen. Het aanvragen van een kort of gedetailleerd antwoord kan bijvoorbeeld de nauwkeurigheid en relevantie van het antwoord beïnvloeden.
De conclusie dat specifieke trainingsmethoden, zoals RLHF, significanter zijn dan grootte, is belangrijk, omdat het de aandacht vestigt op het belang van het gebruik van robuuste trainingsmethoden om de prestaties van LLM’s te verbeteren. Hoewel modelgrootte een factor kan zijn, is het niet de enige determinant van succes. Door zich te concentreren op het gebruik van effectieve trainingsmethoden, kunnen ontwikkelaars LLM’s bouwen die nauwkeuriger, betrouwbaarder en minder gevoelig zijn voor bias.
Een robuuste methodologie voor het evalueren van LLM’s
Phare gebruikt een rigoureuze methodologie om LLM’s te beoordelen, waarbij een private dataset van ongeveer 6.000 gesprekken wordt gebruikt. Om transparantie te waarborgen en tegelijkertijd manipulatie van modeltraining te voorkomen, is een subset van ongeveer 1.600 samples openbaar beschikbaar gesteld op Hugging Face. De onderzoekers verzamelden data in meerdere talen (Frans, Engels, Spaans) en ontwierpen tests die real-world scenario’s weerspiegelen. Het gebruik van een rigoureuze methodologie is cruciaal voor het garanderen van de betrouwbaarheid en validiteit van de Phare benchmark. Door een private dataset van 6.000 gesprekken te gebruiken, hebben de onderzoekers toegang tot een grote en diverse verzameling data die de prestaties van de modellen in een breed scala aan situaties kan beoordelen.
De openbaarmaking van een subset van de data op Hugging Face is ook een belangrijke stap in de richting van transparantie. Door de data beschikbaar te stellen aan de openbaarheid, stellen de onderzoekers anderen in staat om hun bevindingen te repliceren en te valideren, en om nieuwe inzichten te ontwikkelen in de prestaties van LLM’s.
Het verzamelen van data in meerdere talen is ook belangrijk, omdat het ervoor zorgt dat de benchmark relevant is voor gebruikers over de hele wereld. LLM’s worden steeds meer gebruikt in multilinguële toepassingen, en het is belangrijk om hun prestaties in verschillende talen te beoordelen.
Het ontwerp van tests die real-world scenario’s weerspiegelen, is ook cruciaal, omdat het ervoor zorgt dat de benchmark relevant is voor gebruikers in de echte wereld. LLM’s worden gebruikt in een breed scala aan toepassingen, en het is belangrijk om hun prestaties in deze toepassingen te beoordelen.
De benchmark beoordeelt verschillende sub-tasks voor elke metric:
Hallucinatie
- Feitelijkheid: Het vermogen van het model om feitelijke antwoorden te genereren op algemene kennisvragen.
- Nauwkeurigheid met valse informatie: Het vermogen van het model om accurate informatie te verstrekken bij het reageren op prompts die valse elementen bevatten.
- Omgaan met dubieuze claims: Het vermogen van het model om dubieuze claims (pseudowetenschap, complottheorieën) te verwerken.
- Tool gebruik zonder hallucinatie: Het vermogen van het model om tools te gebruiken zonder valse informatie te genereren. De sub-tasks die worden gebruikt om hallucinatie te beoordelen, zijn ontworpen om de verschillende aspecten van dit probleem te evalueren. Het beoordelen van het vermogen van het model om feitelijke antwoorden te genereren op algemene kennisvragen is belangrijk, omdat het de basisnauwkeurigheid van het model test. Het beoordelen van het vermogen van het model om accurate informatie te verstrekken bij het reageren op prompts die valse elementen bevatten, is ook belangrijk, omdat het de robuustheid van het model test.
Het beoordelen van het vermogen van het model om dubieuze claims te verwerken, is belangrijk, omdat het de gevoeligheid van het model voor misleidende informatie test. Het beoordelen van het vermogen van het model om tools te gebruiken zonder valse informatie te genereren, is belangrijk, omdat het test of het model in staat is om informatie uit externe bronnen te integreren zonder fouten te introduceren.
Schadelijkheid
De onderzoekers evalueerden het vermogen van het model om potentieel gevaarlijke situaties te herkennen en passende waarschuwingen te geven. Het beoordelen van het vermogen van het model om potentieel gevaarlijke situaties te herkennen en passende waarschuwingen te geven, is cruciaal voor het waarborgen van de veiligheid van gebruikers. LLM’s kunnen worden gebruikt in een breed scala aan toepassingen, en het is belangrijk om ervoor te zorgen dat ze niet worden gebruikt om schade te veroorzaken.
Bias & Fairness
De benchmark richt zich op het vermogen van het model om biases en stereotypen te identificeren die in zijn eigen outputs worden gegenereerd. Het beoordelen van het vermogen van het model om biases en stereotypen te identificeren die in zijn eigen outputs worden gegenereerd, is cruciaal voor het waarborgen van eerlijkheid en gelijkheid. LLM’s kunnen biases en stereotypen bestendigen, en het is belangrijk om ervoor te zorgen dat ze niet worden gebruikt om te discrimineren tegen bepaalde groepen mensen.
Samenwerking met toonaangevende AI-organisaties
De significantie van Phare wordt verder versterkt door de directe focus op metrics die cruciaal zijn voor organisaties die LLM’s willen gebruiken. De gedetailleerde resultaten voor elk model zijn openbaar beschikbaar op de Giskard website, inclusief uitsplitsingen per sub-task. De benchmark wordt financieel gesteund door de BPI (Franse Public Investment Bank) en de Europese Commissie. Giskard heeft ook samengewerkt met Mistral AI en DeepMind aan de technische aspecten van het project. Het LMEval framework voor gebruik werd ontwikkeld in directe samenwerking met het Gemma team bij DeepMind, waardoor data privacy en veiligheid werd gewaarborgd. De samenwerking met toonaangevende AI-organisaties is een belangrijke factor in het succes van de Phare benchmark. Door samen te werken met bedrijven als Mistral AI en DeepMind, hebben de onderzoekers toegang tot expertise en middelen die anders niet beschikbaar zouden zijn.
De financiële steun van de BPI en de Europese Commissie is ook belangrijk, omdat het aantoont dat de overheid het belang inziet van het aanpakken van de risico’s die verbonden zijn aan LLM’s. De directe samenwerking met het Gemma team bij DeepMind bij de ontwikkeling van het LMEval framework is ook een belangrijke factor in het succes van de benchmark. Door samen te werken met experts op het gebied van LLM-ontwikkeling, hebben de onderzoekers ervoor kunnen zorgen dat de benchmark relevant is voor de huidige stand van de techniek.
Vooruitkijkend plant het Giskard team om twee belangrijke features aan Phare toe te voegen: "Waarschijnlijk in juni zullen we een module toevoegen om weerstand tegen jailbreaks en prompt injection te evalueren," zegt Matteo Dora. Daarnaast zullen de onderzoekers de leaderboard blijven updaten met de nieuwste stabiele modellen, met Grok 3, Qwen 3 en mogelijk GPT-4.1 in het verschiet. De toevoeging van een module om weerstand tegen jailbreaks en prompt injection te evalueren, zal de benchmark nog relevanter maken voor gebruikers in de echte wereld. Jailbreaks en prompt injection zijn technieken die kunnen worden gebruikt om de veiligheidsmaatregelen van LLM’s te omzeilen, en het is belangrijk om ervoor te zorgen dat modellen robuust zijn tegen deze aanvallen.
Het blijven updaten van de leaderboard met de nieuwste stabiele modellen is ook belangrijk, omdat het ervoor zorgt dat de benchmark relevant blijft voor de huidige stand van de techniek. LLM’s evolueren voortdurend, en het is belangrijk om de prestaties van de nieuwste modellen te beoordelen om gebruikers in staat te stellen om geïnformeerde beslissingen te nemen over hun inzet.