Het Vector Institute van Canada heeft recentelijk de bevindingen gepubliceerd van zijn onafhankelijke beoordeling van prominente grote taalmodellen (LLM’s), waarmee het een onbevooroordeelde kijk geeft op hoe deze geavanceerde AI-modellen presteren in vergelijking met een uitgebreide set van prestatiecriteria. Deze studie onderzoekt nauwgezet de mogelijkheden van deze modellen door middel van steeds uitdagendere tests die algemene kennis, codeervaardigheid, robuustheid op het gebied van cyberveiligheid en andere cruciale domeinen omvatten. De resultaten bieden essentiële inzichten in zowel de sterke als de zwakke punten van deze toonaangevende AI-agenten.
De wildgroei van AI-modellen en de noodzaak van benchmarks
Het AI-landschap is getuige van een ongekende toename in de ontwikkeling en release van nieuwe en steeds krachtigere LLM’s. Elk nieuw model belooft verbeterde mogelijkheden, variërend van meer mensachtige tekstgeneratie tot geavanceerde probleemoplossing en besluitvorming. Deze snelle vooruitgang onderstreept de kritieke noodzaak van breed geaccepteerde en vertrouwde benchmarks om de veiligheid van AI te waarborgen. Deze benchmarks dienen als essentiële hulpmiddelen voor onderzoekers, ontwikkelaars en gebruikers, waardoor ze de prestatie-eigenschappen van deze modellen grondig kunnen begrijpen in termen van nauwkeurigheid, betrouwbaarheid en eerlijkheid. Een dergelijk begrip is van het grootste belang voor de verantwoorde inzet van AI-technologieën.
Vector Institute’s “State of Evaluation” Studie
In zijn uitgebreide “State of Evaluation”-studie heeft het AI Engineering-team van Vector de taak op zich genomen om 11 toonaangevende LLM’s uit verschillende hoeken van de wereld te evalueren. De selectie omvatte zowel openbaar toegankelijke (‘open’) modellen, zoals DeepSeek-R1 en Cohere’s Command R+, als commercieel beschikbare (‘gesloten’) modellen, waaronder OpenAI’s GPT-4o en Gemini 1.5 van Google. Elke AI-agent werd onderworpen aan een rigoureus testproces met 16 verschillende prestatiecriteria, waardoor dit een van de meest uitgebreide en onafhankelijke evaluaties is die tot nu toe is uitgevoerd.
Belangrijkste benchmarks en evaluatiecriteria
De 16 prestatiecriteria die in de studie werden gebruikt, werden zorgvuldig geselecteerd om een breed scala aan mogelijkheden te beoordelen die cruciaal zijn voor de effectieve en verantwoorde inzet van AI-modellen. Deze benchmarks omvatten:
- Algemene kennis: Tests die zijn ontworpen om het vermogen van het model te evalueren om feitelijke informatie op te halen en te gebruiken in verschillende domeinen.
- Codeervaardigheid: Beoordelingen die het vermogen van het model meten om code in verschillende programmeertalen te begrijpen, te genereren en te debuggen.
- Cybersecurity robuustheid: Evaluaties gericht op het identificeren van kwetsbaarheden en het beoordelen van de veerkracht van het model tegen potentiële cyberdreigingen.
- Redeneren en probleemoplossing: Benchmarks die het vermogen van het model testen om complexe scenario’s te analyseren, logische conclusies te trekken en effectieve oplossingen te ontwikkelen.
- Natuurlijk taalbegrip: Beoordelingen die het vermogen van het model meten om menselijke taal te begrijpen en te interpreteren, inclusief genuanceerde uitdrukkingen en contextuele aanwijzingen.
- Bias en eerlijkheid: Evaluaties die zijn ontworpen om potentiële biases in de outputs van het model te identificeren en te verminderen, waardoor eerlijke en billijke resultaten voor diverse populaties worden gewaarborgd.
Door elk model aan deze uitgebreide reeks benchmarks te onderwerpen, wilde het Vector Institute een holistisch en genuanceerd begrip geven van hun mogelijkheden en beperkingen.
Het belang van onafhankelijke en objectieve evaluatie
Deval Pandya, Vector’s Vice President of AI Engineering, benadrukt de cruciale rol van onafhankelijke en objectieve evaluatie bij het begrijpen van de ware mogelijkheden van AI-modellen. Hij stelt dat dergelijke evaluaties ‘van vitaal belang zijn om te begrijpen hoe modellen presteren in termen van nauwkeurigheid, betrouwbaarheid en eerlijkheid’. De beschikbaarheid van robuuste benchmarks en toegankelijke evaluaties stelt onderzoekers, organisaties en beleidsmakers in staat om een dieper inzicht te krijgen in de sterke punten, zwakke punten en de impact van deze snel evoluerende AI-modellen en -systemen op de echte wereld. Uiteindelijk bevordert dit meer vertrouwen in AI-technologieën en bevordert het de verantwoorde ontwikkeling en inzet ervan.
Open-sourcing van de resultaten voor transparantie en innovatie
In een baanbrekende stap heeft het Vector Institute de resultaten van zijn studie, de gebruikte benchmarks en de onderliggende code openbaar beschikbaar gesteld via een interactief leaderboard. Dit initiatief is bedoeld om transparantie te bevorderen en de vooruitgang in AI-innovatie te stimuleren. Door deze waardevolle informatie open-source te maken, stelt het Vector Institute onderzoekers, ontwikkelaars, regelgevers en eindgebruikers in staat om de resultaten onafhankelijk te verifiëren, de prestaties van modellen te vergelijken en hun eigen benchmarks en evaluaties te ontwikkelen. Deze gezamenlijke aanpak zal naar verwachting verbeteringen in AI-modellen stimuleren en de verantwoording in het veld vergroten.
John Willes, Vector’s AI Infrastructure and Research Engineering Manager, die het project leidde, benadrukt de voordelen van deze open-source aanpak. Hij merkt op dat het stakeholders in staat stelt om ‘onafhankelijk de resultaten te verifiëren, de prestaties van modellen te vergelijken en hun eigen benchmarks en evaluaties te bouwen om verbeteringen en verantwoording te stimuleren’.
Het interactieve leaderboard
Het interactieve leaderboard biedt een gebruiksvriendelijk platform voor het verkennen van de resultaten van de studie. Gebruikers kunnen:
- Modelprestaties vergelijken: Bekijk side-by-side vergelijkingen van de prestaties van verschillende AI-modellen over verschillende benchmarks.
- Benchmarkresultaten analyseren: Duik dieper in de resultaten van afzonderlijke benchmarks om een gedetailleerder inzicht te krijgen in de mogelijkheden van modellen.
- Gegevens en code downloaden: Toegang tot de onderliggende gegevens en code die in de studie zijn gebruikt om hun eigen analyses en experimenten uit te voeren.
- Nieuwe benchmarks bijdragen: Dien hun eigen benchmarks in voor opname in toekomstige evaluaties.
Door deze middelen te verstrekken, bevordert het Vector Institute een samenwerkend ecosysteem dat de vooruitgang van AI-technologieën versnelt en verantwoorde innovatie bevordert.
Voortbouwen op Vector’s leiderschap op het gebied van AI-veiligheid
Dit project is een natuurlijk verlengstuk van Vector’s gevestigde leiderschap in de ontwikkeling van benchmarks die algemeen worden gebruikt in de wereldwijde AI-veiligheidsgemeenschap. Deze benchmarks omvatten MMLU-Pro, MMMU en OS-World, die zijn ontwikkeld door Vector Institute Faculteitsleden en Canada CIFAR AI Chairs Wenhu Chen en Victor Zhong. De studie bouwt ook voort op recent werk van Vector’s AI Engineering-team om Inspect Evals te ontwikkelen, een open-source AI-veiligheidstestplatform dat is gemaakt in samenwerking met het Britse AI Security Institute. Dit platform is bedoeld om wereldwijde veiligheidsevaluaties te standaardiseren en samenwerking tussen onderzoekers en ontwikkelaars te faciliteren.
MMLU-Pro, MMMU en OS-World
Deze benchmarks zijn essentiële hulpmiddelen geworden voor het evalueren van de mogelijkheden en beperkingen van AI-modellen in verschillende domeinen:
- MMLU-Pro: Een benchmark die is ontworpen om het vermogen van AI-modellen te beoordelen om vragen te beantwoorden over een breed scala aan onderwerpen, waaronder geesteswetenschappen, sociale wetenschappen en STEM-gebieden.
- MMMU: Een benchmark gericht op het evalueren van het vermogen van AI-modellen om multimodale gegevens, zoals afbeeldingen en tekst, te begrijpen en erover te redeneren.
- OS-World: Een benchmark die het vermogen van AI-modellen test om te opereren in complexe, open omgevingen, waarbij ze moeten leren en zich aanpassen aan nieuwe situaties.
Door deze benchmarks bij te dragen aan de AI-veiligheidsgemeenschap heeft het Vector Institute een belangrijke rol gespeeld bij het bevorderen van het begrip en de verantwoorde ontwikkeling van AI-technologieën.
Inspect Evals: Een collaboratief platform voor AI-veiligheidstesten
Inspect Evals is een open-source platform dat is ontworpen om AI-veiligheidsevaluaties te standaardiseren en samenwerking tussen onderzoekers en ontwikkelaars te faciliteren. Het platform biedt een raamwerk voor het maken, uitvoeren en delen van AI-veiligheidstests, waardoor onderzoekers:
- Gestandaardiseerde evaluaties ontwikkelen: Rigoureuze en gestandaardiseerde evaluaties maken die kunnen worden gebruikt om de veiligheid van verschillende AI-modellen te vergelijken.
- Evaluaties en resultaten delen: Hun evaluaties en resultaten delen met de bredere AI-gemeenschap, waardoor samenwerking en transparantie worden bevorderd.
- Risico’s identificeren en beperken: Potentiële risico’s identificeren en beperken die zijn verbonden aan AI-technologieën, waardoor verantwoorde ontwikkeling en inzet worden bevorderd.
Door samenwerking en standaardisatie te bevorderen, wil Inspect Evals de ontwikkeling van veiligere en betrouwbaardere AI-systemen versnellen.
Vector’s rol in het mogelijk maken van veilige en verantwoorde AI-adoptie
Aangezien organisaties in toenemende mate proberen de transformerende voordelen van AI te ontsluiten, is Vector uniek gepositioneerd om onafhankelijke, vertrouwde expertise te bieden die hen in staat stelt dit veilig en verantwoord te doen. Pandya benadrukt de programma’s van het instituut waarin zijn industriële partners samenwerken met deskundige onderzoekers die voorop lopen op het gebied van AI-veiligheid en -toepassing. Deze programma’s bieden een waardevolle sandbox-omgeving waar partners kunnen experimenteren en modellen en technieken kunnen testen om hun specifieke AI-gerelateerde zakelijke uitdagingen aan te pakken.
Industriële partnerschapsprogramma’s
Vector’s industriële partnerschapsprogramma’s bieden een reeks voordelen, waaronder:
- Toegang tot deskundige onderzoekers: Samenwerking met toonaangevende AI-onderzoekers die begeleiding en ondersteuning kunnen bieden op het gebied van AI-veiligheid en -toepassing.
- Sandbox-omgeving: Toegang tot een veilige en gecontroleerde omgeving voor het experimenteren met AI-modellen en -technieken.
- Oplossingen op maat: Ontwikkeling van AI-oplossingen op maat die zijn afgestemd op de specifieke behoeften en uitdagingen van elke partner.
- Kennisoverdracht: Mogelijkheden voor kennisoverdracht en capaciteitsopbouw, waardoor partners hun eigen AI-expertise kunnen ontwikkelen.
Door deze middelen te verstrekken, helpt Vector organisaties om de kracht van AI te benutten en tegelijkertijd potentiële risico’s te beperken en een verantwoorde inzet te waarborgen.
Specifieke zakelijke uitdagingen aanpakken
Vector’s industriële partners zijn afkomstig uit een breed scala aan sectoren, waaronder financiële dienstverlening, technologische innovatie en gezondheidszorg. Deze partners maken gebruik van Vector’s expertise om een verscheidenheid aan AI-gerelateerde zakelijke uitdagingen aan te pakken, zoals:
- Detectie van fraude: Het ontwikkelen van AI-modellen om frauduleuze activiteiten in financiële transacties te detecteren en te voorkomen.
- Gepersonaliseerde geneeskunde: Het gebruik van AI om behandelplannen te personaliseren en de resultaten voor patiënten in de gezondheidszorg te verbeteren.
- Optimalisatie van de toeleveringsketen: Het optimaliseren van de activiteiten van de toeleveringsketen met behulp van AI-gestuurde prognoses en logistiek management.
- Detectie van cyberveiligheidsdreigingen: Het ontwikkelen van AI-systemen om cyberveiligheidsdreigingen in realtime te detecteren en erop te reageren.
Door nauw samen te werken met zijn industriële partners helpt Vector de innovatie te stimuleren en het transformerende potentieel van AI in verschillende industrieën te ontsluiten.