Het is een onderwerp van intens debat of kunstmatige intelligentie (AI) menselijke banen zal vervangen. Sommige organisaties zetten al in op AI, terwijl anderen aarzelen en de huidige mogelijkheden in twijfel trekken. Om dit te onderzoeken, voerden onderzoekers van Carnegie Mellon University een experiment uit door een gesimuleerd bedrijf te creëren dat volledig wordt beheerd door AI-agenten. Hun bevindingen, gepresenteerd in een preprint artikel op Arxiv, bieden waardevolle inzichten in het potentieel en de beperkingen van AI op de werkvloer.
Het virtuele personeelsbestand bestond uit AI-modellen zoals Claude van Anthropic, GPT-4o van OpenAI, Google Gemini, Amazon Nova, Meta Llama en Qwen van Alibaba. Deze AI-agenten kregen diverse rollen toegewezen, waaronder financieel analisten, projectmanagers en software engineers. De onderzoekers gebruikten ook een platform om collega’s te simuleren, waardoor de AI-agenten met hen konden communiceren voor specifieke taken, zoals contact opnemen met human resources.
Het AI-experiment: een diepgaande duik
Dit experiment had tot doel een realistische zakelijke omgeving te repliceren waarin AI-agenten zelfstandig verschillende taken konden uitvoeren. Elke AI-agent kreeg de taak om door bestanden te navigeren om gegevens te analyseren en virtuele bezoeken af te leggen om nieuwe kantoorruimten te selecteren. De prestaties van elk AI-model werden nauwlettend gevolgd om de effectiviteit bij het voltooien van toegewezen taken te evalueren.
De resultaten onthulden een aanzienlijke uitdaging. De AI-agenten slaagden er niet in om meer dan 75% van de aan hen toegewezen taken te voltooien. Claude 3.5 Sonnet, ondanks de leidende positie, slaagde erin om slechts 24% van de taken te voltooien. Inclusief gedeeltelijk voltooide taken bereikte de score slechts 34,4%. Gemini 2.0 Flash bezette de tweede positie, maar voltooide slechts 11,4% van de taken. Geen van de andere AI-agenten kon meer dan 10% van de taken voltooien.
Kosteneffectiviteit versus prestaties
Een ander opmerkelijk aspect van het experiment waren de operationele kosten die aan elke AI-agent waren verbonden. Claude 3.5 Sonnet, ondanks de relatief betere prestaties, veroorzaakte de hoogste operationele kosten van $6,34. Daarentegen had Gemini 2.0 Flash aanzienlijk lagere operationele kosten van slechts $0,79. Dit roept vragen op over de kosteneffectiviteit van het gebruik van bepaalde AI-modellen in bedrijfsactiviteiten.
De onderzoekers merkten op dat de AI-agenten moeite hadden met impliciete aspecten van de instructies. Toen ze bijvoorbeeld de opdracht kregen om een resultaat op te slaan in een ".docx" bestand, begrepen ze niet dat dit verwees naar de Microsoft Word-indeling. Ze ondervonden ook problemen met taken die sociale interactie vereisen, wat de beperkingen van AI benadrukt bij het begrijpen en reageren op sociale signalen.
Uitdagingen in webnavigatie
Een van de grootste obstakels voor de AI-agenten was het navigeren op het web, met name het omgaan met pop-ups en complexe website-indelingen. Wanneer ze werden geconfronteerd met obstakels, namen ze soms hun toevlucht tot snelkoppelingen, waarbij ze moeilijke delen van de taak oversloegen en aannamen dat ze deze hadden voltooid. Deze neiging om uitdagende segmenten te omzeilen, onderstreept het onvermogen van AI om zelfstandig complexe, realistische scenario’s aan te pakken.
Deze bevindingen geven aan dat, hoewel AI kan excelleren in bepaalde taken, zoals data-analyse, het nog lang niet in staat is om zelfstandig te functioneren in een zakelijke omgeving. De AI-agenten worstelden met taken die een dieper begrip van context, sociale interactie en probleemoplossende vaardigheden vereisten.
Belangrijkste observaties uit de studie
De studie van Carnegie Mellon University biedt verschillende belangrijke observaties over de huidige staat van AI en de potentiële rol op de werkvloer:
Beperkte taakvoltooiing: De AI-agenten worstelden om taken zelfstandig te voltooien en faalden in meer dan 75% van de pogingen. Dit benadrukt de noodzaak van menselijk toezicht en interventie bij AI-gestuurde taken.
Moeilijkheden met impliciete instructies: De agenten begrepen vaak geen impliciete of contextuele aspecten van instructies, wat duidt op een gebrek aan begrip dat verder gaat dan expliciete opdrachten.
Uitdagingen in sociale interactie: AI-agenten worstelden met taken die sociale interactie vereisen, wat suggereert dat AI nog niet in staat is om interpersoonlijke relaties effectief te beheren of door sociale dynamiek te navigeren.
Problemen met webnavigatie: De agenten hadden problemen met het navigeren op het web, wat aangeeft dat AI verdere ontwikkeling behoeft om complexe websites en onverwachte pop-ups aan te kunnen.
Neiging tot snelkoppelingen: Agenten namen soms snelkoppelingen en sloegen moeilijke delen van taken over, wat een onvermogen onthult om complexe probleemoplossing aan te pakken zonder menselijk kritisch denken.
Implicaties voor de toekomst van werk
De bevindingen van dit onderzoek hebben aanzienlijke implicaties voor de toekomst van werk. Hoewel AI het potentieel heeft om bepaalde taken te automatiseren en de efficiëntie te verbeteren, is het onwaarschijnlijk dat het menselijke werknemers in de nabije toekomst volledig zal vervangen. AI zal waarschijnlijk eerder menselijke mogelijkheden vergroten, waardoor werknemers zich kunnen concentreren op meer strategische en creatieve activiteiten.
De studie benadrukt ook het belang van het opleiden van AI-modellen om context, sociale signalen en complexe probleemoplossing beter te begrijpen. Naarmate de AI-technologie zich blijft ontwikkelen, zal het cruciaal zijn om deze beperkingen aan te pakken en ervoor te zorgen dat AI menselijke werknemers effectief kan ondersteunen in verschillende rollen.
Het gemengde personeelsbestand: Mensen en AI
De toekomst van werk zal waarschijnlijk een gemengd personeelsbestand omvatten, waarbij mensen en AI samenwerken om gemeenschappelijke doelen te bereiken. Menselijke werknemers kunnen het kritisch denken, de creativiteit en de sociale vaardigheden leveren die AI momenteel mist, terwijl AI routinetaken kan automatiseren en grote hoeveelheden gegevens efficiënter kan analyseren dan mensen.
Dit gemengde personeelsbestand vereist een verschuiving in vaardigheden en training. Werknemers zullen het vermogen moeten ontwikkelen om samen te werken met AI-systemen, AI-gegenereerde inzichten te begrijpen en zich aan te passen aan veranderende rollen naarmate AI meer taken overneemt.
De rol van ethiek en toezicht
Naarmate AI steeds gangbaarder wordt op de werkvloer, is het ook essentieel om de ethische implicaties van het gebruik van AI te overwegen. Kwesties zoals vooringenomenheid, privacy en verdringing van banen moeten zorgvuldig worden aangepakt om ervoor te zorgen dat AI op een verantwoorde en ethische manier wordt gebruikt.
Organisaties moeten duidelijke richtlijnen en toezichtmechanismen vaststellen voor het gebruik van AI op de werkvloer. Deze richtlijnen moeten kwesties aanpakken zoals gegevensprivacy, algoritmische vooringenomenheid en de impact van AI op de werkgelegenheid.
Individuele uitdagingen van AI-modellen analyseren
Dieper ingaan op de specifieke kenmerken van de AI-modellen die in het experiment werden gebruikt, geeft meer inzicht in de uitdagingen en potentiële oplossingen. Modellen zoals Claude, GPT-4o, Gemini, Llama en anderen hebben elk unieke architecturen en trainingsdatasets, die rechtstreeks van invloed zijn op hun prestaties en operationele kosten.
Claude: mogelijkheden en beperkingen begrijpen
Claude, bekend om zijn mogelijkheden op het gebied van natuurlijke taalverwerking, demonstreerde een relatief hoger voltooiingspercentage in dit experiment. Het ging echter ook gepaard met de hoogste operationele kosten, wat wijst op een afweging tussen prestaties en kosteneffectiviteit. De problemen die Claude ondervond met impliciete instructies en sociale interactie suggereren dat, hoewel geavanceerd, het nog steeds verfijning behoeft in contextueel begrip.
Om de prestaties van Claude te verbeteren, zouden toekomstige iteraties kunnen profiteren van meer diverse trainingsdatasets die scenario’s met complexe sociale signalen en impliciete instructies bevatten. Bovendien kan het optimaliseren van het model voor kosteneffectiviteit het een levensvatbaarder optie maken voor zakelijke toepassingen.
GPT-4o: de allround performer?
GPT-4o, ontwikkeld door OpenAI, vertegenwoordigt een ander state-of-the-art model met diverse mogelijkheden. De prestaties in dit experiment laten zien dat het, ondanks de sterke punten, nog steeds worstelt met praktische, realistische toepassingen die een mix van technische en sociale vaardigheden vereisen. Verbeteringen kunnen zich richten op een betere integratie met webge baseerde tools en een verbeterde behandeling van onverwachte onderbrekingen, zoals pop-ups.
Gemini: kosteneffectief alternatief?
Google’s Gemini valt op door de relatief lage operationele kosten, waardoor het een aantrekkelijke optie is voor bedrijven die de uitgaven willen minimaliseren. Het taakvoltooiingspercentage suggereert echter dat er ruimte is voor verbetering in de algemene prestaties. Om dit aan te pakken, kunnen ontwikkelaars zich concentreren op het verfijnen van Gemini’s probleemoplossende vaardigheden en het vermogen om context te begrijpen in open instructies.
Llama: potentieel voor open source
Meta’s Llama biedt als open-source model het voordeel van community-gedreven ontwikkeling en aanpassing. Hoewel de prestaties in dit experiment niet geweldig waren, betekent de open-source aard van Llama dat er verbeteringen kunnen worden aangebracht door een breed scala aan ontwikkelaars. Aandachtsgebieden kunnen zijn: het verbeteren van de webnavigatievaardigheden en het vergroten van het vermogen om door complexe datasets te navigeren.
AI-beperkingen in bedrijfsomgevingen overwinnen
Het experiment onderstreept dat AI-modellen, om echt te excelleren in bedrijfsomgevingen, zich op verschillende belangrijke gebieden moeten concentreren:
Contextueel begrip: Het vermogen van AI om context te begrijpen en te interpreteren, moet worden verbeterd. Dit omvat het trainen van modellen op diverse datasets die impliciete instructies en sociale signalen bevatten.
Sociale interactie: Het verbeteren van het vermogen van AI tot sociale interactie zal het in staat stellen om interpersoonlijke relaties te beheren en effectiever door sociale dynamiek te navigeren.
Webnavigatie: Het ontwikkelen van de webnavigatievaardigheden van AI zal het helpen om complexe websites, pop-ups en andere onverwachte onderbrekingen aan te kunnen.
Probleemoplossend vermogen: Het verfijnen van het probleemoplossende vermogen van AI zal het in staat stellen om complexe taken aan te pakken zonder zijn toevlucht te nemen tot snelkoppelingen of aannames te doen.
De voortdurende evolutie van AI
De studie van Carnegie Mellon University biedt een momentopname van de huidige staat van AI. Naarmate de AI-technologie zich blijft ontwikkelen, is het essentieel om de voortgang te volgen en de beperkingen aan te pakken. Door zich op deze belangrijke gebieden te concentreren, kan AI een waardevol hulpmiddel worden voor het vergroten van menselijke mogelijkheden en het verbeteren van de efficiëntie op de werkvloer.
Ethische bezwaren aanpakken
De integratie van AI in het bedrijfsleven introduceert ook verschillende ethische bezwaren die proactief moeten worden aangepakt. Algoritmische vooringenomenheid, gegevensprivacy en verdringing van banen behoren tot de meest prangende kwesties.
Algoritmische vooringenomenheid: AI-modellen kunnen bestaande vooringenomenheid in de gegevens waarop ze zijn getraind in stand houden en versterken. Dit kan leiden tot discriminerende uitkomsten op gebieden als aanwering, promotie en prestatie-evaluatie. Organisaties moeten AI-systemen zorgvuldig controleren om ervoor te zorgen dat ze vrij zijn van vooringenomenheid en geen enkele groep mensen discrimineren.
Gegevensprivacy: AI-systemen vereisen vaak toegang tot grote hoeveelheden gegevens, wat aanleiding kan geven tot bezorgdheid over privacy. Organisaties moeten robuuste maatregelen ter bescherming van gegevens implementeren om ervoor te zorgen dat gevoelige informatie niet in gevaar komt.
Verdringing van banen: De automatisering van taken door middel van AI kan leiden tot verdringing van banen, met name in routinematige en repetitieve rollen. Organisaties moeten stappen ondernemen om de impact van verdringing van banen te verzachten door training en ondersteuning te bieden aan werknemers om over te stappen naar nieuwe rollen.
De toekomst is collaboratief
De toekomst van werk omvat een collaboratieve relatie tussen mensen en AI, waarbij ze elkaars sterke punten aanvullen. Menselijke werknemers brengen creativiteit, kritisch denken en sociale vaardigheden mee, terwijl AI routinetaken automatiseert en grote hoeveelheden gegevens analyseert. Organisaties die dit collaboratieve model omarmen, zullen het best gepositioneerd zijn om te slagen in het evoluerende landschap van werk.
Naarmate de AI-technologie zich blijft ontwikkelen, moeten organisaties zich aanpasbaar en proactief blijven opstellen bij het aanpakken van de uitdagingen en mogelijkheden die AI biedt. Door te investeren in training, ethische richtlijnen vast te stellen en een collaboratieve cultuur te bevorderen, kunnen ze de kracht van AI benutten om een productievere, efficiëntere en rechtvaardigere werkomgeving te creëren. Samenvattend, hoewel AI veelbelovend is, zijn er momenteel duidelijke beperkingen met betrekking tot het vermogen om menselijke arbeid te vervangen in verschillende taken en operaties. Het begrijpen van deze beperkingen is cruciaal voor bedrijven die hopen het potentieel van AI in de komende jaren te benutten.