On-Device AI in de Journalistiek: Een Experiment

De lokroep van kunstmatige intelligentie wordt steeds luider en belooft efficiëntie en transformatie in alle sectoren. Een bijzonder aantrekkelijk vooruitzicht is het draaien van krachtige AI-modellen rechtstreeks op personal computers, waarbij cloud-afhankelijkheid, abonnementskosten en zorgen over gegevensprivacy worden omzeild. Giganten als Google, Meta en Mistral AI hebben geavanceerde Large Language Models (LLMs) gratis beschikbaar gesteld om te downloaden. Maar vertaalt deze toegankelijkheid zich in praktisch nut? Kunnen deze digitale breinen, beperkt tot de silicium van een desktop of laptop, echt complexe workflows zoals journalistiek schrijven verbeteren? Dit verslag beschrijft een uitgebreid experiment dat precies die vraag moest beantwoorden.

De Opzet: Het Lokale AI-Experiment

Gedurende enkele maanden werd een toegewijde inspanning geleverd om de reële prestaties te evalueren van verschillende vrij downloadbare LLMs die volledig op lokale hardware draaien. De lijst van onderzochte modellen was divers en weerspiegelde het snel evoluerende landschap van open-source AI:

  • Google Gemma (specifiek versie 3)
  • Meta Llama (versie 3.3)
  • Anthropic Claude (versie 3.7 Sonnet – hoewel doorgaans cloud-gebaseerd, suggereert de opname ervan brede tests)
  • Meerdere iteraties van Mistral AI (waaronder Mistral, Mistral Small 3.1, Mistral Nemo en Mixtral)
  • IBM Granite (versie 3.2)
  • Alibaba Qwen (versie 2.5)
  • DeepSeek R1 (een redeneerlaag die vaak wordt toegepast op gedistilleerde versies van Qwen of Llama)

Het kerndoel was ambitieus maar praktisch: bepalen of deze lokaal draaiende AI’s ruwe interviewtranscripten konden omzetten in gepolijste, publiceerbare artikelen. Dit omvatte niet alleen de technische haalbaarheid – kon de hardware de belasting aan? – maar ook de kwalitatieve output – was de resulterende tekst bruikbaar? Het is cruciaal om vooraf te stellen dat het bereiken van een volledig geautomatiseerd, publicatieklaar artikel ongrijpbaar bleek. Het primaire doel verschoof naar het begrijpen van de werkelijke mogelijkheden en beperkingen van de huidige on-device AI via dit specifieke, veeleisende gebruiksscenario.

De gekozen methodologie draaide om een substantiële prompt. Deze omvatte ongeveer 1.500 tokens (ongeveer 6.000 tekens of twee volledige pagina’s tekst) die nauwgezet de gewenste artikelstructuur, stijl en toon beschreven. Aan deze instructieset werd het interviewtranscript zelf toegevoegd, gemiddeld ongeveer 11.000 tokens voor een typisch gesprek van 45 minuten. De enorme omvang van deze gecombineerde invoer (vaak meer dan 12.500 tokens) overschrijdt doorgaans de gratis gebruikslimieten van veel online AI-platforms. Deze beperking onderstreepte de reden voor het verkennen van lokale implementatie, waar verwerking gratis blijft ongeacht de invoergrootte, alleen beperkt door de capaciteiten van de machine.

Het uitvoeren van deze tests gebeurde met LM Studio, een populaire community-software die een gebruiksvriendelijke chatbot-achtige interface biedt voor interactie met lokaal draaiende LLMs. LM Studio integreert handig functies voor het downloaden van verschillende modelversies, hoewel de primaire bron voor deze vrij beschikbare modellen de Hugging Face repository blijft, een centrale hub voor de AI-gemeenschap.

De reis naar lokale AI-verwerking onthulde al snel een complex samenspel tussen software en hardware. De kwaliteit en snelheid van de AI-output waren nauw verbonden met de beschikbare middelen op de testmachine – een Mac uitgerust met een Apple Silicon M1 Max system-on-chip (SoC) en een royale 64 GB RAM. Cruciaal is dat deze architectuur beschikt over Unified Memory Architecture (UMA), waardoor 48 GB RAM dynamisch kan worden gedeeld tussen de processorkernen (CPU), grafische kernen (GPU – gebruikt voor vectorversnelling) en neurale verwerkingseenheidkernen (NPU – gebruikt voor matrixversnelling).

Verschillende belangrijke technische factoren bleken doorslaggevend:

  1. Model Parameters: LLMs worden vaak gemeten aan de hand van hun aantal parameters (meestal miljarden). Grotere modellen bezitten over het algemeen meer kennis en nuance. Ze vereisen echter aanzienlijk meer geheugen.
  2. Quantization: Dit verwijst naar de precisie die wordt gebruikt om de parameters van het model op te slaan (bijv. 8-bit, 4-bit, 3-bit). Lagere bitprecisie vermindert de geheugenvoetafdruk drastisch en verhoogt de verwerkingssnelheid, maar vaak ten koste van nauwkeurigheid en uitvoerkwaliteit (introductie van fouten, herhaling of onzinnige taal).
  3. Context Window: Dit definieert de maximale hoeveelheid informatie (prompt + invoergegevens) die de AI tegelijk kan overwegen, gemeten in tokens. De vereiste venstergrootte wordt bepaald door de taak; in dit geval vereisten de grote prompt en het transcript een substantieel venster.
  4. Beschikbaar RAM: De hoeveelheid geheugen beperkt direct welke modellen (en op welk quantization-niveau) effectief kunnen worden geladen en uitgevoerd.

De ‘sweet spot’, die de beste balans bood tussen kwaliteit en haalbaarheid op de testmachine op het moment van evaluatie, werd bereikt met Google’s Gemma-model met 27 miljard parameters, gequantiseerd naar 8 bits (versie ‘27B Q8_0’). Deze configuratie werkte binnen een context window van 32.000 tokens en verwerkte comfortabel de invoer van ongeveer 15.000 tokens (instructies + transcript). Het draaide op de gespecificeerde Mac-hardware, gebruikmakend van de 48 GB gedeeld geheugen.

Onder deze optimale omstandigheden werd de verwerkingssnelheid gemeten op 6,82 tokens per seconde. Hoewel functioneel, is dit verre van onmiddellijk. Snelheidsverbeteringen zonder concessies te doen aan de uitvoerkwaliteit hangen voornamelijk af van snellere hardware – specifiek, SoCs met hogere kloksnelheden (GHz) of een groter aantal verwerkingskernen (CPU, GPU, NPU).

Pogingen om modellen met aanzienlijk meer parameters (bijv. 32 miljard, 70 miljard) te laden, stuitten snel op de geheugenlimiet. Deze grotere modellen laadden ofwel helemaal niet, of produceerden ernstig afgeknotte, onbruikbare output (zoals een enkele alinea in plaats van een volledig artikel). Omgekeerd resulteerde het gebruik van modellen met minder parameters, hoewel het geheugen vrijmaakte, in een merkbare daling van de schrijfkwaliteit, gekenmerkt door herhaling en slecht gearticuleerde ideeën. Evenzo verhoogde het toepassen van agressievere quantization (parameters reduceren tot 3, 4, 5 of 6 bits) de snelheid, maar verslechterde de output ernstig, met grammaticale fouten en zelfs verzonnen woorden tot gevolg.

De grootte van het vereiste context window, bepaald door de invoergegevens, is in wezen niet onderhandelbaar voor de taak. Als de invoergegevens een venster vereisen dat, in combinatie met de gekozen modelgrootte en quantization, het beschikbare RAM overschrijdt, is de enige uitweg het selecteren van een kleiner model, wat onvermijdelijk de potentiële kwaliteit van het eindresultaat compromitteert om binnen de geheugenlimieten te blijven.

De Zoektocht naar Kwaliteit: Wanneer Structuur en Substantie (Niet) Samenkomen

Slaagde de lokaal draaiende AI erin bruikbare artikelen te genereren? Ja en nee. De gegenereerde teksten vertoonden vaak een verrassend goede structuur. Ze hielden zich over het algemeen aan het gevraagde formaat, met:

  • Een waarneembare invalshoek of focus.
  • Een coherente stroom door thematische secties.
  • Correct geplaatste citaten uit het transcript.
  • Boeiende koppen en slotzinnen.

Er dook echter consequent een kritieke fout op bij alle geteste LLMs, inclusief modellen zoals DeepSeek R1, die specifiek zijn ontworpen voor verbeterd redeneren: een fundamenteel onvermogen om de relevantie van informatie binnen het interview correct te onderscheiden en te prioriteren. De AI-modellen misten consequent de kern van het gesprek en concentreerden zich op secundaire punten of tangentiële details.

Het resultaat waren vaak artikelen die grammaticaal correct en goed georganiseerd waren, maar uiteindelijk oppervlakkig en oninteressant. In sommige gevallen wijdde de AI aanzienlijke, goed beargumenteerde passages aan het benoemen van het voor de hand liggende – bijvoorbeeld door uitvoerig uit te leggen dat het geïnterviewde bedrijf opereert in een markt met concurrenten. Dit benadrukte een kloof tussen linguïstische competentie (het vormen van coherente zinnen) en echt begrip (het begrijpen van belang en context).

Bovendien varieerde de stilistische output aanzienlijk tussen de modellen:

  • Meta’s Llama 3.x: Produceerde ten tijde van de tests zinnen die vaak ingewikkeld en moeilijk te ontleden waren.
  • Mistral Models & Gemma: Toonden een neiging tot een ‘marketing speak’-stijl, met overdadige bijvoeglijke naamwoorden en positieve framing, maar zonder concrete substantie en specifieke details.
  • Alibaba’s Qwen: Verrassend genoeg produceerde dit Chinese model, binnen de beperkingen van de testopstelling, enkele van de meest esthetisch aantrekkelijke proza in het Frans (de taal van het oorspronkelijke evaluatieteam).
  • Mixtral 8x7B: Aanvankelijk leek dit ‘mixture of experts’-model (een combinatie van acht kleinere, gespecialiseerde 7-miljard parameter modellen) veelbelovend. Om het echter binnen de 48 GB geheugenbeperking te passen, was agressieve 3-bit quantization vereist, wat leidde tot aanzienlijke syntaxisfouten. Een 4-bit gequantiseerde versie (‘Q4_K_M’) bood aanvankelijk een beter compromis, maar latere updates van de LM Studio-software verhoogden de geheugenvoetafdruk, waardoor ook deze configuratie afgeknotte resultaten produceerde.
  • Mistral Small 3.1: Een recenter model met 24 miljard parameters bij 8-bit quantization ontpopte zich als een sterke concurrent. De uitvoerkwaliteit benaderde die van het 27B Gemma-model, en het bood een licht snelheidsvoordeel, met een verwerking van 8,65 tokens per seconde.

Deze variatie onderstreept dat het kiezen van een LLM niet alleen gaat over grootte of snelheid; de onderliggende trainingsdata en architectuur beïnvloeden significant de schrijfstijl en potentiële vooroordelen.

Hardware Architectuur: De Onbezongen Held van Lokale AI

De experimenten wierpen licht op een cruciale, vaak over het hoofd geziene factor: de onderliggende hardware-architectuur, specifiek hoe geheugen wordt benaderd. De superieure prestaties waargenomen op de Apple Silicon Mac waren niet alleen te danken aan de hoeveelheid RAM, maar hingen kritisch af van de Unified Memory Architecture (UMA).

In een UMA-systeem delen de CPU-, GPU- en NPU-kernen allemaal dezelfde pool van fysiek RAM en kunnen ze tegelijkertijd gegevens op dezelfde geheugenadressen benaderen. Dit elimineert de noodzaak om gegevens te kopiëren tussen afzonderlijke geheugenpools die zijn toegewezen aan verschillende processors (bijv. systeem-RAM voor de CPU en toegewijd VRAM voor een discrete grafische kaart).

Waarom is dit zo belangrijk voor LLMs?

  • Efficiëntie: LLM-verwerking omvat intense berekeningen over verschillende soorten kernen. UMA maakt naadloze gegevensdeling mogelijk, waardoor latentie en overhead geassocieerd met gegevensduplicatie en -overdracht worden verminderd.
  • Geheugengebruik: In systemen zonder UMA (zoals een typische pc met een discrete GPU), moeten dezelfde gegevens mogelijk zowel in het hoofd-systeem-RAM (voor de CPU) als in het VRAM van de GPU worden geladen. Dit vermindert effectief het bruikbare geheugen voor de LLM zelf.

De praktische implicatie is significant. Terwijl de test-Mac comfortabel een 27-miljard parameter, 8-bit gequantiseerd model kon draaien met 48 GB gedeeld UMA RAM, zou het bereiken van vergelijkbare prestaties op een pc zonder UMA aanzienlijk meer totaal RAM kunnen vereisen. Bijvoorbeeld, een pc met 48 GB totaal RAM, verdeeld in 24 GB voor de CPU en 24 GB voor de GPU, zou mogelijk alleen in staat zijn om een veel kleiner 13-miljard parameter model effectief te draaien, vanwege de geheugenpartitionering en de overhead van gegevensduplicatie.

Dit architecturale voordeel verklaart de vroege voorsprong die Macs met Apple Silicon-chips kregen in de lokale AI-ruimte. Concurrenten zoals AMD erkenden dit en kondigden hun Ryzen AI Max SoC-reeks aan (verwacht begin 2025), ontworpen om een vergelijkbare unified memory-aanpak te integreren. Ten tijde van deze tests beschikten Intel’s Core Ultra SoCs, hoewel ze CPU, GPU en NPU integreerden, niet over hetzelfde niveau van volledig unified memory-toegang over alle kerntypes. Dit hardware-onderscheid is een kritische overweging voor iedereen die serieus overweegt om grotere, capabelere LLMs lokaal te draaien.

De Ingewikkelde Dans van Prompt Engineering

Een AI een complexe taak laten uitvoeren zoals het omzetten van een interview in een artikel vereist meer dan alleen krachtige hardware en een capabel model; het vereist geavanceerde instructies – de kunst en wetenschap van prompt engineering. Het opstellen van de initiële prompt van 1.500 tokens die de AI leidde, was een aanzienlijke onderneming.

Een nuttig startpunt was reverse engineering: de AI een voltooid, door mensen geschreven artikel voeren naast het bijbehorende transcript en vragen welke prompt gegeven had moeten worden om dat resultaat te bereiken. Het analyseren van de suggesties van de AI over verschillende diverse voorbeelden hielp bij het identificeren van essentiële elementen voor de instructieset.

AI-gegenereerde promptsuggesties waren echter consequent te beknopt en misten de nodige details om de creatie van een uitgebreid artikel te begeleiden. Het echte werk lag in het nemen van deze initiële door AI geleverde aanwijzingen en deze uit te werken, waarbij diepgaande domeinkennis over journalistieke structuur, toon, stijl en ethische overwegingen werd ingebed.

Verschillende niet-intuïtieve lessen kwamen naar voren:

  • Duidelijkheid boven Elegantie: Verrassend genoeg verminderde het schrijven van de prompt in een meer natuurlijke, vloeiende stijl vaak het begrip van de AI. Modellen worstelden met ambiguïteit, met name voornaamwoorden (“hij,” “het,” “dit”). De meest effectieve aanpak was het opofferen van menselijke leesbaarheid voor machineprecisie, door expliciet onderwerpen te herhalen (“het artikel moet…”, “de toon van het artikel moet…”, “de inleiding van het artikel heeft nodig…”) om elke mogelijke misinterpretatie te voorkomen.
  • De Ongrijpbare Aard van Creativiteit: Ondanks zorgvuldig promptontwerp gericht op het toestaan van flexibiliteit, deelden de door AI gegenereerde artikelen consequent een ‘familiegelijkenis’. Het vastleggen van de breedte van menselijke creativiteit en stilistische variatie binnen een enkele prompt, of zelfs meerdere concurrerende prompts, bleek uitzonderlijk moeilijk. Echte variëteit leek fundamentelere verschuivingen te vereisen dan alleen prompt-aanpassingen konden bieden.

Prompt engineering is geen eenmalige taak, maar een iteratief proces van verfijning, testen en het integreren van specifieke bedrijfslogica en stilistische nuances. Hetvereist een mix van technisch begrip en diepgaande expertise in het onderwerp.

De Werkdrukverschuiving: Het Ontrafelen van de AI-Paradox

De experimenten leidden uiteindelijk tot een kritisch besef, de AI-paradox genoemd: in de huidige staat, om AI potentieel wat werkdruk van de gebruiker te verlichten (het schrijven van het conceptartikel), moet de gebruiker vaak meer voorbereidend werk investeren.

Het kernprobleem bleef het onvermogen van de AI om betrouwbaar relevantie in te schatten binnen het ruwe interviewtranscript. Om een pertinent artikel te produceren, was het simpelweg invoeren van het volledige transcript onvoldoende. Een noodzakelijke tussenstap diende zich aan: het handmatig voorbewerken van het transcript. Dit omvatte:

  1. Het verwijderen van irrelevant gepraat, uitweidingen en redundanties.
  2. Potentieel toevoegen van contextuele notities (zelfs als ze niet bedoeld zijn voor het uiteindelijke artikel) om het begrip van de AI te sturen.
  3. Zorgvuldig selecteren en misschien herschikken van belangrijke segmenten.

Deze transcript-‘curatie’ vereist aanzienlijke menselijke tijd en oordeelsvermogen. De tijd die werd bespaard doordat de AI een eerste concept genereerde, werd effectief gecompenseerd, of zelfs overtroffen, door de nieuwe taak van het nauwgezet voorbereiden van de invoergegevens. De werkdruk verdween niet; het verschoof slechts van direct schrijven naar gegevensvoorbereiding en promptverfijning.

Bovendien was de gedetailleerde prompt van 1.500 tokens zeer specifiek voor één type artikel (bijv. een interview over een productlancering). Het afdekken van het diverse scala aan artikelformaten dat een journalist dagelijks produceert – startup-profielen, strategische analyses, evenementverslaggeving, onderzoeken met meerdere bronnen – zou de ontwikkeling, het testen en het onderhouden van een aparte, even gedetailleerde prompt voor elk gebruiksscenario vereisen. Dit vertegenwoordigt een aanzienlijke initiële en doorlopende engineering-investering.

Erger nog, deze uitgebreide experimenten, die meer dan zes maanden besloegen, raakten slechts het oppervlak. Ze concentreerden zich op het eenvoudigste scenario: het genereren van een artikel uit een enkel interview, vaak afgenomen in gecontroleerde omgevingen zoals persconferenties waar de punten van de geïnterviewde al enigszins gestructureerd zijn. De veel complexere, maar alledaagse, taken van het synthetiseren van informatie uit meerdere interviews, het integreren van achtergrondonderzoek, of het omgaan met minder gestructureerde gesprekken bleven onontgonnen vanwege de tijdsinvestering die zelfs voor het basisgeval nodig was.

Daarom, hoewel het lokaal draaien van LLMs technisch haalbaar is en voordelen biedt op het gebied van kosten en gegevensprivacy, is het idee dat het gemakkelijk tijd of moeite bespaart voor complex kenniswerk zoals journalistiek, op basis van dit onderzoek, momenteel illusoir. De vereiste inspanning transformeert eenvoudigweg, stroomopwaarts verschuivend naar gegevensvoorbereiding en zeer specifieke prompt engineering. Op deze specifieke uitdagingen – het onderscheiden van relevantie, het vereisen van uitgebreide voorbewerking – presteerde de lokaal draaiende AI vergelijkbaar met betaalde online diensten, wat suggereert dat dit fundamentele beperkingen zijn van de huidige generatie LLMs, ongeacht de implementatiemethode. Het pad naar echt naadloze AI-assistentie in dergelijke domeinen blijft ingewikkeld en vereist verdere evolutie in zowel AI-capaciteiten als onze methoden om ermee om te gaan.