Google onthult QAT-modellen voor 'Gemma 3'

Google heeft recentelijk Quantization-Aware Training (QAT)-modellen geïntroduceerd voor zijn open AI-modelfamilie, ‘Gemma 3’. Deze ontwikkeling is gericht op het aanpakken van de computationele eisen van grote taalmodellen, waardoor ze toegankelijker worden voor een breder scala aan hardwareconfiguraties.

Inzicht in Gemma 3

Gemma 3 is een familie van lichtgewicht, hoogwaardige open-weight modellen ontwikkeld door Google. Het is gebouwd op hetzelfde onderzoek en dezelfde technologie als Google’s ‘Gemini 2.0’-model. Gemma 3 is beschikbaar in vier parametergroottes: 1B, 4B, 12B en 27B. Het heeft zich gevestigd als een toonaangevend model dat werkt in native BFloat16 (BF16)-precisie op high-end GPU’s zoals de NVIDIA H100.

Een aanzienlijk voordeel van Gemma 3’s QAT-modellen is hun vermogen om een hoge kwaliteit te behouden terwijl ze de geheugenvereisten aanzienlijk verminderen. Dit is cruciaal omdat het high-performance modellen zoals Gemma 3 27B in staat stelt om lokaal te draaien op consumer-grade GPU’s zoals de NVIDIA GeForce RTX 3090.

De motivatie achter QAT-modellen

In prestatievergelijkingen wordt vaak BF16 gebruikt. Bij het implementeren van grote modellen worden echter soms formaten met een lagere precisie, zoals FP8 (8-bit), gebruikt om de hardwarevereisten (zoals het aantal GPU’s) te verminderen, zelfs ten koste van de prestaties. Er is een grote vraag naar het gebruik van Gemma 3 met bestaande hardware.

Dit is waar kwantisatie om de hoek komt kijken. In AI-modellen vermindert kwantisatie de precisie van de getallen (modelparameters) die het model gebruikt om antwoorden op te slaan en te berekenen. Dit is vergelijkbaar met het comprimeren van een afbeelding door het aantal gebruikte kleuren te verminderen. In plaats van parameters weer te geven in 16-bit (BF16), is het mogelijk om ze weer te geven in minder bits, zoals 8-bit (INT8) of 4-bit (INT4).

Kwantisatie leidt echter vaak tot een afname van de prestaties. Om de kwaliteit te behouden, gebruikt Google QAT. In plaats van het model te kwantiseren nadat het volledig is getraind, integreert QAT het kwantisatieproces in de training zelf. Door low-precision operaties tijdens de training te simuleren, minimaliseert QAT de prestatieverslechtering na de training. Dit resulteert in kleinere, snellere modellen met behoud van nauwkeurigheid.

Aanzienlijke VRAM-besparingen

Google stelt dat INT4-kwantisatie de VRAM (GPU-geheugen) die nodig is om het model te laden aanzienlijk vermindert in vergelijking met het gebruik van BF16, als volgt:

  • Gemma 3 27B: 54GB (BF16) tot 14.1GB (INT4)
  • Gemma 3 12B: 24GB (BF16) tot 6.6GB (INT4)
  • Gemma 3 4B: 8GB (BF16) tot 2.6GB (INT4)
  • Gemma 3 1B: 2GB (BF16) tot 0.5GB (INT4)

Deze verminderingen in geheugenvoetafdruk zijn van het grootste belang voor het democratiseren van de toegang tot krachtige AI-modellen, waardoor ze kunnen worden geïmplementeerd op apparaten met beperkte resources.

Gemma 3-modellen inschakelen op verschillende apparaten

Volgens Google stelt QAT de krachtige modellen van Gemma 3 in staat om op een breed scala aan consumentenhardware te draaien.

  • Gemma 3 27B (INT4 QAT): Kan comfortabel lokaal worden geladen en uitgevoerd op een desktop met een NVIDIA GeForce RTX 3090 (24GB VRAM) of een gelijkwaardige kaart, waardoor gebruikers het grootste Gemma 3-model kunnen gebruiken.

  • Gemma 3 12B (INT4 QAT): Kan efficiënt worden uitgevoerd op laptop-GPU’s zoals de NVIDIA GeForce RTX 4060 Laptop GPU (8GB VRAM), waardoor krachtige AI-mogelijkheden mogelijk zijn op draagbare machines.

  • Kleinere modellen (4B, 1B): Zijn toegankelijker geworden voor systemen met beperkte resources, zoals smartphones.

Deze uitbreiding van de hardwarecompatibiliteit verbreedt het potentiële toepassingsgebied van Gemma 3 aanzienlijk, waardoor het beschikbaar komt voor een groter publiek van ontwikkelaars en gebruikers. De mogelijkheid om deze modellen op consumer-grade hardware te draaien, opent nieuwe mogelijkheden voor lokale AI-verwerking, waardoor de afhankelijkheid van cloud-gebaseerde services wordt verminderd en de privacy wordt verbeterd.

Eenvoudige integratie met populaire tools

Google heeft ervoor gezorgd dat ontwikkelaars deze nieuwe QAT-modellen kunnen gebruiken binnen vertrouwde workflows. De INT4 QAT- en Q4\_0 (4-bit) QAT-modellen voor Gemma 3 zijn beschikbaar op Hugging Face en Kaggle. Ze kunnen naadloos worden getest met populaire ontwikkelaarstools, zoals:

  • Ollama: Hiermee kunnen gebruikers Gemma 3 QAT-modellen uitvoeren met eenvoudige opdrachten. Ollama stroomlijnt het proces van het implementeren en experimenteren met deze modellen, waardoor het voor ontwikkelaars gemakkelijker wordt om ze in hun projecten te integreren.

  • LM Studio: Biedt een intuïtieve en gebruiksvriendelijke GUI (Graphical User Interface) waarmee gebruikers eenvoudig Gemma 3 QAT-modellen kunnen downloaden en uitvoeren op hun desktops. LM Studio vereenvoudigt de installatie en het beheer van AI-modellen, waardoor ze toegankelijker worden voor niet-technische gebruikers.

  • MLX: Maakt geoptimaliseerde en efficiënte inferentie van Gemma 3 QAT-modellen mogelijk op Apple silicon-powered Macs. MLX maakt gebruik van de unieke architectuur van Apple silicon om verbeterde prestaties en energie-efficiëntie te leveren voor AI-workloads.

  • Gemma.cpp: Google’s dedicated C++ implementation. Allows for very efficient inference directly on the CPU. Gemma.cpp biedt een low-level interface voor ontwikkelaars die de prestaties van hun AI-toepassingen willen finetunen.

  • llama.cpp: Ondersteunt native GGUF-geformatteerde Gemma 3 QAT-modellen, waardoor het eenvoudig te integreren is in bestaande workflows. Llama.cpp is een populaire bibliotheek voor het uitvoeren van grote taalmodellen op verschillende hardwareplatforms, waaronder CPU’s en GPU’s.

De beschikbaarheid van Gemma 3 QAT-modellen op deze platforms en hun compatibiliteit met populaire tools verlaagt de drempel aanzienlijk voor ontwikkelaars die deze modellen in hun projecten willen gebruiken. Dit gebruiksgemak moedigt experimenteren en innovatie aan, wat leidt tot een breder scala aan toepassingen voor Gemma 3.

De technische grondslagen van Quantization-Aware Training

Om de betekenis van Google’s QAT-modellen voor Gemma 3 volledig te waarderen, is het belangrijk om in de technische details van kwantisatie te duiken en hoe QAT de uitdagingen die eraan verbonden zijn aanpakt.

Kwantisatie begrijpen:

Kwantisatie is een techniek die wordt gebruikt om de grootte en computationele complexiteit van neurale netwerken te verminderen door de gewichten en activeringen met een lagere precisie weer te geven. In plaats van floating-point getallen (bijv. 32-bit of 16-bit) te gebruiken, gebruiken gekwantiseerde modellen integers (bijv. 8-bit of 4-bit) om deze waarden weer te geven. Deze vermindering in precisie leidt tot verschillende voordelen:

  • Verminderde geheugenvoetafdruk: Representaties met een lagere precisie vereisen minder geheugen om het model op te slaan, waardoor het mogelijk is om modellen te implementeren op apparaten met beperkte geheugenresources.
  • Snellere inferentie: Integer-bewerkingen zijn over het algemeen sneller dan floating-point bewerkingen, wat leidt tot snellere inferentietijden.
  • Lager stroomverbruik: Integer-bewerkingen verbruiken minder stroom dan floating-point bewerkingen, waardoor gekwantiseerde modellen geschikter zijn voor batterijgevoede apparaten.

De uitdagingen van kwantisatie:

Hoewel kwantisatie aanzienlijke voordelen biedt, introduceert het ook uitdagingen:

  • Nauwkeurigheidsverlies: Het verminderen van de precisie van gewichten en activeringen kan leiden tot een verlies van nauwkeurigheid. Het model kan minder in staat zijn om de nuances van de gegevens vast te leggen, wat resulteert in lagere prestaties.
  • Kalibratieproblemen: Het bereik van waarden dat kan worden weergegeven door integers is beperkt. Dit kan leiden tot clipping of verzadiging van activeringen, wat de nauwkeurigheid verder kan verminderen.

Quantization-Aware Training (QAT): Een oplossing:

Quantization-Aware Training (QAT) is een techniek die het probleem van nauwkeurigheidsverlies aanpakt door kwantisatie in het trainingsproces te integreren. In QAT wordt het model getraind met gesimuleerde kwantisatie, wat betekent dat de gewichten en activeringen worden gekwantiseerd tijdens de forward- en backward-passes van de training. Hierdoor kan het model leren om de effecten van kwantisatie te compenseren, wat resulteert in een nauwkeuriger gekwantiseerd model.

Hoe QAT werkt:

  1. Gesimuleerde kwantisatie: Tijdens de training worden de gewichten en activeringen gekwantiseerd tot de gewenste precisie (bijv. 8-bit of 4-bit) na elke forward- en backward-pass. Dit simuleert de kwantisatie die zal worden toegepast tijdens inferentie.

  2. Gradientaanpassing: De gradiënten worden ook aangepast om rekening te houden met de effecten van kwantisatie. Dit helpt het model om te leren hoe de fout veroorzaakt door kwantisatie te minimaliseren.

  3. Finetuning: Na de training met gesimuleerde kwantisatie wordt het model gefinetuned met de gekwantiseerde gewichten en activeringen. Dit verbetert de nauwkeurigheid van het gekwantiseerde model verder.

Voordelen van QAT:

  • Verbeterde nauwkeurigheid: QAT verbetert de nauwkeurigheid van gekwantiseerde modellen aanzienlijk in vergelijking met post-training kwantisatie (PTQ), die het model kwantiseert nadat het is getraind.
  • Robuustheid tegen kwantisatie: QAT maakt het model robuuster tegen de effecten van kwantisatie, waardoor het mogelijk is om hogere compressieverhoudingen te bereiken zonder aan nauwkeurigheid in te boeten.
  • Hardwarecompatibiliteit: QAT maakt het mogelijk om het model te implementeren op hardwareplatforms die integer-bewerkingen ondersteunen, zoals mobiele apparaten en embedded systemen.

Google’s implementatie van QAT voor Gemma 3:

Google’s implementatie van QAT voor Gemma 3 maakt gebruik van de nieuwste ontwikkelingen in kwantisatietechnieken om een hoge nauwkeurigheid en compressieverhoudingen te bereiken. De specifieke details van hun implementatie zijn niet publiek beschikbaar, maar het is waarschijnlijk dat ze technieken gebruiken zoals:

  • Mixed-Precision kwantisatie: Het gebruik van verschillende precisieniveaus voor verschillende delen van het model om de nauwkeurigheid en compressie te optimaliseren.
  • Per-Tensor kwantisatie: Het afzonderlijk kwantiseren van elke tensor om de fout veroorzaakt door kwantisatie te minimaliseren.
  • Leerbare kwantisatieparameters: Het leren van de kwantisatieparameters tijdens de training om de nauwkeurigheid verder te verbeteren.

De bredere implicaties van QAT en Gemma 3

De release van QAT-modellen voor Gemma 3 vertegenwoordigt een belangrijke stap voorwaarts in de ontwikkeling van meer toegankelijke en efficiënte AI-modellen. Door de geheugenvoetafdruk en computationele vereisten van deze modellen te verminderen, stelt Google een breder scala aan ontwikkelaars en gebruikers in staat om hun mogelijkheden te benutten. Dit heeft verschillende belangrijke implicaties:

Democratisering van AI:

De mogelijkheid om krachtige AI-modellen op consumentenhardware uit te voeren, democratiseert de toegang tot AI, waardoor individuen en kleine bedrijven AI-gestuurde applicaties kunnen ontwikkelen en implementeren zonder afhankelijk te zijn van dure cloudgebaseerde services.

Edge Computing:

QAT-modellen zijn zeer geschikt voor edge computing-toepassingen, waarbij gegevens lokaal op apparaten worden verwerkt in plaats van in de cloud. Dit vermindert de latentie, verbetert de privacy en maakt nieuwe toepassingen mogelijk, zoals autonome voertuigen en slimme sensoren.

Mobiele AI:

De verminderde geheugenvoetafdruk van QAT-modellen maakt ze ideaal voor mobiele apparaten, waardoor nieuwe AI-gestuurde functies mogelijk zijn, zoals realtime vertaling, beeldherkenning en gepersonaliseerde aanbevelingen.

Onderzoek en ontwikkeling:

De beschikbaarheid van open-source QAT-modellen voor Gemma 3 zal onderzoek en ontwikkeling op het gebied van AI versnellen, waardoor onderzoekers kunnen experimenteren met nieuwe kwantisatietechnieken en nieuwe toepassingen voor gekwantiseerde modellen kunnen verkennen.

Milieuduurzaamheid:

Door het energieverbruik van AI-modellen te verminderen, draagt QAT bij aan milieuduurzaamheid. Dit is vooral belangrijk naarmate AI steeds meer in ons leven voorkomt.

Concluderend is Google’s release van QAT-modellen voor Gemma 3 een belangrijke vooruitgang die een blijvende impact zal hebben op het gebied van AI. Door AI-modellen toegankelijker, efficiënter en duurzamer te maken, helpt Google het volledige potentieel van AI te ontsluiten ten behoeve van de samenleving. De combinatie van Gemma 3’s krachtige architectuur en QAT’s efficiënte kwantisatietechnieken belooft innovatie te stimuleren in een breed scala aan toepassingen, van mobiele apparaten tot edge computing en daarbuiten.