Google’s Gemma 3n markeert een sprong voorwaarts voor generatieve AI. Dit model is compact, snel en vooral in staat om offline op telefoons te werken, waardoor geavanceerde AI-technologie naar onze dagelijkse apparaten wordt gebracht. Gemma 3n begrijpt audio, afbeeldingen en tekst, en blinkt uit in nauwkeurigheid, zelfs beter dan GPT-4.1 Nano in de Chatbot Arena.
De innovatieve architectuur van Gemma 3n
Om de toekomst van AI op apparaten te omarmen, werkte Google DeepMind samen met Qualcomm Technologies, MediaTek en Samsung System LSI om een nieuwe architectuur te ontwikkelen.
Deze architectuur is ontworpen om de prestaties van generatieve AI op apparaten met beperkte bronnen (zoals telefoons, tablets en laptops) te optimaliseren. Om dit te bereiken, maakt de architectuur gebruik van drie belangrijke innovaties: Per-Layer Embedding (PLE) Caching, de MatFormer-architectuur en Voorwaardelijk Parameter Laden.
PLE-caching: de beperking van het geheugen doorbreken
PLE-caching is een mechanisme waarmee het model per-layer embedding parameters kan lozen naar een snel extern geheugen, waardoor het geheugengebruik aanzienlijk wordt verminderd zonder dat dit ten koste gaat van de prestaties. Deze parameters worden gegenereerd buiten het operationele geheugen van het model en worden tijdens de uitvoering opgehaald, waardoor efficiënte werking mogelijk is, zelfs op apparaten met beperkte bronnen.
Stel je voor dat je een complex AI-model uitvoert, maar je apparaat heeft beperkt geheugen. PLE-caching is als een slimme bibliothecaris die minder gebruikte boeken (parameters) opslaat in een nabijgelegen magazijn (extern geheugen). Wanneer het model deze parameters nodig heeft, haalt de bibliothecaris ze snel op, waardoor het model soepel kan werken zonder kostbare geheugenruimte in beslag te nemen.
In het bijzonder optimaliseert PLE caching het geheugengebruik en de prestaties door:
Het verminderen van het geheugengebruik: Door minder gebruikte parameters op te slaan in extern geheugen, kan PLE caching de hoeveelheid geheugen verminderen die het model nodig heeft tijdens de runtime. Dit maakt het mogelijk om grote AI modellen uit te voeren op apparaten met beperkte bronnen.
Het verbeteren van de prestaties: Hoewel het ophalen van parameters uit extern geheugen wat tijd kost, minimaliseert PLE caching de latentie door op intelligente wijze te voorspellen welke parameters in de toekomst zullen worden gebruikt en deze vooraf in de cache te laden. Dit zorgt ervoor dat het model vrijwel in realtime kan werken.
Het ondersteunen van grotere modellen: Door de geheugenvereisten te verminderen, stelt PLE caching ons in staat om grotere, complexere AI-modellen te bouwen. Deze modellen hebben een grotere expressieve kracht en zijn in staat om complexere taken uit te voeren.
MatFormer-architectuur: Een ingenieus ontwerp als een Russische pop
De Matryoshka Transformer (MatFormer) architectuur introduceert een geneste Transformer ontwerp, waarbij kleinere submodellen zijn ingebed in grotere modellen, vergelijkbaar met Russische poppen. Deze structuur maakt het selectief activeren van submodellen mogelijk, waardoor het model zijn afmetingen en computervereisten dynamisch kan aanpassen op basis van de taak. Deze flexibiliteit vermindert de computerkosten, responstijden en het energieverbruik, waardoor het ideaal is voor edge- en cloudimplementaties.
De kern van de MatFormer architectuur is dat niet voor alle taken een volledig AI-model nodig is. Voor eenvoudige taken hoeft alleen het kleinere submodel te worden geactiveerd, waardoor computerbronnen worden bespaard. Voor complexe taken kan een groter submodel worden geactiveerd voor een betere nauwkeurigheid.
Laten we de voordelen van de MatFormer architectuur illustreren met een voorbeeld. Stel je voor dat je een AI-model gebruikt om objecten in afbeeldingen te identificeren. Voor een eenvoudige afbeelding, zoals een afbeelding die slechts één object bevat, kan een kleiner submodel worden geactiveerd, dat gespecialiseerd is in het identificeren van dat specifieke type object. Voor een complexe afbeelding, zoals een afbeelding die meerdere objecten bevat, kan een groter submodel worden geactiveerd, dat een verscheidenheid aan verschillende objecten kan identificeren.
De voordelen van de MatFormer architectuur zijn:
Het reduceren van de compute kosten: Door alleen de benodigde submodellen te activeren, kan de MatFormer architectuur de compute kosten aanzienlijk reduceren. Dit is cruciaal voor het uitvoeren van AI-modellen op apparaten met beperkte bronnen.
Het verkorten van de reactietijd: Omdat de MatFormer architectuur de modelgrootte dynamisch kan aanpassen op basis van de taak, kunnen de reactietijden worden verkort. Dit stelt AI-modellen in staat om sneller te reageren op gebruikersverzoeken.
Het verminderen van het energieverbruik: Door de compute kosten te reduceren, kan de MatFormer architectuur ook het energieverbruik reduceren. Dit is cruciaal voor het verlengen van de batterijduur.
Voorwaardelijk laden van parameters: Op aanvraag laden, middelen optimaliseren
Voorwaardelijk laden van parameters stelt ontwikkelaars in staat om het laden van ongebruikte parameters (zoals die voor audio- of visuele verwerking) in het geheugen over te slaan. Indien nodig kunnen deze parameters dynamisch tijdens runtime worden geladen, waardoor het geheugengebruik verder wordt geoptimaliseerd en het model zich kan aanpassen aan verschillende apparaten en taken.
Stel je voor dat je een AI model gebruikt om tekst te verwerken. Als je taak geen audio- of visuele verwerking vereist, zou het verspillen van middelen zijn om parameters te laden die audio of visuele verwerking aansturen. Met voorwaardelijk laden van parameters kan het model alleen de vereiste parameters laden, waardoor het geheugengebruik wordt gemaximaliseerd en de prestaties worden verbeterd.
Zo werkt conditioneel parameter laden:
- Het model analyseert de huidige taak om te bepalen welke parameters nodig zijn.
- Het model laadt alleen de vereiste parameters in het geheugen.
- Wanneer de taak is voltooid, geeft het model parameters vrij die niet langer nodig zijn.
De voordelen van voorwaardelijk parameter laden zijn:
Optimaliseert het geheugengebruik: Door alleen de benodigde parameters te laden, kan voorwaardelijk parameter laden het geheugengebruik aanzienlijk optimaliseren. Dit is cruciaal voor het uitvoeren van AI-modellen op apparaten met beperkte bronnen.
Verbetert de prestaties: Door het aantal geladen parameters te verminderen, kan conditioneel parameter laden de prestaties verbeteren. Dit stelt AI-modellen in staat om sneller te reageren op gebruikersverzoeken.
Ondersteunt een breder scala aan apparaten: Door het geheugengebruik te optimaliseren, stelt conditioneel parameter laden AI-modellen in staat om op een breder scala aan apparaten te werken, waaronder apparaten met beperkt geheugen.
De uitstekende eigenschappen van Gemma 3n
Gemma 3n introduceert een aantal innovatieve technologieën en functies die de mogelijkheden van AI op apparaten opnieuw definiëren.
Laten we dieper ingaan op de belangrijkste functies:
Geoptimaliseerde prestaties en efficiëntie op het apparaat: Gemma 3n is ongeveer 1,5 keer sneller dan zijn voorganger (Gemma 3 4B), terwijl de outputkwaliteit aanzienlijk hoger blijft. Dit betekent dat je sneller nauwkeurigere resultaten op je apparaat kunt krijgen zonder afhankelijk te zijn van een cloudverbinding.
PLE-caching: Het PLE-cache systeem stelt Gemma 3n in staat om parameters op te slaan in snel lokaal geheugen, waardoor het geheugengebruik wordt verminderd en de prestaties worden verbeterd.
MatFormer-architectuur: Gemma 3n maakt gebruik van de MatFormer-architectuur, die modelparameters selectief activeert op basis van specifieke verzoeken. Hierdoor kan het model zijn grootte en computationele vereisten dynamisch aanpassen, waardoor het gebruik van resources wordt geoptimaliseerd.
Voorwaardelijk laden van parameters: Om geheugenbronnen te besparen, kan Gemma 3n het laden van onnodige parameters overslaan, bijvoorbeeld door het laden van corresponderende parameters niet te laden wanneer visuele of audio-ondersteuning niet nodig is. Dit verbetert de efficiëntie verder en vermindert het stroomverbruik.
Prioriteit voor privacy en offline gereedheid: AI-functies lokaal uitvoeren zonder internetverbinding zorgt voor de privacy van gebruikers. Dit betekent dat je data je apparaat niet verlaat, en dat je zonder netwerkverbinding gebruik kunt maken van AI-functies.
Multimodale begrip: Gemma 3n biedt geavanceerde ondersteuning voor audio-, tekst-, afbeelding- en video-input, waardoor complexe realtime multimodale interacties mogelijk zijn. Dit stelt AI-modellen in staat om een verscheidenheid aan verschillende input te begrijpen en erop te reageren, wat resulteert in een meer natuurlijke en intuïtieve gebruikerservaring.
Audio functionaliteit: Het biedt automatische spraakherkenning (ASR) en spraak-naar-tekst vertaling, met transcripties van hoge kwaliteit en meertalige ondersteuning. Dit betekent dat je Gemma 3n kunt gebruiken om spraak om te zetten in tekst, en om spraak van de ene taal naar de andere te vertalen.
Verbeterde meertalige mogelijkheden: Het biedt aanzienlijk verbeterde prestaties in talen als Japans, Duits, Koreaans, Spaans en Frans. Dit stelt Gemma 3n in staat om tekst in verschillende talen nauwkeuriger te begrijpen en te genereren.
32K token context: Het kan grote hoeveelheden data verwerken in een enkel verzoek, waardoor langere gesprekken en complexere taken mogelijk zijn. Dit betekent dat je langere tekstinvoer aan Gemma 3n kunt geven zonder je zorgen te maken over het overschrijden van het contextvenster.
Snel aan de slag met Gemma 3n
Aan de slag gaan met Gemma 3n is eenvoudig, en ontwikkelaars kunnen deze krachtige models verkennen en integreren via twee primaire methoden.
1. Google AI Studio: Snel prototyping
Log in op Google AI Studio, ga naar de studio, selecteer het Gemma 3n E4B model en begin met het verkennen van de mogelijkheden van Gemma 3n. De studio is ideaal voor ontwikkelaars die snel ideeën willen prototypen en testen voordat ze een volledige implementatie uitvoeren.
Je kunt een API sleutel krijgen en het model integreren in je lokale AI-chatbot, met name via de Msty applicatie.
Daarnaast kun je de Google GenAI Python SDK gebruiken, waarmee je het model met slechts een paar regels code in je applicatie kunt integreren. Dit maakt het eenvoudig om Gemma 3n in je projecten te integreren.
2. Ontwikkeling op het apparaat met Google AI Edge: Lokale applicaties bouwen
Voor ontwikkelaars die Gemma 3n rechtstreeks in hun applicaties willen integreren, biedt Google AI Edge de tools en bibliotheken die nodig zijn voor ontwikkelen op het apparaat op Android- en Chrome-apparaten. Deze methode is ideaal voor het bouwen van applicaties die lokaal gebruik maken van de mogelijkheden van Gemma 3n.
Google AI Edge biedt een reeks tools en bibliotheken waarmee ontwikkelaars Gemma 3n gemakkelijk in hun applicaties kunnen integreren. Deze tools omvatten:
- TensorFlow Lite: Een lichtgewicht framework voor het uitvoeren van AI-modellen op mobiele apparaten.
- ML Kit: Een verzameling API’s voor het toevoegen van machine learning-functies aan mobiele applicaties.
- Android Neurale Netwerken API (NNAPI): Een API voor het gebruik van hardwareversnellers op apparaten om AI-modellen uit te voeren.
Door Google AI Edge te gebruiken, kunnen ontwikkelaars een verscheidenheid aan innovatieve applicaties bouwen, waaronder:
- Offline spraakherkenning: Hiermee kunnen gebruikers hun apparaten bedienen met spraakopdrachten zonder internetverbinding.
- Real-time beeldherkenning: Hiermee kunnen gebruikers objecten in afbeeldingen identificeren zonder de afbeelding naar de cloud te uploaden.
- Intelligente tekstgeneratie: Hiermee kunnen gebruikers verschillende soorten tekst genereren, zoals e-mails, artikelen en code.