De zoektocht naar Embodied AI: Een Moonshot-doel
Jarenlang heeft de robotica-industrie het ongrijpbare doel van ‘embodied AI’ nagestreefd - het creëren van kunstmatige intelligentie die in staat is om autonoom robots te besturen in een breed scala van nieuwe en onvoorspelbare scenario’s, en dat alles met behoud van veiligheid en precisie. Deze ambitie, actief nagestreefd door bedrijven als Nvidia, blijft een ‘heilige graal’ met het potentieel om robots te transformeren in veelzijdige arbeiders die in staat zijn om een breed scala aan taken in de echte wereld uit te voeren.
Gemini Robotics: Voortbouwen op een fundament van taal en visie
Google’s nieuwe modellen maken gebruik van de kracht van het Gemini 2.0 large language model, en breiden de mogelijkheden ervan uit om te voldoen aan de specifieke eisen van robottoepassingen. Gemini Robotics omvat wat Google ‘vision-language-action’ (VLA) mogelijkheden noemt. Hierdoor kan het model visuele input verwerken, natuurlijke taalopdrachten interpreteren en deze inputs vertalen in precieze fysieke bewegingen. Gemini Robotics-ER daarentegen richt zich op ‘embodied reasoning’, met een verbeterd ruimtelijk inzicht dat naadloze integratie met bestaande robotbesturingssystemen mogelijk maakt.
Van begrip naar actie: Een nieuw tijdperk van behendigheid
De praktische implicaties van deze ontwikkelingen zijn enorm. Stel je voor dat je een robot met Gemini Robotics de opdracht geeft om ‘de banaan op te pakken en in de mand te leggen’. De robot, die gebruik maakt van zijn camera-gebaseerde visie, zou de banaan identificeren en zijn robotarm vakkundig aansturen om de taak uit te voeren. Of denk aan het commando ‘vouw een origami vos’. De robot, die put uit zijn kennis van origami en de delicate kunst van het papiervouwen, zou de ingewikkelde taak nauwgezet uitvoeren.
In 2023 markeerde Google’s RT-2-model een belangrijke stap in de richting van gegeneraliseerde robotcapaciteiten. Door gebruik te maken van internetgegevens, stelde RT-2 robots in staat om taalopdrachten te begrijpen en zich aan te passen aan nieuwe situaties, waardoor de prestaties op ongeziene taken verdubbelden in vergelijking met zijn voorganger. Twee jaar later lijkt Gemini Robotics een nieuwe substantiële sprong te hebben gemaakt, waarbij het verder gaat dan louter begrip en ook de uitvoering van complexe fysieke manipulaties omvat die expliciet buiten het bereik van RT-2 lagen.
Terwijl RT-2 beperkt was tot het hergebruiken van vooraf geoefende fysieke bewegingen, vertoont Gemini Robotics naar verluidt een opmerkelijke verbetering in behendigheid. Deze nieuwe behendigheid ontsluit voorheen onbereikbare taken, zoals de delicate kunst van het origami vouwen en het nauwkeurig verpakken van snacks in Zip-loc zakken. Deze overgang - van robots die alleen commando’s begrijpen naar robots die in staat zijn om delicate fysieke taken uit te voeren - geeft aan dat DeepMind mogelijk op het punt staat een van de meest hardnekkige uitdagingen in de robotica op te lossen: robots in staat stellen hun ‘kennis’ te vertalen in zorgvuldige, precieze bewegingen in de echte wereld.
Generalisatie: De sleutel tot aanpassingsvermogen in de echte wereld
DeepMind benadrukt dat het nieuwe Gemini Robotics-systeem een aanzienlijk verbeterde generalisatie laat zien - het vermogen om nieuwe taken uit te voeren waarvoor het niet expliciet is getraind. Dit is een cruciale vooruitgang. Volgens de aankondiging van het bedrijf ‘verdubbelt Gemini Robotics de prestaties op een uitgebreide generalisatiebenchmark in vergelijking met andere state-of-the-art vision-language-action modellen’.
Generalisatie is van het grootste belang omdat robots die zich kunnen aanpassen aan nieuwe scenario’s zonder dat ze voor elke situatie specifiek getraind hoeven te worden, de sleutel zijn tot effectief functioneren in onvoorspelbare omgevingen in de echte wereld. Dit aanpassingsvermogen is wat een gespecialiseerde, taakspecifieke robot onderscheidt van een echt veelzijdige en aanpasbare machine.
Een generalistisch robotbrein: Google’s ambitieuze visie
Google’s inspanningen zijn duidelijk gericht op het creëren van een ‘generalistisch robotbrein’ - een veelzijdige AI die in staat is om een breed scala aan robotplatforms aan te sturen. In lijn met deze visie heeft het bedrijf een partnerschap aangekondigd met Apptronik, een toonaangevend roboticabedrijf, om ‘de volgende generatie humanoïde robots te bouwen met Gemini 2.0’.
Hoewel Gemini Robotics voornamelijk is getraind op een tweearmig robotplatform dat bekend staat als ALOHA 2, stelt Google dat het de veelzijdigheid bezit om diverse robottypen aan te sturen. Dit omvat onderzoeksgerichte Franka robotarmen en meer geavanceerde humanoïde systemen zoals Apptronik’s Apollo robot. Dit aanpassingsvermogen onderstreept het potentieel van Gemini Robotics om een universeel ‘brein’ te worden voor een breed scala aan robottoepassingen.
Het landschap van humanoïde robotica: Hardware en software komen samen
Het streven naar humanoïde robotica is een gezamenlijke inspanning, waarbij tal van bedrijven bijdragen aan verschillende aspecten van de uitdaging. Bedrijven als Figure AI en Boston Dynamics (voorheen een dochteronderneming van Alphabet) hebben hard gewerkt aan de ontwikkeling van geavanceerde humanoïde robotica-hardware. Een echt effectieve AI ‘driver’ - de softwarecomponent die deze robots intelligentie en autonomie geeft - is echter een cruciaal ontbrekend stuk gebleven.
Google’s inspanningen op dit gebied winnen aan momentum. Het bedrijf heeft beperkte toegang tot Gemini Robotics-ER verleend via een ‘trusted tester’-programma aan toonaangevende roboticabedrijven, waaronder Boston Dynamics, Agility Robotics en Enchanted Tools. Deze gezamenlijke aanpak suggereert een gezamenlijke inspanning om de ontwikkeling en inzet van echt capabele humanoïde robots te versnellen.
Veiligheid voorop: Een gelaagde aanpak voor verantwoorde robotica
Google erkent het cruciale belang van veiligheid in de robotica en benadrukt een ‘gelaagde, holistische aanpak’ die traditionele robotveiligheidsmaatregelen omvat. Deze maatregelen omvatten botsingsvermijding en krachtbeperkingen, zodat robots binnen veilige parameters werken.
Bovendien beschrijft het bedrijf de ontwikkeling van een ‘Robot Constitution’-framework. Dit framework, geïnspireerd op Isaac Asimov’s Three Laws of Robotics, biedt een reeks leidende principes voor de ethische en veilige ontwikkeling en inzet van robots. In combinatie met dit framework heeft Google een dataset uitgebracht, toepasselijk genaamd ‘ASIMOV’, ontworpen om onderzoekers te helpen bij het evalueren van de veiligheidsimplicaties van robotacties.
De ASIMOV-dataset: Standaardisatie van veiligheidsbeoordeling
De ASIMOV-dataset vertegenwoordigt Google’s streven naar het vaststellen van gestandaardiseerde methoden voor het beoordelen van robotveiligheid, die verder gaan dan het voorkomen van fysieke schade. De dataset is ontworpen om onderzoekers te helpen evalueren hoe goed AI-modellen de potentiële gevolgen van de acties van een robot in verschillende scenario’s begrijpen. Volgens de aankondiging van Google zal de dataset ‘onderzoekers helpen om de veiligheidsimplicaties van robotacties in real-world scenario’s rigoureus te meten’. Dit initiatief onderstreept Google’s toewijding aan verantwoorde innovatie op het gebied van robotica.
De toekomst van robotica: Een blik op de mogelijkheden
Hoewel Google nog geen specifieke tijdlijnen of commerciële toepassingen voor de nieuwe AI-modellen heeft aangekondigd, die zich momenteel nog in een onderzoeksfase bevinden, zijn de getoonde vorderingen onmiskenbaar significant. De demovideo’s die door Google zijn vrijgegeven, laten opmerkelijke vooruitgang zien in AI-gestuurde mogelijkheden. Het is echter belangrijk te erkennen dat deze demonstraties zijn uitgevoerd in gecontroleerde onderzoeksomgevingen. De echte test van deze systemen zal liggen in hun vermogen om betrouwbaar en veilig te presteren in de onvoorspelbare en dynamische omgevingen van de echte wereld.
De ontwikkeling van Gemini Robotics en Gemini Robotics-ER vertegenwoordigt een cruciaal moment in de evolutie van robotica. Deze modellen hebben het potentieel om een nieuw tijdperk van behendigheid, aanpassingsvermogen en autonomie te ontgrendelen, en de weg vrij te maken voor robots om naadloos te integreren in ons leven en bij te dragen aan een breed scala aan taken. Naarmate het onderzoek vordert en deze technologieën volwassener worden, kunnen we anticiperen op een toekomst waarin robots een steeds prominentere rol spelen in onze huizen, werkplekken en gemeenschappen. De reis naar echt embodied AI is nog gaande, maar Google’s nieuwste ontwikkelingen bieden een boeiende blik op de opwindende mogelijkheden die in het verschiet liggen. De fusie van geavanceerde hardware en steeds intelligentere software staat op het punt het roboticalandschap te transformeren, en brengt ons dichter bij een toekomst waarin robots niet alleen gereedschappen zijn, maar veelzijdige partners in ons dagelijks leven.