Nowe AI Google: Roboty i Origami

W poszukiwaniu ucieleśnionej AI: Cel ambitny jak lot na Księżyc

Przez lata branża robotyki dążyła do nieuchwytnego celu, jakim jest ‘ucieleśniona AI’ – stworzenie sztucznej inteligencji zdolnej do autonomicznego sterowania robotami w szerokim zakresie nowatorskich i nieprzewidywalnych scenariuszy, przy jednoczesnym zachowaniu bezpieczeństwa i precyzji. Ta ambicja, aktywnie realizowana przez firmy takie jak Nvidia, pozostaje ‘Świętym Graalem’, który może przekształcić roboty we wszechstronnych pracowników, zdolnych do wykonywania szerokiego zakresu zadań w realnym świecie.

Gemini Robotics: Budowanie na fundamencie języka i wizji

Nowe modele Google wykorzystują moc dużego modelu językowego Gemini 2.0, rozszerzając jego możliwości, aby objąć specyficzne wymagania aplikacji robotycznych. Gemini Robotics zawiera to, co Google określa jako zdolności ‘wizja-język-akcja’ (VLA). Pozwala to modelowi przetwarzać dane wizualne, interpretować polecenia w języku naturalnym i przekładać te dane wejściowe na precyzyjne ruchy fizyczne. Z kolei Gemini Robotics-ER koncentruje się na ‘ucieleśnionym rozumowaniu’, oferując ulepszone rozumienie przestrzenne, które umożliwia bezproblemową integrację z istniejącymi systemami sterowania robotami.

Od zrozumienia do działania: Nowa era zręczności

Praktyczne implikacje tych postępów są ogromne. Wyobraź sobie, że instruujesz robota wyposażonego w Gemini Robotics, aby ‘podniósł banana i włożył go do koszyka’. Robot, wykorzystując swój system wizyjny oparty na kamerze, zidentyfikowałby banana i umiejętnie pokierował swoim ramieniem robota, aby wykonać zadanie. Albo rozważ polecenie ‘złóż lisa origami’. Robot, czerpiąc ze swojej wiedzy o origami i delikatnej sztuce składania papieru, skrupulatnie wykonałby to skomplikowane zadanie.

W 2023 roku model RT-2 firmy Google stanowił znaczący krok w kierunku uogólnionych możliwości robotycznych. Wykorzystując dane z Internetu, RT-2 umożliwił robotom rozumienie poleceń językowych i adaptację do nowych sytuacji, podwajając wydajność w niewidzianych wcześniej zadaniach w porównaniu do swojego poprzednika. Dwa lata później Gemini Robotics wydaje się dokonywać kolejnego znaczącego skoku, wykraczając poza samo rozumienie, aby objąć wykonywanie złożonych manipulacji fizycznych, które wyraźnie wykraczały poza zasięg RT-2.

Podczas gdy RT-2 był ograniczony do ponownego wykorzystywania wcześniej wyćwiczonych ruchów fizycznych, Gemini Robotics podobno wykazuje niezwykłą poprawę zręczności. Ta nowo odkryta zręczność odblokowuje wcześniej nieosiągalne zadania, takie jak delikatna sztuka składania origami i precyzyjne pakowanie przekąsek do torebek strunowych. To przejście – od robotów, które jedynie rozumieją polecenia, do robotów zdolnych do wykonywania delikatnych zadań fizycznych – oznacza, że DeepMind może być na progu rozwiązania jednego z najbardziej uporczywych wyzwań w robotyce: umożliwienia robotom przełożenia swojej ‘wiedzy’ na ostrożne, precyzyjne ruchy w realnym świecie.

Generalizacja: Klucz do adaptacji w realnym świecie

DeepMind podkreśla, że nowy system Gemini Robotics wykazuje znacznie ulepszoną generalizację – zdolność do wykonywania nowatorskich zadań, do których nie został wyraźnie przeszkolony. Jest to kluczowy postęp. Według ogłoszenia firmy, Gemini Robotics ‘ponad dwukrotnie zwiększa wydajność w kompleksowym teście porównawczym generalizacji w porównaniu z innymi najnowocześniejszymi modelami wizja-język-akcja’.

Generalizacja ma kluczowe znaczenie, ponieważ roboty zdolne do adaptacji do nowych scenariuszy bez konieczności specjalnego szkolenia dla każdej sytuacji są kluczem do efektywnego działania w nieprzewidywalnych środowiskach realnego świata. Ta zdolność adaptacji odróżnia wyspecjalizowanego, zadaniowo zorientowanego robota od prawdziwie wszechstronnej i adaptacyjnej maszyny.

Generalistyczny mózg robota: Ambitna wizja Google

Wysiłki Google są wyraźnie ukierunkowane na stworzenie ‘generalistycznego mózgu robota’ – wszechstronnej AI zdolnej do sterowania szeroką gamą platform robotycznych. Zgodnie z tą wizją firma ogłosiła partnerstwo z Apptronik, wiodącą firmą robotyczną, w celu ‘zbudowania następnej generacji robotów humanoidalnych z Gemini 2.0’.

Chociaż Gemini Robotics został przeszkolony głównie na dwuręcznej platformie robotycznej znanej jako ALOHA 2, Google twierdzi, że posiada wszechstronność pozwalającą na sterowanie różnymi typami robotów. Obejmuje to zorientowane na badania ramiona robotyczne Franka i bardziej zaawansowane systemy humanoidalne, takie jak robot Apollo firmy Apptronik. Ta zdolność adaptacji podkreśla potencjał Gemini Robotics do stania się uniwersalnym ‘mózgiem’ dla szerokiej gamy zastosowań robotycznych.

Krajobraz robotyki humanoidalnej: Sprzęt i oprogramowanie zbiegają się

Dążenie do robotyki humanoidalnej jest wspólnym przedsięwzięciem, w którym liczne firmy wnoszą wkład w różne aspekty tego wyzwania. Firmy takie jak Figure AI i Boston Dynamics (dawniej spółka zależna Alphabet) pilnie opracowują zaawansowany sprzęt do robotyki humanoidalnej. Jednak prawdziwie skuteczny ‘sterownik’ AI – komponent oprogramowania, który nadaje tym robotom inteligencję i autonomię – pozostawał kluczowym brakującym elementem.

Wysiłki Google w tym obszarze nabierają tempa. Firma przyznała ograniczony dostęp do Gemini Robotics-ER w ramach programu ‘zaufanych testerów’ wiodącym firmom robotycznym, w tym Boston Dynamics, Agility Robotics i Enchanted Tools. To oparte na współpracy podejście sugeruje wspólny wysiłek na rzecz przyspieszenia rozwoju i wdrażania prawdziwie zdolnych robotów humanoidalnych.

Bezpieczeństwo przede wszystkim: Warstwowe podejście do odpowiedzialnej robotyki

Uznając nadrzędne znaczenie bezpieczeństwa w robotyce, Google kładzie nacisk na ‘warstwowe, holistyczne podejście’, które obejmuje tradycyjne środki bezpieczeństwa robotów. Środki te obejmują unikanie kolizji i ograniczenia siły, zapewniając, że roboty działają w bezpiecznych parametrach.

Ponadto firma opisuje opracowanie ram ‘Robot Constitution’. Te ramy, inspirowane Trzema Prawami Robotyki Isaaca Asimova, zapewniają zestaw wytycznych dotyczących etycznego i bezpiecznego rozwoju i wdrażania robotów. W połączeniu z tymi ramami Google opublikowało zbiór danych, trafnie nazwany ‘ASIMOV’, zaprojektowany, aby pomóc naukowcom w ocenie implikacji bezpieczeństwa działań robotów.

Zbiór danych ASIMOV: Standaryzacja oceny bezpieczeństwa

Zbiór danych ASIMOV reprezentuje dążenie Google do ustanowienia standardowych metod oceny bezpieczeństwa robotów, wykraczających poza zapobieganie fizycznym szkodom. Zbiór danych ma pomóc naukowcom w ocenie, jak dobrze modele AI rozumieją potencjalne konsekwencje działań robota w różnych scenariuszach. Według ogłoszenia Google, zbiór danych ‘pomoże naukowcom w rygorystycznym pomiarze implikacji bezpieczeństwa działań robotów w realnych scenariuszach’. Ta inicjatywa podkreśla zaangażowanie Google w odpowiedzialne innowacje w dziedzinie robotyki.

Przyszłość robotyki: Spojrzenie w możliwości

Chociaż Google nie ogłosił jeszcze konkretnych harmonogramów ani komercyjnych zastosowań dla nowych modeli AI, które obecnie pozostają w fazie badań, wykazane postępy są niezaprzeczalnie znaczące. Filmy demonstracyjne opublikowane przez Google pokazują niezwykły postęp w możliwościach opartych na AI. Należy jednak przyznać, że te demonstracje zostały przeprowadzone w kontrolowanych środowiskach badawczych. Prawdziwym testem tych systemów będzie ich zdolność do niezawodnego i bezpiecznego działania w nieprzewidywalnych i dynamicznych warunkach realnego świata.

Rozwój Gemini Robotics i Gemini Robotics-ER stanowi kluczowy moment w ewolucji robotyki. Modele te mają potencjał, aby odblokować nową erę zręczności, adaptacji i autonomii, torując drogę robotom do bezproblemowej integracji z naszym życiem i przyczyniania się do szerokiego zakresu zadań. W miarę postępu badań i dojrzewania tych technologii możemy spodziewać się przyszłości, w której roboty będą odgrywać coraz bardziej znaczącą rolę w naszych domach, miejscach pracy i społecznościach. Podróż w kierunku prawdziwie ucieleśnionej AI trwa, ale najnowsze postępy Google oferują przekonujące spojrzenie na ekscytujące możliwości, które nas czekają. Połączenie zaawansowanego sprzętu i coraz bardziej inteligentnego oprogramowania ma szansę przekształcić krajobraz robotyki, przybliżając nas do przyszłości, w której roboty są nie tylko narzędziami, ale wszechstronnymi partnerami w naszym codziennym życiu.