Нов робот ИИ на Google: сръчност

Търсенето на въплътен изкуствен интелект: Цел за достигане на Луната

Години наред индустрията на роботиката преследва неуловимата цел за „въплътен AI“ – създаване на изкуствен интелект, способен автономно да контролира роботи в широк спектър от нови и непредсказуеми сценарии, като същевременно поддържа безопасност и прецизност. Тази амбиция, активно преследвана от компании като Nvidia, остава „свещен граал“ с потенциала да трансформира роботите в универсални работници, способни да изпълняват огромен набор от задачи в реалния свят.

Gemini Robotics: Надграждане върху основата на езика и зрението

Новите модели на Google използват силата на големия езиков модел Gemini 2.0, разширявайки възможностите му, за да обхване специфичните изисквания на роботизираните приложения. Gemini Robotics включва това, което Google нарича „vision-language-action“ (VLA) способности. Това позволява на модела да обработва визуална информация, да интерпретира команди на естествен език и да превежда тези входове в прецизни физически движения. За разлика от тях, Gemini Robotics-ER се фокусира върху „въплътеното разсъждение“, като се гордее с подобрено пространствено разбиране, което позволява безпроблемна интеграция със съществуващите системи за управление на роботи.

От разбиране към действие: Нова ера на сръчност

Практическите последици от тези постижения са дълбоки. Представете си, че инструктирате робот, оборудван с Gemini Robotics, да „вземе банана и да го постави в кошницата“. Роботът, използвайки своето зрение, базирано на камера, ще идентифицира банана и умело ще насочи роботизираната си ръка, за да изпълни задачата. Или помислете за командата „сгънете оригами лисица“. Роботът, черпейки от знанията си за оригами и деликатното изкуство на сгъване на хартия, щателно ще изпълни сложната задача.

През 2023 г. моделът RT-2 на Google отбеляза значителен напредък към обобщени роботизирани възможности. Чрез използване на интернет данни, RT-2 даде възможност на роботите да разбират езикови команди и да се адаптират към нови ситуации, удвоявайки производителността при невиждани задачи в сравнение с предшественика си. Две години по-късно изглежда, че Gemini Robotics е направил още един съществен скок, преминавайки отвъд обикновеното разбиране, за да обхване изпълнението на сложни физически манипулации, които изрично бяха извън обсега на RT-2.

Докато RT-2 беше ограничен до пренасочване на предварително практикувани физически движения, Gemini Robotics според сведенията показва забележително подобрение в сръчността. Тази новооткрита сръчност отключва недостижими преди това задачи, като деликатното изкуство на сгъване на оригами и прецизното опаковане на закуски в торбички Zip-loc. Този преход – от роботи, които просто разбират команди, към роботи, способни да изпълняват деликатни физически задачи – означава, че DeepMind може да е на прага на разрешаването на едно от най-упоритите предизвикателства в роботиката: позволяване на роботите да превеждат своите „знания“ в внимателни, прецизни движения в реалния свят.

Обобщение: Ключът към адаптивността в реалния свят

DeepMind подчертава, че новата система Gemini Robotics демонстрира значително подобрено обобщение – способността да изпълнява нови задачи, за които не е изрично обучена. Това е решаващ напредък. Според съобщението на компанията, Gemini Robotics „повече от удвоява производителността на изчерпателен бенчмарк за обобщение в сравнение с други най-съвременни модели vision-language-action“.

Обобщението е от първостепенно значение, тъй като роботите, способни да се адаптират към нови сценарии, без да изискват специфично обучение за всяка ситуация, държат ключа към ефективното функциониране в непредсказуеми среди от реалния свят. Тази адаптивност е това, което отличава специализирания робот за конкретна задача от една наистина универсална и адаптивна машина.

Универсален роботски мозък: Амбициозната визия на Google

Усилията на Google са ясно насочени към създаването на „универсален роботски мозък“ – универсален AI, способен да контролира широк спектър от роботизирани платформи. В съответствие с тази визия, компанията обяви партньорство с Apptronik, водеща компания за роботика, за да „изгради следващото поколение хуманоидни роботи с Gemini 2.0“.

Въпреки че е обучен предимно на двуръчна роботизирана платформа, известна като ALOHA 2, Google заявява, че Gemini Robotics притежава гъвкавостта да контролира различни типове роботи. Това включва изследователски ориентирани роботизирани ръце Franka и по-сложни хуманоидни системи като робота Apollo на Apptronik. Тази адаптивност подчертава потенциала на Gemini Robotics да се превърне в универсален „мозък“ за широк спектър от роботизирани приложения.

Пейзажът на хуманоидната роботика: Сближаване на хардуер и софтуер

Стремежът към хуманоидна роботика е съвместно усилие, като многобройни компании допринасят за различни аспекти на предизвикателството. Компании като Figure AI и Boston Dynamics (по-рано дъщерно дружество на Alphabet) усърдно разработват усъвършенстван хуманоиден роботизиран хардуер. Въпреки това, един наистина ефективен AI „драйвер“ – софтуерният компонент, който придава на тези роботи интелигентност и автономност – остава критично липсващо парче.

Усилията на Google в тази област набират скорост. Компанията предостави ограничен достъп до Gemini Robotics-ER чрез програма за „доверен тестер“ на водещи компании за роботика, включително Boston Dynamics, Agility Robotics и Enchanted Tools. Този съвместен подход предполага съгласувани усилия за ускоряване на разработването и внедряването на наистина способни хуманоидни роботи.

Безопасността на първо място: Многопластов подход към отговорната роботика

Признавайки първостепенното значение на безопасността в роботиката, Google набляга на „многопластов, холистичен подход“, който включва традиционни мерки за безопасност на роботите. Тези мерки включват избягване на сблъсък и ограничения на силата, като се гарантира, че роботите работят в рамките на безопасни параметри.

Освен това компанията описва разработването на рамка „Robot Constitution“. Тази рамка, вдъхновена от Трите закона на роботиката на Айзък Азимов, предоставя набор от ръководни принципи за етичното и безопасно разработване и внедряване на роботи. Във връзка с тази рамка, Google пусна набор от данни, подходящо наречен „ASIMOV“, предназначен да помогне на изследователите да оценят последиците за безопасността на действията на роботите.

Наборът от данни ASIMOV: Стандартизиране на оценката на безопасността

Наборът от данни ASIMOV представлява стремежа на Google да установи стандартизирани методи за оценка на безопасността на роботите, простиращи се отвъд предотвратяването на физическа вреда. Наборът от данни е предназначен да помогне на изследователите да оценят колко добре AI моделите разбират потенциалните последици от действията на робота в различни сценарии. Според съобщението на Google, наборът от данни ще „помогне на изследователите да измерват стриктно последиците за безопасността на роботизираните действия в сценарии от реалния свят“. Тази инициатива подчертава ангажимента на Google към отговорни иновации в областта на роботиката.

Бъдещето на роботиката: Поглед към възможностите

Въпреки че Google все още не е обявил конкретни срокове или търговски приложения за новите AI модели, които понастоящем остават във фаза на изследване, демонстрираните постижения са безспорно значителни. Демонстрационните видеоклипове, пуснати от Google, показват забележителен напредък в способностите, управлявани от AI. Важно е обаче да се признае, че тези демонстрации са проведени в контролирана изследователска среда. Истинският тест на тези системи ще се състои в способността им да работят надеждно и безопасно в непредсказуемите и динамични условия на реалния свят.

Разработването на Gemini Robotics и Gemini Robotics-ER представлява ключов момент в еволюцията на роботиката. Тези модели имат потенциала да отключат нова ера на сръчност, адаптивност и автономност, проправяйки пътя на роботите да се интегрират безпроблемно в живота ни и да допринасят за широк спектър от задачи. С напредването на изследванията и узряването на тези технологии можем да очакваме бъдеще, в което роботите играят все по-важна роля в нашите домове, работни места и общности. Пътуването към наистина въплътен AI продължава, но най-новите постижения на Google предлагат завладяващ поглед към вълнуващите възможности, които предстоят. Сливането на сложен хардуер и все по-интелигентен софтуер е готово да трансформира пейзажа на роботиката, доближавайки ни до бъдеще, в което роботите са не просто инструменти, а универсални партньори в ежедневието ни.