Квест по воплощенному ИИ: цель Moonshot
В течение многих лет индустрия робототехники преследовала неуловимую цель ‘воплощенного ИИ’ – создания искусственного интеллекта, способного автономно управлять роботами в широком диапазоне новых и непредсказуемых сценариев, сохраняя при этом безопасность и точность. Это стремление, активно преследуемое такими компаниями, как Nvidia, остается ‘Святым Граалем’ с потенциалом превращения роботов в универсальных работников, способных выполнять широкий спектр задач в реальном мире.
Gemini Robotics: опираясь на основы языка и зрения
Новые модели Google используют мощь большой языковой модели Gemini 2.0, расширяя ее возможности для удовлетворения конкретных требований робототехнических приложений. Gemini Robotics включает в себя то, что Google называет способностями ‘зрение-язык-действие’ (VLA). Это позволяет модели обрабатывать визуальный ввод, интерпретировать команды на естественном языке и преобразовывать эти входные данные в точные физические движения. В отличие от этого, Gemini Robotics-ER фокусируется на ‘воплощенном рассуждении’, обладая улучшенным пространственным пониманием, которое обеспечивает плавную интеграцию с существующими системами управления роботами.
От понимания к действию: новая эра ловкости
Практические последствия этих достижений огромны. Представьте, что вы даете роботу, оснащенному Gemini Robotics, команду: ‘Подними банан и положи его в корзину’. Робот, используя свое зрение на основе камеры, идентифицирует банан и умело направит свою роботизированную руку для выполнения задачи. Или рассмотрим команду: ‘Сложи оригами-лису’. Робот, опираясь на свои знания об оригами и тонком искусстве складывания бумаги, будет скрупулезно выполнять сложную задачу.
В 2023 году модель RT-2 от Google ознаменовала значительный шаг вперед в направлении обобщенных возможностей роботов. Используя данные из Интернета, RT-2 позволила роботам понимать языковые команды и адаптироваться к новым ситуациям, удвоив производительность при выполнении невиданных ранее задач по сравнению со своим предшественником. Два года спустя Gemini Robotics, похоже, совершила еще один существенный скачок, выйдя за рамки простого понимания и охватив выполнение сложных физических манипуляций, которые явно выходили за рамки возможностей RT-2.
В то время как RT-2 была ограничена перепрофилированием предварительно отработанных физических движений, Gemini Robotics, как сообщается, демонстрирует замечательное повышение ловкости. Эта новообретенная ловкость открывает ранее недостижимые задачи, такие как тонкое искусство складывания оригами и точная упаковка закусок в пакеты Zip-loc. Этот переход – от роботов, которые просто понимают команды, к роботам, способным выполнять деликатные физические задачи, – означает, что DeepMind, возможно, находится на пороге решения одной из самых насущных проблем в робототехнике: предоставление роботам возможности преобразовывать свои ‘знания’ в осторожные, точные движения в реальном мире.
Обобщение: ключ к адаптации в реальном мире
DeepMind подчеркивает, что новая система Gemini Robotics демонстрирует значительно улучшенное обобщение – способность выполнять новые задачи, для которых она не была специально обучена. Это решающее достижение. Согласно заявлению компании, Gemini Robotics ‘более чем вдвое увеличивает производительность по комплексномутесту обобщения по сравнению с другими современными моделями зрения-языка-действия’.
Обобщение имеет первостепенное значение, потому что роботы, способные адаптироваться к новым сценариям без необходимости специального обучения для каждой ситуации, являются ключом к эффективной работе в непредсказуемых реальных условиях. Эта адаптивность – это то, что отличает специализированного робота, предназначенного для конкретной задачи, от действительно универсальной и адаптируемой машины.
Универсальный мозг робота: амбициозное видение Google
Усилия Google явно направлены на создание ‘универсального мозга робота’ – универсального ИИ, способного управлять широким спектром роботизированных платформ. В соответствии с этим видением компания объявила о партнерстве с Apptronik, ведущей робототехнической компанией, для ‘создания следующего поколения гуманоидных роботов с Gemini 2.0’.
Хотя Gemini Robotics в первую очередь обучалась на двуручной роботизированной платформе, известной как ALOHA 2, Google заявляет, что она обладает универсальностью для управления различными типами роботов. Сюда входят исследовательские роботизированные манипуляторы Franka и более сложные гуманоидные системы, такие как робот Apollo от Apptronik. Эта адаптивность подчеркивает потенциал Gemini Robotics стать универсальным ‘мозгом’ для широкого спектра роботизированных приложений.
Ландшафт гуманоидной робототехники: слияние аппаратного и программного обеспечения
Стремление к созданию гуманоидной робототехники – это совместная работа, в которой многочисленные компании вносят свой вклад в различные аспекты этой задачи. Такие компании, как Figure AI и Boston Dynamics (ранее дочерняя компания Alphabet), усердно разрабатывали передовое оборудование для гуманоидной робототехники. Однако действительно эффективный ‘драйвер’ ИИ – программный компонент, который наделяет этих роботов интеллектом и автономией, – оставался критически важной недостающей частью.
Усилия Google в этой области набирают обороты. Компания предоставила ограниченный доступ к Gemini Robotics-ER через программу ‘доверенных тестировщиков’ ведущим робототехническим компаниям, включая Boston Dynamics, Agility Robotics и Enchanted Tools. Этот совместный подход предполагает согласованные усилия по ускорению разработки и внедрения действительно способных гуманоидных роботов.
Безопасность прежде всего: многоуровневый подход к ответственной робототехнике
Признавая первостепенную важность безопасности в робототехнике, Google подчеркивает ‘многоуровневый, целостный подход’, который включает в себя традиционные меры безопасности роботов. Эти меры включают предотвращение столкновений и ограничение силы, гарантируя, что роботы работают в безопасных параметрах.
Кроме того, компания описывает разработку структуры ‘Конституции роботов’. Эта структура, вдохновленная Тремя законами робототехники Айзека Азимова, предоставляет набор руководящих принципов для этичной и безопасной разработки и развертывания роботов. В сочетании с этой структурой Google выпустила набор данных, метко названный ‘ASIMOV’, предназначенный для помощи исследователям в оценке последствий действий роботов для безопасности.
Набор данных ASIMOV: стандартизация оценки безопасности
Набор данных ASIMOV представляет собой попытку Google установить стандартизированные методы оценки безопасности роботов, выходящие за рамки предотвращения физического вреда. Набор данных предназначен для того, чтобы помочь исследователям оценить, насколько хорошо модели ИИ понимают потенциальные последствия действий робота в различных сценариях. Согласно заявлению Google, набор данных ‘поможет исследователям строго измерять последствия действий роботов для безопасности в реальных сценариях’. Эта инициатива подчеркивает приверженность Google ответственному внедрению инноваций в области робототехники.
Будущее робототехники: взгляд на возможности
Хотя Google еще не объявила конкретных сроков или коммерческих приложений для новых моделей ИИ, которые в настоящее время остаются на стадии исследований, продемонстрированные достижения, несомненно, значительны. Демонстрационные видеоролики, выпущенные Google, демонстрируют замечательный прогресс в возможностях, управляемых ИИ. Однако важно признать, что эти демонстрации проводились в контролируемых исследовательских условиях. Настоящее испытание этих систем будет заключаться в их способности надежно и безопасно работать в непредсказуемых и динамичных условиях реального мира.
Разработка Gemini Robotics и Gemini Robotics-ER представляет собой поворотный момент в эволюции робототехники. Эти модели обладают потенциалом открыть новую эру ловкости, адаптивности и автономии, прокладывая путь для роботов к плавной интеграции в нашу жизнь и участию в широком спектре задач. По мере продвижения исследований и развития этих технологий мы можем ожидать будущего, в котором роботы будут играть все более заметную роль в наших домах, на рабочих местах и в сообществах. Путь к действительно воплощенному ИИ продолжается, но последние достижения Google предлагают убедительный взгляд на захватывающие возможности, которые ждут впереди. Слияние сложного оборудования и все более интеллектуального программного обеспечения призвано изменить ландшафт робототехники, приближая нас к будущему, в котором роботы будут не просто инструментами, а универсальными партнерами в нашей повседневной жизни.