La quête de l’IA incarnée : un objectif ambitieux
Pendant des années, l’industrie de la robotique a poursuivi l’objectif insaisissable de l’ “IA incarnée” - créer une intelligence artificielle capable de contrôler de manière autonome des robots dans un large éventail de scénarios nouveaux et imprévisibles, tout en maintenant la sécurité et la précision. Cette ambition, activement poursuivie par des entreprises comme Nvidia, reste un “Saint Graal” avec le potentiel de transformer les robots en travailleurs polyvalents capables d’effectuer un large éventail de tâches dans le monde réel.
Gemini Robotics : s’appuyer sur les fondations du langage et de la vision
Les nouveaux modèles de Google exploitent la puissance du grand modèle de langage Gemini 2.0, étendant ses capacités pour englober les exigences spécifiques des applications robotiques. Gemini Robotics intègre ce que Google appelle des capacités “vision-langage-action” (VLA). Cela permet au modèle de traiter les entrées visuelles, d’interpréter les commandes en langage naturel et de traduire ces entrées en mouvements physiques précis. En revanche, Gemini Robotics-ER se concentre sur le “raisonnement incarné”, offrant une compréhension spatiale améliorée qui permet une intégration transparente avec les systèmes de contrôle de robot existants.
De la compréhension à l’action : une nouvelle ère de dextérité
Les implications pratiques de ces avancées sont profondes. Imaginez donner l’instruction à un robot équipé de Gemini Robotics de “ramasser la banane et de la mettre dans le panier”. Le robot, utilisant sa vision basée sur une caméra, identifierait la banane et guiderait habilement son bras robotique pour exécuter la tâche. Ou considérez la commande “plier un renard en origami”. Le robot, s’appuyant sur sa connaissance de l’origami et de l’art délicat du pliage du papier, effectuerait méticuleusement la tâche complexe.
En 2023, le modèle RT-2 de Google a marqué une avancée significative vers des capacités robotiques généralisées. En exploitant les données Internet, RT-2 a permis aux robots de comprendre les commandes linguistiques et de s’adapter à de nouvelles situations, doublant les performances sur des tâches invisibles par rapport à son prédécesseur. Deux ans plus tard, Gemini Robotics semble avoir fait un autre bond substantiel, allant au-delà de la simple compréhension pour englober l’exécution de manipulations physiques complexes qui étaient explicitement hors de portée de RT-2.
Alors que RT-2 était limité à la réutilisation de mouvements physiques pré-pratiqués, Gemini Robotics présente une amélioration remarquable de la dextérité. Cette nouvelle dextérité débloque des tâches auparavant inaccessibles, telles que l’art délicat du pliage d’origami et l’emballage précis de collations dans des sacs Zip-loc. Cette transition - des robots qui comprennent simplement les commandes aux robots capables d’exécuter des tâches physiques délicates - signifie que DeepMind pourrait être sur le point de résoudre l’un des défis les plus persistants de la robotique : permettre aux robots de traduire leurs “connaissances” en mouvements prudents et précis dans le monde réel.
La généralisation : la clé de l’adaptabilité au monde réel
DeepMind souligne que le nouveau système Gemini Robotics démontre une généralisation considérablement améliorée - la capacité d’effectuer de nouvelles tâches pour lesquelles il n’a pas été explicitement formé. Il s’agit d’une avancée cruciale. Selon l’annonce de l’entreprise, Gemini Robotics “fait plus que doubler les performances sur un benchmark de généralisation complet par rapport à d’autres modèles de vision-langage-action de pointe”.
La généralisation est primordiale car les robots capables de s’adapter à de nouveaux scénarios sans nécessiter de formation spécifique pour chaque situation détiennent la clé pour fonctionner efficacement dans des environnements réels imprévisibles. Cette adaptabilité est ce qui sépare un robot spécialisé et spécifique à une tâche d’une machine véritablement polyvalente et adaptable.
Un cerveau de robot généraliste : la vision ambitieuse de Google
Les efforts de Google sont clairement orientés vers la création d’un “cerveau de robot généraliste” - une IA polyvalente capable de contrôler un large éventail de plateformes robotiques. Conformément à cette vision, la société a annoncé un partenariat avec Apptronik, une entreprise de robotique de premier plan, pour “construire la prochaine génération de robots humanoïdes avec Gemini 2.0”.
Bien qu’il ait été principalement formé sur une plateforme robotique bi-manuelle connue sous le nom d’ALOHA 2, Google affirme que Gemini Robotics possède la polyvalence nécessaire pour contrôler divers types de robots. Cela inclut les bras robotiques Franka axés sur la recherche et les systèmes humanoïdes plus sophistiqués comme le robot Apollo d’Apptronik. Cette adaptabilité souligne le potentiel de Gemini Robotics à devenir un “cerveau” universel pour un large éventail d’applications robotiques.
Le paysage de la robotique humanoïde : convergence du matériel et du logiciel
La poursuite de la robotique humanoïde est une entreprise collaborative, avec de nombreuses entreprises contribuant à différents aspects du défi. Des entreprises comme Figure AI et Boston Dynamics (anciennement une filiale d’Alphabet) ont développé avec diligence du matériel de robotique humanoïde avancé. Cependant, un “pilote” d’IA vraiment efficace - le composant logiciel qui confère à ces robots intelligence et autonomie - est resté une pièce manquante essentielle.
Les efforts de Google dans ce domaine prennent de l’ampleur. La société a accordé un accès limité à Gemini Robotics-ER via un programme de “testeurs de confiance” à des entreprises de robotique de premier plan, notamment Boston Dynamics, Agility Robotics et Enchanted Tools. Cette approche collaborative suggère un effort concerté pour accélérer le développement et le déploiement de robots humanoïdes véritablement capables.
La sécurité d’abord : une approche multicouche de la robotique responsable
Reconnaissant l’importance primordiale de la sécurité en robotique, Google met l’accent sur une “approche multicouche et holistique” qui intègre les mesures de sécurité robotiques traditionnelles. Ces mesures comprennent l’évitement des collisions et les limitations de force, garantissant que les robots fonctionnent dans des paramètres sûrs.
De plus, l’entreprise décrit le développement d’un cadre de “Constitution du robot”. Ce cadre, inspiré des Trois Lois de la Robotique d’Isaac Asimov, fournit un ensemble de principes directeurs pour le développement et le déploiement éthiques et sûrs des robots. Conjointement à ce cadre, Google a publié un ensemble de données, judicieusement nommé “ASIMOV”, conçu pour aider les chercheurs à évaluer les implications en matière de sécurité des actions robotiques.
L’ensemble de données ASIMOV : normaliser l’évaluation de la sécurité
L’ensemble de données ASIMOV représente l’effort de Google pour établir des méthodes normalisées d’évaluation de la sécurité des robots, allant au-delà de la prévention des dommages physiques. L’ensemble de données est conçu pour aider les chercheurs à évaluer dans quelle mesure les modèles d’IA comprennent les conséquences potentielles des actions d’un robot dans divers scénarios. Selon l’annonce de Google, l’ensemble de données “aidera les chercheurs à mesurer rigoureusement les implications en matière de sécurité des actions robotiques dans des scénarios réels”. Cette initiative souligne l’engagement de Google en faveur d’une innovation responsable dans le domaine de la robotique.
L’avenir de la robotique : un aperçu des possibilités
Bien que Google n’ait pas encore annoncé de calendriers ou d’applications commerciales spécifiques pour les nouveaux modèles d’IA, qui restent actuellement en phase de recherche, les progrès démontrés sont indéniablement significatifs. Les vidéos de démonstration publiées par Google mettent en évidence des progrès remarquables dans les capacités pilotées par l’IA. Cependant, il est important de reconnaître que ces démonstrations ont été menées dans des environnements de recherche contrôlés. Le véritable test de ces systèmes résidera dans leur capacité à fonctionner de manière fiable et sûre dans les environnements imprévisibles et dynamiques du monde réel.
Le développement de Gemini Robotics et de Gemini Robotics-ER représente un moment charnière dans l’évolution de la robotique. Ces modèles ont le potentiel de débloquer une nouvelle ère de dextérité, d’adaptabilité et d’autonomie, ouvrant la voie à des robots pour s’intégrer de manière transparente dans nos vies et contribuer à un large éventail de tâches. Au fur et à mesure que la recherche progresse et que ces technologies mûrissent, nous pouvons anticiper un avenir où les robots joueront un rôle de plus en plus important dans nos foyers, nos lieux de travail et nos communautés. Le voyage vers une IA véritablement incarnée est en cours, mais les dernières avancées de Google offrent un aperçu fascinant des possibilités passionnantes qui nous attendent. La fusion d’un matériel sophistiqué et d’un logiciel de plus en plus intelligent est sur le point de transformer le paysage de la robotique, nous rapprochant d’un avenir où les robots ne sont pas seulement des outils, mais des partenaires polyvalents dans notre vie quotidienne.