IA de Google: Robots Más Hábiles

La Búsqueda de la IA Encarnada: Un Objetivo Ambicioso

Durante años, la industria de la robótica ha perseguido el escurridizo objetivo de la “IA encarnada” (embodied AI): crear inteligencia artificial capaz de controlar autónomamente robots a través de una amplia gama de escenarios novedosos e impredecibles, manteniendo la seguridad y la precisión. Esta ambición, perseguida activamente por empresas como Nvidia, sigue siendo un “santo grial” con el potencial de transformar a los robots en trabajadores versátiles capaces de realizar una gran variedad de tareas en el mundo real.

Gemini Robotics: Construyendo sobre una Base de Lenguaje y Visión

Los nuevos modelos de Google aprovechan el poder del modelo de lenguaje grande Gemini 2.0, extendiendo sus capacidades para abarcar las demandas específicas de las aplicaciones robóticas. Gemini Robotics incorpora lo que Google denomina capacidades de “visión-lenguaje-acción” (VLA). Esto permite que el modelo procese la entrada visual, interprete comandos en lenguaje natural y traduzca estas entradas en movimientos físicos precisos. Por el contrario, Gemini Robotics-ER se centra en el “razonamiento encarnado”, con una comprensión espacial mejorada que permite una integración perfecta con los sistemas de control de robots existentes.

De la Comprensión a la Acción: Una Nueva Era de Destreza

Las implicaciones prácticas de estos avances son profundas. Imagine instruir a un robot equipado con Gemini Robotics para que “recoja el plátano y lo ponga en la cesta”. El robot, utilizando su visión basada en cámara, identificaría el plátano y guiaría hábilmente su brazo robótico para ejecutar la tarea. O considere el comando, “doblar un zorro de origami”. El robot, basándose en su conocimiento del origami y el delicado arte de doblar papel, realizaría meticulosamente la intrincada tarea.

En 2023, el modelo RT-2 de Google marcó un avance significativo hacia las capacidades robóticas generalizadas. Al aprovechar los datos de Internet, RT-2 permitió a los robots comprender comandos de lenguaje y adaptarse a nuevas situaciones, duplicando el rendimiento en tareas no vistas en comparación con su predecesor. Dos años después, Gemini Robotics parece haber dado otro salto sustancial, yendo más allá de la mera comprensión para abarcar la ejecución de manipulaciones físicas complejas que estaban explícitamente fuera del alcance de RT-2.

Mientras que RT-2 se limitaba a reutilizar movimientos físicos previamente practicados, Gemini Robotics, según se informa, exhibe una mejora notable en la destreza. Esta nueva destreza desbloquea tareas previamente inalcanzables, como el delicado arte del plegado de origami y el empaquetado preciso de refrigerios en bolsas Zip-loc. Esta transición, de robots que simplemente entienden comandos a robots capaces de ejecutar tareas físicas delicadas, significa que DeepMind puede estar a punto de resolver uno de los desafíos más persistentes en robótica: permitir que los robots traduzcan su “conocimiento” en movimientos cuidadosos y precisos en el mundo real.

Generalización: La Clave para la Adaptabilidad en el Mundo Real

DeepMind enfatiza que el nuevo sistema Gemini Robotics demuestra una generalización significativamente mejorada: la capacidad de realizar tareas novedosas para las que no fue entrenado explícitamente. Este es un avance crucial. Según el anuncio de la compañía, Gemini Robotics “más que duplica el rendimiento en un punto de referencia de generalización integral en comparación con otros modelos de visión-lenguaje-acción de última generación”.

La generalización es primordial porque los robots capaces de adaptarse a nuevos escenarios sin requerir entrenamiento específico para cada situación son la clave para operar eficazmente en entornos impredecibles del mundo real. Esta adaptabilidad es lo que separa a un robot especializado y específico para una tarea de una máquina verdaderamente versátil y adaptable.

Un Cerebro Robótico Generalista: La Ambiciosa Visión de Google

Los esfuerzos de Google están claramente dirigidos a crear un “cerebro robótico generalista”, una IA versátil capaz de controlar una amplia gama de plataformas robóticas. En línea con esta visión, la compañía ha anunciado una asociación con Apptronik, una empresa de robótica líder, para “construir la próxima generación de robots humanoides con Gemini 2.0”.

Aunque se entrenó principalmente en una plataforma de robot bimanual conocida como ALOHA 2, Google afirma que Gemini Robotics posee la versatilidad para controlar diversos tipos de robots. Esto incluye brazos robóticos Franka orientados a la investigación y sistemas humanoides más sofisticados como el robot Apollo de Apptronik. Esta adaptabilidad subraya el potencial de Gemini Robotics para convertirse en un “cerebro” universal para una amplia gama de aplicaciones robóticas.

El Panorama de la Robótica Humanoide: Convergencia de Hardware y Software

La búsqueda de la robótica humanoide es un esfuerzo colaborativo, con numerosas empresas contribuyendo a diferentes aspectos del desafío. Empresas como Figure AI y Boston Dynamics (anteriormente una subsidiaria de Alphabet) han estado desarrollando diligentemente hardware avanzado de robótica humanoide. Sin embargo, un “controlador” de IA verdaderamente efectivo, el componente de software que dota a estos robots de inteligencia y autonomía, ha seguido siendo una pieza faltante crítica.

Los esfuerzos de Google en esta área están ganando impulso. La compañía ha otorgado acceso limitado a Gemini Robotics-ER a través de un programa de “probadores de confianza” a empresas de robótica líderes, incluidas Boston Dynamics, Agility Robotics y Enchanted Tools. Este enfoque colaborativo sugiere un esfuerzo concertado para acelerar el desarrollo y la implementación de robots humanoides verdaderamente capaces.

La Seguridad Primero: Un Enfoque por Capas para la Robótica Responsable

Reconociendo la importancia primordial de la seguridad en la robótica, Google enfatiza un “enfoque por capas y holístico” que incorpora medidas de seguridad robóticas tradicionales. Estas medidas incluyen la prevención de colisiones y limitaciones de fuerza, asegurando que los robots operen dentro de parámetros seguros.

Además, la compañía describe el desarrollo de un marco de “Constitución del Robot”. Este marco, inspirado en las Tres Leyes de la Robótica de Isaac Asimov, proporciona un conjunto de principios rectores para el desarrollo y la implementación éticos y seguros de robots. Junto con este marco, Google ha lanzado un conjunto de datos, acertadamente llamado “ASIMOV”, diseñado para ayudar a los investigadores a evaluar las implicaciones de seguridad de las acciones robóticas.

El Conjunto de Datos ASIMOV: Estandarizando la Evaluación de la Seguridad

El conjunto de datos ASIMOV representa el esfuerzo de Google por establecer métodos estandarizados para evaluar la seguridad de los robots, extendiéndose más allá de la prevención del daño físico. El conjunto de datos está diseñado para ayudar a los investigadores a evaluar qué tan bien los modelos de IA comprenden las posibles consecuencias de las acciones de un robot en varios escenarios. Según el anuncio de Google, el conjunto de datos “ayudará a los investigadores a medir rigurosamente las implicaciones de seguridad de las acciones robóticas en escenarios del mundo real”. Esta iniciativa subraya el compromiso de Google con la innovación responsable en el campo de la robótica.

El Futuro de la Robótica: Una Mirada a las Posibilidades

Si bien Google aún no ha anunciado plazos específicos o aplicaciones comerciales para los nuevos modelos de IA, que actualmente permanecen en una fase de investigación, los avances demostrados son innegablemente significativos. Los videos de demostración publicados por Google muestran un progreso notable en las capacidades impulsadas por la IA. Sin embargo, es importante reconocer que estas demostraciones se han llevado a cabo en entornos de investigación controlados. La verdadera prueba de estos sistemas radicará en su capacidad para funcionar de manera confiable y segura en los entornos impredecibles y dinámicos del mundo real.

El desarrollo de Gemini Robotics y Gemini Robotics-ER representa un momento crucial en la evolución de la robótica. Estos modelos tienen el potencial de desbloquear una nueva era de destreza, adaptabilidad y autonomía, allanando el camino para que los robots se integren perfectamente en nuestras vidas y contribuyan a una amplia gama de tareas. A medida que la investigación avanza y estas tecnologías maduran, podemos anticipar un futuro en el que los robots desempeñen un papel cada vez más prominente en nuestros hogares, lugares de trabajo y comunidades. El viaje hacia la IA verdaderamente encarnada está en curso, pero los últimos avances de Google ofrecen una visión convincente de las emocionantes posibilidades que se avecinan. La fusión de hardware sofisticado y software cada vez más inteligente está a punto de transformar el panorama de la robótica, acercándonos a un futuro en el que los robots no son solo herramientas, sino socios versátiles en nuestra vida diaria.