AI Robot mới của Google: Gấp giấy, kéo khóa

Nhiệm vụ tìm kiếm AI hiện thân: Mục tiêu Moonshot

Trong nhiều năm, ngành công nghiệp robot đã theo đuổi mục tiêu khó nắm bắt là ‘AI hiện thân’ – tạo ra trí tuệ nhân tạo có khả năng tự động điều khiển robot thông qua một loạt các tình huống mới lạ và không thể đoán trước, đồng thời duy trì sự an toàn và chính xác. Tham vọng này, được các công ty như Nvidia tích cực theo đuổi, vẫn là một ‘chén thánh’ với tiềm năng biến robot thành những người lao động đa năng có khả năng thực hiện một loạt các nhiệm vụ trong thế giới thực.

Gemini Robotics: Xây dựng trên nền tảng ngôn ngữ và thị giác

Các mô hình mới của Google tận dụng sức mạnh của mô hình ngôn ngữ lớn Gemini 2.0, mở rộng khả năng của nó để bao gồm các yêu cầu cụ thể của các ứng dụng robot. Gemini Robotics kết hợp những gì Google gọi là khả năng ‘thị giác-ngôn ngữ-hành động’ (VLA). Điều này cho phép mô hình xử lý đầu vào trực quan, diễn giải các lệnh ngôn ngữ tự nhiên và chuyển các đầu vào này thành các chuyển động vật lý chính xác. Ngược lại, Gemini Robotics-ER tập trung vào ‘lý luận hiện thân’, tự hào với khả năng hiểu không gian nâng cao cho phép tích hợp liền mạch với các hệ thống điều khiển robot hiện có.

Từ Hiểu biết đến Hành động: Kỷ nguyên mới của sự khéo léo

Ý nghĩa thực tế của những tiến bộ này là rất sâu sắc. Hãy tưởng tượng bạn hướng dẫn một robot được trang bị Gemini Robotics ‘nhặt quả chuối và đặt nó vào giỏ’. Robot, sử dụng tầm nhìn dựa trên camera, sẽ xác định quả chuối và khéo léo hướng dẫn cánh tay robot của nó thực hiện nhiệm vụ. Hoặc xem xét lệnh, ‘gấp một con cáo origami’. Robot, dựa trên kiến thức về origami và nghệ thuật gấp giấy tinh tế, sẽ thực hiện tỉ mỉ nhiệm vụ phức tạp.

Vào năm 2023, mô hình RT-2 của Google đã đánh dấu một bước tiến đáng kể hướng tới khả năng robot tổng quát. Bằng cách tận dụng dữ liệu Internet, RT-2 đã trao quyền cho robot hiểu các lệnh ngôn ngữ và thích ứng với các tình huống mới, tăng gấp đôi hiệu suất đối với các tác vụ chưa từng thấy so với phiên bản tiền nhiệm. Hai năm sau, Gemini Robotics dường như đã có một bước nhảy vọt đáng kể khác, vượt ra ngoài sự hiểu biết đơn thuần để bao gồm việc thực hiện các thao tác vật lý phức tạp mà RT-2 rõ ràng không thể đạt được.

Trong khi RT-2 bị giới hạn trong việc sử dụng lại các chuyển động vật lý đã được thực hành trước đó, Gemini Robotics được báo cáo là thể hiện sự cải thiện đáng kể về sự khéo léo. Sự khéo léo mới này mở ra các nhiệm vụ trước đây không thể đạt được, chẳng hạn như nghệ thuật gấp origami tinh tế và việc đóng gói đồ ăn nhẹ chính xác vào túi Zip-loc. Sự chuyển đổi này – từ những robot chỉ hiểu lệnh sang những robot có khả năng thực hiện các nhiệm vụ vật lý tinh tế – cho thấy rằng DeepMind có thể đang trên đà giải quyết một trong những thách thức dai dẳng nhất trong lĩnh vực robot: cho phép robot chuyển ‘kiến thức’ của chúng thành những chuyển động cẩn thận, chính xác trong thế giới thực.

Khái quát hóa: Chìa khóa cho khả năng thích ứng trong thế giới thực

DeepMind nhấn mạnh rằng hệ thống Gemini Robotics mới thể hiện khả năng khái quát hóa được cải thiện đáng kể – khả năng thực hiện các nhiệm vụ mới mà nó không được đào tạo rõ ràng. Đây là một tiến bộ quan trọng. Theo thông báo của công ty, Gemini Robotics ‘tăng hơn gấp đôi hiệu suất trên một chuẩn mực khái quát hóa toàn diện so với các mô hình thị giác-ngôn ngữ-hành động tiên tiến khác’.

Khái quát hóa là điều tối quan trọng vì robot có khả năng thích ứng với các tình huống mới mà không yêu cầu đào tạo cụ thể cho từng tình huống là chìa khóa để hoạt động hiệu quả trong môi trường thế giới thực không thể đoán trước. Khả năng thích ứng này là điều phân biệt một robot chuyên dụng, chuyên biệt với một cỗ máy thực sự linh hoạt và thích ứng.

Bộ não Robot tổng quát: Tầm nhìn đầy tham vọng của Google

Những nỗ lực của Google rõ ràng hướng tới việc tạo ra một ‘bộ não robot tổng quát’ – một AI đa năng có khả năng điều khiển một loạt các nền tảng robot. Phù hợp với tầm nhìn này, công ty đã công bố quan hệ đối tác với Apptronik, một công ty robot hàng đầu, để ‘xây dựng thế hệ robot hình người tiếp theo với Gemini 2.0’.

Mặc dù chủ yếu được đào tạo trên một nền tảng robot hai tay được gọi là ALOHA 2, Google tuyên bố rằng Gemini Robotics có tính linh hoạt để điều khiển các loại robot khác nhau. Điều này bao gồm các cánh tay robot Franka định hướng nghiên cứu và các hệ thống hình người phức tạp hơn như robot Apollo của Apptronik. Khả năng thích ứng này nhấn mạnh tiềm năng của Gemini Robotics trở thành một ‘bộ não’ phổ quát cho một loạt các ứng dụng robot.

Bối cảnh Robot hình người: Phần cứng và Phần mềm hội tụ

Việc theo đuổi robot hình người là một nỗ lực hợp tác, với nhiều công ty đóng góp vào các khía cạnh khác nhau của thách thức. Các công ty như Figure AI và Boston Dynamics (trước đây là một công ty con của Alphabet) đã và đang nỗ lực phát triển phần cứng robot hình người tiên tiến. Tuy nhiên, một ‘trình điều khiển’ AI thực sự hiệu quả – thành phần phần mềm truyền cho những robot này trí thông minh và quyền tự chủ – vẫn là một phần quan trọng còn thiếu.

Những nỗ lực của Google trong lĩnh vực này đang đạt được động lực. Công ty đã cấp quyền truy cập hạn chế vào Gemini Robotics-ER thông qua chương trình ‘người thử nghiệm đáng tin cậy’ cho các công ty robot hàng đầu, bao gồm Boston Dynamics, Agility Robotics và Enchanted Tools. Cách tiếp cận hợp tác này cho thấy một nỗ lực phối hợp để đẩy nhanh sự phát triển và triển khai các robot hình người thực sự có khả năng.

An toàn là trên hết: Cách tiếp cận nhiều lớp đối với Robot có trách nhiệm

Nhận thức được tầm quan trọng hàng đầu của an toàn trong lĩnh vực robot, Google nhấn mạnh ‘cách tiếp cận nhiều lớp, toàn diện’ kết hợp các biện pháp an toàn robot truyền thống. Các biện pháp này bao gồm tránh va chạm và giới hạn lực, đảm bảo rằng robot hoạt động trong các thông số an toàn.

Hơn nữa, công ty mô tả việc phát triển một khung ‘Hiến pháp Robot’. Khung này, lấy cảm hứng từ Ba định luật về Robot của Isaac Asimov, cung cấp một bộ nguyên tắc hướng dẫn cho việc phát triển và triển khai robot một cách có đạo đức và an toàn. Cùng với khung này, Google đã phát hành một bộ dữ liệu, có tên là ‘ASIMOV’, được thiết kế để hỗ trợ các nhà nghiên cứu đánh giá ý nghĩa an toàn của các hành động robot.

Bộ dữ liệu ASIMOV: Chuẩn hóa Đánh giá An toàn

Bộ dữ liệu ASIMOV đại diện cho nỗ lực của Google trong việc thiết lập các phương pháp tiêu chuẩn để đánh giá an toàn robot, vượt ra ngoài việc ngăn ngừa tổn hại vật lý. Bộ dữ liệu được thiết kế để giúp các nhà nghiên cứu đánh giá mức độ các mô hình AI hiểu được hậu quả tiềm ẩn của các hành động của robot trong các tình huống khác nhau. Theo thông báo của Google, bộ dữ liệu sẽ ‘giúp các nhà nghiên cứu đo lường một cách nghiêm ngặt ý nghĩa an toàn của các hành động robot trong các tình huống thực tế’. Sáng kiến này nhấn mạnh cam kết của Google đối với sự đổi mới có trách nhiệm trong lĩnh vực robot.

Tương lai của Robot: Cái nhìn thoáng qua về những khả năng

Mặc dù Google vẫn chưa công bố thời gian biểu cụ thể hoặc các ứng dụng thương mại cho các mô hình AI mới, hiện vẫn đang trong giai đoạn nghiên cứu, nhưng những tiến bộ được chứng minh là không thể phủ nhận là đáng kể. Các video demo do Google phát hành cho thấy sự tiến bộ vượt bậc trong các khả năng do AI điều khiển. Tuy nhiên, điều quan trọng cần thừa nhận là những cuộc trình diễn này đã được tiến hành trong môi trường nghiên cứu được kiểm soát. Thử thách thực sự của các hệ thống này sẽ nằm ở khả năng hoạt động đáng tin cậy và an toàn trong các môi trường không thể đoán trước và năng động của thế giới thực.

Sự phát triển của Gemini Robotics và Gemini Robotics-ER đại diện cho một thời điểm quan trọng trong quá trình phát triển của robot. Các mô hình này có tiềm năng mở ra một kỷ nguyên mới về sự khéo léo, khả năng thích ứng và quyền tự chủ, mở đường cho robot tích hợp liền mạch vào cuộc sống của chúng ta và đóng góp vào một loạt các nhiệm vụ. Khi nghiên cứu tiến triển và các công nghệ này trưởng thành, chúng ta có thể dự đoán một tương lai nơi robot đóng vai trò ngày càng nổi bật trong nhà, nơi làm việc và cộng đồng của chúng ta. Hành trình hướng tới AI hiện thân thực sự vẫn đang tiếp diễn, nhưng những tiến bộ mới nhất của Google mang đến một cái nhìn hấp dẫn về những khả năng thú vị phía trước. Sự kết hợp giữa phần cứng tinh vi và phần mềm ngày càng thông minh sẵn sàng thay đổi bối cảnh robot, đưa chúng ta đến gần hơn với một tương lai nơi robot không chỉ là công cụ mà còn là đối tác linh hoạt trong cuộc sống hàng ngày của chúng ta.