Pencarian AI yang Berwujud: Tujuan yang Ambisius
Selama bertahun-tahun, industri robotika telah mengejar tujuan sulit dari ‘embodied AI’ – menciptakan kecerdasan buatan yang mampu secara otonom mengendalikan robot melalui berbagai skenario baru dan tidak terduga, sambil tetap menjaga keamanan dan presisi. Ambisi ini, yang secara aktif dikejar oleh perusahaan seperti Nvidia, tetap menjadi ‘cawan suci’ dengan potensi untuk mengubah robot menjadi pekerja serbaguna yang mampu melakukan berbagai macam tugas di dunia nyata.
Gemini Robotics: Membangun di Atas Fondasi Bahasa dan Visi
Model baru Google memanfaatkan kekuatan model bahasa besar Gemini 2.0, memperluas kemampuannya untuk mencakup tuntutan khusus aplikasi robotika. Gemini Robotics menggabungkan apa yang disebut Google sebagai kemampuan ‘vision-language-action’ (VLA). Ini memungkinkan model untuk memproses input visual, menafsirkan perintah bahasa alami, dan menerjemahkan input ini menjadi gerakan fisik yang tepat. Sebaliknya, Gemini Robotics-ER berfokus pada ‘penalaran yang diwujudkan,’ yang menawarkan pemahaman spasial yang ditingkatkan yang memungkinkan integrasi tanpa batas dengan sistem kontrol robot yang ada.
Dari Pemahaman ke Tindakan: Era Baru Ketangkasan
Implikasi praktis dari kemajuan ini sangat mendalam. Bayangkan menginstruksikan robot yang dilengkapi dengan Gemini Robotics untuk ‘mengambil pisang dan memasukkannya ke dalam keranjang.’ Robot, yang menggunakan visi berbasis kamera, akan mengidentifikasi pisang dan dengan terampil memandu lengan robotnya untuk melaksanakan tugas tersebut. Atau pertimbangkan perintah, ‘lipat rubah origami.’ Robot, yang memanfaatkan pengetahuannya tentang origami dan seni melipat kertas yang rumit, akan dengan cermat melakukan tugas yang rumit itu.
Pada tahun 2023, model RT-2 Google menandai langkah signifikan menuju kemampuan robotika umum. Dengan memanfaatkan data Internet, RT-2 memberdayakan robot untuk memahami perintah bahasa dan beradaptasi dengan situasi baru, menggandakan kinerja pada tugas yang tidak terlihat dibandingkan dengan pendahulunya. Dua tahun kemudian, Gemini Robotics tampaknya telah membuat lompatan substansial lainnya, bergerak melampaui pemahaman belaka untuk mencakup pelaksanaan manipulasi fisik kompleks yang secara eksplisit berada di luar jangkauan RT-2.
Sementara RT-2 terbatas pada penggunaan kembali gerakan fisik yang telah dipraktikkan sebelumnya, Gemini Robotics dilaporkan menunjukkan peningkatan ketangkasan yang luar biasa. Ketangkasan yang baru ditemukan ini membuka kunci tugas-tugas yang sebelumnya tidak dapat dicapai, seperti seni melipat origami yang rumit dan pengemasan makanan ringan yang tepat ke dalam tas Zip-loc. Transisi ini – dari robot yang hanya memahami perintah ke robot yang mampu melakukan tugas fisik yang rumit – menandakan bahwa DeepMind mungkin berada di puncak pemecahan salah satu tantangan paling persisten dalam robotika: memungkinkan robot untuk menerjemahkan ‘pengetahuan’ mereka ke dalam gerakan yang hati-hati dan tepat di dunia nyata.
Generalisasi: Kunci Adaptasi Dunia Nyata
DeepMind menekankan bahwa sistem Gemini Robotics yang baru menunjukkan generalisasi yang meningkat secara signifikan – kemampuan untuk melakukan tugas-tugas baru yang tidak dilatih secara eksplisit. Ini adalah kemajuan yang sangat penting. Menurut pengumuman perusahaan, Gemini Robotics ‘lebih dari dua kali lipat kinerja pada tolok ukur generalisasi komprehensif dibandingkan dengan model aksi-bahasa-visi canggih lainnya.’
Generalisasi sangat penting karena robot yang mampu beradaptasi dengan skenario baru tanpa memerlukan pelatihan khusus untuk setiap situasi memegang kunci untuk beroperasi secara efektif di lingkungan dunia nyata yang tidak terduga. Kemampuan beradaptasi inilah yang membedakan robot khusus yang spesifik untuk tugas dari mesin yang benar-benar serbaguna dan mudah beradaptasi.
Otak Robot Generalis: Visi Ambisius Google
Upaya Google jelas diarahkan untuk menciptakan ‘otak robot generalis’ – AI serbaguna yang mampu mengendalikan berbagai platform robot. Sejalan dengan visi ini, perusahaan telah mengumumkan kemitraan dengan Apptronik, perusahaan robotika terkemuka, untuk ‘membangun robot humanoid generasi berikutnya dengan Gemini 2.0.’
Meskipun terutama dilatih pada platform robot bimanual yang dikenal sebagai ALOHA 2, Google menyatakan bahwa Gemini Robotics memiliki keserbagunaan untuk mengendalikan berbagai jenis robot. Ini termasuk lengan robot Franka yang berorientasi pada penelitian dan sistem humanoid yang lebih canggih seperti robot Apollo Apptronik. Kemampuan beradaptasi ini menggarisbawahi potensi Gemini Robotics untuk menjadi ‘otak’ universal untuk berbagai aplikasi robotika.
Lanskap Robotika Humanoid: Perangkat Keras dan Perangkat Lunak Menyatu
Pengejaran robotika humanoid adalah upaya kolaboratif, dengan banyak perusahaan berkontribusi pada berbagai aspek tantangan. Perusahaan seperti Figure AI dan Boston Dynamics (sebelumnya merupakan anak perusahaan Alphabet) telah dengan rajin mengembangkan perangkat keras robotika humanoid canggih. Namun, ‘penggerak’ AI yang benar-benar efektif – komponen perangkat lunak yang memberikan kecerdasan dan otonomi pada robot-robot ini – tetap menjadi bagian penting yang hilang.
Upaya Google di bidang ini mendapatkan momentum. Perusahaan telah memberikan akses terbatas ke Gemini Robotics-ER melalui program ‘penguji tepercaya’ kepada perusahaan robotika terkemuka, termasuk Boston Dynamics, Agility Robotics, dan Enchanted Tools. Pendekatan kolaboratif ini menunjukkan upaya bersama untuk mempercepat pengembangan dan penerapan robot humanoid yang benar-benar mumpuni.
Keselamatan Pertama: Pendekatan Berlapis untuk Robotika yang Bertanggung Jawab
Menyadari pentingnya keselamatan dalam robotika, Google menekankan ‘pendekatan berlapis dan holistik’ yang menggabungkan langkah-langkah keselamatan robot tradisional. Langkah-langkah ini mencakup penghindaran tabrakan dan batasan gaya, memastikan bahwa robot beroperasi dalam parameter yang aman.
Selain itu, perusahaan menggambarkan pengembangan kerangka kerja ‘Robot Constitution’. Kerangka kerja ini, yang terinspirasi oleh Tiga Hukum Robotika Isaac Asimov, menyediakan seperangkat prinsip panduan untuk pengembangan dan penerapan robot yang etis dan aman. Sehubungan dengan kerangka kerja ini, Google telah merilis dataset, yang dinamai ‘ASIMOV,’ yang dirancang untuk membantu para peneliti dalam mengevaluasi implikasi keselamatan dari tindakan robot.
Dataset ASIMOV: Menstandarkan Penilaian Keselamatan
Dataset ASIMOV mewakili upaya Google untuk menetapkan metode standar untuk menilai keselamatan robot, yang melampaui pencegahan bahaya fisik. Dataset ini dirancang untuk membantu para peneliti mengevaluasi seberapa baik model AI memahami konsekuensi potensial dari tindakan robot dalam berbagai skenario. Menurut pengumuman Google, dataset tersebut akan ‘membantu para peneliti untuk secara ketat mengukur implikasi keselamatan dari tindakan robot dalam skenario dunia nyata.’ Inisiatif ini menggarisbawahi komitmen Google terhadap inovasi yang bertanggung jawab di bidang robotika.
Masa Depan Robotika: Sekilas tentang Kemungkinan
Meskipun Google belum mengumumkan jadwal atau aplikasi komersial khusus untuk model AI baru, yang saat ini masih dalam tahap penelitian, kemajuan yang ditunjukkan tidak dapat disangkal signifikan. Video demo yang dirilis oleh Google menampilkan kemajuan luar biasa dalam kemampuan yang digerakkan oleh AI. Namun, penting untuk mengakui bahwa demonstrasi ini telah dilakukan di lingkungan penelitian yang terkendali. Ujian sebenarnya dari sistem ini terletak pada kemampuannya untuk bekerja dengan andal dan aman dalam pengaturan dunia nyata yang tidak terduga dan dinamis.
Pengembangan Gemini Robotics dan Gemini Robotics-ER merupakan momen penting dalam evolusi robotika. Model-model ini memiliki potensi untuk membuka era baru ketangkasan, kemampuan beradaptasi, dan otonomi, membuka jalan bagi robot untuk berintegrasi secara mulus ke dalam kehidupan kita dan berkontribusi pada berbagai tugas. Seiring dengan kemajuan penelitian dan kematangan teknologi ini, kita dapat mengantisipasi masa depan di mana robot memainkan peran yang semakin penting di rumah, tempat kerja, dan komunitas kita. Perjalanan menuju AI yang benar-benar terwujud sedang berlangsung, tetapi kemajuan terbaru Google menawarkan sekilas pandang yang menarik tentang kemungkinan-kemungkinan menarik yang ada di depan. Perpaduan perangkat keras yang canggih dan perangkat lunak yang semakin cerdas siap untuk mengubah lanskap robotika, membawa kita lebih dekat ke masa depan di mana robot bukan hanya alat, tetapi mitra serbaguna dalam kehidupan kita sehari-hari.