Pencarian untuk AI Terjelma: Matlamat ‘Moonshot’
Selama bertahun-tahun, industri robotik telah mengejar matlamat sukar difahami iaitu ‘embodied AI’ – mencipta kecerdasan buatan yang mampu mengawal robot secara autonomi melalui pelbagai senario baru dan tidak dijangka, sambil mengekalkan keselamatan dan ketepatan. Cita-cita ini, yang giat diusahakan oleh syarikat seperti Nvidia, kekal sebagai ‘holy grail’ dengan potensi untuk mengubah robot menjadi pekerja serba boleh yang mampu melaksanakan pelbagai tugas di dunia nyata.
Gemini Robotics: Membina di Atas Asas Bahasa dan Visi
Model baharu Google memanfaatkan kuasa model bahasa besar Gemini 2.0, meluaskan keupayaannya untuk merangkumi permintaan khusus aplikasi robotik. Gemini Robotics menggabungkan apa yang Google sebut sebagai keupayaan ‘vision-language-action’ (VLA). Ini membolehkan model memproses input visual, mentafsir arahan bahasa semula jadi, dan menterjemahkan input ini kepada pergerakan fizikal yang tepat. Sebaliknya, Gemini Robotics-ER memfokuskan pada ‘embodied reasoning,’ yang mempunyai pemahaman spatial yang dipertingkatkan yang membolehkan integrasi yang lancar dengan sistem kawalan robot sedia ada.
Daripada Pemahaman kepada Tindakan: Era Baharu Ketangkasan
Implikasi praktikal kemajuan ini adalah mendalam. Bayangkan mengarahkan robot yang dilengkapi dengan Gemini Robotics untuk ‘ambil pisang dan letakkan di dalam bakul.’ Robot itu, menggunakan penglihatan berasaskan kameranya, akan mengenal pasti pisang dan dengan mahir membimbing lengan robotnya untuk melaksanakan tugas itu. Atau pertimbangkan arahan, ‘lipat origami musang.’ Robot itu, berdasarkan pengetahuannya tentang origami dan seni melipat kertas yang halus, akan melakukan tugas yang rumit itu dengan teliti.
Pada tahun 2023, model RT-2 Google menandakan langkah penting ke arah keupayaan robotik umum. Dengan memanfaatkan data Internet, RT-2 memperkasakan robot untuk memahami arahan bahasa dan menyesuaikan diri dengan situasi baharu, menggandakan prestasi pada tugas yang tidak pernah dilihat berbanding pendahulunya. Dua tahun kemudian, Gemini Robotics nampaknya telah membuat satu lagi lonjakan yang besar, bergerak melangkaui pemahaman semata-mata untuk merangkumi pelaksanaan manipulasi fizikal kompleks yang secara jelas di luar jangkauan RT-2.
Walaupun RT-2 terhad kepada menggunakan semula pergerakan fizikal yang telah dipraktikkan, Gemini Robotics dilaporkan mempamerkan peningkatan yang luar biasa dalam ketangkasan. Ketangkasan baharu ini membuka kunci tugas yang sebelum ini tidak dapat dicapai, seperti seni melipat origami yang halus dan pembungkusan makanan ringan yang tepat ke dalam beg Zip-loc. Peralihan ini – daripada robot yang hanya memahami arahan kepada robot yang mampu melaksanakan tugas fizikal yang halus – menandakan bahawa DeepMind mungkin berada di ambang menyelesaikan salah satu cabaran paling berterusan dalam robotik: membolehkan robot menterjemahkan ‘pengetahuan’ mereka kepada pergerakan yang berhati-hati dan tepat dalam dunia nyata.
Generalisasi: Kunci kepada Kebolehsuaian Dunia Sebenar
DeepMind menekankan bahawa sistem Gemini Robotics baharu menunjukkan generalisasi yang dipertingkatkan dengan ketara – keupayaan untuk melaksanakan tugas baharu yang tidak dilatih secara khusus. Ini adalah kemajuan yang penting. Menurut pengumuman syarikat itu, Gemini Robotics ‘lebih daripada menggandakan prestasi pada penanda aras generalisasi yang komprehensif berbanding model ‘vision-language-action’ canggih yang lain.’
Generalisasi adalah amat penting kerana robot yang mampu menyesuaikan diri dengan senario baharu tanpa memerlukan latihan khusus untuk setiap situasi memegang kunci untuk beroperasi dengan berkesan dalam persekitaran dunia sebenar yang tidak dapat diramalkan. Kebolehsuaian inilah yang membezakan robot khusus, tugas khusus daripada mesin yang benar-benar serba boleh dan boleh menyesuaikan diri.
Otak Robot Generalis: Visi Bercita-cita Tinggi Google
Usaha Google jelas ditujukan ke arah mencipta ‘otak robot generalis’ – AI serba boleh yang mampu mengawal pelbagai platform robotik. Selaras dengan visi ini, syarikat itu telah mengumumkan perkongsian dengan Apptronik, sebuah syarikat robotik terkemuka, untuk ‘membina generasi robot humanoid seterusnya dengan Gemini 2.0.’
Walaupun dilatih terutamanya pada platform robot bimanual yang dikenali sebagai ALOHA 2, Google menyatakan bahawa Gemini Robotics mempunyai kepelbagaian untuk mengawal pelbagai jenis robot. Ini termasuk lengan robotik Franka yang berorientasikan penyelidikan dan sistem humanoid yang lebih canggih seperti robot Apollo Apptronik. Kebolehsuaian ini menggariskan potensi Gemini Robotics untuk menjadi ‘otak’ universal untuk pelbagai aplikasi robotik.
Landskap Robotik Humanoid: Perkakasan dan Perisian Bertumpu
Usaha robotik humanoid adalah usaha kolaboratif, dengan banyak syarikat menyumbang kepada aspek cabaran yang berbeza. Syarikat seperti Figure AI dan Boston Dynamics (dahulunya anak syarikat Alphabet) telah gigih membangunkan perkakasan robotik humanoid termaju. Walau bagaimanapun, ‘pemandu’ AI yang benar-benar berkesan – komponen perisian yang memberikan robot ini kecerdasan dan autonomi – kekal sebagai bahagian penting yang hilang.
Usaha Google dalam bidang ini semakin mendapat momentum. Syarikat itu telah memberikan akses terhad kepada Gemini Robotics-ER melalui program ‘penguji dipercayai’ kepada syarikat robotik terkemuka, termasuk Boston Dynamics, Agility Robotics, dan Enchanted Tools. Pendekatan kolaboratif ini mencadangkan usaha bersepadu untuk mempercepatkan pembangunan dan penggunaan robot humanoid yang benar-benar berkebolehan.
Keselamatan Diutamakan: Pendekatan Berlapis untuk Robotik Bertanggungjawab
Menyedari kepentingan keselamatan dalam robotik, Google menekankan ‘pendekatan berlapis dan holistik’ yang menggabungkan langkah keselamatan robot tradisional. Langkah-langkah ini termasuk pengelakan perlanggaran dan pengehadan daya, memastikan robot beroperasi dalam parameter yang selamat.
Tambahan pula, syarikat itu menerangkan pembangunan rangka kerja ‘Robot Constitution’. Rangka kerja ini, yang diilhamkan oleh Tiga Undang-undang Robotik Isaac Asimov, menyediakan satu set prinsip panduan untuk pembangunan dan penggunaan robot yang beretika dan selamat. Sempena rangka kerja ini, Google telah mengeluarkan set data, yang dinamakan ‘ASIMOV,’ yang direka untuk membantu penyelidik dalam menilai implikasi keselamatan tindakan robotik.
Set Data ASIMOV: Menyeragamkan Penilaian Keselamatan
Set data ASIMOV mewakili usaha Google untuk mewujudkan kaedah piawai untuk menilai keselamatan robot, melangkaui pencegahan bahaya fizikal. Set data direka untuk membantu penyelidik menilai sejauh mana model AI memahami potensi akibat tindakan robot dalam pelbagai senario. Menurut pengumuman Google, set data itu akan ‘membantu penyelidik untuk mengukur implikasi keselamatan tindakan robotik dalam senario dunia sebenar dengan teliti.’ Inisiatif ini menggariskan komitmen Google terhadap inovasi yang bertanggungjawab dalam bidang robotik.
Masa Depan Robotik: Sekilas Pandang ke dalam Kemungkinan
Walaupun Google masih belum mengumumkan garis masa atau aplikasi komersial khusus untuk model AI baharu, yang kini kekal dalam fasa penyelidikan, kemajuan yang ditunjukkan adalah sangat ketara. Video demo yang dikeluarkan oleh Google mempamerkan kemajuan luar biasa dalam keupayaan dipacu AI. Walau bagaimanapun, adalah penting untuk mengakui bahawa demonstrasi ini telah dijalankan dalam persekitaran penyelidikan terkawal. Ujian sebenar sistem ini terletak pada keupayaan mereka untuk melaksanakan dengan pasti dan selamat dalam tetapan dunia sebenar yang tidak dapat diramalkan dan dinamik.
Pembangunan Gemini Robotics dan Gemini Robotics-ER mewakili detik penting dalam evolusi robotik. Model ini berpotensi untuk membuka kunci era baharu ketangkasan, kebolehsuaian dan autonomi, membuka jalan kepada robot untuk disepadukan dengan lancar ke dalam kehidupan kita dan menyumbang kepada pelbagai tugas. Apabila penyelidikan berjalan dan teknologi ini matang, kita boleh menjangkakan masa depan di mana robot memainkan peranan yang semakin penting dalam rumah, tempat kerja dan komuniti kita. Perjalanan ke arah AI yang benar-benar terjelma sedang berjalan, tetapi kemajuan terkini Google menawarkan gambaran yang menarik tentang kemungkinan menarik yang menanti. Gabungan perkakasan yang canggih dan perisian yang semakin pintar bersedia untuk mengubah landskap robotik, membawa kita lebih dekat kepada masa depan di mana robot bukan sahaja alat, tetapi rakan kongsi serba boleh dalam kehidupan seharian kita.