تلاش برای هوش مصنوعی تجسمیافته: یک هدف بلندپروازانه
سالهاست که صنعت رباتیک در پی دستیابی به هدف دستنیافتنی ‘هوش مصنوعی تجسمیافته’ بوده است – خلق هوش مصنوعیای که قادر به کنترل خودکار رباتها در طیف گستردهای از سناریوهای جدید و غیرقابل پیشبینی باشد، آن هم با حفظ ایمنی و دقت. این جاهطلبی، که بهطور فعال توسط شرکتهایی مانند Nvidia دنبال میشود، همچنان یک ‘جام مقدس’ باقی مانده است که پتانسیل تبدیل رباتها به کارگرانی همهکاره را دارد که قادر به انجام طیف وسیعی از وظایف در دنیای واقعی هستند.
Gemini Robotics: ساختن بر پایهی زبان و بینایی
مدلهای جدید گوگل از قدرت مدل زبان بزرگ Gemini 2.0 بهره میبرند و قابلیتهای آن را برای دربرگرفتن نیازهای خاص کاربردهای رباتیک گسترش میدهند. Gemini Robotics چیزی را که گوگل ‘قابلیتهای بینایی-زبان-عمل’ (VLA) مینامد، در خود جای داده است. این به مدل اجازه میدهد تا ورودی بصری را پردازش کند، دستورات زبان طبیعی را تفسیر کند و این ورودیها را به حرکات فیزیکی دقیق ترجمه کند. در مقابل، Gemini Robotics-ER بر ‘استدلال تجسمیافته’ تمرکز دارد و دارای درک فضایی پیشرفتهای است که امکان ادغام یکپارچه با سیستمهای کنترل ربات موجود را فراهم میکند.
از درک تا عمل: عصر جدیدی از مهارت
پیامدهای عملی این پیشرفتها عمیق هستند. تصور کنید به رباتی مجهز به Gemini Robotics دستور میدهید ‘موز را بردار و در سبد بگذار’. ربات، با استفاده از بینایی مبتنی بر دوربین خود، موز را شناسایی میکند و بازوی رباتیک خود را به طرز ماهرانهای برای انجام این کار هدایت میکند. یا دستور ‘یک روباه اوریگامی بساز’ را در نظر بگیرید. ربات، با استفاده از دانش خود در مورد اوریگامی و هنر ظریف تا کردن کاغذ، این کار پیچیده را با دقت انجام میدهد.
در سال 2023، مدل RT-2 گوگل گامی مهم در جهت قابلیتهای رباتیک تعمیمیافته برداشت. RT-2 با استفاده از دادههای اینترنتی، رباتها را قادر ساخت تا دستورات زبانی را درک کنند و با موقعیتهای جدید سازگار شوند و عملکرد را در کارهای دیده نشده در مقایسه با مدل قبلی خود دو برابر کرد. دو سال بعد، به نظر میرسد Gemini Robotics جهش قابلتوجه دیگری داشته است و فراتر از درک صرف، اجرای دستکاریهای فیزیکی پیچیدهای را که صریحاً فراتر از دسترس RT-2 بودند، در بر میگیرد.
در حالی که RT-2 به استفاده مجدد از حرکات فیزیکی از پیش تمرینشده محدود میشد، Gemini Robotics ظاهراً پیشرفت چشمگیری در مهارت نشان میدهد. این مهارت تازه کشفشده، قفل کارهایی را که قبلاً غیرقابل دسترس بودند، مانند هنر ظریف تا کردن اوریگامی و بستهبندی دقیق تنقلات در کیسههای زیپدار، باز میکند. این گذار – از رباتهایی که صرفاً دستورات را درک میکنند به رباتهایی که قادر به انجام کارهای فیزیکی ظریف هستند – نشان میدهد که DeepMind ممکن است در آستانه حل یکی از پایدارترین چالشها در رباتیک باشد: قادر ساختن رباتها به ترجمه ‘دانش’ خود به حرکات دقیق و محتاطانه در دنیای واقعی.
تعمیمپذیری: کلید سازگاری با دنیای واقعی
DeepMind تأکید میکند که سیستم جدید Gemini Robotics تعمیمپذیری بهطور قابلتوجهی بهبودیافتهای را نشان میدهد – توانایی انجام کارهای جدیدی که بهطور صریح برای آنها آموزش ندیده است. این یک پیشرفت حیاتی است. طبق اعلامیه این شرکت، Gemini Robotics ‘عملکرد را در یک معیار تعمیم جامع در مقایسه با سایر مدلهای پیشرفته بینایی-زبان-عمل بیش از دو برابر میکند’.
تعمیمپذیری بسیار مهم است زیرا رباتهایی که قادر به سازگاری با سناریوهای جدید بدون نیاز به آموزش خاص برای هر موقعیت هستند، کلید عملکرد مؤثر در محیطهای غیرقابل پیشبینی دنیای واقعی را در دست دارند. این سازگاری همان چیزی است که یک ربات تخصصی و وظیفهمحور را از یک ماشین واقعاً همهکاره و سازگار جدا میکند.
یک مغز ربات همهکاره: چشمانداز بلندپروازانه گوگل
تلاشهای گوگل بهوضوح در جهت ایجاد یک ‘مغز ربات همهکاره’ است – یک هوش مصنوعی همهکاره که قادر به کنترل طیف گستردهای از پلتفرمهای رباتیک است. در راستای این چشمانداز، این شرکت از همکاری با Apptronik، یک شرکت رباتیک پیشرو، برای ‘ساخت نسل بعدی رباتهای انساننما با Gemini 2.0’ خبر داده است.
در حالی که Gemini Robotics عمدتاً بر روی یک پلتفرم رباتیک دو دستی به نام ALOHA 2 آموزش دیده است، گوگل بیان میکند که این مدل دارای قابلیت کنترل انواع مختلف رباتها است. این شامل بازوهای رباتیک Franka با جهتگیری تحقیقاتی و سیستمهای انساننمای پیچیدهتر مانند ربات Apollo Apptronik میشود. این سازگاری بر پتانسیل Gemini Robotics برای تبدیل شدن به یک ‘مغز’ جهانی برای طیف گستردهای از کاربردهای رباتیک تأکید میکند.
چشمانداز رباتیک انساننما: همگرایی سختافزار و نرمافزار
تلاش برای رباتیک انساننما یک تلاش مشترک است و شرکتهای متعددی در جنبههای مختلف این چالش مشارکت دارند. شرکتهایی مانند Figure AI و Boston Dynamics (که قبلاً یکی از شرکتهای تابعه Alphabet بود) بهطور جدی در حال توسعه سختافزار رباتیک انساننمای پیشرفته بودهاند. با این حال، یک ‘راننده’ هوش مصنوعی واقعاً مؤثر – جزء نرمافزاری که به این رباتها هوش و استقلال میبخشد – همچنان یک قطعه گمشده حیاتی باقی مانده است.
تلاشهای گوگل در این زمینه در حال افزایش است. این شرکت دسترسی محدودی به Gemini Robotics-ER را از طریق یک برنامه ‘آزمایشکننده مورد اعتماد’ به شرکتهای رباتیک پیشرو، از جمله Boston Dynamics، Agility Robotics و Enchanted Tools اعطا کرده است. این رویکرد مشارکتی نشاندهنده یک تلاش هماهنگ برای تسریع توسعه و استقرار رباتهای انساننمای واقعاً توانمند است.
ایمنی اول: رویکردی لایهای به رباتیک مسئولانه
گوگل با درک اهمیت حیاتی ایمنی در رباتیک، بر یک ‘رویکرد لایهای و جامع’ تأکید میکند که اقدامات ایمنی ربات سنتی را در بر میگیرد. این اقدامات شامل اجتناب از برخورد و محدودیتهای نیرو میشود و تضمین میکند که رباتها در پارامترهای ایمن عمل میکنند.
علاوه بر این، این شرکت توسعه یک چارچوب ‘قانون اساسی ربات’ را توصیف میکند. این چارچوب، با الهام از سه قانون رباتیک آیزاک آسیموف، مجموعهای از اصول راهنما را برای توسعه و استقرار اخلاقی و ایمن رباتها ارائه میدهد. در conjunction با این چارچوب، گوگل مجموعهای از دادهها را با نام مناسب ‘ASIMOV’ منتشر کرده است که برای کمک به محققان در ارزیابی پیامدهای ایمنی اقدامات رباتیک طراحی شده است.
مجموعه داده ASIMOV: استانداردسازی ارزیابی ایمنی
مجموعه داده ASIMOV تلاش گوگل برای ایجاد روشهای استاندارد برای ارزیابی ایمنی ربات را نشان میدهد که فراتر از جلوگیری از آسیب فیزیکی است. این مجموعه داده برای کمک به محققان در ارزیابی اینکه مدلهای هوش مصنوعی چقدر پیامدهای بالقوه اقدامات یک ربات را در سناریوهای مختلف درک میکنند، طراحی شده است. طبق اعلامیه گوگل، این مجموعه داده ‘به محققان کمک میکند تا پیامدهای ایمنی اقدامات رباتیک را در سناریوهای دنیای واقعی بهطور دقیق اندازهگیری کنند’. این ابتکار بر تعهد گوگل به نوآوری مسئولانه در زمینه رباتیک تأکید میکند.
آینده رباتیک: نگاهی اجمالی به امکانات
در حالی که گوگل هنوز جدول زمانی مشخص یا کاربردهای تجاری برای مدلهای هوش مصنوعی جدید، که در حال حاضر در مرحله تحقیقاتی باقی ماندهاند، اعلام نکرده است، پیشرفتهای نشان داده شده بهطور غیرقابل انکاری قابلتوجه هستند. ویدئوهای نمایشی منتشر شده توسط گوگل، پیشرفت چشمگیری را در قابلیتهای مبتنی بر هوش مصنوعی نشان میدهند. با این حال، مهم است که اذعان کنیم که این نمایشها در محیطهای تحقیقاتی کنترلشده انجام شدهاند. آزمون واقعی این سیستمها در توانایی آنها برای عملکرد قابل اعتماد و ایمن در محیطهای غیرقابل پیشبینی و پویای دنیای واقعی نهفته است.
توسعه Gemini Robotics و Gemini Robotics-ER لحظهای محوری در تکامل رباتیک را نشان میدهد. این مدلها پتانسیل باز کردن عصر جدیدی از مهارت، سازگاری و استقلال را دارند و راه را برای رباتها هموار میکنند تا بهطور یکپارچه در زندگی ما ادغام شوند و در طیف گستردهای از وظایف مشارکت کنند. با پیشرفت تحقیقات و بالغ شدن این فناوریها، میتوانیم آیندهای را پیشبینی کنیم که در آن رباتها نقش فزایندهای در خانهها، محلهای کار و جوامع ما ایفا میکنند. سفر به سوی هوش مصنوعی واقعاً تجسمیافته ادامه دارد، اما آخرین پیشرفتهای گوگل نگاهی اجمالی و قانعکننده به امکانات هیجانانگیزی که در پیش است، ارائه میدهد. ادغام سختافزار پیچیده و نرمافزار بهطور فزایندهای هوشمند، آماده است تا چشمانداز رباتیک را متحول کند و ما را به آیندهای نزدیکتر کند که در آن رباتها نه تنها ابزار، بلکه شرکای همهکاره در زندگی روزمره ما هستند.