گوگل کا نیا روبوٹ اے آئی: مہارت اور ذہانت

مجسم ذہانت کی تلاش: ایک چیلنجنگ مقصد

برسوں سے، روبوٹکس انڈسٹری ‘مجسم AI’ کے مشکل مقصد کے حصول کے لیے کوشاں ہے – یعنی ایسا مصنوعی ذہانت بنانا جو روبوٹس کو خود مختار طریقے سے وسیع پیمانے پر نئے اور غیر متوقع منظرناموں میں کنٹرول کرنے کے قابل ہو، اور ساتھ ہی حفاظت اور درستگی کو بھی برقرار رکھے۔ یہ خواہش، جسے Nvidia جیسی کمپنیاں سرگرمی سے آگے بڑھا رہی ہیں، ایک ‘مقدس جام’ کی حیثیت رکھتی ہے جس میں روبوٹس کو ورسٹائل مزدوروں میں تبدیل کرنے کی صلاحیت ہے جو حقیقی دنیا میں کاموں کی ایک وسیع صف انجام دینے کے قابل ہوں۔

Gemini Robotics: زبان اور بصارت کی بنیاد پر تعمیر

گوگل کے نئے ماڈلز Gemini 2.0 بڑے لینگویج ماڈل کی طاقت سے فائدہ اٹھاتے ہیں، اور روبوٹک ایپلی کیشنز کے مخصوص مطالبات کو پورا کرنے کے لیے اس کی صلاحیتوں کو بڑھاتے ہیں۔ Gemini Robotics میں وہ شامل ہے جسے گوگل ‘ویژن-لینگویج-ایکشن’ (VLA) صلاحیتوں کا نام دیتا ہے۔ یہ ماڈل کو بصری ان پٹ پر کارروائی کرنے، قدرتی زبان کے احکامات کی تشریح کرنے، اور ان ان پٹس کو درست جسمانی حرکات میں ترجمہ کرنے کی اجازت دیتا ہے۔ اس کے برعکس، Gemini Robotics-ER ‘مجسم استدلال’ پر توجہ مرکوز کرتا ہے، بہتر مقامی سمجھ بوجھ کا حامل ہے جو موجودہ روبوٹ کنٹرول سسٹم کے ساتھ ہموار انضمام کو ممکن بناتا ہے۔

سمجھ سے عمل تک: مہارت کا ایک نیا دور

ان پیش رفتوں کے عملی مضمرات گہرے ہیں۔ تصور کریں کہ Gemini Robotics سے لیس ایک روبوٹ کو ہدایت دی جائے کہ ‘کیلا اٹھا کر ٹوکری میں ڈال دو۔’ روبوٹ، اپنے کیمرہ پر مبنی وژن کا استعمال کرتے ہوئے، کیلے کی شناخت کرے گا اور مہارت سے اپنے روبوٹک بازو کو کام انجام دینے کے لیے رہنمائی کرے گا۔ یا حکم پر غور کریں، ‘ایک اوریگامی لومڑی کو تہہ کرو۔’ روبوٹ، اوریگامی کے اپنے علم اور کاغذ کو تہہ کرنے کے نازک فن سے فائدہ اٹھاتے ہوئے، پیچیدہ کام کو احتیاط سے انجام دے گا۔

2023 میں، گوگل کے RT-2 ماڈل نے عام روبوٹک صلاحیتوں کی جانب ایک اہم قدم اٹھایا۔ انٹرنیٹ ڈیٹا سے فائدہ اٹھاتے ہوئے، RT-2 نے روبوٹس کو زبان کے احکامات کو سمجھنے اور نئے حالات کے مطابق ڈھالنے کے لیے بااختیار بنایا، اپنے پیشرو کے مقابلے میں غیر دیکھے گئے کاموں پر کارکردگی کو دوگنا کر دیا۔ دو سال بعد، Gemini Robotics نے ایک اور اہم چھلانگ لگائی ہے، جو محض سمجھ سے آگے بڑھ کر پیچیدہ جسمانی ہیرا پھیری کے نفاذ کو شامل کرتی ہے جو واضح طور پر RT-2 کی پہنچ سے باہر تھے۔

جبکہ RT-2 پہلے سے مشق شدہ جسمانی حرکات کو دوبارہ استعمال کرنے تک محدود تھا، Gemini Robotics مبینہ طور پر مہارت میں ایک قابل ذکر اضافہ ظاہر کرتا ہے۔ یہ نئی مہارت ان کاموں کو کھولتی ہے جو پہلے ناقابل حصول تھے، جیسے اوریگامی فولڈنگ کا نازک فن اور Zip-loc بیگز میں اسنیکس کی درست پیکنگ۔ یہ منتقلی – ایسے روبوٹس سے جو محض احکامات کو سمجھتے ہیں ان روبوٹس تک جو نازک جسمانی کاموں کو انجام دینے کے قابل ہیں – اس بات کی نشاندہی کرتی ہے کہ DeepMind روبوٹکس میں سب سے زیادہ مستقل چیلنجوں میں سے ایک کو حل کرنے کے دہانے پر ہو سکتا ہے: روبوٹس کو اپنے ‘علم’ کو حقیقی دنیا میں محتاط، درست حرکات میں ترجمہ کرنے کے قابل بنانا۔

عمومیت: حقیقی دنیا کی موافقت کی کلید

DeepMind اس بات پر زور دیتا ہے کہ نیا Gemini Robotics سسٹم نمایاں طور پر بہتر عمومیت کا مظاہرہ کرتا ہے – یعنی ایسے نئے کام انجام دینے کی صلاحیت جن کے لیے اسے واضح طور پر تربیت نہیں دی گئی تھی۔ یہ ایک اہم پیش رفت ہے۔ کمپنی کے اعلان کے مطابق، Gemini Robotics ‘دیگر جدید ترین ویژن-لینگویج-ایکشن ماڈلز کے مقابلے میں ایک جامع جنرلائزیشن بینچ مارک پر کارکردگی کو دوگنا سے زیادہ کرتا ہے۔’

عمومیت سب سے اہم ہے کیونکہ وہ روبوٹ جو ہر صورتحال کے لیے مخصوص تربیت کی ضرورت کے بغیر نئے منظرناموں کے مطابق ڈھالنے کی صلاحیت رکھتے ہیں، غیر متوقع حقیقی دنیا کے ماحول میں مؤثر طریقے سے کام کرنے کی کلید رکھتے ہیں۔ یہ موافقت وہی ہے جو ایک مخصوص، ٹاسک سپیسفک روبوٹ کو ایک حقیقی ورسٹائل اور موافقت پذیر مشین سے الگ کرتی ہے۔

ایک جنرلِسٹ روبوٹ برین: گوگل کا پرجوش وژن

گوگل کی کوششیں واضح طور پر ایک ‘جنرلسٹ روبوٹ برین’ بنانے کی طرف ہیں – ایک ورسٹائل AI جو روبوٹک پلیٹ فارمز کی ایک وسیع رینج کو کنٹرول کرنے کی صلاحیت رکھتا ہے۔ اس وژن کے مطابق، کمپنی نے Apptronik کے ساتھ شراکت داری کا اعلان کیا ہے، جو ایک معروف روبوٹکس کمپنی ہے، تاکہ ‘Gemini 2.0 کے ساتھ ہیومنائیڈ روبوٹس کی اگلی نسل تیار کی جا سکے۔’

اگرچہ بنیادی طور پر ALOHA 2 نامی ایک بائیمینوئل روبوٹ پلیٹ فارم پر تربیت یافتہ ہے، گوگل کا کہنا ہے کہ Gemini Robotics میں متنوع روبوٹ اقسام کو کنٹرول کرنے کی صلاحیت ہے۔ اس میں تحقیق پر مبنی Franka روبوٹک آرمز اور Apptronik کے Apollo روبوٹ جیسے زیادہ نفیس ہیومنائیڈ سسٹم شامل ہیں۔ یہ موافقت Gemini Robotics کی روبوٹک ایپلی کیشنز کی ایک وسیع صف کے لیے ایک یونیورسل ‘برین’ بننے کی صلاحیت کو اجاگر کرتی ہے۔

ہیومنائیڈ روبوٹکس کا منظرنامہ: ہارڈ ویئر اور سافٹ ویئر کا ملاپ

ہیومنائیڈ روبوٹکس کا حصول ایک باہمی تعاون کی کوشش ہے، جس میں متعدد کمپنیاں چیلنج کے مختلف پہلوؤں میں حصہ ڈال رہی ہیں۔ Figure AI اور Boston Dynamics (سابقہ ​​طور پر ایک Alphabet ذیلی ادارہ) جیسی کمپنیاں جدید ہیومنائیڈ روبوٹکس ہارڈ ویئر تیار کرنے میں تندہی سے کام کر رہی ہیں۔ تاہم، ایک حقیقی طور پر موثر AI ‘ڈرائیور’ – سافٹ ویئر کا وہ جزو جو ان روبوٹس کو ذہانت اور خودمختاری سے آراستہ کرتا ہے – ایک اہم گمشدہ ٹکڑا رہا ہے۔

اس شعبے میں گوگل کی کوششیں زور پکڑ رہی ہیں۔ کمپنی نے معروف روبوٹکس کمپنیوں، بشمول Boston Dynamics، Agility Robotics، اور Enchanted Tools کو ‘ٹرسٹڈ ٹیسٹر’ پروگرام کے ذریعے Gemini Robotics-ER تک محدود رسائی دی ہے۔ یہ باہمی تعاون کا طریقہ حقیقی طور پر قابل ہیومنائیڈ روبوٹس کی ترقی اور تعیناتی کو تیز کرنے کی ایک مربوط کوشش کی تجویز کرتا ہے۔

سیفٹی فرسٹ: ذمہ دار روبوٹکس کے لیے ایک تہہ دار نقطہ نظر

روبوٹکس میں حفاظت کی اولین اہمیت کو تسلیم کرتے ہوئے، گوگل روایتی روبوٹ حفاظتی اقدامات کو شامل کرنے والے ‘تہہ دار، جامع نقطہ نظر’ پر زور دیتا ہے۔ ان اقدامات میں تصادم سے بچاؤ اور طاقت کی حدود شامل ہیں، اس بات کو یقینی بناتے ہوئے کہ روبوٹ محفوظ پیرامیٹرز کے اندر کام کریں۔

مزید برآں، کمپنی ایک ‘روبوٹ کانسٹی ٹیوشن’ فریم ورک کی ترقی کو بیان کرتی ہے۔ یہ فریم ورک، جو Isaac Asimov کے Three Laws of Robotics سے متاثر ہے، روبوٹس کی اخلاقی اور محفوظ ترقی اور تعیناتی کے لیے رہنما اصولوں کا ایک مجموعہ فراہم کرتا ہے۔ اس فریم ورک کے ساتھ مل کر، گوگل نے ایک ڈیٹا سیٹ جاری کیا ہے، جسے مناسب طور پر ‘ASIMOV’ کا نام دیا گیا ہے، جو محققین کو روبوٹک ایکشنز کے حفاظتی مضمرات کا جائزہ لینے میں مدد کرنے کے لیے ڈیزائن کیا گیا ہے۔

ASIMOV ڈیٹا سیٹ: حفاظتی تشخیص کو معیاری بنانا

ASIMOV ڈیٹا سیٹ روبوٹ کی حفاظت کا جائزہ لینے کے لیے معیاری طریقے قائم کرنے کی گوگل کی کوشش کی نمائندگی کرتا ہے، جو جسمانی نقصان کی روک تھام سے آگے بڑھتا ہے۔ ڈیٹا سیٹ محققین کو اس بات کا جائزہ لینے میں مدد کرنے کے لیے ڈیزائن کیا گیا ہے کہ AI ماڈلز مختلف منظرناموں میں روبوٹ کے اعمال کے ممکنہ نتائج کو کتنی اچھی طرح سمجھتے ہیں۔ گوگل کے اعلان کے مطابق، ڈیٹا سیٹ ‘محققین کو حقیقی دنیا کے منظرناموں میں روبوٹک ایکشنز کے حفاظتی مضمرات کی سختی سے پیمائش کرنے میں مدد کرے گا۔’ یہ اقدام روبوٹکس کے شعبے میں ذمہ دار جدت طرازی کے لیے گوگل کے عزم کو اجاگر کرتا ہے۔

روبوٹکس کا مستقبل: امکانات میں ایک جھلک

اگرچہ گوگل نے ابھی تک نئے AI ماڈلز کے لیے مخصوص ٹائم لائنز یا تجارتی ایپلی کیشنز کا اعلان نہیں کیا ہے، جو فی الحال تحقیقی مرحلے میں ہیں، لیکن ظاہر کی گئی پیش رفت بلاشبہ اہم ہیں۔ گوگل کی جانب سے جاری کردہ ڈیمو ویڈیوز AI سے چلنے والی صلاحیتوں میں نمایاں پیش رفت کو ظاہر کرتی ہیں۔ تاہم، یہ تسلیم کرنا ضروری ہے کہ یہ مظاہرے کنٹرول شدہ تحقیقی ماحول میں کیے گئے ہیں۔ ان سسٹمز کا اصل امتحان حقیقی دنیا کی غیر متوقع اور متحرک ترتیبات میں قابل اعتماد اور محفوظ طریقے سے کام کرنے کی ان کی صلاحیت میں ہوگا۔

Gemini Robotics اور Gemini Robotics-ER کی ترقی روبوٹکس کے ارتقاء میں ایک اہم لمحے کی نمائندگی کرتی ہے۔ ان ماڈلز میں مہارت، موافقت اور خودمختاری کے ایک نئے دور کو کھولنے کی صلاحیت ہے، جس سے روبوٹس کے لیے ہماری زندگیوں میں بغیر کسی رکاوٹ کے ضم ہونے اور کاموں کی ایک وسیع رینج میں حصہ ڈالنے کی راہ ہموار ہوتی ہے۔ جیسے جیسے تحقیق آگے بڑھتی ہے اور یہ ٹیکنالوجیز پختہ ہوتی ہیں، ہم ایک ایسے مستقبل کی توقع کر سکتے ہیں جہاں روبوٹ ہمارے گھروں، کام کی جگہوں اور کمیونٹیز میں تیزی سے نمایاں کردار ادا کریں۔ حقیقی طور پر مجسم AI کی طرف سفر جاری ہے، لیکن گوگل کی تازہ ترین پیش رفت آنے والے دلچسپ امکانات کی ایک زبردست جھلک پیش کرتی ہے۔ جدید ترین ہارڈ ویئر اور تیزی سے ذہین سافٹ ویئر کا فیوژن روبوٹکس کے منظر نامے کو تبدیل کرنے کے لیے تیار ہے، جو ہمیں ایک ایسے مستقبل کے قریب لا رہا ہے جہاں روبوٹ صرف اوزار نہیں ہیں، بلکہ ہماری روزمرہ کی زندگیوں میں ورسٹائل پارٹنر ہیں۔