গুগলের নতুন রোবট এআই: ডেক্সটারাস!

এমবডেড এআই-এর অনুসন্ধান: একটি মুনশট লক্ষ্য

বহু বছর ধরে, রোবোটিক্স শিল্প “এমবডেড এআই” তৈরির অধরা লক্ষ্যটি অনুসরণ করে আসছে - কৃত্রিম বুদ্ধিমত্তা তৈরি করা যা রোবটগুলিকে স্বায়ত্তশাসিতভাবে নিয়ন্ত্রণ করতে সক্ষম, বিভিন্ন পরিস্থিতিতে, নিরাপত্তা এবং নির্ভুলতা বজায় রেখে। Nvidia-র মতো সংস্থাগুলি সক্রিয়ভাবে এই উচ্চাকাঙ্ক্ষাটিকে অনুসরণ করছে, এটি একটি “পবিত্র গ্রেইল” হিসাবে রয়ে গেছে যা রোবটগুলিকে বাস্তব জগতে বিভিন্ন কাজ করতে সক্ষম বহুমুখী কর্মী হিসাবে রূপান্তরিত করার ক্ষমতা রাখে।

জেমিনি রোবোটিক্স: ভাষা এবং দর্শনের ভিত্তিতে নির্মাণ

Google-এর নতুন মডেলগুলি Gemini 2.0 বৃহৎ ভাষা মডেলের শক্তিকে কাজে লাগায়, রোবোটিক অ্যাপ্লিকেশনের নির্দিষ্ট চাহিদাগুলি পূরণ করতে এর ক্ষমতাগুলিকে প্রসারিত করে৷ Gemini Robotics-এ Google যাকে ‘ভিশন-ল্যাঙ্গুয়েজ-অ্যাকশন’ (VLA) ক্ষমতা বলে অভিহিত করেছে, তা অন্তর্ভুক্ত রয়েছে। এটি মডেলটিকে ভিজ্যুয়াল ইনপুট প্রক্রিয়া করতে, প্রাকৃতিক ভাষার কমান্ডগুলি ব্যাখ্যা করতে এবং এই ইনপুটগুলিকে সুনির্দিষ্ট শারীরিক গতিবিধিতে অনুবাদ করতে দেয়। অন্যদিকে, Gemini Robotics-ER ‘এমবডেড রিজনিং’-এর উপর দৃষ্টি নিবদ্ধ করে, উন্নত স্থানিক বোঝার গর্ব করে যা বিদ্যমান রোবট নিয়ন্ত্রণ সিস্টেমগুলির সাথে নির্বিঘ্ন ইন্টিগ্রেশন সক্ষম করে।

বোঝা থেকে কর্ম: দক্ষতার একটি নতুন যুগ

এই অগ্রগতির ব্যবহারিক প্রভাবগুলি গভীর। কল্পনা করুন যে Gemini Robotics সজ্জিত একটি রোবটকে নির্দেশ দিচ্ছেন ‘কলাটি তুলে নিন এবং ঝুড়িতে রাখুন’। রোবটটি, তার ক্যামেরা-ভিত্তিক দৃষ্টি ব্যবহার করে, কলাটি সনাক্ত করবে এবং কাজটি সম্পাদন করতে দক্ষতার সাথে তার রোবোটিক বাহুকে গাইড করবে। অথবা ‘একটি অরিগামি ফক্স ভাঁজ করুন’ কমান্ডটি বিবেচনা করুন। রোবটটি, অরিগামি এবং কাগজের সূক্ষ্ম ভাঁজ সম্পর্কে তার জ্ঞানের উপর ভিত্তি করে, সতর্কতার সাথে জটিল কাজটি সম্পাদন করবে।

২০২৩ সালে, Google-এর RT-2 মডেল জেনারেলাইজড রোবোটিক ক্ষমতার দিকে একটি উল্লেখযোগ্য পদক্ষেপ চিহ্নিত করেছে। ইন্টারনেটের ডেটা ব্যবহার করে, RT-2 রোবটগুলিকে ভাষার কমান্ড বুঝতে এবং নতুন পরিস্থিতিতে মানিয়ে নিতে সক্ষম করেছে, যা তার পূর্বসূরীর তুলনায় অদেখা কাজগুলিতে দ্বিগুণ পারফরম্যান্স দেখিয়েছে। দুই বছর পর, Gemini Robotics আরেকটি উল্লেখযোগ্য অগ্রগতি করেছে বলে মনে হচ্ছে, যা কেবল বোধগম্যতাকে অতিক্রম করে জটিল শারীরিক ম্যানিপুলেশনগুলি সম্পাদন করতে সক্ষম হয়েছে, যা RT-2 এর নাগালের বাইরে ছিল।

যদিও RT-2 পূর্বে অনুশীলন করা শারীরিক গতিবিধিগুলিকে পুনরায় ব্যবহার করার মধ্যে সীমাবদ্ধ ছিল, Gemini Robotics-এর রিপোর্টে দক্ষতার একটি অসাধারণ উন্নতি প্রদর্শিত হয়েছে। এই নতুন দক্ষতা পূর্বে অপ্রাপ্য কাজগুলিকে আনলক করে, যেমন অরিগামি ভাঁজ করার সূক্ষ্ম শিল্প এবং Zip-loc ব্যাগে স্ন্যাকসগুলির সুনির্দিষ্ট প্যাকিং। এই রূপান্তর - যে রোবটগুলি কেবল কমান্ডগুলি বোঝে সেগুলি থেকে সূক্ষ্ম শারীরিক কাজগুলি সম্পাদন করতে সক্ষম রোবট - এটি ইঙ্গিত দেয় যে DeepMind রোবোটিক্সের অন্যতম স্থায়ী চ্যালেঞ্জ সমাধানের দ্বারপ্রান্তে থাকতে পারে: রোবটগুলিকে তাদের ‘জ্ঞান’কে বাস্তব জগতে সতর্ক, সুনির্দিষ্ট গতিবিধিতে অনুবাদ করতে সক্ষম করা।

জেনারেলাইজেশন: বাস্তব-বিশ্বের অভিযোজনযোগ্যতার চাবিকাঠি

DeepMind জোর দেয় যে নতুন Gemini Robotics সিস্টেম উল্লেখযোগ্যভাবে উন্নত জেনারেলাইজেশন প্রদর্শন করে - নতুন কাজগুলি সম্পাদন করার ক্ষমতা যার জন্য এটিকে স্পষ্টভাবে প্রশিক্ষণ দেওয়া হয়নি। এটি একটি গুরুত্বপূর্ণ অগ্রগতি। কোম্পানির ঘোষণা অনুসারে, Gemini Robotics ‘অন্যান্য অত্যাধুনিক ভিশন-ল্যাঙ্গুয়েজ-অ্যাকশন মডেলের তুলনায় একটি ব্যাপক জেনারেলাইজেশন বেঞ্চমার্কে দ্বিগুণেরও বেশি পারফরম্যান্স দেখিয়েছে।’

জেনারেলাইজেশন অত্যন্ত গুরুত্বপূর্ণ কারণ প্রতিটি পরিস্থিতির জন্য নির্দিষ্ট প্রশিক্ষণের প্রয়োজন ছাড়াই নতুন পরিস্থিতিতে মানিয়ে নিতে সক্ষম রোবটগুলি অপ্রত্যাশিত বাস্তব-বিশ্বের পরিবেশে কার্যকরভাবে কাজ করার চাবিকাঠি ধারণ করে। এই অভিযোজনযোগ্যতাই একটি বিশেষায়িত, টাস্ক-নির্দিষ্ট রোবটকে একটি সত্যিকারের বহুমুখী এবং অভিযোজনযোগ্য মেশিন থেকে পৃথক করে।

একটি জেনারালিস্ট রোবট মস্তিষ্ক: Google-এর উচ্চাভিলাষী দৃষ্টিভঙ্গি

Google-এর প্রচেষ্টা স্পষ্টতই একটি ‘জেনারালিস্ট রোবট মস্তিষ্ক’ তৈরির দিকে পরিচালিত - একটি বহুমুখী AI যা বিভিন্ন রোবোটিক প্ল্যাটফর্ম নিয়ন্ত্রণ করতে সক্ষম। এই দৃষ্টিভঙ্গির সাথে সঙ্গতি রেখে, কোম্পানিটি ‘Gemini 2.0-এর সাথে পরবর্তী প্রজন্মের হিউম্যানয়েড রোবট তৈরি করতে’ একটি শীর্ষস্থানীয় রোবোটিক্স কোম্পানি Apptronik-এর সাথে অংশীদারিত্ব ঘোষণা করেছে।

যদিও প্রাথমিকভাবে ALOHA 2 নামে পরিচিত একটি বাইম্যানুয়াল রোবট প্ল্যাটফর্মে প্রশিক্ষিত, Google বলেছে যে Gemini Robotics-এর বিভিন্ন রোবটের প্রকার নিয়ন্ত্রণ করার বহুমুখীতা রয়েছে। এর মধ্যে রয়েছে গবেষণা-ভিত্তিক Franka রোবোটিক আর্মস এবং Apptronik-এর Apollo রোবটের মতো আরও অত্যাধুনিক হিউম্যানয়েড সিস্টেম। এই অভিযোজনযোগ্যতা Gemini Robotics-এর বিভিন্ন রোবোটিক অ্যাপ্লিকেশনের জন্য একটি সর্বজনীন ‘মস্তিষ্ক’ হওয়ার সম্ভাবনাকে তুলে ধরে।

হিউম্যানয়েড রোবোটিক্স ল্যান্ডস্কেপ: হার্ডওয়্যার এবং সফ্টওয়্যার একত্রিত হয়

হিউম্যানয়েড রোবোটিক্সের সাধনা একটি সহযোগিতামূলক প্রচেষ্টা, যেখানে অসংখ্য কোম্পানি এই চ্যালেঞ্জের বিভিন্ন ক্ষেত্রে অবদান রাখছে। Figure AI এবং Boston Dynamics (পূর্বে একটি Alphabet-এর সহায়ক সংস্থা)-এর মতো কোম্পানিগুলি উন্নত হিউম্যানয়েড রোবোটিক্স হার্ডওয়্যার তৈরিতে অধ্যবসায়ের সাথে কাজ করছে। যাইহোক, একটি সত্যিকারের কার্যকর AI ‘ড্রাইভার’ - সফ্টওয়্যার উপাদান যা এই রোবটগুলিকে বুদ্ধি এবং স্বায়ত্তশাসন প্রদান করে - একটি গুরুত্বপূর্ণ অনুপস্থিত অংশ হিসাবে রয়ে গেছে।

এই ক্ষেত্রে Google-এর প্রচেষ্টা গতি পাচ্ছে। কোম্পানিটি Boston Dynamics, Agility Robotics, এবং Enchanted Tools-সহ শীর্ষস্থানীয় রোবোটিক্স কোম্পানিগুলিকে একটি ‘বিশ্বস্ত পরীক্ষক’ প্রোগ্রামের মাধ্যমে Gemini Robotics-ER-এ সীমিত অ্যাক্সেস দিয়েছে। এই সহযোগিতামূলক পদ্ধতিটি সত্যিকারের সক্ষম হিউম্যানয়েড রোবটগুলির বিকাশ এবং স্থাপনাকে ত্বরান্বিত করার জন্য একটি সমন্বিত প্রচেষ্টার ইঙ্গিত দেয়।

নিরাপত্তা প্রথম: দায়িত্বশীল রোবোটিক্সের জন্য একটি স্তরযুক্ত পদ্ধতি

রোবোটিক্সে নিরাপত্তার গুরুত্ব স্বীকার করে, Google একটি ‘স্তরযুক্ত, সামগ্রিক পদ্ধতির’ উপর জোর দেয় যা ঐতিহ্যগত রোবট নিরাপত্তা ব্যবস্থাগুলিকে অন্তর্ভুক্ত করে। এই ব্যবস্থাগুলির মধ্যে রয়েছে সংঘর্ষ এড়ানো এবং বল সীমাবদ্ধতা, যা নিশ্চিত করে যে রোবটগুলি নিরাপদ সীমার মধ্যে কাজ করে।

অধিকন্তু, কোম্পানিটি একটি ‘রোবট সংবিধান’ কাঠামোর বিকাশের বর্ণনা দেয়। এই কাঠামোটি, Isaac Asimov-এর রোবোটিক্সের তিনটি নিয়ম দ্বারা অনুপ্রাণিত হয়ে, রোবটগুলির নৈতিক ও নিরাপদ বিকাশ এবং স্থাপনার জন্য নির্দেশিকাগুলির একটি সেট সরবরাহ করে। এই কাঠামোর সাথে, Google ‘ASIMOV’ নামে একটি ডেটাসেট প্রকাশ করেছে, যা গবেষকদের রোবোটিক অ্যাকশনের নিরাপত্তার প্রভাবগুলি মূল্যায়ন করতে সহায়তা করার জন্য ডিজাইন করা হয়েছে।

ASIMOV ডেটাসেট: নিরাপত্তা মূল্যায়ন স্ট্যান্ডার্ডাইজ করা

ASIMOV ডেটাসেটটি Google-এর রোবটের নিরাপত্তা মূল্যায়নের জন্য প্রমিত পদ্ধতি প্রতিষ্ঠার প্রচেষ্টাকে উপস্থাপন করে, যা শারীরিক ক্ষতি প্রতিরোধের বাইরেও প্রসারিত। ডেটাসেটটি গবেষকদের বিভিন্ন পরিস্থিতিতে রোবটের ক্রিয়াকলাপের সম্ভাব্য পরিণতিগুলি AI মডেলগুলি কতটা ভালভাবে বোঝে তা মূল্যায়ন করতে সহায়তা করার জন্য ডিজাইন করা হয়েছে। Google-এর ঘোষণা অনুসারে, ডেটাসেটটি ‘গবেষকদের বাস্তব-বিশ্বের পরিস্থিতিতে রোবোটিক অ্যাকশনের নিরাপত্তার প্রভাবগুলি কঠোরভাবে পরিমাপ করতে সহায়তা করবে।’ এই উদ্যোগটি রোবোটিক্সের ক্ষেত্রে দায়িত্বশীল উদ্ভাবনের প্রতি Google-এর প্রতিশ্রুতিকে তুলে ধরে।

রোবোটিক্সের ভবিষ্যত: সম্ভাবনার এক ঝলক

যদিও Google এখনও নতুন AI মডেলগুলির জন্য নির্দিষ্ট সময়সীমা বা বাণিজ্যিক অ্যাপ্লিকেশন ঘোষণা করেনি, যা বর্তমানে একটি গবেষণা পর্যায়ে রয়েছে, প্রদর্শিত অগ্রগতিগুলি অনস্বীকার্যভাবে তাৎপর্যপূর্ণ। Google-এর প্রকাশিত ডেমো ভিডিওগুলি AI-চালিত ক্ষমতাগুলিতে উল্লেখযোগ্য অগ্রগতি প্রদর্শন করে। যাইহোক, এটি স্বীকার করা গুরুত্বপূর্ণ যে এই প্রদর্শনগুলি নিয়ন্ত্রিত গবেষণা পরিবেশে পরিচালিত হয়েছে। এই সিস্টেমগুলির আসল পরীক্ষাটি বাস্তব বিশ্বের অপ্রত্যাশিত এবং গতিশীল সেটিংসে নির্ভরযোগ্যভাবে এবং নিরাপদে কাজ করার ক্ষমতার মধ্যে নিহিত থাকবে।

Gemini Robotics এবং Gemini Robotics-ER-এর বিকাশ রোবোটিক্সের বিবর্তনে একটি গুরুত্বপূর্ণ মুহূর্তকে উপস্থাপন করে। এই মডেলগুলির মধ্যে দক্ষতা, অভিযোজনযোগ্যতা এবং স্বায়ত্তশাসনের একটি নতুন যুগের সূচনা করার সম্ভাবনা রয়েছে, যা রোবটগুলির জন্য আমাদের জীবনে নির্বিঘ্নে একত্রিত হওয়ার এবং বিভিন্ন কাজে অবদান রাখার পথ প্রশস্ত করে৷ গবেষণা অগ্রসর হওয়ার সাথে সাথে এবং এই প্রযুক্তিগুলি পরিপক্ক হওয়ার সাথে সাথে, আমরা এমন একটি ভবিষ্যতের প্রত্যাশা করতে পারি যেখানে রোবটগুলি আমাদের বাড়ি, কর্মক্ষেত্র এবং সম্প্রদায়গুলিতে ক্রমবর্ধমান বিশিষ্ট ভূমিকা পালন করবে। সত্যিকারের মূর্ত AI-এর দিকে যাত্রা চলমান, কিন্তু Google-এর সাম্প্রতিক অগ্রগতিগুলি সামনে থাকা উত্তেজনাপূর্ণ সম্ভাবনাগুলির একটি আকর্ষক ঝলক দেখায়। অত্যাধুনিক হার্ডওয়্যার এবং ক্রমবর্ধমান বুদ্ধিমান সফ্টওয়্যারের সংমিশ্রণ রোবোটিক্সের ল্যান্ডস্কেপকে রূপান্তরিত করতে প্রস্তুত, যা আমাদেরকে এমন একটি ভবিষ্যতের কাছাকাছি নিয়ে আসছে যেখানে রোবটগুলি কেবল সরঞ্জাম নয়, আমাদের দৈনন্দিন জীবনের বহুমুখী অংশীদার।