নির্ভরযোগ্য এআই এজেন্ট প্রশিক্ষণে নতুন পদ্ধতি: RAGEN

কৃত্রিম বুদ্ধিমত্তা (এআই) এজেন্টদের ঘিরে প্রত্যাশা বহু বছর ধরে বাড়ছে। অনেক বিশেষজ্ঞ ভবিষ্যদ্বাণী করেছেন যে ২০২৫ সাল হবে সেই বছর যখন এই বিশেষ কাজ-ভিত্তিক এআই বাস্তবায়ন, যা উন্নত বৃহৎ ভাষা এবং মাল্টিমোডাল মডেল (এলএলএম) দ্বারা চালিত, সত্যিই শুরু হবে। তবে বাস্তবতা হলো, বেশিরভাগ এআই এজেন্ট পরীক্ষামূলক স্তরে রয়ে গেছে, যা গবেষণা ল্যাব থেকে বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলিতে স্থানান্তরিত হতে সংগ্রাম করছে।

নর্থওয়েস্টার্ন ইউনিভার্সিটি, মাইক্রোসফট, স্ট্যানফোর্ড এবং ওয়াশিংটন বিশ্ববিদ্যালয়ের গবেষকদের একটি যৌথ প্রচেষ্টা, যেখানে দীপসিকের প্রাক্তন গবেষক জিহান ওয়াংও রয়েছেন, তারা RAGEN নামে একটি নতুন সিস্টেম চালু করেছেন। এই নতুন কাঠামো এআই এজেন্টদের প্রশিক্ষণ ও মূল্যায়ন করার লক্ষ্য রাখে, যা তাদের ব্যবহারিক এবং এন্টারপ্রাইজ-স্তরের ব্যবহারের জন্য আরও নির্ভরযোগ্য এবং স্থিতিস্থাপক করে তুলবে।

ঐতিহ্যবাহী এআই টাস্কগুলি যেমন গণিত বা কোডিংয়ের মতো স্থির সমস্যাগুলির উপর দৃষ্টি নিবদ্ধ করে, RAGEN বহু-পালা, ইন্টারেক্টিভ পরিস্থিতি মোকাবিলা করে যেখানে এজেন্টদের অবশ্যই অনিশ্চিত পরিবেশে খাপ খাইয়ে নিতে, শিখতে এবং যুক্তি দিতে হয়। বাস্তব বিশ্বের জটিল পরিস্থিতি মোকাবেলার জন্য এআই বিকাশের জন্য এই পদ্ধতি অত্যন্ত গুরুত্বপূর্ণ।

RAGEN এর কেন্দ্রবিন্দুতে রয়েছে StarPO (State-Thinking-Actions-Reward Policy Optimization) নামে একটি কাস্টম রিইনফোর্সমেন্ট লার্নিং (আরএল) কাঠামো। এই সিস্টেমটি অনুসন্ধান করে যে কীভাবে এলএলএমগুলি মুখস্থ করার পরিবর্তে অভিজ্ঞতার মাধ্যমে শিখতে পারে। StarPO শুধুমাত্র পৃথক প্রতিক্রিয়ার উপর নয়, বরং মিথস্ক্রিয়ার সম্পূর্ণ গতিপথ বিবেচনা করে, সম্পূর্ণ সিদ্ধান্ত গ্রহণের প্রক্রিয়ার উপর দৃষ্টি নিবদ্ধ করে।

StarPO দুটি স্বতন্ত্র পর্যায়ের মাধ্যমে কাজ করে যা একসাথে কাজ করে। প্রথম পর্যায়, যাকে রোলআউট স্টেজ বলা হয়, এতে এলএলএম যুক্তির দ্বারা পরিচালিত সম্পূর্ণ মিথস্ক্রিয়া ক্রম তৈরি করে। দ্বিতীয় পর্যায়, আপডেট স্টেজ, স্বাভাবিক ক্রমবর্ধিত পুরস্কার ব্যবহার করে মডেলটিকে অপ্টিমাইজ করে। এই কাঠামোটি স্ট্যান্ডার্ড নীতি অপ্টিমাইজেশন পদ্ধতির তুলনায় আরও স্থিতিশীল এবং স্বচ্ছ শিক্ষার লুপ তৈরি করে।

গবেষকরা আলিবাবার Qwen মডেলগুলির ফাইন-টিউনড সংস্করণ ব্যবহার করে কাঠামোটি বাস্তবায়ন এবং কঠোরভাবে পরীক্ষা করেছেন, বিশেষ করে Qwen 1.5 এবং Qwen 2.5। এই মডেলগুলি তাদের ওপেন ওয়েট এবং কার্যকরভাবে নির্দেশাবলী অনুসরণ করার ক্ষমতার জন্য নির্বাচিত হয়েছিল, যা বিভিন্ন প্রতীকী কাজ জুড়ে পুনরুত্পাদনযোগ্যতা এবং সামঞ্জস্যপূর্ণ বেসলাইন তুলনা করার অনুমতি দেয়।

"ইকো ট্র্যাপ" অতিক্রম করা: রিইনফোর্সমেন্ট লার্নিং এবং রিজনিং লস

জিহান ওয়াং একটি বহুল প্রচারিত X থ্রেডে একটি মূল চ্যালেঞ্জ তুলে ধরেছেন: ‘কেন আপনার আরএল প্রশিক্ষণ সর্বদা ভেঙে যায়?’ দলের মতে, এলএলএম এজেন্ট প্রাথমিকভাবে ভাল যুক্তিযুক্ত, প্রতীকী প্রতিক্রিয়া তৈরি করে। যাইহোক, আরএল সিস্টেমগুলি সময়ের সাথে সাথে শর্টকাটগুলিকে পুরস্কৃত করে, যার ফলে পুনরাবৃত্তিমূলক আচরণ হয় যা শেষ পর্যন্ত সামগ্রিক কর্মক্ষমতা হ্রাস করে। এই ঘটনাটিকেই তারা ‘ইকো ট্র্যাপ’ বলে অভিহিত করে।

এই রিগ্রেশনটি প্রতিক্রিয়া লুপের কারণে ঘটে যেখানে কিছু নির্দিষ্ট বাক্যাংশ বা কৌশল প্রাথমিকভাবে উচ্চ পুরস্কার দেয়, যা তাদের অতিরিক্ত ব্যবহারের দিকে পরিচালিত করে এবং নতুন পদ্ধতির অনুসন্ধানকে বাধা দেয়। ওয়াং উল্লেখ করেছেন যে এটি পরিমাণযোগ্য, পরিমাপযোগ্য পুরস্কারের ভিন্নতা, গ্রেডিয়েন্ট স্পাইক এবং যুক্তির চিহ্নগুলির অদৃশ্য হওয়ার সাথে।

নিয়ন্ত্রিত সেটিংয়ে এই আচরণগুলি পরীক্ষা করার জন্য, RAGEN তিনটি প্রতীকী পরিবেশ ব্যবহার করে:

  • ব্যান্ডিট: এটি একটি একক-পালা, স্টোকাস্টিক টাস্ক যা প্রতীকী ঝুঁকি-পুরস্কার যুক্তি মূল্যায়ন করে।
  • সোকোবান: একটি বহু-পালা, ডিটারমিনিস্টিক ধাঁধা যাতে অপরিবর্তনীয় সিদ্ধান্ত জড়িত।
  • ফ্রোজেন লেক: এটি একটি স্টোকাস্টিক, বহু-পালা টাস্ক যা অভিযোজিত পরিকল্পনার দাবি করে।

প্রতিটি পরিবেশ বাস্তব-বিশ্বের পক্ষপাতগুলি হ্রাস করার জন্য সতর্কতার সাথে ডিজাইন করা হয়েছে, পরিবর্তে প্রশিক্ষণের সময় উদ্ভূত সিদ্ধান্ত গ্রহণের কৌশলগুলির উপর দৃষ্টি নিবদ্ধ করে।

উদাহরণস্বরূপ, ব্যান্ডিট পরিবেশে, এজেন্টদের জানানো হয় যে ‘ড্রাগন’ এবং ‘ফিনিক্স’ বাহু বিভিন্ন পুরস্কার বিতরণ উপস্থাপন করে। সরাসরি সম্ভাবনা সরবরাহ করার পরিবর্তে, এজেন্টদের প্রতীকীভাবে যুক্তি দিতে হবে, ফলাফলগুলি ভবিষ্যদ্বাণী করার জন্য ‘ড্রাগন’-কে ‘শক্তি’ এবং ‘ফিনিক্স’-কে ‘আশা’ হিসাবে ব্যাখ্যা করতে হবে। এই ধরণের সেটআপ মডেলটিকে ব্যাখ্যাযোগ্য, আনুপাতিক যুক্তি তৈরি করতে উত্সাহিত করে।

StarPO-S এর মাধ্যমে রিইনফোর্সমেন্ট লার্নিং স্থিতিশীল করা

প্রশিক্ষণ ভেঙে যাওয়ার সমস্যা সমাধানের জন্য, গবেষকরা StarPO-S তৈরি করেছেন, যা মূল কাঠামোর একটি স্থিতিশীল সংস্করণ। StarPO-S তিনটি মূল হস্তক্ষেপ অন্তর্ভুক্ত করে:

  1. অনিশ্চয়তা-ভিত্তিক রোলআউট ফিল্টারিং: এটি সেই রোলআউটগুলিকে অগ্রাধিকার দেয় যেখানে এজেন্ট ফলাফলের বিষয়ে অনিশ্চয়তা প্রদর্শন করে।
  2. কেএল পেনাল্টি অপসারণ: মডেলটিকে তার মূল নীতি থেকে আরও অবাধে বিচ্যুত হতে এবং নতুন আচরণগুলি অন্বেষণ করতে দেয়।
  3. অসমমিতিক পিপিও ক্লিপিং: এটি নিম্ন-পুরস্কারের তুলনায় উচ্চ-পুরস্কারের গতিপথকে আরও বেশি প্রশস্ত করে শেখার উন্নতি করতে।

এই সমন্বয়গুলি প্রশিক্ষণ ভেঙে যাওয়া বিলম্বিত করে বা নির্মূল করে, যার ফলে তিনটি কাজ জুড়ে উন্নত কর্মক্ষমতা দেখা যায়। ওয়াংয়ের মতে, ‘StarPO-S… ৩টি কাজের সবগুলিতে কাজ করে। পতন থেকে মুক্তি দেয়। আরও ভালো পুরস্কার।’

আরএল প্রশিক্ষণের সাফল্য কেবল আর্কিটেকচারের উপর নয়, এজেন্টদের দ্বারা উত্পাদিত ডেটার মানের উপরও নির্ভর করে। দলটি তিনটি গুরুত্বপূর্ণ মাত্রা চিহ্নিত করেছে যা প্রশিক্ষণকে উল্লেখযোগ্যভাবে প্রভাবিত করে:

  • টাস্ক ডাইভার্সিটি: মডেলটিকে প্রাথমিক পরিস্থিতিগুলির একটি বিস্তৃত পরিসরে উন্মুক্ত করা সাধারণীকরণকে বাড়িয়ে তোলে।
  • ইন্টারঅ্যাকশন গ্রানুলারিটি: প্রতি টার্নে একাধিক ক্রিয়াকলাপের অনুমতি দেওয়া আরও অর্থবহ পরিকল্পনার সুযোগ দেয়।
  • রোলআউট ফ্রেশনেস: প্রশিক্ষণ ডেটাকে বর্তমান মডেল নীতির সাথে সামঞ্জস্য রাখা পুরানো শেখার সংকেতগুলি এড়ায়।

একসাথে, এই কারণগুলি আরও স্থিতিশীল এবং কার্যকর প্রশিক্ষণ প্রক্রিয়ায় অবদান রাখে।

এজেন্ট চিন্তাভাবনা উন্মোচন করা

গিটহাবে গবেষকদের দ্বারা তৈরি একটি ইন্টারেক্টিভ ডেমো সাইট এজেন্ট রোলআউটগুলিকে সম্পূর্ণ সংলাপ টার্ন হিসাবে দৃশ্যমানভাবে উপস্থাপন করে, যা শুধুমাত্র নেওয়া পদক্ষেপগুলিই নয়, তাদের পিছনের ধাপে ধাপে চিন্তাভাবনাও প্রকাশ করে।

উদাহরণস্বরূপ, একটি গাণিতিক সমস্যা সমাধানের সময়, একজন এজেন্ট প্রথমে ‘x = 5’-এর মতো উত্তর জমা দেওয়ার আগে একটি ভেরিয়েবলকে আলাদা করার বিষয়ে ‘চিন্তা’ করতে পারে। এই মধ্যবর্তী চিন্তাগুলি দৃশ্যমান এবং সন্ধানযোগ্য, যা এজেন্টরা কীভাবে সিদ্ধান্তে পৌঁছায় সে সম্পর্কে স্বচ্ছতা সরবরাহ করে।

যদিও সুস্পষ্ট যুক্তি ব্যান্ডিটের মতো সরল, একক-পালা কাজে কর্মক্ষমতা উন্নত করে, তবে এটি বহু-পালা প্রশিক্ষণের সময় হ্রাস পায়। কাঠামোগত প্রম্পট এবং টোকেন ব্যবহার করা সত্ত্বেও, যুক্তির চিহ্নগুলি প্রায়শই সঙ্কুচিত হয় বা অদৃশ্য হয়ে যায় যদি না স্পষ্টভাবে পুরস্কৃত করা হয়।

এটি ঐতিহ্যবাহী পুরস্কার ডিজাইনের একটি সীমাবদ্ধতা তুলে ধরে: টাস্ক সমাপ্তির দিকে মনোনিবেশ করা প্রক্রিয়ার গুণমানকে উপেক্ষা করতে পারে। দলটি আরও ভাল কাঠামোগত যুক্তিকে উৎসাহিত করার জন্য বিন্যাস-ভিত্তিক জরিমানা নিয়ে পরীক্ষা করেছে, তবে স্বীকার করে যে আরও পরিশীলিত পুরস্কার গঠন সম্ভবত প্রয়োজন।

এআই এজেন্ট ডেভেলপমেন্টের জন্য ওপেন-সোর্স টুলস

RAGEN, এর StarPO এবং StarPO-S কাঠামো সহ, এখন একটি ওপেন-সোর্স প্রকল্প হিসাবে উপলব্ধ। এটি তাদের জন্য একটি মূল্যবান ভিত্তি প্রদান করে যারা এআই এজেন্ট তৈরি করতে আগ্রহী যা কেবল কাজগুলি সম্পন্ন করে না, বরং চিন্তা করে, পরিকল্পনা করে এবং বিকাশ করে।

এআই যখন বৃহত্তর স্বায়ত্তশাসনের দিকে অগ্রসর হচ্ছে, তখন RAGEN-এর মতো প্রকল্পগুলি সেই মডেলগুলিকে প্রশিক্ষণ দিতে কী লাগে তার উপর আলোকপাত করে যা ডেটা এবং তাদের নিজস্ব কর্মের পরিণতি উভয় থেকে শেখে।

বাস্তব-বিশ্বের বাস্তবায়নের জন্য মূল প্রশ্ন

RAGEN পেপারটি একটি বিশদ প্রযুক্তিগত কাঠামো সরবরাহ করলেও, এন্টারপ্রাইজ পরিবেশে এর প্রয়োগ বিবেচনা করার জন্য বেশ কয়েকটি ব্যবহারিক প্রশ্ন রয়ে গেছে। উদাহরণস্বরূপ, RAGEN-এর পদ্ধতিটি এই স্টাইলাইজড, প্রতীকী কাজগুলির বাইরে কতটা ভালভাবে অনুবাদ করে? চালান প্রক্রিয়াকরণ বা গ্রাহক সহায়তার মতো ওয়ার্কফ্লোতে এই সিস্টেমটি ব্যবহার করার জন্য সংস্থাগুলিকে কি সম্পূর্ণ নতুন পরিবেশ এবং পুরস্কার ফাংশন তৈরি করতে হবে?

আরেকটি গুরুত্বপূর্ণ বিবেচনা হলো পরিমাপযোগ্যতা। StarPO-S দ্বারা প্রদত্ত উন্নতিগুলির সাথেও, পেপারটি স্বীকার করে যে প্রশিক্ষণ দীর্ঘ সময়ের মধ্যে ভেঙে যেতে পারে। এটি একটি তাত্ত্বিক বা ব্যবহারিক পথ আছে কিনা তা নিয়ে প্রশ্ন তোলে যা উন্মুক্ত বা ক্রমাগত বিকাশমান টাস্ক সিকোয়েন্সে যুক্তি বজায় রাখতে পারে।

RAGEN আরও স্বায়ত্তশাসিত, যুক্তি-সক্ষম এআই এজেন্ট তৈরির দিকে একটি গুরুত্বপূর্ণ পদক্ষেপ উপস্থাপন করে, যা ভবিষ্যতের উন্নয়নের জন্য একটি ধারণাগত কাঠামো প্রদানের জন্য নিছক প্রযুক্তিগত অবদান অতিক্রম করে। এটি এন্টারপ্রাইজ এআই টুলকিটের একটি স্ট্যান্ডার্ড উপাদান হয়ে উঠবে কিনা তা দেখার বিষয়, তবে এজেন্ট শেখার গতিশীলতার অন্তর্দৃষ্টিগুলি ইতিমধ্যে এলএলএম প্রশিক্ষণের ভবিষ্যতকে রূপ দিচ্ছে।

এই নতুন পদ্ধতি নির্ভরযোগ্য এবং অভিযোজনযোগ্য এআই এজেন্টদের জন্য সমালোচনামূলক প্রয়োজনীয়তা সম্বোধন করে, বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য একটি প্রতিশ্রুতিবদ্ধ পথ সরবরাহ করে। অভিজ্ঞতার মাধ্যমে শেখার উপর দৃষ্টি নিবদ্ধ করে এবং সিদ্ধান্ত গ্রহণের গতিপথ অপ্টিমাইজ করে, RAGEN তাত্ত্বিক মডেল এবং ব্যবহারিক বাস্তবায়নের মধ্যে ব্যবধান পূরণ করতে সহায়তা করে। ফ্রেমওয়ার্কের ওপেন-সোর্স উপলভ্যতা ক্ষেত্রটিতে উদ্ভাবনকে আরও ত্বরান্বিত করে, গবেষক এবং বিকাশকারীদের এর ভিত্তির উপর ভিত্তি করে তৈরি করতে এবং এআই এজেন্ট প্রযুক্তিতে নতুন দিগন্ত অন্বেষণ করতে সক্ষম করে।