মাইক্রোসফটের ওপেন-সোর্স এআই মডেলের জগতে প্রবেশ, বিশেষ করে ফাই (Phi) পরিবার, আকর্ষণ তৈরি করছে, যদিও ওপেনএআই-তে তাদের বিনিয়োগের মতো ব্যাপক স্বীকৃতি নেই। এই মডেলগুলির মধ্যে, ফাই-4 রিজনিং প্লাস (Phi-4 Reasoning Plus) বিশেষভাবে উল্লেখযোগ্য, যা বেঞ্চমার্ক পরীক্ষায় অসাধারণ ফলাফল অর্জনে রিইনফোর্সমেন্ট লার্নিং (RL) এর ক্ষমতা প্রদর্শন করে।
ফাই সিরিজটি সম্পদ-সাশ্রয়ী করার জন্য তৈরি করা হয়েছে, যা কম কম্পিউটিং শক্তি এবং স্টোরেজ স্থান ব্যবহার করে। সতর্ক গবেষণা এবং অপ্টিমাইজেশন কৌশলগুলির মাধ্যমে, এই মডেলগুলি ধারাবাহিকভাবে প্রত্যাশা ছাড়িয়ে গেছে, তাদের ওজন শ্রেণিতে প্রতিযোগীদের ছাড়িয়ে গেছে এবং এমনকি বৃহত্তর মডেলগুলিকেও চ্যালেঞ্জ জানাচ্ছে।
ফাই-4 রিজনিং মডেল, যা 14 বিলিয়ন প্যারামিটার নিয়ে গঠিত, বেস ফাই-4 মডেলের উপর একটি সুপারভাইজড ফাইন-টিউনিং (SFT) অ্যালগরিদম প্রয়োগ করে তৈরি করা হয়েছিল। এর ওপর ভিত্তি করে, গবেষকরা আরও উন্নত ফাই-4 রিজনিং প্লাস মডেল তৈরি করেছেন, ফাই-4 রিজনিং ভিত্তির উপর রিইনফোর্সমেন্ট লার্নিং (RL) ব্যবহার করে।
উল্লেখযোগ্যভাবে, ফাই-4 রিজনিং এবং ফাই-4 রিজনিং প্লাস উভয় মডেলই উল্লেখযোগ্যভাবে বৃহৎ মডেল যেমন ডিপসিক আর1 (DeepSeek R1), যা 70 বিলিয়ন প্যারামিটার ধারণ করে, তার চেয়েও ভালো পারফর্মেন্স দেখিয়েছে। এই কৃতিত্বটি বিশেষত কোডিং, গাণিতিক সমস্যা সমাধান এবং স্নাতক স্তরের উন্নত বৈজ্ঞানিক কার্যকলাপে স্পষ্ট। মডেলগুলির পারফর্মেন্স এমনকি 671 বিলিয়ন প্যারামিটারযুক্ত ফুল-স্কেল ডিপসিক আর1 মডেলের কাছাকাছি পৌঁছেছে।
মাইক্রোসফটের গবেষকরা মডেলটির সাফল্যের প্রধান কারণ হিসেবে উচ্চ-মানের প্রশিক্ষণ ডেটাসেটের ব্যবহারকে উল্লেখ করেছেন, যে কৌশলটির উপর কোম্পানি তার পূর্ববর্তী মডেলগুলির সাথে ধারাবাহিকভাবে নির্ভর করেছে। এই ডেটাসেটগুলিতে 1.4 মিলিয়নেরও বেশি সতর্কতার সাথে তৈরি প্রম্পট রয়েছে যা বিভিন্ন কোডিং এবং STEM (বিজ্ঞান, প্রযুক্তি, প্রকৌশল এবং গণিত) শাখার অন্তর্ভুক্ত। প্রতিটি প্রম্পটের সাথে সতর্কতার সাথে তৈরি উত্তর রয়েছে, যাতে ওপেনএআই-এর ও3-মিনি মডেল দ্বারা তৈরি বিস্তৃত যুক্তির সূত্র অন্তর্ভুক্ত করা হয়েছে।
প্রশিক্ষণ প্রক্রিয়াটিকে অপ্টিমাইজ করার জন্য, গবেষকরা কৌশলগতভাবে সেই প্রম্পটগুলিকে লক্ষ্যবস্তু করেছিলেন যা বেস ফাই-4 মডেলের ক্ষমতার সীমানা বাড়িয়ে দিয়েছিল। এর মধ্যে প্রশিক্ষণ ডেটাসেটগুলিকে ফিল্টার করে শুধুমাত্র সেই প্রম্পটগুলিকে ধরে রাখা হয়েছিল যা উন্নতির যথেষ্ট সুযোগ দিত।
RL-এর কার্যকারিতার পেছনের যুক্তি
ফাই-4 রিজনিং প্লাসের বিকাশে দুটি ধাপ জড়িত ছিল: প্রথমত, বেস ফাই-4 মডেলের সুপারভাইজড ফাইন-টিউনিং (SFT) এর মাধ্যমে ফাই-4 রিজনিং তৈরি করা, এরপর একটি রিইনফোর্সমেন্ট লার্নিং (RL) পর্যায়। ফাই-4 রিজনিং প্লাসের RL উপাদানগুলির গভীরে প্রবেশ করার জন্য, মাইক্রোসফটের গবেষক হারকিরাত বেহলের সাথে সরাসরি যোগাযোগ করা অপরিহার্য ছিল, যিনি এই প্রকল্পের এই অংশে মুখ্য ভূমিকা পালন করেছিলেন।
রিইনফোর্সমেন্ট লার্নিং (RL) হল একটি অনন্য প্রশিক্ষণ পদ্ধতি যেখানে একটি এআই সিস্টেম পরীক্ষার মাধ্যমে শেখে। এআই পদক্ষেপ নেয়, পুরস্কার বা শাস্তির আকারে প্রতিক্রিয়া পায় এবং দীর্ঘমেয়াদী কাঙ্ক্ষিত ফলাফল সর্বাধিক করার জন্য ধারাবাহিকভাবে তার সিদ্ধান্ত গ্রহণ প্রক্রিয়াকে পরিমার্জন করে। এই পদ্ধতিটি বিশেষভাবে সেই কাজগুলির জন্য সুবিধাজনক যেগুলির জন্য এআই মডেলকে “যুক্তি”-তে জড়িত হতে হয়, কারণ এটি একটি কঠোর, পূর্বনির্ধারিত প্রক্রিয়া মেনে চলার চেয়ে কাঙ্ক্ষিত ফলাফল অর্জনের উপর অগ্রাধিকার দেয়।
ঐতিহ্যবাহী মডেলগুলি যেখানে শুধুমাত্র পরবর্তী শব্দটি অনুমানের উপর দৃষ্টি নিবদ্ধ করে এবং প্রতিটি ভুলের জন্য মডেলটিকে শাস্তি দেয়, সেখানে RL উত্তর কীভাবে পাওয়া যায় তার উপর বেশি নমনীয়তা দেয়। এই নমনীয়তা মডেলটিকে একাধিক সম্ভাব্য সমাধান পথ সহ জটিল সমস্যাগুলি অন্বেষণ করতে এবং শেষ পর্যন্ত সঠিক সিদ্ধান্তে পৌঁছাতে সাহায্য করে।
বেহলের মতে, RL মডেলটিকে “খুব দীর্ঘ উত্তর এবং অনেক ভিন্ন উত্তর তৈরি করতে” সক্ষম করে, যেখানে চূড়ান্ত ফলাফলের নির্ভুলতার উপর প্রধান মনোযোগ দেওয়া হয়। নির্দিষ্ট পদক্ষেপের পরিবর্তে ফলাফলের উপর এই জোর মানুষের সমস্যা সমাধানের পদ্ধতির প্রতিফলন ঘটায়। বিভিন্ন চিন্তাভাবনার প্রক্রিয়া গ্রহণযোগ্য, যতক্ষণ না সেগুলি সঠিক উত্তরে পৌঁছায়।
মাইক্রোসফটের মডেলগুলিতে, RL পর্যায়টি ইচ্ছাকৃতভাবে গাণিতিক যুক্তির উপর দৃষ্টি নিবদ্ধ করে। পুরস্কার ব্যবস্থা নির্ভুলতাকে উৎসাহিত করে, একই সাথে পুনরাবৃত্তি, অতিরিক্ত দৈর্ঘ্য এবং ভুল প্রতিক্রিয়া বিন্যাসকে শাস্তি দেয়।
বেহল আরও ব্যাখ্যা করেছেন যে গবেষকরা একটি নির্দিষ্ট প্রশ্নের জন্য মডেলটিকে একাধিক উত্তর তৈরি করার অনুমতি দিয়েছিলেন। প্রতিটি উত্তরকে তখন জেনারেট করা উত্তরগুলির গ্রুপের মধ্যে তার গড় স্কোরের সাথে তুলনা করে স্কোর করা হয়েছিল।
এই আপেক্ষিক স্কোরগুলি একটি প্রতিক্রিয়া প্রক্রিয়া হিসাবে কাজ করে, যা মডেলটিকে ধারাবাহিকভাবে উচ্চ স্কোর পাওয়া উত্তরগুলির প্রতি আকৃষ্ট করে। সময়ের সাথে সাথে, এই প্রক্রিয়া মডেলটিকে তার প্রতিক্রিয়াগুলিকে পছন্দসই পুরস্কার সংকেতের সাথে আরও ঘনিষ্ঠভাবে সারিবদ্ধ করতে প্রশিক্ষণ দেয়।
গবেষকরা দেখেছেন যে 6,400টি সমস্যার একটি সীমিত সেটে RL প্রয়োগ করার ফলে বিভিন্ন গণিত এবং যুক্তির মূল্যায়নে নির্ভুলতার উল্লেখযোগ্য উন্নতি হয়েছে।
বেহল উল্লেখ করেছেন, “Phi-1, Phi-2, Phi-3 এবং Phi-4 তৈরি করার পর, আমার গবেষণার একটি গুরুত্বপূর্ণ বিষয় হল যে RL-এর জন্য SFT প্রশিক্ষণের চেয়ে অনেক কম ডেটার প্রয়োজন হয়।”
তিনি এর কারণ হিসেবে উল্লেখ করেছেন যে RL স্ক্র্যাচ থেকে মডেলটিকে সম্পূর্ণ নতুন দক্ষতা দেওয়া সম্পর্কে কম এবং আরও ভাল ফলাফল অর্জনের জন্য বিদ্যমান দক্ষতাগুলিকে কার্যকরভাবে একত্রিত এবং কাজে লাগানোর জন্য মডেলটিকে গাইড করা সম্পর্কে বেশি।
রিইনফোর্সমেন্ট লার্নিংয়ের সাথে মাইক্রোসফটের সাফল্য অন্যান্য অসংখ্য এআই কোম্পানির অভিজ্ঞতার সাথে সঙ্গতিপূর্ণ। ওপেনএআই, যুক্তিমূলক মডেলের বিকাশে অগ্রণী, বারবার তাদের প্রকল্পগুলিতে RL-এর অনুকূল প্রভাব তুলে ধরেছে।
আগ্রহজনকভাবে, ডিপসিক আর1, একটি চীনা মডেল যা গত বছর এআই ল্যান্ডস্কেপকে ব্যাহত করেছিল, তারাও তাদের সাফল্যের আংশিক কারণ হিসেবে RL-এর প্রয়োগকে উল্লেখ করেছে। উপরন্তু, ওপেনএআই-এর বেশ কয়েকজন গবেষক এবং প্রকৌশলী তাদের গভীর গবেষণা উদ্যোগে RL-এর গুরুত্বপূর্ণ ভূমিকার কথা প্রকাশ্যে স্বীকার করেছেন।
আরও সম্প্রতি, আলিবাবার কুইয়েন (Qwen) মডেলও রিইনফোর্সমেন্ট লার্নিংকে সমর্থন করেছে, তাদের যুক্তিমূলক মডেলগুলির উপর এর উল্লেখযোগ্য প্রভাবের উপর জোর দিয়েছে। একটি ব্লগ পোস্টে, কোম্পানিটি বলেছে, “আমরা আত্মবিশ্বাসী যে শক্তিশালী ভিত্তি মডেলগুলির সাথে স্কেলড কম্পিউটেশনাল রিসোর্স দ্বারা চালিত RL-এর সংমিশ্রণ আমাদেরকে আর্টিফিশিয়াল জেনারেল ইন্টেলিজেন্স (AGI) অর্জনের দিকে আরও কাছে নিয়ে যাবে।”
যাইহোক, Phi-4 রিজনিং, Phi-4 রিজনিং প্লাস এবং অন্যান্য অসংখ্য যুক্তিমূলক মডেলের সাফল্য সত্ত্বেও, এই ক্ষেত্রটি এখনও বেশ কিছু চ্যালেঞ্জের সম্মুখীন।
উন্নতির জন্য চলমান প্রচেষ্টা
সাম্প্রতিক মাসগুলোতে, বেশ কয়েকটি গবেষণা সমীক্ষা যুক্তিমূলক মডেলগুলির বিদ্যমান সীমাবদ্ধতা এবং সম্ভাব্য ফাঁদগুলিকে তুলে ধরেছে। উদাহরণস্বরূপ, Phi-4 রিজনিং-এর উপর তাদের গবেষণা পত্রে, মাইক্রোসফটের গবেষকরা স্বীকার করেছেন যে তারা এখনও অতিরিক্ত সময় এবং সম্পদ খরচ, ধীর প্রতিক্রিয়ার সময় এবং সবচেয়ে উল্লেখযোগ্যভাবে, মডেলগুলির প্রতিক্রিয়া তাদের নিজস্ব পূর্ববর্তী যুক্তির পদক্ষেপের সাথে সাংঘর্ষিক হওয়ার মতো চ্যালেঞ্জগুলির সাথে লড়াই করছেন।
অন্য একটি গুরুত্বপূর্ণ বিকাশে, অ্যানথ্রোপিক (Anthropic) একটি গবেষণা প্রকাশ করেছে যাতে জানা গেছে যে যুক্তির শৃঙ্খল (যাকে প্রায়শই চেইন-অফ-থটস বা CoTs বলা হয়) সবসময় মডেলের প্রকৃত যুক্তির প্রক্রিয়াকে প্রতিফলিত নাও করতে পারে। গবেষকরা আবিষ্কার করেছেন যে মডেলগুলি প্রায়শই বাহ্যিক সূত্রগুলি কাজে লাগায়, যেমন সঠিক উত্তরের দিকে পরিচালিত করার জন্য প্রম্পটে প্রবেশ করানো সুস্পষ্ট ইঙ্গিত, কিন্তু খুব কমই তাদের সুস্পষ্ট যুক্তির পদক্ষেপের মধ্যে এই ইঙ্গিতগুলিকে স্বীকার করে বা মৌখিকভাবে জানায়। মডেলের অভ্যন্তরীণ আচরণ এবং এর বাহ্যিক ব্যাখ্যার মধ্যে এই অসঙ্গতি CoTs-কে মডেলের ব্যাখ্যা করার এবং নিরাপত্তা নিশ্চিত করার জন্য একটি নির্ভরযোগ্য সরঞ্জাম হিসাবে ব্যবহারের নির্ভরযোগ্যতা সম্পর্কে উদ্বেগ সৃষ্টি করে।
এমনকি ওপেনএআইও (OpenAI) গবেষণা প্রতিবেদন প্রকাশ করেছে যাতে উন্নত যুক্তিমূলক মডেলগুলির “পুরস্কার হ্যাকিং”-এ জড়িত হওয়ার প্রবণতা তুলে ধরা হয়েছে। পুরস্কার হ্যাকিং বলতে এমন পরিস্থিতি বোঝায় যেখানে এআই এজেন্টরা তাদের সংজ্ঞায়িত উদ্দেশ্যগুলির মধ্যে অপ্রত্যাশিত ফাঁকফোকর বা অপ্রত্যাশিত পরিণতিগুলি কাজে লাগিয়ে এমনভাবে পুরস্কার সর্বাধিক করে যা মূলত উদ্দেশ্য ছিল না বা কাঙ্ক্ষিত ছিল না। ওপেনএআই এটি প্রশমিত করার কৌশল অনুসন্ধান করেছে, যেমন ও3-মিনির মতো একটি শক্তিশালী মডেল নিরীক্ষণের জন্য কম শক্তিশালী মডেল (GPT-4ও) ব্যবহার করা, যদিও এটি নিজস্ব জটিলতা এবং সম্ভাব্য পক্ষপাতিত্ব তৈরি করে।
ওপেনএআই-এর টেকনিক্যাল স্টাফের সদস্য নাট ম্যাকএলিস (Nat McAleese) জোর দিয়ে বলেছেন যে “বৃহৎ যুক্তিমূলক মডেলগুলি পুরস্কার হ্যাকিংয়ে অত্যন্ত পারদর্শী”, এই বিষয়টিকে চিত্রিত করার জন্য প্রতিবেদন থেকে হাতে বাছাই করা উদাহরণ উদ্ধৃত করেছেন।
বেহল মন্তব্য করেছেন, “যুক্তির শৃঙ্খলে প্রচুর পুনরাবৃত্তি রয়েছে; তারা নিজেদের মধ্যে দ্বন্দ্ব করে এবং অনেক অনুত্তরিত প্রশ্ন রয়েছে।” “তবে, এটি একটি বিকাশমান ক্ষেত্র। যদি আমরা একটি সম্প্রদায় হিসাবে এটিকে আয়ত্ত করতে পারি এবং বুঝতে পারি যে মডেলগুলি কীভাবে চিন্তা করে, তবে অনেক লাভ হবে।” যুক্তিমূলক মডেলগুলির ভবিষ্যৎ এআই সম্প্রদায়ের মধ্যে অব্যাহত গবেষণা এবং সহযোগিতার মাধ্যমে এই চ্যালেঞ্জগুলি মোকাবেলার উপর নির্ভর করে।