মাইক্রোসফটের ছোট মডেলের চমক: গণিতের 'চিট কোড'

বর্তমানে এআই (AI) জগতে যুক্তিবোধসম্পন্ন মডেলগুলোর চাহিদা বাড়ছে, এবং মাইক্রোসফট সম্প্রতি তাদের ফি-৪ (Phi-4) সিরিজের অনুমানমূলক মডেলগুলো প্রকাশ করেছে। এর মধ্যে রয়েছে ফি-৪-রিজনিং (Phi-4-reasoning), ফি-৪-রিজনিং-প্লাস (Phi-4-reasoning-plus), এবং ফি-৪-মিনি-রিজনিং (Phi-4-mini-reasoning)। বিশেষভাবে উল্লেখযোগ্য যে এই মডেলগুলোর মধ্যে বৃহত্তম, যার প্যারামিটার সংখ্যা ১৪ বিলিয়ন, সেটিও উচ্চ ক্ষমতাসম্পন্ন ল্যাপটপে সহজেই চালানো যায়। এছাড়াও, ৩.৮ বিলিয়ন প্যারামিটারের ফি-৪-মিনি-রিজনিং, ৮ বিলিয়ন প্যারামিটারের ডিপসিক-আর১ (DeepSeek-R1) ডিস্টিলড মডেলকে গাণিতিক যুক্তিতে ছাড়িয়ে গেছে, যা ছোট মডেলগুলোর অনুমানমূলক কাজের ক্ষমতা প্রদর্শন করে।

এপ্রিল মাসে দ্বিতীয় প্রজন্মের ডিপসিক-আর২ যুক্তিবোধ মডেলের জন্য অপেক্ষা না করে, মাইক্রোসফট ফি-৪ যুক্তিবোধ মডেলের একটি নতুন সিরিজ উন্মোচন করেছে। এই মডেলগুলো গাণিতিক যুক্তিতে ব্যতিক্রমী দক্ষতা দেখিয়েছে, এমনকি ফি-৪-মিনি-রিজনিংয়ের প্যারামিটার স্কেল ছোট হওয়া সত্ত্বেও এটি ডিপসিক-আর১ ডিস্টিলড মডেলকে ছাড়িয়ে গেছে।

মাইক্রোসফট এআই ফ্রন্টিয়ার্স ল্যাবরেটরির (Microsoft AI Frontiers laboratory) পার্টনার রিসার্চ ম্যানেজার আহমেদ আওয়াদাল্লাহ (Ahmed Awadallah) ফি-৪-রিজনিংয়ের বৈশিষ্ট্যগুলো বর্ণনা করেছেন:

  • মডেলটি তত্ত্বাবধানে সূক্ষ্ম টিউনিং (Supervised Fine-tuning) (যুক্তিযুক্ত উদাহরণের ডেটাসেট ব্যবহার করে) এবং রিইনফোর্সমেন্ট লার্নিংয়ের (Reinforcement Learning) মাধ্যমে প্রশিক্ষিত।
  • এটি অনুমানমূলক বেঞ্চমার্কে ভালো পারফর্ম করে এবং ডিপসিক আর১-এর মতো বড় মডেলগুলোর সঙ্গে তুলনীয়।
  • নতুন পরীক্ষাতেও (যেমন এআইএমই ২০২৫, এইচএমএমটি) এটি শক্তিশালী পারফর্মেন্স বজায় রাখে।
  • যুক্তিবোধের ক্ষমতার শক্তিশালী স্থানান্তর/সাধারণীকরণ ক্ষমতা রয়েছে, এমনকি শুধুমাত্র তত্ত্বাবধানে সূক্ষ্ম টিউনিংয়ের পরেও এটি নতুন কাজের সঙ্গে মানিয়ে নিতে পারে (যেমন কে-স্যাট, গাণিতিক সমীকরণ সমাধান, সময়সূচি তৈরি ইত্যাদি)।
  • সাধারণ সক্ষমতা (যেমন নির্দেশের বোঝা এবং সম্পাদন) ধরে রাখে এবং ব্যাপকভাবে উন্নত করে।

তিনি আরো বলেন যে ফি-৪-এর এখনও বেশ কিছু দিকে উন্নতির প্রয়োজন, বিশেষ করে কনটেক্সট দৈর্ঘ্য, এনকোডিং ক্ষমতা এবং সরঞ্জাম সংহতকরণে।

মডেলটি ছাড়াও, মাইক্রোসফট একটি বিস্তারিত কারিগরি প্রতিবেদন প্রকাশ করেছে যা মডেলটির প্রশিক্ষণ এবং মূল্যায়ন প্রক্রিয়ার গভীর বিশ্লেষণ প্রদান করে।

এক্স-এ (X), মাইক্রোসফট রিসার্চ এআই ফ্রন্টিয়ার্স ল্যাবরেটরির প্রিন্সিপাল রিসার্চার এবং উইসকনসিন বিশ্ববিদ্যালয়ের সহযোগী অধ্যাপক দিমিত্রি পাপাইলিপুলোস (Dimitris Papailiopoulos) ফি-৪ যুক্তিবোধ মডেল সম্পর্কে আরও তথ্য দিয়েছেন।

তিনি মনে করেন ফি-৪-রিজনিং সম্পূর্ণরূপে স্নাতক স্তরে পৌঁছেছে এবং এটি স্থানীয় পিসিতে চালানো যেতে পারে।

এআইয়ের (AI) বিকাশের জন্য এটি তার প্রত্যাশা ছাড়িয়ে গেছে।

নতুন মডেলটিতে প্যারামিটার কম কিন্তু পারফর্মেন্স শক্তিশালী।

একটি পারফর্মেন্স পাওয়ারহাউস

ছোট আকার সত্ত্বেও, এই মডেলটি এআইএমই, এইচএমএমটি এবং অমনিmath-এর (OmniMath) মতো গণিত বেঞ্চমার্কে অসাধারণ পারফর্ম করে। এটি QwQ-32B, R1-70B এবং R1-এর মতো বড় ওপেন-ওয়েট মডেল এবং o1-mini এবং sonnet 3.7-এর মতো ক্লোজড মডেলগুলোর সঙ্গে সমান বা তার চেয়েও ভালো পারফর্ম করে।

এই মডেলটির আকার ছোট এবং এটি উচ্চ ক্ষমতাসম্পন্ন ল্যাপটপে চালানোর জন্য উপযুক্ত।

একই সময়ে, এটি অনেক কঠিন সমস্যা সমাধানে সক্ষম যা বড় নন-রিজনিং মডেল এবং কিছু রিজনিং মডেলও সমাধান করতে পারে না।

এটি দিমিত্রিEval পরীক্ষাও পাশ করেছে!

আশ্চর্যজনকভাবে, যুক্তিবোধ একটি সত্যিকারের স্থানান্তরযোগ্য ‘মেটা-স্কিল’ (meta-skill) যা তত্ত্বাবধানে সূক্ষ্ম টিউনিং (SFT)-এর মাধ্যমেও শেখা যেতে পারে!

প্রমাণ ১: নন-রিজনিংয়ের (non-reasoning) কাজের ওপর বিশেষ প্রশিক্ষণ না নিয়েও, গবেষকরা IFEval, FlenQA এবং অভ্যন্তরীণ ফিবেঞ্চে (PhiBench) উল্লেখযোগ্য উন্নতি লক্ষ্য করেছেন (১০ পয়েন্টের বেশি বৃদ্ধি!)।

এছাড়াও, SFT-এর সময় কোডিংয়ের (coding) সঙ্গে সম্পর্কিত খুব কম ডেটা ছিল (এবং RL পর্যায়ে কিছুই ছিল না), তবুও মডেলটি এই ক্ষেত্রে ভালো পারফর্ম করেছে।

দিমিত্রি পাপাইলিপুলোস আরও জানান যে প্রোগ্রামিং পরবর্তী সংস্করণগুলোর প্রধান লক্ষ্য।

প্রমাণ ২: কিছু নির্দিষ্ট সমস্যা যা স্পষ্টভাবে প্রশিক্ষিত করা হয়নি (SFT বা RL কোনো পর্যায়েই নয়), যেমন - ভ্রমণকারী সেলসম্যানের সমস্যা, গোলকধাঁধা সমাধান, k-SAT, সীমাবদ্ধ পরিকল্পনা ইত্যাদি, এই মডেল এই কাজগুলোতে খুব ভালো পারফর্ম করে!

এবং ফি-৪ (এমনকি জিপিটি-৪) এটি করতে পারে না।

এটি সম্পূর্ণরূপে প্রমাণ করে যে যুক্তিবোধের ক্ষমতাকে একটি দক্ষতা হিসেবে স্থানান্তর করা যেতে পারে!

রিইনফোর্সমেন্ট লার্নিংয়ের (reinforcement learning) একটি খুব সংক্ষিপ্ত রাউন্ডের পর (SFT-এর জন্য ১.৪ মিলিয়ন উদাহরণের তুলনায় মাত্র ৬,০০০টি নমুনা ব্যবহার করে), মডেলটির যুক্তিবোধের প্রক্রিয়াটি যেন ‘লক’ (locked) হয়ে গেছে।

এটি দিমিত্রি পাপাইলিপুলোসকে বিশেষভাবে অবাক করেছে।

তিনি মনে করেন যেন রিইনফোর্সমেন্ট লার্নিং মডেলটিকে ‘তার নিজের ভাষায়’ যুক্তি দিতে শিখিয়েছে, যা এআইএমই এবং এইচএমএমটিতে প্রায় ১০% নির্ভুলতা বাড়িয়েছে এবং কঠিন সমস্যাগুলোতে গড় উত্তরের দৈর্ঘ্য ৫০% বৃদ্ধি করেছে।

রিইনফোর্সমেন্ট লার্নিং সত্যিই কার্যকর!!

যুক্তিবোধের প্রক্রিয়া ‘লক’ হয়ে গেলে মডেলের আউটপুট ডিস্ট্রিবিউশন (output distribution) আরও সুসংহত হয় এবং নির্ভুলতাও বেশি থাকে।

রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে মডেলের সক্ষমতা উল্লেখযোগ্যভাবে বাড়ানো যায়, যা মাইক্রোসফটের আগের গবেষণাতেও প্রতিফলিত হয়েছে।

রিইনফোর্সমেন্ট লার্নিংয়ের পর্যায়ে, নতুন মডেলটিকে বিশেষভাবে ডেটার জন্য অপটিমাইজ করা হয়নি: ৬,০০০টি প্রশ্ন বৃহত্তর ডেটাসেট থেকে এলোমেলোভাবে নির্বাচন করা হয়েছিল।

তাহলে কেন মাইক্রোসফট আরও বেশি রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণ পরিচালনা করেনি?

কারণ মডেলটি এমন প্রশ্নের উত্তর তৈরি করেছে যা ৩২k কনটেক্সট দৈর্ঘ্য (যে দৈর্ঘ্যে মডেলটিকে প্রশিক্ষণ দেওয়া হয়নি) অতিক্রম করেছে, তাই তারা কেবল এটিকে ছেঁটে ফেলতে (truncate) পারত।

এছাড়াও, সমান্তরাল যুক্তিবোধ গণনার (যেমন Maj@N) সাহায্যে, নতুন যুক্তিবোধ মডেলটি প্রায় এআইএমই ২০২৫-এর পারফরম্যান্সের সীমায় পৌঁছেছে, এবং এমনকি এর শিক্ষক মডেলের (o3-mini) পাস@1 পারফরম্যান্সকেও ছাড়িয়ে গেছে।

এবং ২০২৫ সালের ফেব্রুয়ারির আগে সমস্ত ডেটা সংগ্রহ সম্পন্ন হয়েছে, এবং এইচএমএমটিও (HMMT) সম্পন্ন।

অন্যান্য কাজেও, গবেষকরা ‘শিক্ষককে ছাড়িয়ে যাওয়ার’ ঘটনাটি পর্যবেক্ষণ করেছেন, যেমন ওমনিmath এবং ক্যালেন্ডার প্ল্যানিংয়ের (Calendar Planning) কাজগুলোতে।

SFT পর্যায়ে প্রম্পট ডিজাইন, পরবর্তী রিইনফোর্সমেন্ট লার্নিং প্রক্রিয়ার সাথে মিলিত হয়ে, মডেলটিকে ‘নিজেকে উন্নত করার’ ক্ষমতা দিয়েছে, যা শিক্ষক মডেল দ্বারা সরবরাহিত জ্ঞানের পরিধি ছাড়িয়ে গেছে।

নিচের চিত্রে, ম্যাজেন্টা (magenta) o3-mini এবং সবুজ Phi উপস্থাপন করে।

একটি মজার বিষয় হল: শীর্ষ ২৫%-এ থাকা প্রতিক্রিয়া দৈর্ঘ্যের দীর্ঘ পাঠ্যগুলো প্রায়শই ভুল উত্তরের সাথে দৃঢ়ভাবে সম্পর্কিত!

তবে, অন্যদিকে, বেশিরভাগ মূল্যায়নে, সামগ্রিকভাবে গড় উত্তরের দৈর্ঘ্য বেশি এবং নির্ভুলতাও বেশি।

অন্য কথায়, পরীক্ষার সময় কম্পিউটিং রিসোর্স (computing resources) বৃদ্ধি করলে সাহায্য করে, তবে মডেলটি ‘আটকে গেলে’ অপ্রাসঙ্গিক কথা বলার প্রবণতা দেখা যায়।

মডেলের সীমাবদ্ধতা সম্পর্কে কিছু বিষয় মনে রাখতে হবে:

  • ৩২k-এর বেশি কনটেক্সট দৈর্ঘ্যের সঙ্গে কাজ করার ক্ষমতা সম্পূর্ণরূপে প্রসারিত বা পরীক্ষা করা হয়নি।
  • মডেলটি সহজ সমস্যাগুলোর ক্ষেত্রে ‘অতিরিক্ত চিন্তা’ করার প্রবণতা দেখায় এবং স্ব-মূল্যায়নে খুব বেশি বিস্তারিত মনে হতে পারে।
  • মাল্টি-টার্ন (multi-turn) সংলাপের ক্ষমতা ব্যাপকভাবে পরীক্ষা করা হয়নি।

অবশ্যই, আবিষ্কার করার মতো আরও ‘অন্ধকার স্থান’ (blind spots) রয়েছে, তবে সামগ্রিকভাবে, গবেষণা দল মনে করে যে তারা সঠিক পথে রয়েছে!

প্রশিক্ষণের বিস্ময়

মাইক্রোসফট রিসার্চের (Microsoft Research) প্রিন্সিপাল রিসার্চ ম্যানেজার এবং ফি সিরিজের মডেল তৈরির দায়িত্বে থাকা ‘এজিআই ফিজিক্স’ (AGI Physics) দলের সদস্য সুরিয়া গুনাসেকার (Suriya Gunasekar) কাজের মূল নীতিগুলো তুলে ধরেন।

এইবার, মাইক্রোসফট ফি দল পোস্ট-প্রশিক্ষণ পর্যায়ে মনোযোগ দিয়েছে এবং ফি-৪-রিজনিং (Phi-4-reasoning) (শুধুমাত্র SFT ব্যবহার করে) এবং ফি-৪-রিজনিং-প্লাস (Phi-4-reasoning-plus) (SFT + সামান্য RL) চালু করেছে।

দুটোই ১৪ বিলিয়নের মডেল যা যুক্তি এবং সাধারণ টাস্ক বেঞ্চমার্কে শক্তিশালী ক্ষমতা প্রদর্শন করেছে।

এই কাজের মূল বিষয় হল প্রম্পট নির্বাচন এবং স্থানান্তরযোগ্য, স্ব-উন্নতিশীল যুক্তি দক্ষতার পরীক্ষামূলক অনুসন্ধান।

প্রশিক্ষণ প্রক্রিয়ার সময় দুটি আশ্চর্যজনক আবিষ্কার ছিল:

প্রথমত, যতক্ষণ না কয়েকটা ডোমেইন-প্রশিক্ষিত দীর্ঘ-শৃঙ্খল যুক্তির (CoT) গতিপথ ব্যবহার করা হয়, ফি-৪ একাধিক কাজে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করতে পারে যেমন - সময়সূচী তৈরি, গোলকধাঁধা সমাধান (দৃষ্টিভঙ্গি ইনপুট ছাড়া), IFEva, FlenQA, KITAB (লুকআপ-ভিত্তিক প্রশ্ন উত্তর), এবং অভ্যন্তরীণ ফিবেঞ্চ;

দ্বিতীয়ত, এমনকি যদি শুধুমাত্র ৬,০০০ গাণিতিক উদাহরণ ন্যূনতম আরএল প্রশিক্ষণের জন্য ব্যবহার করা হয়, কিছু বেঞ্চমার্কে মডেলের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত হয়, যেখানে সর্বোচ্চ উন্নতি ১০% পর্যন্ত পৌঁছেছে (তবে টোকেন ব্যবহার প্রায় ১.৫ গুণ বেড়েছে), এবং আরএল পর্যায়ে দক্ষতার ক্রস-ডোমেইন স্থানান্তরও পরিলক্ষিত হয়েছে।

অন্য কথায়, ওপেনএআই (OpenAI) এবং গুগলের (Google) মতো প্রধান প্রতিযোগীদের তুলনায়, মাইক্রোসফট ফি-৪ রিজনিং সিরিজ নতুন সম্ভাবনা প্রদর্শন করে: ছোট মডেলগুলো উচ্চ-মানের ডেটা এবং পরিশীলিত প্রশিক্ষণ কৌশল ব্যবহার করে নির্দিষ্ট কাজে বড় মডেলগুলোর সঙ্গে মেলে ধরতে বা এমনকি ছাড়িয়ে যেতে পারে।

মূল পদ্ধতি

রিজনিং মডেল ফি-৪-রিজনিং-এর ১৪ বিলিয়ন প্যারামিটার রয়েছে এবং এটি জটিল রিজনিং টাস্কে (Reasoning Task) শক্তিশালী পারফর্ম করে।

মডেলটি তত্ত্বাবধানে সূক্ষ্ম টিউনিং প্রশিক্ষণের জন্য ফি-৪-এর উপর ভিত্তি করে তৈরি করা হয়েছে, যেখানে ‘শিক্ষণযোগ্য’ প্রম্পটের একটি সাবধানে নির্বাচিত সেট ব্যবহার করা হয়েছে যেগুলোর যথাযথ জটিলতা এবং বৈচিত্র্য দুটোই রয়েছে; ও৩-মিনি দ্বারা তৈরি রিজনিং উদাহরণগুলো প্রশিক্ষণের সময় রেফারেন্স হিসাবে ব্যবহৃত হয়।

ফি-৪-রিজনিং বিস্তারিত রিজনিং চেইন তৈরি করতে এবং রিজনিং প্রক্রিয়ার সময় কম্পিউটিং রিসোর্সের পূর্ণ ব্যবহার করতে পারে।

এর ভিত্তিতে, মাইক্রোসফট আরও উন্নত ফি-৪-রিজনিং-প্লাস তৈরি করেছে।

এটি ফলাফলের উপর ভিত্তি করে ছোট আকারের রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে মূল মডেলের ভিত্তিতে উন্নত করা হয়েছে এবং এটি দীর্ঘ এবং আরও শক্তিশালী রিজনিং চেইন তৈরি করে।

গবেষণায় দেখা গেছে যে একটি ভালোভাবে ডিজাইন করা SFT ডেটাসেট রিজনিং ভাষার মডেলগুলোর প্রভাবকে উল্লেখযোগ্যভাবে উন্নত করতে পারে এবং রিইনফোর্সমেন্ট লার্নিং (RL) এই ভিত্তির উপর আরও উন্নতি ঘটাতে পারে।

SFT পরীক্ষায়, এমনকি এই তুলনামূলকভাবে সরল জেনারেশন সেটিংয়েও, বীজ সমস্যাগুলোর (seed problems) সাবধানে নির্বাচন এবং কঠোরভাবে ফিল্টার করা মডেলের সাফল্যের মূল চাবিকাঠি।

তারা প্রশিক্ষণ ডেটার পুরো সেটটিকে একটি কঠোর দূষণমুক্তকরণ প্রক্রিয়ার (de-pollution process) মধ্য দিয়ে নিয়েছে যাতে এটিতে এমন ডেটা না থাকে যা বহুল ব্যবহৃত রিজনিং বা সাধারণ বেঞ্চমার্ক প্রশ্নগুলোর সাথে অত্যন্ত বেশি ওভারল্যাপ (overlap) করে, সেইসাথে এই প্রতিবেদনে উল্লেখ করা হয়নি এমন কিছু বেঞ্চমার্কও রয়েছে।

দূষণমুক্ত করা হয়েছে এমন বেঞ্চমার্ক পরীক্ষাগুলোর সম্পূর্ণ তালিকা নিচে দেওয়া হলো:

*গণিত এবং রিজনিং: AIME-2024, MATH, GPQA, OmniMATH, GSM8k

  • প্রোগ্রামিং: LiveCodeBench, Codeforces, HumanEval, MBPP
  • প্রশ্ন উত্তর এবং সাধারণ জ্ঞান: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • অন্যান্য মূল্যায়ন কাজ: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

১৪ বিলিয়ন প্যারামিটার সহ ফি-৪ মডেলের তত্ত্বাবধানে সূক্ষ্ম টিউনিংয়ের (SFT) মাধ্যমে, গবেষকরা ফি-৪-রিজনিং পেয়েছেন, যার আগে কোনো রিইনফোর্সমেন্ট লার্নিং ছিল না।

SFT-এর লক্ষ্য হল মৌলিক মডেলে থাকা কাঠামোগত রিজনিং ক্ষমতাকে পরিমার্জন করা।

ফি-৪-রিজনিংয়ের গঠন ফি-৪ মডেলের মতোই, তবে দুটি প্রধান পরিবর্তন রয়েছে:

  • রিজনিং টোকেন: মৌলিক মডেলের দুটি প্লেসহোল্ডার টোকেনকে এবং টোকেন হিসাবে পুনরায় ব্যবহার করা হয়েছে, যা রিজনিং (‘চিন্তা’) প্রক্রিয়ার শুরু এবং শেষ চিহ্নিত করতে ব্যবহৃত হয়।
  • টোকেন দৈর্ঘ্য বৃদ্ধি: মৌলিক মডেল (ফি-৪) দ্বারা প্রাথমিকভাবে সমর্থিত সর্বোচ্চ টোকেন দৈর্ঘ্য ছিল ১৬K। অতিরিক্ত রিজনিং টোকেনগুলোর স্থান সংকুলান করার জন্য, RoPE-এর মূল ফ্রিকোয়েন্সি দ্বিগুণ করা হয়েছিল এবং মডেলটিকে ৩২K-এর সর্বোচ্চ টোকেন দৈর্ঘ্যে প্রশিক্ষণ দেওয়া হয়েছিল।

তারা চেইন-অফ-থট রিজনিং উদাহরণগুলোর একটি বৃহৎ সংখ্যা তৈরি করতে একটি সিন্থেটিক পদ্ধতি ব্যবহার করেছে।

ব্যবহৃত SFT ডেটাসেটে ১.৪ মিলিয়নের বেশি প্রম্পট-রেসপন্স পেয়ার (prompt-response pairs) রয়েছে, যেখানে ৮.৩ বিলিয়ন অনন্য টোকেন রয়েছে, যা গণিত এবং প্রোগ্রামিংয়ের মতো রিজনিং ক্ষেত্রগুলোর পাশাপাশি নিরাপদ এবং দায়িত্বশীল এআইয়ের জন্য অ্যালাইনমেন্ট ডেটা (alignment data) অন্তর্ভুক্ত করে।

চিত্র ৪a SFT পুনরাবৃত্তি প্রক্রিয়া জুড়ে মূল সূচকগুলোর পরিবর্তন দেখায়।

প্রশিক্ষণের শুরুতে, মডেলটি সুস্পষ্ট ‘চিন্তা’ টোকেন ব্যবহার করতে শুরু করে, যা ইঙ্গিত করে যে মডেলটি দ্রুত এই অগভীর কাঠামোগত বিন্যাসটি শিখেছে।

তবে, চিত্র ৪a-তে যেমন দেখানো হয়েছে, চেইন-অফ-থট মডিউলের কার্যকারিতা এবং মডেলের রিজনিং ক্ষমতা পুরো প্রশিক্ষণ প্রক্রিয়া জুড়েই উন্নত হচ্ছে, যা ইঙ্গিত করে যে মডেলটি কেবল বিন্যাসটি অনুলিপি করছে না, বরং প্রকৃতপক্ষে রিজনিং দক্ষতা শিখছে।

আশ্চর্যজনকভাবে, রিইনফোর্সমেন্ট লার্নিংয়ের বিপরীতে, গবেষকরা SFT প্রক্রিয়ার সময় রেসপন্স দৈর্ঘ্যে কোনো বৃদ্ধি দেখতে পাননি।

প্রকৃতপক্ষে, চিত্র ৪b-তে যেমন দেখানো হয়েছে, গড় রেসপন্স দৈর্ঘ্য সামান্য হ্রাস পেয়েছে।

এতে বোঝা যায় যে প্রশিক্ষণের অগ্রগতির সাথে সাথে মডেলটি তার টোকেন বাজেট আরও কার্যকরভাবে ব্যবহার করতে শিখছে।

বিভিন্ন প্রশিক্ষণ কৌশল পদ্ধতিগতভাবে মূল্যায়ন করার জন্য, তারা একটি নির্দিষ্ট বেঞ্চমার্ক - AIME ২০২৪ এবং GPQA ডায়মন্ড - কে অগ্রগতির সূচক হিসাবে ব্যবহার করেছে।

সামগ্রিকভাবে, পরীক্ষামূলক পদ্ধতিটিকে দুটি পর্যায়ে ভাগ করা যায়: অনুসন্ধান এবং স্কেলিং (scaling)।

অনুসন্ধান পর্যায়ে, গবেষকরা দ্রুত পুনরাবৃত্তি করতে এবং শক্তিশালী প্রশিক্ষণ পদ্ধতি বের করার জন্য সংক্ষিপ্ত প্রশিক্ষণ চক্র এবং সীমিত ডেটা উৎস এবং ক্ষেত্র ব্যবহার করেছেন।

পরবর্তী সম্প্রসারণ পর্যায়ে, গবেষকরা প্রাথমিক ঝুঁকি হ্রাস পরীক্ষার ফলাফলগুলো সংক্ষিপ্ত করেছেন এবং SFT সেটিংস চূড়ান্ত করেছেন।

চিত্র ৫ এই অগ্রগতি সংক্ষিপ্ত করে, বেশ কয়েকটি মূল নকশা পছন্দের অ্যাবলেশন পরীক্ষাগুলো (ablation experiments) তুলে ধরে।

চিত্র ৫ ফি-৪-রিজনিং তত্ত্বাবধানে সূক্ষ্ম টিউনিং (SFT) পরীক্ষামূলক চক্রের একটি উচ্চ-স্তরের সংক্ষিপ্তসার দেখায়, যার মধ্যে অনুসন্ধান এবং সম্প্রসারণ পর্যায়গুলো রয়েছে, কিছু উদাহরণ পরীক্ষা ব্যবহার করে উপস্থাপন করা হয়েছে। প্রতিটি ডট ক্লাস্টার (dot cluster) একটি নির্দিষ্ট প্রশিক্ষণ নকশা পছন্দের পরীক্ষামূলক ফলাফল উপস্থাপন করে।

চিত্র ৭ জিআরপিও প্রশিক্ষণ প্রক্রিয়ার সময় ফি-৪-রিজনিং-প্লাস মডেলের মূল আবিষ্কারগুলো দেখায়।

তত্ত্বাবধানে সূক্ষ্ম টিউনিং (SFT) বেস মডেল ফি-৪-রিজনিং থেকে শুরু করে, মাত্র ৯০ ধাপের জিআরপিও প্রশিক্ষণ AIME কর্মক্ষমতা ১০% এর বেশি বাড়িয়েছে (চিত্র ৭a)।

প্রশিক্ষণের ধাপগুলোর সংখ্যা ক্রমাগত বাড়ানো হলে অতিরিক্ত কোনো সুবিধা পাওয়া যায়নি, যা ইঙ্গিত করে যে একটি শক্তিশালী SFT মডেলের সম্ভাবনা কর্মক্ষমতার সর্বোচ্চ সীমায় পৌঁছে গেছে। উল্লেখ্য, জিআরপিও প্রশিক্ষণে আউটপুট ৩১k টোকেনের মধ্যে সীমাবদ্ধ, যা জিআরপিও-এর অপটিমাইজেশন স্থানকে সীমিত করে।

চিত্র ৭c-তে যেমন দেখানো হয়েছে, রেসপন্স দৈর্ঘ্য AIME কর্মক্ষমতার সাথে দৃঢ়ভাবে সম্পর্কিত, যেখানে পুরস্কার স্কোর (reward score) এবং AIME স্কোরের মধ্যে সম্পর্ক দুর্বল। এই রেসপন্স দৈর্ঘ্য বৃদ্ধির প্রভাব জিআরপিও প্রশিক্ষণের প্রত্যাশিত প্রভাব - মডেলটি ‘চিন্তা করার সময়’ বাড়িয়ে তার রিজনিং ক্ষমতা উন্নত করে।

চিত্র ৭d আরও প্রকাশ করে যে পুরস্কার মডেলের নকশার কারণে, ভুল উত্তরের জেনারেশন দৈর্ঘ্য সঠিক উত্তরের তুলনায় উল্লেখযোগ্যভাবে দ্রুত বৃদ্ধি পায় (যখন মডেলের বর্তমান উত্তর ভুল হয়, তখন সিস্টেম এটিকে আরও বেশি সময় ধরে চিন্তা করতে উৎসাহিত করবে)।

প্রকৃতপক্ষে, শুধুমাত্র রেসপন্স দৈর্ঘ্যের উপর ভিত্তি করে প্রত্যাখ্যান স্যাম্পলিং (rejection sampling) সম্পাদন করলে (বিশেষত দীর্ঘ রেসপন্স যা মধ্যকের চেয়ে উল্লেখযোগ্যভাবে বেশি), জিআরপিও কর্মক্ষমতা আরও উন্নত হতে পারে।

চিত্র ৭d-তে যেমন দেখানো হয়েছে, প্রশিক্ষণের সময় ছোট রেসপন্সগুলোর (দৈর্ঘ্য ২৫% কোয়ান্টাইলের নিচে অবস্থিত) বৃদ্ধির প্রবণতা সঠিক উত্তরের গড় দৈর্ঘ্যের মতোই, যেখানে ভুল উত্তরের দৈর্ঘ্য সামগ্রিক রেসপন্স দৈর্ঘ্যের ৭৫% কোয়ান্টাইলের কাছাকাছি।

এই পার্থক্যকরণ ঘটনাটি ইঙ্গিত করে যে দৈর্ঘ্য-ভিত্তিক প্রত্যাখ্যান স্যাম্পলিং অতিরিক্ত দীর্ঘ ভুল আউটপুট দমন করে মডেলের দক্ষতা উন্নত করতে পারে।