গণনা ও যুক্তিতে NVIDIA AI AceReason-Nemotron

কৃত্রিম বুদ্ধিমত্তা (Artificial Intelligence) যা সত্যিকার অর্থে যুক্তি দিতে পারে, তা দীর্ঘকাল ধরে এই ক্ষেত্রের একটি কেন্দ্রীয় সাধনা। OpenAI-এর "o1" মডেলের প্রাথমিক আলোড়ন বৃহৎ আকারের রিইনফোর্সমেন্ট লার্নিং (Reinforcement Learning, RL) কৌশল ব্যবহারের মাধ্যমে অত্যাধুনিক যুক্তিযুক্ত সিস্টেম তৈরি করার জন্য ব্যাপক আগ্রহ তৈরি করেছে। এর পরে, DeepSeek-R1 তার মডেলটিকে ওপেন সোর্স হিসেবে প্রকাশ করার সিদ্ধান্ত নিলে তা আরও উৎসাহ জাগায় এবং AI সম্প্রদায়কে অত্যাধুনিক যুক্তিনির্ভর মডেল তৈরিতে সক্রিয়ভাবে উৎসাহিত করে।

তবে, এই উৎসাহ দ্রুত একটি গুরুত্বপূর্ণ প্রযুক্তিগত সমস্যা দ্বারা প্রশমিত হয়েছিল। সফলভাবে প্রতিলিপি তৈরি করার জন্য অত্যাবশ্যকীয় কিছু গুরুত্বপূর্ণ প্রযুক্তিগত বিবরণ - বিশেষভাবে, ডেটা কিউরেশন (data curation) এবং RL প্রশিক্ষণের জটিল কৌশলগুলি DeepSeek-R1-এর মূল প্রতিবেদনে অনুপস্থিত ছিল। এই কারণে গবেষকরা হতাশ হয়ে পড়েন এবং প্রকাশিত সাফল্যের পুনরাবৃত্তি করার চ্যালেঞ্জের সঙ্গে লড়াই করতে থাকেন। ফলস্বরূপ, গবেষণার ক্ষেত্রটি কিছুটা খণ্ডিত হয়ে যায়, যেখানে বিভিন্ন মডেলের আকার, বিভিন্ন প্রাথমিক চেকিং পয়েন্ট এবং বিভিন্ন টার্গেট ডোমেইন (target domain) নিয়ে স্বতন্ত্র প্রচেষ্টা চালানো হচ্ছিল। এই তীব্র কার্যকলাপ সত্ত্বেও, একটি ব্যাপক এবং ধারাবাহিকভাবে কার্যকর প্রশিক্ষণ কৌশল অধরা রয়ে যায়।

যুক্তির জন্য ভাষা মডেল প্রশিক্ষণের ঐতিহ্যবাহী পদ্ধতিগুলি মূলত গণিত এবং কম্পিউটার কোডের ডোমেইনগুলিতে মনোনিবেশ করেছে। এই পদ্ধতিগুলি সাধারণত বৃহৎ ডেটাসেটের ওপর প্রি-ট্রেনিং (pre-training) এবং বিশেষ কাজগুলির জন্য মডেলগুলিকে বিশেষায়িত করতে তত্ত্বাবধানে ফাইন-টিউনিংয়ের (supervised fine-tuning) ওপর নির্ভর করে। রিইনফোর্সমেন্ট লার্নিংকে এই প্রক্রিয়ার মধ্যে অন্তর্ভুক্ত করার প্রাথমিক প্রচেষ্টাগুলি, সাধারণত ডোমেইন-স্পেসিফিক (domain-specific) পুরস্কার মডেল ব্যবহার করে, সীমিত সাফল্য পেয়েছে। এর কারণ হল গাণিতিক এবং কোডিংয়ের কাজগুলির অন্তর্নিহিত চ্যালেঞ্জ, যেখানে সামান্য ত্রুটিও মারাত্মকভাবে ভুল ফলাফল দিতে পারে।

DeepSeek-R1 প্রকাশের পর উৎসাহিত হয়ে আরও সাম্প্রতিক তদন্তগুলি নিয়ম-ভিত্তিক যাচাইকরণ পদ্ধতি ব্যবহারের ওপর গুরুত্ব দিয়েছে। গণিতের ক্ষেত্রে, এই পদ্ধতিগুলিতে প্রায়শই নির্দিষ্ট আউটপুট ফর্ম্যাটের প্রয়োজন হয় যা সমাধানের নির্ভুল এবং স্বয়ংক্রিয় যাচাইকরণ নিশ্চিত করে। একইভাবে, কোডের প্রেক্ষাপটে, গবেষকরা শেখার প্রক্রিয়াটিকে গাইড (guide) করতে কম্পাইলেশন (compilation) এবং এক্সিকিউশনের (execution) অন্তর্নিহিত ফিডব্যাক মেকানিজমগুলির (feedback mechanism) সুবিধা নিয়েছেন। তবে, এই পদ্ধতিগুলি সাধারণত স্বতন্ত্র ডোমেইনগুলিতে সংকীর্ণভাবে দৃষ্টি নিবদ্ধ করে, যেখানে গাণিতিক এবং কোডিং সমস্যা মিশ্রিত ভিন্নধর্মী প্রম্পটগুলি (prompts) কার্যকরভাবে পরিচালনা করার ক্ষমতা নেই। অধিকন্তু, মূল্যায়নগুলি প্রায়শই AIME এবং LiveCodeBench-এর মতো নির্দিষ্ট বেঞ্চমার্কের (benchmark) মধ্যে সীমাবদ্ধ থাকে, যা ফলাফলের সাধারণীকরণকে সীমিত করে। পরিশেষে, প্রশিক্ষণের অস্থিরতা একটি স্থায়ী সমস্যা হিসাবে রয়ে গেছে, যার জন্য প্রায়শই প্রগতিশীল প্রতিক্রিয়া দৈর্ঘ্যের বৃদ্ধি এবং এনট্রপি কলাপস (entropy collapse) প্রশমনের মতো জটিল কৌশলগুলির ব্যবহার প্রয়োজন।

এখন, NVIDIA-এর গবেষকরা গেমটি পরিবর্তন করছেন, কারণ তারা অপেক্ষাকৃত ছোট এবং মাঝারি আকারের মডেলগুলির যুক্তিবোধের ক্ষমতা নাটকীয়ভাবে বাড়ানোর জন্য বৃহৎ আকারের রিইনফোর্সমেন্ট লার্নিংয়ের উল্লেখযোগ্য সম্ভাবনা প্রদর্শন করেছেন। তাদের পদ্ধতিগুলি ডিস্টিলেশন (distillation) কৌশলগুলির উপর ভিত্তি করে তৈরি করা অত্যাধুনিক পদ্ধতিগুলির চেয়েও বেশি কার্যকারিতা অর্জন করে। NVIDIA পদ্ধতি একটি ধারাবাহিক প্রশিক্ষণ কৌশল ব্যবহার করে: প্রথমে, শুধুমাত্র গণিত-সম্পর্কিত প্রম্পটগুলিতে RL প্রশিক্ষণ সম্পাদন করে এবং পরবর্তীতে শুধুমাত্র কোডের উপর দৃষ্টি নিবদ্ধ করে প্রম্পটগুলিতে স্যুইচ (switch) করে।

উন্নত যুক্তির জন্য একটি ধারাবাহিক পদ্ধতি

ফলাফল কী? গাণিতিক সমস্যাগুলির ওপর প্রাথমিক RL প্রশিক্ষণ শুধুমাত্র গাণিতিক বেঞ্চমার্কে কর্মক্ষমতা নাটকীয়ভাবে উন্নত করে না, আশ্চর্যজনকভাবে কোড যুক্তির ক্ষমতাও উল্লেখযোগ্যভাবে বৃদ্ধি করে। উপরন্তু, বিশেষভাবে কোডের উপর দৃষ্টি নিবদ্ধ করে RL প্রশিক্ষণের বর্ধিত iterationগুলি (পুনরাবৃত্তি) গাণিতিক কর্মক্ষমতা সামান্য হ্রাস করে কোডের কর্মক্ষমতাকে আরও বাড়িয়ে তোলে। এই পদ্ধতিটি একটি গুরুত্বপূর্ণ বিষয় তুলে ধরে: গাণিতিক প্রশিক্ষণ কোডিংয়ের মতো আরও জটিল যুক্তির কাজগুলির জন্য একটি শক্তিশালী ভিত্তি হিসেবে কাজ করতে পারে।

NVIDIA পদ্ধতির সাফল্যের জন্য একটি গুরুত্বপূর্ণ বিষয় হল একটি শক্তিশালী ডেটা কিউরেশন পাইপলাইন (data curation pipeline)। এই পাইপলাইনটি সতর্কতার সঙ্গে চ্যালেঞ্জিং প্রম্পটগুলি সংগ্রহ করার জন্য ডিজাইন করা হয়েছে, যেগুলি উচ্চ অসুবিধা এবং উচ্চ-মানের যাচাইযোগ্য উত্তর ও পরীক্ষার কেসগুলির উপলব্ধতা দ্বারা চিহ্নিত করা হয়। এটি গাণিতিক এবং কোডিং উভয় ডোমেইনে কার্যকরভাবে যাচাইকরণ-ভিত্তিক RL প্রয়োগ করতে দেয়।

গণিত এবং কোডের জন্য ডেটা কিউরেশন

NVIDIA গবেষকরা ডেটা কিউরেশন পদ্ধতি ব্যবহারের ক্ষেত্রে গণিত-ভিত্তিক RL এবং কোড-ভিত্তিক RL এর প্রয়োজনীয়তার মধ্যে পার্থক্য করেছেন।

গণিত-ভিত্তিক RL: গণিত-ভিত্তিক RL-এর জন্য প্রশিক্ষণ ডেটা তৈরি করতে DeepScaler এবং NuminaMath ডেটাসেট থেকে ডেটা একত্রিত করা হয়। এই ডেটাসেটগুলিতে বীজগণিত, কম্বিনেটরিক্স (combinatorics), সংখ্যা তত্ত্ব এবং জ্যামিতি সহ বিভিন্ন গাণিতিক বিষয় অন্তর্ভুক্ত রয়েছে। ডেটার অখণ্ডতা বজায় রাখার জন্য, একটি কঠোর ফিল্টারিং (filtering) প্রক্রিয়া প্রয়োগ করা হয়, যেখানে ৯-গ্রাম ফিল্টার ব্যবহার করে অতিরিক্ত বা অনুপযুক্ত বিষয়বস্তু সরানো হয় এবং সম্ভাব্য সমস্যাযুক্ত এন্ট্রিগুলি বাদ দেওয়ার জন্য কঠোর নিয়ম প্রয়োগ করা হয়। DeepSeek-R1 মডেলটি প্রশ্নগুলির গুণমান যাচাই করতে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। প্রতিটি প্রশ্ন মডেল দ্বারা আটটি স্বাধীন চেষ্টার শিকার হয় এবং শুধুমাত্র সেই সমাধানগুলি চূড়ান্ত ডেটাসেটে অন্তর্ভুক্ত করার জন্য রাখা হয় যেগুলির নিয়ম-ভিত্তিক যাচাইকরণের মাধ্যমে সংখ্যাগরিষ্ঠের ভোট সঠিক বলে পাওয়া যায়।

কোড-ভিত্তিক RL: কোড-ভিত্তিক RL-এর জন্য ডেটাসেট আধুনিক প্রতিযোগিতামূলক প্রোগ্রামিং প্ল্যাটফর্ম থেকে প্রাপ্ত ডেটা ব্যবহার করে তৈরি করা হয়। এই প্ল্যাটফর্মগুলি অ্যালগরিদমিক (algorithmic) বিষয়ের বিভিন্ন অ্যারে (array) বিস্তৃত কোডিং সমস্যাগুলির একটি সমৃদ্ধ উৎস সরবরাহ করে। এই সমস্যাগুলি ফাংশন-কলিং এবং স্ট্যান্ডার্ড ইনপুট/আউটপুট ( stdin/stdout) কনভেনশনগুলির সাথে সামঞ্জস্য রেখে ফর্ম্যাট করা হয় যা সাধারণত এই পরিবেশগুলিতে ব্যবহৃত হয়। গবেষকরা বেমানান সমস্যাগুলি দূর করতে একটি সতর্ক ফিল্টারিং প্রক্রিয়া চালান এবং প্রান্তিক কেস (edge case) এবং সীমানা শর্তগুলি (boundary condition) কভার (cover) করার জন্য ডিজাইন করা ব্যাপক পরীক্ষার কেসগুলি তৈরি করেন। উপরন্তু, প্রতিটি সমস্যা DeepSeek-R1-671B মডেল দ্বারা মূল্যায়নের মাধ্যমে নির্ধারিত একটি অসুবিধা স্কোর (difficulty score) প্রদান করা হয়। এই কঠোর প্রক্রিয়াটির ফলে 8,520টি যাচাইকৃত কোডিং সমস্যাগুলির একটি উচ্চ-মানের ডেটাসেট তৈরি হয়।

AceReason-Nemotron: ফলাফল এবং বেঞ্চমার্ক

NVIDIA গবেষণার ফলাফলগুলি বাধ্যতামূলক। AceReason-Nemotron-7B মডেলটি প্রাথমিক SFT মডেলগুলির তুলনায় চ্যালেঞ্জিং AIME 2024 এবং 2025 প্রতিযোগিতাগুলিতে যথাক্রমে 14.5% এবং 14.6% উল্লেখযোগ্য নির্ভুলতা উন্নতি অর্জন করে। উপরন্তু, এটি LiveCodeBench v5 এবং v6 বেঞ্চমার্কে যথাক্রমে 14.2% এবং 8% যথেষ্ট লাভ প্রদর্শন করে। মডেলের বৃহত্তর 14B ভ্যারিয়েন্টটি আরও বেশি কর্মক্ষমতা দেখায়, যা DeepSeek-R1-Distill-Qwen-32B এবং DeepSeek-R1-Distill-Llama-70B-এর মতো বড় মডেলগুলিকে ছাড়িয়ে যায়। এটি ওপেন RL-ভিত্তিক যুক্তিসম্পন্ন মডেলগুলির মধ্যে সেরা ফলাফল অর্জন করে।

অত্যাধুনিক ডিস্টিলেশন-ভিত্তিক মডেলগুলির সাথে তুলনা করলে, AceReason-Nemotron-14B AIME বেঞ্চমার্কে OpenMath-14B/32B থেকে 2.1%/4.4% বেশি এবং LiveCodeBench-এ OpenCodeReasoning-14B থেকে 1.7%/0.8% বেশি স্কোর করে। এটি প্রমাণ করে যে RL ডিস্টিলেশন পদ্ধতির চেয়ে বেশি কর্মক্ষমতা অর্জন করতে পারে QWQ-32B এবং o3-mini-এর মতো উন্নত ফ্রন্টিয়ার মডেলগুলির বিরুদ্ধে প্রতিযোগিতামূলক কর্মক্ষমতা বজায় রেখে।

এই ফলাফলগুলির তাৎপর্য অনেক। তারা ইঙ্গিত দেয় যে বৃহৎ আকারের RL AI মডেলগুলিতে যুক্তিবোধের নতুন স্তর উন্মোচন করার সম্ভাবনা রাখে, যা ঐতিহ্যবাহী পদ্ধতির সীমাবদ্ধতা ছাড়িয়ে যায়। একটি শক্তিশালী ডেটা কিউরেশন পাইপলাইনের সাথে মিলিত ধারাবাহিক ডোমেইন-স্পেসিফিক প্রশিক্ষণ কৌশল এই ক্ষেত্রে ভবিষ্যতের গবেষণার জন্য একটি নীলনকশা সরবরাহ করে।

রিইনফোর্সমেন্ট লার্নিং যুক্তির সীমা চালায়

এই গবেষণা মডেলের যুক্তিবোধের ক্ষমতাগুলির সীমানা প্রসারিত করতে রিইনফোর্সমেন্ট লার্নিংয়ের উল্লেখযোগ্য সম্ভাবনাকে তুলে ধরে। কৌশলগতভাবে ডোমেইন-স্পেসিফিক প্রশিক্ষণ ব্যবহার করে এবং সতর্কতার সাথে উচ্চ-মানের ডেটা তৈরি করে, AI মডেলগুলিকে পূর্বে দুরূহ সমস্যাগুলি সমাধান করার অনুমতি দেয় এবং যুক্তিসম্পন্ন মডেল উন্নয়ন নতুন মানদণ্ড স্থাপন করে এবং শেষ পর্যন্ত AI সিস্টেমের একটি নতুন প্রজন্ম তৈরি করে যা অভূতপূর্ব নির্ভুলতা এবং দক্ষতার সাথে বাস্তব-বিশ্বের চ্যালেঞ্জ মোকাবেলা করতে সক্ষম। কার্যকরভাবে যুক্তি দেওয়ার ক্ষমতা বুদ্ধিমত্তার একটি ভিত্তি, এবং NVIDIA দ্বারা অর্জিত অগ্রগতি কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ সম্ভাবনা উপলব্ধি করার দিকে একটি বড় পদক্ষেপ। ভবিষ্যতের গবেষণা সম্ভবত এই কৌশলগুলিকে আরও বড় মডেলগুলিতে প্রসারিত করার দিকে মনোনিবেশ করবে এবং যুক্তিবোধের কর্মক্ষমতা আরও উন্নত করতে নতুন ডেটা কিউরেশন কৌশল অনুসন্ধান করবে। আরও অত্যাধুনিক পুরস্কার ফাংশন এবং অনুসন্ধান কৌশলগুলির বিকাশ জটিল যুক্তির কাজগুলির জন্য AI মডেলগুলিকে প্রশিক্ষণ দেওয়ার সাথে সম্পর্কিত চ্যালেঞ্জগুলি কাটিয়ে ওঠার জন্য অত্যন্ত গুরুত্বপূর্ণ হবে। পরিশেষে, লক্ষ্য হল এমন AI সিস্টেম তৈরি করা যা মানুষের মতো করে যুক্তি দিতে, শিখতে এবং মানিয়ে নিতে পারে। এটি তাদেরকে জটিল সমস্যাগুলি সমাধান করতে এবং বিস্তৃত ডোমেইন জুড়ে সচেতন সিদ্ধান্ত নিতে সক্ষম করবে।

তাছাড়া, RL ব্যবহারের কাঁচা নির্ভুলতার বাইরেও সুবিধা রয়েছে। RL এজেন্টরা দক্ষতা, বলিষ্ঠতা এবং ব্যাখ্যার ক্ষমতার মতো বিভিন্ন লক্ষ্যের জন্য অপ্টিমাইজ (optimize) করতে শিখতে পারে। উদাহরণস্বরূপ, একটি RL এজেন্টকে এমন কোড তৈরি করার জন্য প্রশিক্ষণ দেওয়া যেতে পারে যা শুধুমাত্র সঠিক নয়, দক্ষ এবং সহজে বোধগম্য। এই ক্ষমতাটি বিশেষভাবে সেই অ্যাপ্লিকেশনগুলিতে গুরুত্বপূর্ণ যেখানে নিরাপত্তা জড়িত, যেখানে AI সিস্টেমগুলি নির্ভরযোগ্য এবং অনুমানযোগ্য কিনা তা নিশ্চিত করা অপরিহার্য।

NVIDIA-এর কাজটি AI গবেষণায় ডেটা কিউরেশনের ক্রমবর্ধমান গুরুত্ব তুলে ধরে। প্রশিক্ষণ ডেটার গুণমান AI মডেলগুলির কর্মক্ষমতার উপর উল্লেখযোগ্য প্রভাব ফেলে, এবং অত্যাধুনিক ফলাফল অর্জনের জন্য সাবধানে তৈরি করা ডেটাসেট অপরিহার্য। NVIDIA দ্বারা তৈরি ডেটা কিউরেশন পাইপলাইন যুক্তিসম্পন্ন মডেলগুলির উপর কাজ করা গবেষকদের জন্য একটি মূল্যবান সম্পদ, এবং এটি অন্যান্য ডোমেইনগুলিতে ব্যবহারের জন্যও অভিযোজিত হতে পারে।

বৃহৎ আকারের RL, ডোমেইন-স্পেসিফিক প্রশিক্ষণ এবং শক্তিশালী ডেটা কিউরেশনের সংমিশ্রণ AI মডেলগুলির যুক্তি দেওয়ার ক্ষমতা উন্নত করার জন্য একটি সফল পদ্ধতি হিসাবে প্রমাণিত হয়েছে। যেহেতু এই কৌশলগুলি ক্রমাগত বিকশিত হচ্ছে, আমরা AI এর ক্ষেত্রে আরও বেশি চিত্তাকর্ষক অগ্রগতি দেখতে পাব বলে আশা করতে পারি এবং আমরা আশা করি অদূর ভবিষ্যতে AI মডেলগুলির ক্রমাগত উন্নতি দেখতে পাব।