Nvidia-র Llama-Nemotron সিরিজের মডেলগুলি আনুষ্ঠানিকভাবে DeepSeek-R1 কে ছাড়িয়ে গেছে, এবং তাদের প্রশিক্ষণের বিশদ বিবরণ সম্পূর্ণরূপে প্রকাশ করা হয়েছে, যা এই মডেলগুলিকে কীভাবে উন্নত পারফরম্যান্স অর্জনের জন্য তৈরি করা হয়েছে সে সম্পর্কে অন্তর্দৃষ্টি প্রদান করে।
এই মডেলগুলি এখন সম্পূর্ণরূপে ওপেন সোর্স, যা অ্যাক্সেসযোগ্য AI প্রযুক্তিতে একটি গুরুত্বপূর্ণ অগ্রগতি চিহ্নিত করে। এর মানে হল যে একাধিক inference মডেল যা inference throughput এবং memory efficiency-এর দিক থেকে DeepSeek-R1 কে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে, সেগুলি এখন যে কেউ ব্যবহার এবং পরিবর্তন করতে পারবে।
মডেলের সাফল্যের পেছনের রহস্য উন্মোচন
তাহলে, DeepSeek-R1 কে ছাড়িয়ে যাওয়া এই মডেলগুলো ঠিক কীভাবে তৈরি করা হয়েছিল? Nvidia-র কারিগরি প্রতিবেদনে তাদের প্রশিক্ষণ প্রক্রিয়ার গুরুত্বপূর্ণ উপাদানগুলো প্রকাশ করা হয়েছে:
- সিনথেটিক ডেটা + রিইনফোর্সমেন্ট লার্নিং সহ সুপারভাইজড ফাইন-টিউনিং: এই সংমিশ্রণটি মডেলের যুক্তিবোধের ক্ষমতাকে উল্লেখযোগ্যভাবে বাড়িয়ে তোলে।
- বিস্তৃত পোস্ট-ট্রেনিং প্রক্রিয়া: মডেলের কর্মক্ষমতা অপ্টিমাইজ করার জন্য একটি শক্তিশালী এবং ভালোভাবে ডিজাইন করা পোস্ট-ট্রেনিং প্রক্রিয়া অত্যন্ত গুরুত্বপূর্ণ।
গত মাসে, Nvidia আনুষ্ঠানিকভাবে Llama-Nemotron 253B ঘোষণা করেছে, যা দ্রুত Llama 4 কে ছাপিয়ে যায় (যা মাত্র তিন দিন আগে প্রকাশিত হয়েছিল এবং লিডারবোর্ড কারসাজির কারণে “অখণ্ডতা সংকটের” সম্মুখীন হয়েছিল)। এই সিরিজের মডেলগুলির প্রকাশ শিল্পে বেশ আলোড়ন সৃষ্টি করেছে।
আর্টিফিশিয়াল অ্যানালাইসিস ইন্টেলিজেন্স ইন্ডেক্স অনুসারে, Llama-Nemotron-Ultra বর্তমানে এপ্রিল ২০২৫ পর্যন্ত “সবচেয়ে বুদ্ধিমান” ওপেন সোর্স মডেল হিসেবে বিবেচিত হচ্ছে।
Nvidia Llama-Nemotron সিরিজে তিনটি মডেল চালু করেছে: LN-Nano 8B, LN-Super 49B, এবং LN-Ultra 253B।
বিশেষত, LN-Ultra শুধুমাত্র কর্মক্ষমতার দিক থেকে DeepSeek-R1 কে ছাড়িয়ে যায় তাই নয়, এটি একটি single 8xH100 নোডেও চলে, যা উচ্চতর inference throughput প্রদান করে।
এই মডেলগুলি শক্তিশালী যুক্তিবোধ ক্ষমতা এবং 128K পর্যন্ত context length বজায় রেখে উচ্চ-থ্রুপুট inference-এর জন্য অপ্টিমাইজ করা হয়েছে।
উপরন্তু, Nvidia বিশ্ব AI ওপেন সোর্স কমিউনিটিতে একটি যুগান্তকারী inference switch feature চালু করেছে। ব্যবহারকারীরা সিস্টেম প্রম্পট “detailed thinking on/off” ব্যবহার করে স্ট্যান্ডার্ড চ্যাট মোড এবং রিজনিং মোডের মধ্যে গতিশীলভাবে পরিবর্তন করতে পারে।
এই ডিজাইন মডেলটিকে সাধারণ দৈনন্দিন চাহিদা মেটাতে এবং বিভিন্ন মডেল বা আর্কিটেকচারের প্রয়োজন ছাড়াই জটিল, বহু-পদক্ষেপের যুক্তিবোধের কাজগুলি পরিচালনা করতে দেয়।
নির্মাণ প্রক্রিয়া: একটি পাঁচ-পর্যায়ের পদ্ধতি
Llama-Nemotron মডেলগুলির নির্মাণকে পাঁচটি স্বতন্ত্র পর্যায়ে ভাগ করা হয়েছে:
পর্যায় ১: Llama 3 সিরিজের মডেলের উপর ভিত্তি করে নিউরাল আর্কিটেকচার সার্চ (NAS) ব্যবহার করে যুক্তিবোধের দক্ষতা অপ্টিমাইজ করা, Feedforward Network Fusion (FFN Fusion) এর প্রবর্তন।
পর্যায় ২: জ্ঞান পাতন এবং ক্রমাগত প্রি-ট্রেনিংয়ের মাধ্যমে মডেলের কর্মক্ষমতা পুনরুদ্ধার।
পর্যায় ৩: সুপারভাইজড ফাইন-টিউনিং (SFT), যা শক্তিশালী শিক্ষক মডেল যেমন DeepSeek-R1 থেকে স্ট্যান্ডার্ড নির্দেশাবলী ডেটার সাথে যুক্তিবোধ প্রক্রিয়াগুলিকে একত্রিত করে, যা মডেলটিকে বহু-পদক্ষেপের যুক্তিবোধ করতে সক্ষম করে।
পর্যায় ৪: জটিল গাণিতিক এবং STEM ডেটাসেটের উপর বৃহৎ আকারের রিইনফোর্সমেন্ট লার্নিং, যা শিক্ষক মডেলের ক্ষমতাকে ছাড়িয়ে যাওয়ার জন্য শিক্ষার্থীর মডেলের জন্য অত্যন্ত গুরুত্বপূর্ণ। LN-Ultra-এর জন্য, এই পর্যায়টি GPQA-D বেঞ্চমার্কে কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে, এটিকে ওপেন সোর্স ডোমেনে বৈজ্ঞানিক যুক্তিবোধের জন্য সবচেয়ে শক্তিশালী মডেল হিসেবে প্রতিষ্ঠিত করে।
এই ধরনের বৃহৎ আকারের রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণ সমর্থন করার জন্য, দলটি একাধিক অপ্টিমাইজেশন ব্যবস্থা সহ একটি নতুন প্রশিক্ষণ কাঠামো তৈরি করেছে, সবচেয়ে গুরুত্বপূর্ণভাবে FP8 precision generation ক্ষমতা সমর্থন করে।
পর্যায় ৫: নির্দেশাবলী অনুসরণ এবং মানুষের পছন্দ মেনে চলার উপর দৃষ্টি নিবদ্ধ করে একটি সংক্ষিপ্ত অ্যালাইনমেন্ট প্রশিক্ষণ।
অপ্টিমাইজড Inference দক্ষতার জন্য উদ্ভাবনী আর্কিটেকচার
LN-Super এবং LN-Ultra মডেল inference দক্ষতা অপ্টিমাইজ করার জন্য নিউরাল আর্কিটেকচার অনুসন্ধানের জন্য Puzzle কাঠামো ব্যবহার করে।
Puzzle বৃহৎ ভাষার মডেলগুলিকে হার্ডওয়্যার-অ্যাডাপ্টেড, দক্ষ সংস্করণে রূপান্তরিত করে, যা স্থাপনার জন্য অপ্টিমাইজ করা হয়।
"ব্লক-বাই-ব্লক স্থানীয় পাতন"-এর মাধ্যমে, বিকাশকারীরা Llama 3 Instruct ব্যবহার করে বিকল্প ট্রান্সফরমার মডিউলগুলির একটি লাইব্রেরি তৈরি করেছে।
এই প্রক্রিয়ায়, প্রতিটি মডিউল স্বাধীনভাবে এবং সমান্তরালভাবে প্রশিক্ষিত হয়, গণনামূলক কর্মক্ষমতা অপ্টিমাইজ করার সময় মূল মডিউলের কার্যকারিতার আনুমানিক হিসাব করে।
প্রতিটি বিকল্প মডিউলের নির্দিষ্ট “precision-efficiency” ট্রেড-অফ রয়েছে। কিছু মডিউল আরও দক্ষ তবে এর ফলে কিছু গুণগত মান হ্রাস হতে পারে, যা গণনামূলক খরচ এবং মডেল নির্ভুলতার মধ্যে একটি স্পষ্ট ট্রেড-অফ তৈরি করে।
এই মডিউল বৈচিত্রগুলির মধ্যে রয়েছে:
মনোযোগ প্রক্রিয়া অপসারণ: কিছু মডিউল সম্পূর্ণরূপে মনোযোগ প্রক্রিয়া বাদ দেয়, যা গণনা এবং KV ক্যাশে মেমরি খরচ হ্রাস করে।
পরিবর্তনশীল FFN ডাইমেনশন: ফিডফরওয়ার্ড নেটওয়ার্কগুলির মধ্যবর্তী ডাইমেনশনগুলি সামঞ্জস্য করা হয়, যা বিভিন্ন গ্রানুলারিটিতে মডেল কম্প্রেশনের অনুমতি দেয়।
মডিউল লাইব্রেরি তৈরি করার পরে, Puzzle একটি সম্পূর্ণ মডেল একত্রিত করার জন্য প্রতিটি স্তর থেকে একটি মডিউল নির্বাচন করে।
এই নির্বাচন প্রক্রিয়াটি একটি মিশ্র-পূর্ণসংখ্যা প্রোগ্রামিং (MIP) সলভার দ্বারা নিয়ন্ত্রিত হয়, যা হার্ডওয়্যার সামঞ্জস্যতা, সর্বাধিক অনুমোদিত লেটেন্সি, মেমরি বাজেট বা পছন্দসই inference থ্রুপুটের মতো সীমাবদ্ধতার উপর ভিত্তি করে অনুকূল কনফিগারেশন খুঁজে বের করে।
উল্লম্ব কম্প্রেশন এবং FFN ফিউশন
LN-Ultra মডেলে, গবেষকরা FFN ফিউশন (ফিডফরওয়ার্ড নেটওয়ার্ক ফিউশন) চালু করেছেন, মডেলের সিকোয়েন্স গভীরতা কমাতে এবং যুক্তিবোধ লেটেন্সি দক্ষতা উন্নত করার জন্য একটি অতিরিক্ত কম্প্রেশন কৌশল।
Puzzle কিছু মনোযোগ স্তর অপসারণের ফলে একটি অনন্য কাঠামো তৈরি হয়: একাধিক ক্রমাগত FFN ব্লক প্রায়শই মডেল কাঠামোতে প্রদর্শিত হয়।
FFN ফিউশন এই ক্রমাগত কাঠামো সনাক্ত করে এবং সেগুলিকে কয়েকটি প্রশস্ত, সমান্তরাল-নির্বাহযোগ্য FFN স্তর দিয়ে প্রতিস্থাপন করে।
এই প্রতিস্থাপন পদ্ধতি মডেল প্রকাশ ক্ষমতা ত্যাগ না করে অনুক্রমিক গণনার ধাপগুলি হ্রাস করে, কম্পিউটিং সংস্থানগুলির ব্যবহার উল্লেখযোগ্যভাবে উন্নত করে - বিশেষত মাল্টি-জিপিইউ পরিবেশে, যেখানে ক্রস-লেয়ার যোগাযোগের ওভারহেড উল্লেখযোগ্য।
LN-Ultra মডেলটি ধারাবাহিকভাবে নির্ভুলতা এবং দক্ষতার দিক থেকে DeepSeek-R1 এবং Llama-3.1-405B কে ছাড়িয়ে যায়, একটি অনুকূল ভারসাম্য অর্জন করে।
পোস্ট-NAS প্রশিক্ষণ: জ্ঞান পাতন এবং ক্রমাগত প্রি-ট্রেনিং
নিউরাল আর্কিটেকচার সার্চ (NAS) পর্বের পরে, LN-Super এবং LN-Ultra উভয়ই মডিউলগুলির মধ্যে সামঞ্জস্যতা উন্নত করতে এবং মডিউল প্রতিস্থাপনের সময় ঘটতে পারে এমন কোনও গুণগত মান হ্রাস পুনরুদ্ধার করার জন্য অতিরিক্ত প্রশিক্ষণ নেয়।
- LN-Super কে জ্ঞান পাতন উদ্দেশ্যের অধীনে 40 বিলিয়ন টোকেনের জন্য ডিস্টিলেশন মিক্স ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছিল।
- LN-Ultra কে প্রাথমিকভাবে একই ডিস্টিলেশন ডেটাসেটে 65 বিলিয়ন টোকেনের জন্য প্রশিক্ষণ দেওয়া হয়েছিল, তারপরে 88 বিলিয়ন টোকেনের জন্য নেমোট্রন-এইচ চতুর্থ-পর্যায়ের প্রি-ট্রেনিং ডেটাসেটে ক্রমাগত প্রশিক্ষণ দেওয়া হয়েছিল।
এই চূড়ান্ত প্রি-ট্রেনিং পদক্ষেপ LN-Ultra কে শুধুমাত্র রেফারেন্স মডেল Llama 3.1-405B-Instruct-এর সাথে তাল মিলিয়ে চলতে সক্ষম করেনি, বরং মূল বেঞ্চমার্ক পরীক্ষায় এটিকে ছাড়িয়ে যেতেও সাহায্য করেছে।
এতে দেখা যায় যে সংক্ষিপ্ত পাতন এবং প্রি-ট্রেনিং আক্রমণাত্মক আর্কিটেকচারাল অপ্টিমাইজেশন এবং উচ্চ মডেল কর্মক্ষমতার মধ্যে সামঞ্জস্য অর্জন করতে পারে।
তত্ত্বাবধানে সূক্ষ্ম টিউনিং: যুক্তি দক্ষতা পরিশোধন
সুপারভাইজড ফাইন-টিউনিং (SFT) Llama-Nemotron মডেলগুলির জন্য একটি “ব্যক্তিগত প্রশিক্ষক” হিসাবে কাজ করে, বিশেষভাবে নির্দিষ্ট কাজের জন্য যুক্তিবোধের ধাপগুলিকে লক্ষ্য করে এবং DeepSeek-R1-এর মতো “তারকা ছাত্র” মডেলগুলি থেকে অনুমান কৌশলগুলি শেখে।
আসল যুক্তিবোধ দক্ষতা তৈরি করার জন্য, বৃহৎ আকারের, উচ্চ-মানের যুক্তিবোধ প্রশিক্ষণ ডেটা অপরিহার্য।
সিন্থেটিক ডেটা: যুক্তিবোধের জন্য তৈরি
গবেষকরা তত্ত্বাবধানে সূক্ষ্ম টিউনিংয়ের জন্য যুক্তিবোধ এবং অ-যুক্তিবোধ উভয় ডেটা ধারণকারী ডেটা নমুনাগুলি সতর্কতার সাথে তৈরি করেছেন।
যুক্তিবোধ নমুনার জন্য, তারা সিস্টেম নির্দেশাবলীতে “detailed thinking on” যোগ করেছে, যেখানে অ-যুক্তিবোধ নমুনার জন্য, তারা “detailed thinking off” ব্যবহার করেছে।
এই সেটিংটি মডেলটিকে যুক্তিবোধের সময় প্রম্পটের উপর ভিত্তি করে যুক্তিবোধ আচরণ পরিবর্তন করতে দেয়।
গণিত, কোডিং এবং সম্পর্কিত ক্ষেত্রগুলিতে যুক্তিবোধের জন্য সিন্থেটিক ডেটা প্রস্তুত করা হয়েছিল।
“যুক্তিবোধ স্যুইচ” নির্দেশাবলী অনুসরণ করার জন্য মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য, গবেষকরা জোড়া ডেটাসেট তৈরি করেছেন, যেখানে প্রতিটি প্রম্পট যুক্তিবোধ সহ এবং যুক্তিবোধ ছাড়া একটি প্রতিক্রিয়ার সাথে মিলে যায়।
এই জোড়া তৈরি করা মডেলটিকে সিস্টেম নির্দেশাবলীর উপর ভিত্তি করে তার যুক্তিবোধ আচরণ সামঞ্জস্য করতে শেখায়।
পরবর্তীকালে এই প্রতিক্রিয়াগুলির ফিল্টারিং স্ট্যান্ডার্ড উত্তর বা পুরস্কার মডেলের উপর ভিত্তি করে করা হয়।
সূক্ষ্ম টিউনিং প্রক্রিয়া
সমস্ত মডেলকে টোকেন-স্তরের ক্রস-এন্ট্রপি ক্ষতি ব্যবহার করে নির্দেশাবলী সূক্ষ্ম টিউনিং ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল।
বেশিরভাগ প্রশিক্ষণ সেটিংসে, যুক্তিবোধ এবং অ-যুক্তিবোধ ডেটা প্রশিক্ষণ ব্যাচ তৈরি করতে মিশ্রিত করা হয়, যেখানে প্রতিটি প্রম্পট “detailed thinking on/off” সিস্টেম নির্দেশাবলীর উপর ভিত্তি করে একটি সংশ্লিষ্ট প্রতিক্রিয়ার সাথে জোড়া হয়।
একাধিক রাউন্ডে প্রশিক্ষণ প্রসারিত করা কর্মক্ষমতা উন্নত করতে পারে, বিশেষ করে ছোট মডেলের জন্য।
রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণের জন্য NeMo-Aligner ব্যবহার করা হয়েছিল, যা GRPO এবং ভিন্নধর্মী মডেলগুলির প্রশিক্ষণ সমর্থন করে।
জেনারেশন পর্বের জন্য vLLM এবং প্রশিক্ষণ পর্বের জন্য Megatron-LM ব্যবহার করা হয়েছিল।
প্রশিক্ষণ এবং যুক্তিবোধ পর্ব একই ব্যাচের জিপিইউ ব্যবহার করে, একই ডিভাইসে সম্পন্ন হয়েছে।
পুরো প্রশিক্ষণ প্রক্রিয়ায় 72টি নোড ব্যবহার করা হয়েছে, প্রতিটি 8টি H100 জিপিইউ দিয়ে সজ্জিত।
জেনারেশন পর্ব FP8 precision, প্রশিক্ষণ পর্ব BF16 precision, এবং অপটিমাইজার স্টেট FP32 ব্যবহার করেছে।
প্রতিটি পর্ব একটি স্বাধীন মডেল ওজন বজায় রেখেছে, যা প্রতিটি ধাপের শুরুতে সিঙ্ক্রোনাইজ করা হয়েছিল।
রিইনফোর্সমেন্ট লার্নিং: R1-এর যুক্তি ক্ষমতাকে ছাড়িয়ে যাওয়ার চাবিকাঠি
সুপারভাইজড ফাইন-টিউনিং (SFT) মডেলটিকে শক্তিশালী শিক্ষক মডেল থেকে জ্ঞান আহরণ করতে সক্ষম করে, চমৎকার ক্ষমতা অর্জন করে।
যাইহোক, জ্ঞান পাতন সহজাতভাবে শিক্ষার্থীর মডেলের কর্মক্ষমতার উপর একটি সীমা নির্ধারণ করে, বিশেষ করে যখন শিক্ষার্থীর মডেলের বেস মডেল ক্ষমতা শিক্ষকের মডেলের চেয়ে বেশি না হয়।
সুপারভাইজড ফাইন-টিউনিংয়ের মাধ্যমে, LN-Ultra-এর কর্মক্ষমতা DeepSeek-R1 এর কাছাকাছি আসতে পারে তবে এটিকে ছাড়িয়ে যেতে পারে না।
বৃহৎ আকারের রিইনফোর্সমেন্ট লার্নিং (RL) হল একটি কার্যকর পদ্ধতি যা শিক্ষার্থী মডেলকে শিক্ষক মডেলকে ছাড়িয়ে যেতে সক্ষম করে কারণ এটি মডেলটিকে ক্রমাগত নতুন সম্ভাবনা অন্বেষণ করতে এবং স্ব-শিক্ষণ করতে দেয়।
সম্পদ সীমাবদ্ধতার কারণে, গবেষকরা শুধুমাত্র LN-Ultra-তে যুক্তিবোধ RL প্রয়োগ করেছেন, যার ফলে একটি শিক্ষার্থী মডেল তৈরি হয়েছে যা শিক্ষক মডেলকে ছাড়িয়ে গেছে।
পুরো যুক্তিবোধ রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণ প্রক্রিয়ার সময়, GPQA-ডায়মন্ড ডেটাসেটে LN-Ultra-এর নির্ভুলতা উন্নত হয়েছে।
প্রশিক্ষণ প্রক্রিয়া: বৈজ্ঞানিক যুক্তিবোধের উপর একটি ফোকাস
LN-Ultra-এর জন্য, গবেষকরা বৃহৎ আকারের রিইনফোর্সমেন্ট লার্নিং (RL) ব্যবহার করে এর বৈজ্ঞানিক যুক্তিবোধ ক্ষমতা বাড়িয়েছেন, গ্রুপড রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) অ্যালগরিদম ব্যবহার করে, যা DeepSeek-R1 দ্বারা ব্যবহৃত একই।
পুরো প্রশিক্ষণ প্রক্রিয়ার জন্য প্রায় 140,000 H100 ঘন্টা প্রয়োজন, যুক্তিবোধের কাজগুলিতে একত্রিত না হওয়া পর্যন্ত ক্রমাগত মডেলটিকে প্রশিক্ষণ দেওয়া হয়েছে।
পুরস্কার ব্যবস্থার নকশায় দুটি বিভাগ অন্তর্ভুক্ত ছিল:
- নির্ভুলতা পুরস্কার: স্ট্যান্ডার্ড উত্তরের উপর ভিত্তি করে (সংখ্যাসূচক/বাক্য/অনুচ্ছেদ), Llama-3.3-70B-Instruct মডেল কল করে পূর্বাভাসের ফলাফলের মিলের মাত্রা বিচার করে।
- ফরম্যাট পুরস্কার: DeepSeek-AI-এর স্কিম অনুসরণ করে, মডেলটিকে “detailed thinking” মোডে <think\> ট্যাগ দিয়ে যুক্তিবোধ প্রক্রিয়া মোড়ানো বাধ্য করা হয় এবং অ-বিস্তারিত চিন্তাভাবনার মোডে এই ধরনের ট্যাগের উপস্থিতি নিষিদ্ধ করা হয়।
গবেষণা দলটি ডেটা ফিল্টারিং এবং পাঠ্যক্রম প্রশিক্ষণ সহ ডেটা প্রি-প্রসেসও করেছে।
- ডেটা স্ক্রিনিং: প্রতিটি প্রশ্নের জন্য 8টি প্রতিক্রিয়া তৈরি করতে LN-Super আগে থেকে ব্যবহার করা হয় এবং 75% এর বেশি পাসের হারযুক্ত সাধারণ নমুনাগুলি সরানো হয়।
- পাঠ্যক্রম প্রশিক্ষণ: পাসের হারের উপর ভিত্তি করে প্রগতিশীল ব্যাচ বরাদ্দ গ্রহণ করা হয়।
গতিশীল বিতরণ: একটি গাউসীয় ফাংশন দিয়ে ব্যাচ অসুবিধা মডেলিং করা, প্রাথমিকভাবে উচ্চ-পাস-হার (সাধারণ) নমুনার উপর দৃষ্টি নিবদ্ধ করা এবং পরে নিম্ন-পাস-হার (কঠিন) নমুনার দিকে স্থানান্তরিত হওয়া।
প্যাডিং লজিক: নমুনাগুলি প্রথমে লক্ষ্য বিতরণ অনুযায়ী বরাদ্দ করা হয় এবং অবশিষ্ট ক্ষমতা বৃহত্তম অবশিষ্ট নমুনা পুল থেকে পরিপূরক করা হয়।
আন্ত-ব্যাচ প্রক্রিয়াকরণ: বৈচিত্র্য বজায় রাখার জন্য একই ব্যাচের নমুনা এলোমেলোভাবে পরিবর্তন করা হয়।
পছন্দ অপ্টিমাইজেশনের জন্য রিইনফোর্সমেন্ট লার্নিং
বৈজ্ঞানিক যুক্তিবোধ প্রশিক্ষণ সম্পন্ন করার পরে, গবেষকরা LN-Super এবং LN-Ultra মডেলগুলির জন্য একটি সংক্ষিপ্ত রিইনফোর্সমেন্ট লার্নিং পর্ব পরিচালনা করেন, তাদের নির্দেশাবলী অনুসরণ করার ক্ষমতা উন্নত করার উপর দৃষ্টি নিবদ্ধ করে।
গবেষকরা RLHF ব্যবহার করে মডেলগুলির সাধারণ সাহায্য ক্ষমতা এবং চ্যাট পারফরম্যান্স অপ্টিমাইজ করেছেন, একই সাথে গণিত, বিজ্ঞান এবং অন্যান্য ক্ষেত্রে মডেলগুলির ক্ষমতা বজায় রেখেছেন।
LN-Super Arena Hard পরীক্ষায় ৮৮.৩ এর উচ্চ স্কোর অর্জন করেছে, Claude 3.5 Sonnet এবং GPT-4o-2024-05-13-এর মতো মালিকানাধীন মডেলগুলিকে ছাড়িয়ে গেছে এবং বৃহত্তর ওপেন সোর্স মডেলগুলির চেয়েও ভাল করেছে।
এই ফলাফল অর্জনের জন্য, তারা “OnLine Reward-Policy Optimization“ পদ্ধতি গ্রহণ করেছে, HelpSteer2 ডেটাসেটে মডেলের পূর্বাভাসের পুরস্কার সর্বাধিক করেছে। ব্যবহৃত পুরস্কার মডেলটি ছিল Llama-3.1-Nemotron-70B-Reward।
দুটি রাউন্ডের অনলাইন RPO প্রশিক্ষণ Arena Hard স্কোর 69.1 থেকে 88.1-এ বাড়িয়েছে।
LN-Ultra-এর জন্য, তারা একই প্রক্রিয়া ব্যবহার করেছে কিন্তু GRPO গ্রহণ করেছে।
LN-Nano-এর জন্য, তারা দুটি রাউন্ডের অফলাইন RPO প্রশিক্ষণ পরিচালনা করেছে, নীতি-উত্পাদিত প্রশিক্ষণ ডেটা ব্যবহার করে।
প্রথম রাউন্ড যুক্তিবোধ নিয়ন্ত্রণ ক্ষমতা অপ্টিমাইজ করার জন্য উপযুক্ত সিস্টেম প্রম্পট সহ যুক্তিবোধ এবং অ-যুক্তিবোধ ডেটা একত্রিত করেছে। দ্বিতীয় রাউন্ড নির্দেশাবলী অনুসরণ করার ক্ষমতা উন্নত করার উপর দৃষ্টি নিবদ্ধ করেছে।
মূল্যায়ন ফলাফল: একটি ব্যাপক মূল্যায়ন
গবেষকরা দুটি বেঞ্চমার্ক বিভাগে সমস্ত Llama-Nemotron মডেলের কর্মক্ষমতা মূল্যায়ন করেছেন: যুক্তিবোধের কাজ এবং অ-যুক্তিবোধের কাজ।
যুক্তিবোধের বেঞ্চমার্কগুলির মধ্যে রয়েছে: AIME24 এবং AIME25, GPQA-ডায়মন্ড, LiveCodeBench এবং MATH500।
অ-যুক্তিবোধের বেঞ্চমার্কগুলির মধ্যে রয়েছে: নির্দেশাবলী অনুসরণ করার মূল্যায়নের জন্য IFEval, ফাংশন কল টুল ব্যবহারের মূল্যায়নের জন্য BFCL V2 লাইভ এবং মানুষের কথোপকথনের পছন্দের সাথে সারিবদ্ধকরণের মূল্যায়নের জন্য Arena-Hard।
LN-Nano তার ছোট আকার সত্ত্বেও, সমস্ত যুক্তিবোধ বেঞ্চমার্কে চমৎকার কর্মক্ষমতা অর্জন করেছে।
এতে প্রমাণিত হয় যে তত্ত্বাবধানে সূক্ষ্ম টিউনিং প্রক্রিয়া এবং ভালভাবে তৈরি করা যুক্তিবোধ ডেটাসেটগুলি ছোট মডেলগুলিতে কাঠামোগত যুক্তিবোধ ক্ষমতা স্থানান্তরিত করতে কার্যকর।
LN-Super অনুরূপ প্যারামিটার স্কেলের অন্যান্য মডেলের তুলনায় যুক্তিবোধ এবং অ-যুক্তিবোধ উভয় কাজগুলিতে শক্তিশালী প্রতিযোগিতা দেখিয়েছে।
“reasoning off” মোডে, LN-Super-এর কর্মক্ষমতা তার পাতিত উৎস মডেল Llama-3.3-70B-এর সাথে তুলনীয় ছিল; “reasoning on” মোডে, এটি DeepSeek-R1-Distilled-Llama-70B-এর মতো অন্যান্য প্রতিযোগিতামূলক মডেলগুলিকে ছাড়িয়ে গেছে, যা ভাল নির্দেশাবলী অনুসরণ করার ক্ষমতা বজায় রেখে শক্তিশালী যুক্তিবোধ ক্ষমতা প্রদর্শন করে।
এই ফলাফলগুলি ইঙ্গিত করে যে LN-Super একটি বহুমুখী মডেল যা যুক্তিবোধ-অপ্টিমাইজড মডেল এবং অ-যুক্তিবোধ মডেলগুলির সুবিধাগুলিকে একত্রিত করে, যা এটিকে দৈনিক সহকারী কাজ এবং কাঠামোগত যুক্তিবোধের কাজের জন্য উপযুক্ত করে তোলে।
LN-Ultra যুক্তিবোধ এবং অ-যুক্তিবোধ বেঞ্চমার্কে সমস্ত বিদ্যমান ওপেন সোর্স ওজন মডেলের সমান বা তার চেয়ে ভাল পারফর্ম করেছে। এটি জিপিকিউএ-তে ওপেন সোর্স মডেলগুলিতে সবচেয়ে উন্নত স্তরে পৌঁছেছে, যা Nvidia গবেষকদের বৃহৎ আকারের রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণ পদ্ধতির কার্যকারিতা সম্পূর্ণরূপে প্রদর্শন করে।
DeepSeek-R1-এর বিপরীতে, যার জন্য একটি 8×H200 হার্ডওয়্যার কনফিগারেশন প্রয়োজন, LN-Ultra একটি সিঙ্গেল 8×H100 নোডে দক্ষতার সাথে চালানোর জন্য অপ্টিমাইজ করা হয়েছে, যা উচ্চতর যুক্তিবোধ থ্রুপুট এবং স্থাপন দক্ষতা প্রদান করে।
LN-Ultra-এর SFT পর্ব একাধিক যুক্তিবোধ বেঞ্চমার্কে (GPQA এবং AIME সহ) DeepSeek-R1-এর কর্মক্ষমতার কাছাকাছি পৌঁছেছে বা পৌঁছে গেছে।
মডেলটি মূলত যে যুক্তিবোধ এবং সংলাপের ক্ষমতার জন্য প্রশিক্ষণ দেওয়া হয়েছিল, তার পাশাপাশি, তারা একটি বিতরণ কাজের উপর মডেলটি পরীক্ষা করেছে।
বিশেষত, মডেলটিকে জাজবেঞ্চ ডেটাসেটে পরীক্ষা করা হয়েছিল, যার জন্য এটিকে উচ্চ-মানের এবং নিম্ন-মানের উত্তরের মধ্যে পার্থক্য করতে হয়েছিল।
এই কাজটি করার জন্য নতুন মডেলটি বর্তমান শীর্ষস্থানীয় মালিকানাধীন এবং ওপেন সোর্স মডেলগুলিকে ছাড়িয়ে গেছে।
LN-Ultra সেরা পারফরম্যান্সকারী ওপেন সোর্স মডেল হয়ে উঠেছে, যা DeepSeek-R1 কে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে, শুধুমাত্র মালিকানাধীন মডেল o3-mini(high)-এর পরেই দ্বিতীয়।
এছাড়াও, LN-Super-এর কর্মক্ষমতা o1-mini-কেও ছাড়িয়ে গেছে, যা ইঙ্গিত করে যে নতুন মডেলটির বিভিন্ন কাজে শক্তিশালী সাধারণীকরণ ক্ষমতা রয়েছে।