৩২বি প্যাকেজে DeepSeek-R1-এর কার্যকারিতা?

রিইনফোর্সমেন্ট লার্নিং, কিছু অতিরিক্ত যাচাইকরণ (verification)-এর সাথে যুক্ত হয়ে, বৃহৎ ভাষা মডেল (LLMs)-গুলির ক্ষমতা কতটা বৃদ্ধি করতে পারে? Alibaba-র Qwen টিম তাদের সর্বশেষ সৃষ্টি, QwQ-এর মাধ্যমে এই প্রশ্নের উত্তর খুঁজছে।

QwQ, একটি “যুক্তি” (reasoning) মডেল, তুলনামূলকভাবে ছোট ৩২ বিলিয়ন প্যারামিটার নিয়ে গঠিত। তবুও, Alibaba দাবি করে যে এটি গণিত, কোডিং এবং ফাংশন-কলিং সম্পর্কিত নির্দিষ্ট মানদণ্ডে (benchmarks) DeepSeek R1-কে ছাড়িয়ে যায়, যার কিনা ৬৭১ বিলিয়ন প্যারামিটার রয়েছে।

Qwen টিম, R1-এর পদ্ধতির মতোই, QwQ-এর চেইন-অফ-থট যুক্তিকে পরিমার্জিত করতে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করেছে। এই পদ্ধতি সমস্যার বিশ্লেষণ এবং বিভাজন ক্ষমতা বাড়ায়। রিইনফোর্সমেন্ট লার্নিং প্রথাগতভাবে সঠিক উত্তরের জন্য মডেলগুলিকে পুরস্কৃত করে ধাপে ধাপে যুক্তিকে শক্তিশালী করে, এইভাবে আরও সঠিক প্রতিক্রিয়া তৈরি করে। যাইহোক, QwQ একটি নির্ভুলতা যাচাইকারী (accuracy verifier) এবং একটি কোড এক্সিকিউশন সার্ভারকে অন্তর্ভুক্ত করে আরও এক ধাপ এগিয়ে যায়। এটি নিশ্চিত করে যে পুরষ্কারগুলি শুধুমাত্র সঠিক গাণিতিক সমাধান এবং কার্যকরী কোডের জন্য দেওয়া হয়।

Qwen টিম জোর দিয়ে বলে যে এই পদ্ধতির ফলে এমন একটি মডেল তৈরি হয়েছে যা তার আকারের তুলনায় অনেক বেশি পারফর্ম করে, যা অনেক বড় মডেলের সাথে তুলনীয় এবং কখনও কখনও তাদের থেকেও ভালো পারফরম্যান্স অর্জন করে।

যাইহোক, AI বেঞ্চমার্কগুলি প্রতারণামূলক হতে পারে। সুতরাং, আসুন পরীক্ষা করে দেখি যে এই দাবিগুলি বাস্তব-বিশ্বের পরিস্থিতিতে কীভাবে অনুবাদ করে এবং তারপরে আমরা আপনাকে গাইড করব কীভাবে QwQ স্বাধীনভাবে চালানো যায়।

পারফরম্যান্স মূল্যায়ন (Performance Evaluation)

আমরা QwQ-কে সাধারণ জ্ঞান, স্থানিক যুক্তি (spatial reasoning), সমস্যা-সমাধান, গণিত এবং অন্যান্য প্রশ্ন সহ একাধিক পরীক্ষার প্রম্পটের সম্মুখীন করেছি, যা সবচেয়ে উন্নত LLM-গুলির জন্যও চ্যালেঞ্জিং।

সম্পূর্ণ মডেলটির যথেষ্ট মেমরির প্রয়োজনের কারণে, বিভিন্ন RAM ক্ষমতা সম্পন্ন ব্যবহারকারীদের জন্য আমরা দুটি কনফিগারেশনে আমাদের পরীক্ষা পরিচালনা করেছি। প্রাথমিকভাবে, আমরা Hugging Face-এ QwQ ডেমো ব্যবহার করে সম্পূর্ণ মডেলটি মূল্যায়ন করেছি। পরবর্তীকালে, আমরা একটি 24 GB GPU (Nvidia 3090 বা AMD Radeon RX 7900XTX)-তে একটি 4-বিট কোয়ান্টাইজড সংস্করণ পরীক্ষা করেছি যাতে কোয়ান্টাইজেশন নির্ভুলতার উপর প্রভাব ফেলে কিনা তা বোঝা যায়।

বেশিরভাগ সাধারণ জ্ঞানের প্রশ্নের জন্য, QwQ, DeepSeek-এর ৬৭১ বিলিয়ন প্যারামিটার R1 এবং OpenAI-এর o3-mini-এর মতো অন্যান্য যুক্তি মডেলের মতোই পারফরম্যান্স প্রদর্শন করেছে, উত্তর দেওয়ার আগে তার চিন্তাগুলিকে গঠন করার জন্য সংক্ষিপ্ত বিরতি নিয়েছে।

মডেলটির শক্তি, সম্ভবত আশ্চর্যজনকভাবে, আরও জটিল যুক্তি, কোডিং বা গাণিতিক চ্যালেঞ্জগুলি মোকাবেলা করার সময় স্পষ্ট হয়ে ওঠে। এর কিছু সীমাবদ্ধতা উল্লেখ করার আগে আসুন এই ক্ষেত্রগুলিতে আরও গভীরভাবে আলোচনা করি।

স্থানিক যুক্তিতে দক্ষতা (Spatial Reasoning Prowess)

আমরা Homebrew Research-এর AlphaMaze প্রকল্পের অংশ হিসাবে তৈরি করা একটি অপেক্ষাকৃত নতুন স্থানিক-যুক্তি পরীক্ষা দিয়ে শুরু করেছি।

পরীক্ষাটি মডেলের সামনে টেক্সট ফরম্যাটে একটি গোলকধাঁধা উপস্থাপন করে, যেমনটি নিচে দেখানো হয়েছে। মডেলটির কাজ হল মূলবিন্দু “O” থেকে লক্ষ্য “T”-তে যাওয়া।