এআই মডেল ল্যান্ডস্কেপ: একটি ব্যবহারিক গাইড

কৃত্রিম বুদ্ধিমত্তা (Artificial intelligence) মডেলগুলো খুব দ্রুত বাড়ছে, যা খবর এবং সামাজিক মাধ্যমে পরিচিত নামের বাইরেও বিস্তৃত। এআই জগৎ এখন শত শত মডেলে পরিপূর্ণ, যেখানে ওপেন-সোর্স উদ্যোগ, মালিকানাধীন সিস্টেম এবং গুগল জেমিনি (Gemini), ক্লাউড (Claude), ওপেনএআই (OpenAI), গ্রোক (Grok) এবং ডিপসিক (Deepseek) এর মতো প্রযুক্তি জায়ান্টদের মডেলও রয়েছে। এই মডেলগুলো মূলত বিশাল ডেটাসেটের ওপর ভিত্তি করে তৈরি করা নিউরাল নেটওয়ার্ক (neural network), যা জটিল প্যাটার্নগুলো চিনতে পারে। বর্তমান সময়ে, ব্যবসা থেকে শুরু করে ব্যক্তিগত সহায়তা এবং সৃজনশীল কাজসহ বিভিন্ন উদ্দেশ্যে এই মডেলগুলোর সুবিধা নেওয়ার সুযোগ তৈরি হয়েছে। এই গাইডটির লক্ষ্য হলো এআই (AI) ক্ষেত্রে নতুনদের একটি মৌলিক ধারণা দেওয়া, যা তাদের এই প্রযুক্তি ব্যবহার করতে সাহায্য করবে। এর উদ্দেশ্য হলো ব্যবহারকারীদের এআই (AI) দিয়ে তৈরি করতে সক্ষম করা, শুধুমাত্র এআই (AI) এর ওপর নির্ভর না করে। এখানে মৌলিক ধারণা, ব্যবহারিক প্রয়োগ এবং নির্ভুলতা মূল্যায়নের পদ্ধতির ওপর জোর দেওয়া হয়েছে।

এই গাইডে নিম্নলিখিত বিষয়গুলো আলোচনা করা হবে:

  • এআই মডেলের শ্রেণীবিভাগ
  • নির্দিষ্ট কাজের জন্য মডেল নির্বাচন
  • মডেলের নামকরণের নিয়মাবলী বোঝা
  • মডেলের নির্ভুলতা কর্মক্ষমতা মূল্যায়ন
  • বেঞ্চমার্ক রেফারেন্স ব্যবহার

এটা মনে রাখা দরকার যে, এমন কোনো একক এআই (AI) মডেল নেই যা সমস্ত কাজ করতে পারে। বরং, বিভিন্ন মডেল নির্দিষ্ট অ্যাপ্লিকেশনের জন্য তৈরি করা হয়েছে।

এআই মডেলের শ্রেণীবিভাগ (Categories of AI Models)

এআই (AI) মডেলগুলোকে প্রধানত চারটি শ্রেণীতে ভাগ করা যায়:

  • বিশুদ্ধ ভাষা প্রক্রিয়াকরণ (Pure Language Processing) (সাধারণ)
  • উৎপাদনশীল (Generative) (ছবি, ভিডিও, অডিও, টেক্সট, কোড)
  • বৈষম্যমূলক (Discriminative) (কম্পিউটার ভিশন, টেক্সট অ্যানালিটিক্স)
  • রিইনফোর্সমেন্ট লার্নিং (Reinforcement Learning)

যদিও অনেক মডেল একটি নির্দিষ্ট শ্রেণীতে বিশেষ পারদর্শী, তবে কিছু মডেল বিভিন্ন ক্ষেত্রেও কাজ করতে পারে, যেখানে নির্ভুলতার মাত্রা ভিন্ন হতে পারে। প্রতিটি মডেলকে নির্দিষ্ট ডেটাসেটের ওপর প্রশিক্ষণ দেওয়া হয়, যা সেই ডেটার সঙ্গে সম্পর্কিত কাজগুলো করতে সক্ষম করে। নিচে প্রতিটি শ্রেণীর সঙ্গে যুক্ত সাধারণ কাজগুলোর একটি তালিকা দেওয়া হলো।

বিশুদ্ধ ভাষা প্রক্রিয়াকরণ (Pure Language Processing)

এই শ্রেণীটিতে কম্পিউটারকে মানুষের ভাষা বুঝতে, ব্যাখ্যা করতে এবং তৈরি করতে সক্ষম করে। এক্ষেত্রে টোকেনাইজেশন (tokenization) এবং স্ট্যাটিস্টিক্যাল মডেল (statistical models) ব্যবহার করা হয়। চ্যাটবট (Chatbots) এর একটি প্রধান উদাহরণ, যেখানে চ্যাটজিপিটি (ChatGPT) একটি উল্লেখযোগ্য উদাহরণ। চ্যাটজিপিটি (ChatGPT) এর পুরো নাম হলো “জেনারেটিভ প্রি-ট্রেইনড ট্রান্সফরমার” (Generative Pre-trained Transformer)। এই মডেলগুলোর বেশিরভাগই প্রি-ট্রেইনড ট্রান্সফরমার আর্কিটেকচারের (pre-trained transformer architectures) উপর ভিত্তি করে তৈরি। এই মডেলগুলো মানুষের ভাষার প্রেক্ষাপট, সূক্ষ্মতা এবং জটিলতা বুঝতে পারদর্শী। তাই, যে অ্যাপ্লিকেশনগুলোতে স্বাভাবিক ভাষার প্রয়োজন হয়, সেগুলোর জন্য এই মডেলগুলো আদর্শ। এই মডেলগুলো নিম্নলিখিত কাজগুলোর জন্য ব্যবহার করা যেতে পারে:

  • অনুভূতি বিশ্লেষণ (Sentiment Analysis): কোনো লেখার মাধ্যমে মানুষের অনুভূতি বা আবেগকে বোঝা। এটি গ্রাহকের মতামত বা জনগণের ধারণা জানার জন্য দরকারি।
  • টেক্সট সারসংক্ষেপ (Text Summarization): অনেক বড় টেক্সটকে ছোট এবং সহজে বোঝার মতো সারসংক্ষেপে পরিণত করা, যা তথ্য প্রক্রিয়াকরণে সময় এবং শ্রম সাশ্রয় করে।
  • যন্ত্র অনুবাদ (Machine Translation): স্বয়ংক্রিয়ভাবে এক ভাষা থেকে অন্য ভাষায় টেক্সট অনুবাদ করা, যা ভাষার বাধা দূর করে যোগাযোগকে সহজ করে।
  • প্রশ্ন উত্তর (Question Answering): স্বাভাবিক ভাষায় করা প্রশ্নের উত্তর দেওয়া, যা ব্যবহারকারীদের দ্রুত তথ্য পেতে সাহায্য করে।
  • বিষয়বস্তু তৈরি (Content Generation): নতুন টেক্সট তৈরি করা, যেমন প্রবন্ধ, ব্লগ পোস্ট বা সামাজিক মিডিয়ার আপডেট।

বিশুদ্ধ ভাষা প্রক্রিয়াকরণ মডেলের পেছনের প্রযুক্তিটি জটিল অ্যালগরিদম (algorithm) ব্যবহার করে ভাষার গঠন এবং অর্থ বিশ্লেষণ করে। এই অ্যালগরিদমগুলো টেক্সট এবং কোডের বিশাল ডেটাসেট থেকে শেখে, যা তাদের শব্দ এবং বাক্যাংশের মধ্যে সম্পর্ক এবং প্যাটার্নগুলো সনাক্ত করতে সাহায্য করে। এরপর এই মডেলগুলো নতুন টেক্সট তৈরি করতে বা বিদ্যমান টেক্সটের অর্থ বুঝতে পারে।

উৎপাদনশীল মডেল (Generative Models)

উৎপাদনশীল মডেলগুলো, যেমন ছবি, ভিডিও, অডিও, টেক্সট এবং কোড তৈরি করার মডেলগুলো জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (Generative Adversarial Networks) বা GANs ব্যবহার করে। GANs মূলত দুটি অংশে গঠিত: একটি জেনারেটর (generator) এবং একটি ডিসক্রিমিনেটর (discriminator)। এই মডেলগুলো তাদের প্রশিক্ষণের জন্য ব্যবহৃত ডেটার ওপর ভিত্তি করে বাস্তবসম্মত ছবি, অডিও, টেক্সট এবং কোড তৈরি করতে পারে। স্টेबल ডিফিউশন (Stable diffusion) ছবি এবং ভিডিও তৈরি করার একটি সাধারণ কৌশল। এই মডেলগুলো নিম্নলিখিত কাজের জন্য ব্যবহার করা যেতে পারে:

  • ছবি তৈরি (Image Generation): টেক্সট বর্ণনা বা অন্যান্য ইনপুট থেকে বাস্তবসম্মত বা শৈল্পিক ছবি তৈরি করা।
  • ভিডিও তৈরি (Video Generation): টেক্সট প্রম্পট বা অন্যান্য ইনপুট থেকে ছোট ভিডিও তৈরি করা।
  • অডিও তৈরি (Audio Generation): টেক্সট বর্ণনা বা অন্যান্য ইনপুট থেকে গান, বক্তৃতা বা অন্যান্য ধরনের অডিও তৈরি করা।
  • টেক্সট তৈরি (Text Generation): কবিতা, স্ক্রিপ্ট বা কোডের মতো মৌলিক টেক্সট তৈরি করা।
  • কোড তৈরি (Code Generation): কাঙ্ক্ষিত কার্যকারিতার স্বাভাবিক ভাষার বর্ণনা থেকে স্বয়ংক্রিয়ভাবে কোড তৈরি করা।

GANs-এর জেনারেটর উপ-মডেল নতুন ডেটা নমুনা তৈরি করার জন্য দায়ী, যেখানে ডিসক্রিমিনেটর উপ-মডেলটি আসল ডেটা নমুনা এবং জেনারেটর দ্বারা তৈরি করা নমুনার মধ্যে পার্থক্য করার চেষ্টা করে। এই দুটি উপ-মডেল একটি প্রতিকূল পদ্ধতিতে প্রশিক্ষিত হয়, যেখানে জেনারেটর ডিসক্রিমিনেটরকে বোকা বানানোর চেষ্টা করে এবং ডিসক্রিমিনেটর সঠিকভাবে আসল ডেটা নমুনা সনাক্ত করার চেষ্টা করে। এই প্রক্রিয়ার ফলে জেনারেটর বাস্তবসম্মত ডেটা নমুনা তৈরি করতে আরও বেশি সক্ষম হয়ে ওঠে।

বৈষম্যমূলক মডেল (Discriminative Models)

বৈষম্যমূলক মডেলগুলো, যা কম্পিউটার ভিশন (computer vision) এবং টেক্সট অ্যানালিটিক্সে (text analytics) ব্যবহৃত হয়, ডেটা থেকে আলাদা শ্রেণী শিখতে এবং সিদ্ধান্ত নিতে অ্যালগরিদম ব্যবহার করে। এর উদাহরণ হলো অনুভূতি বিশ্লেষণ (sentiment analysis), অপটিক্যাল ক্যারেক্টার রিকগনিশন (optical character recognition) বা ওসিআর (OCR) এবং ছবি শ্রেণীবিভাগ (image classification)। এই মডেলগুলো বিভিন্ন শ্রেণীর ডেটার মধ্যে পার্থক্য করতে ডিজাইন করা হয়েছে, যা তাদের বিভিন্ন অ্যাপ্লিকেশনের জন্য উপযোগী করে তোলে। এই মডেলগুলো নিম্নলিখিত কাজের জন্য ব্যবহার করা যেতে পারে:

  • ছবি শ্রেণীবিভাগ (Image Classification): কোনো ছবিতে উপস্থিত বস্তু বা দৃশ্য সনাক্ত করা।
  • অবজেক্ট সনাক্তকরণ (Object Detection): ছবি বা ভিডিওর মধ্যে নির্দিষ্ট বস্তু খুঁজে বের করা এবং শনাক্ত করা।
  • অনুভূতি বিশ্লেষণ (Sentiment Analysis): কোনো লেখার মাধ্যমে মানুষের অনুভূতি বা আবেগকে বোঝা।
  • অপটিক্যাল ক্যারেক্টার রিকগনিশন (Optical Character Recognition): কোনো ছবির টেক্সটকে কম্পিউটারের পাঠযোগ্য টেক্সটে রূপান্তর করা।
  • জালিয়াতি সনাক্তকরণ (Fraud Detection): জালিয়াতিপূর্ণ লেনদেন বা কার্যকলাপ সনাক্ত করা।

বৈষম্যমূলক মডেলে ব্যবহৃত অ্যালগরিদমগুলো ডেটার বিভিন্ন শ্রেণীর মধ্যে পার্থক্য করার জন্য সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলো সনাক্ত করতে শেখে। এই বৈশিষ্ট্যগুলো ব্যবহার করে একটি মডেল তৈরি করা যায়, যা নতুন ডেটা নমুনাকে সঠিকভাবে শ্রেণীবদ্ধ করতে পারে।

রিইনফোর্সমেন্ট লার্নিং (Reinforcement Learning)

রিইনফোর্সমেন্ট লার্নিং মডেলগুলো রোবোটিক্স (robotics), গেমিং (gaming) এবং স্বায়ত্তশাসিত ড্রাইভিংয়ের (autonomous driving) মতো ক্ষেত্রে লক্ষ্য-ভিত্তিক ফলাফল অর্জনের জন্য ট্রায়াল-এন্ড-এরর পদ্ধতি (trial-and-error methods) এবং মানুষের ইনপুট ব্যবহার করে। এই পদ্ধতিতে, একটি এজেন্ট (agent) পরিবেশের মধ্যে সিদ্ধান্ত নেওয়ার জন্য শেখে, যাতে সে পুরষ্কার (reward) সর্বাধিক করতে পারে। এজেন্ট পুরষ্কার বা শাস্তির (penalties) মাধ্যমে প্রতিক্রিয়া পায়, যা সে তার আচরণকে সামঞ্জস্য করতে ব্যবহার করে। এই প্রক্রিয়া এজেন্টকে তার লক্ষ্য অর্জনের জন্য অনুকূল কৌশল শিখতে সাহায্য করে। রিইনফোর্সমেন্ট লার্নিং নিম্নলিখিত কাজের জন্য ব্যবহার করা যেতে পারে:

  • রোবোটিক্স (Robotics): হাঁটা, বস্তু ধরা বা পরিবেশের মধ্যে চলাচল করার মতো জটিল কাজগুলো করার জন্য রোবটকে প্রশিক্ষণ দেওয়া।
  • গেমিং (Gaming): গেম খেলার জন্য উন্নত মানের এআই (AI) এজেন্ট তৈরি করা।
  • স্বায়ত্তশাসিত ড্রাইভিং (Autonomous Driving): রাস্তা দিয়ে চলাচল এবং বাধা এড়িয়ে যাওয়ার জন্য স্ব-চালিত গাড়িকে প্রশিক্ষণ দেওয়া।
  • রিসোর্স ম্যানেজমেন্ট (Resource Management): শক্তি বা ব্যান্ডউইথের মতো রিসোর্সগুলোর বরাদ্দ অপটিমাইজ (optimize) করা।
  • ব্যক্তিগতকৃত সুপারিশ (Personalized Recommendations): ব্যবহারকারীর আগের কার্যকলাপের ওপর ভিত্তি করে ব্যক্তিগতকৃত সুপারিশ দেওয়া।

ট্রায়াল-এন্ড-এরর প্রক্রিয়ার মাধ্যমে এজেন্ট বিভিন্ন কৌশল চেষ্টা করে দেখে এবং কোনগুলো সবচেয়ে কার্যকর, তা জানতে পারে। পুরষ্কার এবং শাস্তির ব্যবহার এজেন্টকে অনুকূল আচরণের দিকে পরিচালিত করে।

মডেল নামকরণের নিয়মাবলী (Understanding Model Naming Conventions)

একবার আপনি বিভিন্ন ধরনের এআই (AI) মডেল এবং তাদের কাজগুলো বুঝতে পারলে, পরবর্তী ধাপ হলো তাদের গুণমান এবং কর্মক্ষমতা মূল্যায়ন করা। এর শুরুটা হয় মডেলগুলোর নামকরণের নিয়মাবলী বোঝার মাধ্যমে। যদিও এআই (AI) মডেলের নামকরণের জন্য কোনো আনুষ্ঠানিক নিয়ম নেই, তবে জনপ্রিয় মডেলগুলোর সাধারণত একটি সহজ নাম থাকে এবং তার পরে একটি সংস্করণ নম্বর (version number) থাকে (যেমন, চ্যাটজিপিটি #, ক্লড #, গ্রোক #, জেমিনি #)।

ছোট, ওপেন-সোর্স (open-source) এবং টাস্ক-স্পেসিফিক (task-specific) মডেলগুলোর প্রায়শই আরও বিস্তারিত নাম থাকে। এই নামগুলো সাধারণত হাগিংফেস (huggingface.co) এর মতো প্ল্যাটফর্মে পাওয়া যায় এবং এতে প্রতিষ্ঠানের নাম, মডেলের নাম, প্যারামিটার সাইজ (parameter size) এবং কনটেক্সট সাইজ (context size) অন্তর্ভুক্ত থাকে।

বিষয়টি বোঝানোর জন্য নিচে কয়েকটি উদাহরণ দেওয়া হলো:

MISTRALAI/MISTRAL-SMALL-3.1-24B-INSTRUCT-2053

  • Mistralai: এই সংস্থাটি মডেলটি তৈরি করার জন্য দায়ী।
  • Mistral-small: এটি মডেলের নাম।
  • 3.1: এটি মডেলের সংস্করণ নম্বর।
  • 24b-instruct: এটি প্যারামিটারের সংখ্যা, যা নির্দেশ করে যে মডেলটি 24 বিলিয়ন ডেটা পয়েন্টে প্রশিক্ষিত এবং এটি নির্দেশ অনুসরণ করার জন্য ডিজাইন করা হয়েছে।
  • 2053: এটি কনটেক্সট সাইজ বা টোকেন সংখ্যা, যা মডেলটি একবারে কতটুকু তথ্য প্রক্রিয়াকরণ করতে পারে, তা উপস্থাপন করে।

Google/Gemma-3-27b

  • Google: এই সংস্থাটি মডেলটি তৈরি করেছে।
  • Gemma: এটি মডেলের নাম।
  • 3: এটি মডেলের সংস্করণ নম্বর।
  • 27b: এটি প্যারামিটারের সংখ্যা, যা নির্দেশ করে যে মডেলটি 27 বিলিয়ন ডেটা পয়েন্টে প্রশিক্ষিত।

মূল বিবেচ্য বিষয় (Key Considerations)

নামকরণের নিয়মাবলী বোঝা একটি মডেলের ক্ষমতা এবং ব্যবহারের উদ্দেশ্য সম্পর্কে মূল্যবান ধারণা দেয়। প্রতিষ্ঠানের নাম মডেলের উৎস এবং বিশ্বাসযোগ্যতা নির্দেশ করে। মডেলের নাম একই সংস্থার তৈরি করা বিভিন্ন মডেলের মধ্যে পার্থক্য করতে সাহায্য করে। সংস্করণ নম্বর উন্নয়নের পর্যায় এবং পরিমার্জন বোঝায়। প্যারামিটারের আকার মডেলের জটিলতা এবং শেখার ক্ষমতার একটি ধারণা দেয়। কনটেক্সট সাইজ নির্ধারণ করে যে মডেলটি কত দীর্ঘ ইনপুট কার্যকরভাবে প্রক্রিয়াকরণ করতে পারবে।

এছাড়াও আপনি কোয়ান্টাইজেশন ফরম্যাট (quantization format)-এর বিট সম্পর্কে জানতে পারবেন। উচ্চ কোয়ান্টাইজেশন ফরম্যাটের মডেল পরিচালনা করার জন্য বেশি র‍্যাম (RAM) এবং কম্পিউটারের স্টোরেজের প্রয়োজন হয়। কোয়ান্টাইজেশন ফরম্যাটগুলো প্রায়শই ফ্লোটিং-পয়েন্ট নোটেশনে (floating-point notation) উপস্থাপন করা হয়, যেমন 4, 6, 8 এবং 16। অন্যান্য ফরম্যাট, যেমন জিপিটিকিউ (GPTQ), এনএফ4 (NF4) এবং জিজিএমএল (GGML), নির্দিষ্ট {হার্ডওয়্যার} কনফিগারেশনের জন্য ব্যবহার করা হয়।

  • কোয়ান্টাইজেশন (Quantization): এটি মডেলের প্যারামিটারগুলো উপস্থাপন করার জন্য ব্যবহৃত সংখ্যার যথার্থতা কমানোর একটি কৌশল। এটি মডেলের আকার এবং মেমোরির ব্যবহার উল্লেখযোগ্যভাবে কমাতে পারে, যা সীমিত রিসোর্সযুক্ত ডিভাইসে স্থাপন করা সহজ করে তোলে। তবে, কোয়ান্টাইজেশনের কারণে নির্ভুলতা সামান্য কমতে পারে।

  • হার্ডওয়্যার বিবেচনা (Hardware Considerations): বিভিন্ন হার্ডওয়্যার কনফিগারেশন বিভিন্ন কোয়ান্টাইজেশন ফরম্যাটের জন্য বেশি উপযুক্ত হতে পারে। উদাহরণস্বরূপ, কিছু হার্ডওয়্যার 4-বিট কোয়ান্টাইজেশনের জন্য অপ্টিমাইজ করা হতে পারে, আবার কিছু 8-বিট বা 16-বিট কোয়ান্টাইজেশনের জন্য বেশি উপযুক্ত হতে পারে।

মডেলের নির্ভুলতা মূল্যায়ন (Evaluating Model Accuracy)

নতুন মডেল প্রকাশের খবর উত্তেজনাপূর্ণ হলেও, দাবি করা কর্মক্ষমতার ফলাফল সম্পর্কে সতর্ক থাকা জরুরি। এআই (AI) কর্মক্ষমতার ক্ষেত্রটি অত্যন্ত প্রতিযোগিতামূলক, এবং কোম্পানিগুলো প্রায়শই বিপণনের উদ্দেশ্যে কর্মক্ষমতার পরিসংখ্যান বাড়িয়ে দেখায়। মডেলের গুণমান মূল্যায়ন করার একটি নির্ভরযোগ্য উপায় হলো স্ট্যান্ডার্ডাইজড পরীক্ষার (standardized tests) স্কোর এবং লিডারবোর্ড (leaderboard) পরীক্ষা করা।

যদিও বেশ কয়েকটি পরীক্ষা স্ট্যান্ডার্ডাইজড হওয়ার দাবি করে, তবে এআই (AI) মডেলগুলোর মূল্যায়ন করা কঠিন, কারণ এই সিস্টেমগুলো “ব্ল্যাক বক্স” প্রকৃতির এবং এতে অসংখ্য চলক জড়িত। সবচেয়ে নির্ভরযোগ্য পদ্ধতি হলো বাস্তব এবং বৈজ্ঞানিক উৎসের সঙ্গে এআইয়ের প্রতিক্রিয়া এবং আউটপুট যাচাই করা।

লিডারবোর্ড ওয়েবসাইটগুলোতে বাছাইযোগ্য র‍্যাঙ্কিং, ভোট এবং কনফিডেন্স ইন্টারভাল স্কোর (confidence interval score) দেওয়া থাকে, যা প্রায়শই শতাংশে প্রকাশ করা হয়। সাধারণ বেঞ্চমার্কগুলোর মধ্যে এআই (AI) মডেলে প্রশ্ন দেওয়া এবং এর প্রতিক্রিয়ার নির্ভুলতা পরিমাপ করা অন্তর্ভুক্ত। এই বেঞ্চমার্কগুলো হলো:

  • এআই2 রিজনিং চ্যালেঞ্জ (AI2 Reasoning Challenge) (এআরসি) (ARC)
  • হেলাসওয়াগ (HellaSwag)
  • এমএমএলইউ (MMLU) (ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং) (Massive Multitask Language Understanding)
  • ট্রুথফুলকিউএ (TruthfulQA)
  • উইনোগ্রান্ডে (Winogrande)
  • জিএসএম8কে (GSM8K)
  • হিউম্যানইভাল (HumanEval)

বেঞ্চমার্কের বর্ণনা (Benchmark Descriptions)

  • এআই2 রিজনিং চ্যালেঞ্জ (AI2 Reasoning Challenge) (এআরসি) (ARC): এটিতে প্রাথমিক বিদ্যালয়ের শিক্ষার্থীদের জন্য ডিজাইন করা ৭,৭৮৭টি মাল্টিপল-চয়েস বিজ্ঞানের প্রশ্ন রয়েছে। এই বেঞ্চমার্কটি বৈজ্ঞানিক ধারণা সম্পর্কে মডেলের যুক্তি দেওয়ার এবং সমস্যা সমাধানের ক্ষমতা পরীক্ষা করে।

  • হেলাসওয়াগ (HellaSwag): এটি সাধারণ জ্ঞান যুক্তি (common-sense reasoning) মূল্যায়ন করার জন্য একটি বেঞ্চমার্ক, যেখানে বাক্য সম্পূর্ণ করার অনুশীলন রয়েছে। এই বেঞ্চমার্কটি একটি বাক্যের প্রেক্ষাপট বুঝতে এবং সবচেয়ে যৌক্তিক সমাপ্তি বেছে নিতে মডেলকে চ্যালেঞ্জ করে।

  • এমএমএলইউ (MMLU) (ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং) (Massive Multitask Language Understanding): এই বেঞ্চমার্কটি বিস্তৃত পরিসরের কাজ জুড়ে সমস্যা সমাধানের জন্য মডেলের ক্ষমতা পরীক্ষা করে, যার জন্য ব্যাপক ভাষা বোঝার প্রয়োজন। এই কাজগুলোতে গণিত, ইতিহাস, বিজ্ঞান এবং আইন সহ বিভিন্ন বিষয় অন্তর্ভুক্ত রয়েছে।

  • ট্রুথফুলকিউএ (TruthfulQA): এই বেঞ্চমার্কটি মডেলের সত্যবাদিতা মূল্যায়ন করে, মিথ্যা উত্তর দেওয়া এবং “আমি নিশ্চিত নই” ধরনের উত্তর দেওয়াকে নিরুৎসাহিত করে। এই বেঞ্চমার্কটি সঠিক এবং সৎ প্রতিক্রিয়া জানাতে মডেলকে উৎসাহিত করে।

  • উইনোগ্রান্ডে (Winogrande): এটি উইনোগ্রাড স্কিমার (Winograd schema) উপর ভিত্তি করে তৈরি একটি চ্যালেঞ্জ, যেখানে দুটি প্রায় অভিন্ন বাক্য রয়েছে, যা একটি ট্রিগার শব্দের (trigger word) কারণে ভিন্ন। এই বেঞ্চমার্কটি মডেলের অর্থের সূক্ষ্ম পার্থক্য বুঝতে এবং অস্পষ্টতা সমাধান করার ক্ষমতা পরীক্ষা করে।

  • জিএসএম8কে (GSM8K): এটি ৮,০০০ গ্রেড-স্কুলের গণিত প্রশ্নের একটি ডেটাসেট। এই বেঞ্চমার্কটি গাণিতিক সমস্যা সমাধান এবং গণনা করার জন্য মডেলের ক্ষমতা পরীক্ষা করে।

  • হিউম্যানইভাল (HumanEval): এই বেঞ্চমার্কটি 164টি চ্যালেঞ্জের প্রতিক্রিয়াতে সঠিক পাইথন (Python) কোড তৈরি করার জন্য মডেলের ক্ষমতা পরিমাপ করে। এই বেঞ্চমার্কটি মডেলের কোডিং দক্ষতা এবং প্রোগ্রামিং ধারণা বুঝতে এবং প্রয়োগ করার ক্ষমতা পরীক্ষা করে।

এই বেঞ্চমার্কগুলো সাবধানে পরীক্ষা করে এবং বাস্তব উৎসের সঙ্গে এআই (AI) এর প্রতিক্রিয়া যাচাই করে, আপনি একটি মডেলের ক্ষমতা এবং সীমাবদ্ধতা সম্পর্কে আরও সঠিকভাবে জানতে পারবেন। এরপর এই তথ্য আপনার নির্দিষ্ট প্রয়োজনের জন্য কোন মডেলগুলো সবচেয়ে উপযুক্ত, তা সিদ্ধান্ত নিতে সাহায্য করতে পারে।