এআই বেঞ্চমার্কগুলির পুনর্বিবেচনা: অর্থবহ পরিমাপের সন্ধান

কৃত্রিম বুদ্ধিমত্তার (AI) শ্রেষ্ঠত্বের সাধনা প্রায়শই বেঞ্চমার্ক স্কোর দ্বারা চালিত হয়, কিন্তু এই স্কোরগুলি কি সত্যিই বাস্তব-বিশ্বের সক্ষমতার সূচক? ঐতিহ্যবাহী বেঞ্চমার্কগুলি ক্রমবর্ধমান সমালোচনার সম্মুখীন হওয়ায় AI সম্প্রদায় এই প্রশ্নের সঙ্গে লড়ছে।

SWE-Bench, নভেম্বর ২০২৪-এ প্রবর্তিত, একটি AI মডেলের কোডিং দক্ষতার মূল্যায়ন করার জন্য দ্রুত একটি জনপ্রিয় সরঞ্জাম হিসাবে পরিচিতি লাভ করে। এটি এক ডজনের বেশি Python-ভিত্তিক প্রকল্পের পাবলিক GitHub সংগ্রহস্থল থেকে নেওয়া ২,০০০-এর বেশি খাঁটি প্রোগ্রামিং চ্যালেঞ্জ ব্যবহার করে। একটি শক্তিশালী SWE-Bench স্কোর একটি কাঙ্ক্ষিত ব্যাজে পরিণত হয়েছে, যা OpenAI, Anthropic এবং Google-এর মতো প্রধান AI ডেভেলপারদের প্রধান মডেল প্রকাশে বিশিষ্টভাবে প্রদর্শিত হয়। এই জায়ান্টদের বাইরে, ফাইন-টিউনিংয়ে বিশেষীকরণ করা AI সংস্থাগুলি ক্রমাগত SWE-Bench লিডারবোর্ডে আধিপত্যের জন্য প্রতিদ্বন্দ্বিতা করে।

তবে, এই বেঞ্চমার্কগুলিকে ঘিরে উন্মাদনা বিভ্রান্তিকর হতে পারে। প্রিন্সটন বিশ্ববিদ্যালয়ের গবেষক জন ইয়াং, যিনি SWE-Bench-এর উন্নয়নে জড়িত, উল্লেখ করেছেন যে শীর্ষ স্থানটির জন্য তীব্র প্রতিযোগিতার কারণে সিস্টেমের “গেম” তৈরি হয়েছে। এটি এই উদ্বেগ সৃষ্টি করে যে এই বেঞ্চমার্কগুলি যথার্থ AI কৃতিত্বকে সঠিকভাবে প্রতিফলিত করে কিনা।

বিষয়টি অগত্যা প্রকাশ্য প্রতারণা নয়, বরং বেঞ্চমার্কের সীমাবদ্ধতাগুলি কাজে লাগানোর জন্য বিশেষভাবে তৈরি কৌশলগুলির বিকাশ। উদাহরণস্বরূপ, প্রাথমিক SWE-Bench শুধুমাত্র Python কোডের উপর দৃষ্টি নিবদ্ধ করেছিল, যা ডেভেলপারদের তাদের মডেলগুলিকে শুধুমাত্র Python-এর উপর প্রশিক্ষণ দিতে উৎসাহিত করেছিল। ইয়াং পর্যবেক্ষণ করেছেন যে এই উচ্চ-স্কোরিং মডেলগুলি প্রায়শই বিভিন্ন প্রোগ্রামিং ভাষার মুখোমুখি হলে ব্যর্থ হয়, যা একটি বাহ্যিক বোঝাপড়াকে প্রকাশ করে যাকে তিনি “সোনালী” হিসাবে বর্ণনা করেছেন।

ইয়াং ব্যাখ্যা করেন, “প্রথম নজরে এটি সুন্দর এবং চকচকে দেখায়, কিন্তু আপনি যখন অন্য ভাষায় এটি চালানোর চেষ্টা করেন তখন সবকিছু ভেঙে যায়। সেই সময়ে, আপনি একটি সফটওয়্যার ইঞ্জিনিয়ারিং এজেন্ট ডিজাইন করছেন না। আপনি একটি SWE-Bench এজেন্ট তৈরি করার জন্য ডিজাইন করছেন, যা অনেক কম আকর্ষণীয়।”

এই “SWE-Bench সমস্যা” AI মূল্যায়নে একটি বৃহত্তর চ্যালেঞ্জকে প্রতিফলিত করে। বেঞ্চমার্কগুলি, যা একবার অগ্রগতির নির্ভরযোগ্য সূচক হিসাবে বিবেচিত হত, সেগুলি বাস্তব-বিশ্বের সক্ষমতা থেকে ক্রমশ বিচ্ছিন্ন হয়ে যাচ্ছে। সমস্যার তীব্রতা বৃদ্ধি করে, স্বচ্ছতা নিয়ে উদ্বেগ দেখা দিয়েছে, যা এই মেট্রিকগুলির প্রতি বিশ্বাসকে আরও কমিয়ে দিচ্ছে। এই সমস্যাগুলি সত্ত্বেও, বেঞ্চমার্কগুলি মডেল বিকাশে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে চলেছে, যদিও অনেক বিশেষজ্ঞ তাদের অন্তর্নিহিত মূল্য নিয়ে প্রশ্ন তোলেন। OpenAI-এর সহ-প্রতিষ্ঠাতা আন্দ্রেজ কার্পাথি বর্তমান পরিস্থিতিকে একটি “মূল্যায়ন সংকট” হিসাবে অভিহিত করেছেন, AI সক্ষমতা পরিমাপের জন্য বিশ্বস্ত পদ্ধতির অভাব এবং একটি স্পষ্ট পথের অনুপস্থিতি নিয়ে আক্ষেপ করেছেন।

স্ট্যানফোর্ড ইউনিভার্সিটির ইনস্টিটিউট ফর হিউম্যান-সেন্টার্ড AI-এর গবেষণা পরিচালক ভ্যানেসা পারলি জিজ্ঞাসা করেন, “ঐতিহাসিকভাবে, বেঞ্চমার্কগুলি ছিল AI সিস্টেমগুলি মূল্যায়ন করার উপায়। আমরা কি ভবিষ্যতে সিস্টেমগুলি মূল্যায়ন করার এই উপায়টি চাই? এবং যদি না হয় তবে উপায়টি কী?”

শিক্ষাবিদ এবং AI গবেষকদের একটি ক্রমবর্ধমান দল একটি আরও বেশি দৃষ্টি নিবদ্ধ করা পদ্ধতির পক্ষে সমর্থন করে, যা সামাজিক বিজ্ঞান থেকে অনুপ্রেরণা নেয়। তারা “বৈধতা”-কে অগ্রাধিকার দেওয়ার প্রস্তাব করে, যা পরিমাণগত সামাজিক বিজ্ঞানের কেন্দ্রবিন্দু, যা মূল্যায়ন করে যে একটি পরিমাপক সরঞ্জাম কতটা সঠিকভাবে উদ্দেশ্যযুক্ত গঠনকে ধারণ করে। বৈধতার উপর এই জোর “যুক্তি” বা “বৈজ্ঞানিক জ্ঞান”-এর মতো অস্পষ্টভাবে সংজ্ঞায়িত ধারণাগুলি মূল্যায়ন করে এমন বেঞ্চমার্কগুলিকে চ্যালেঞ্জ করতে পারে। এটি কৃত্রিম সাধারণ বুদ্ধিমত্তার (AGI) সাধনাকে প্রশমিত করতে পারে, তবে এটি পৃথক মডেলগুলি মূল্যায়নের জন্য একটি আরও কঠিন ভিত্তি সরবরাহ করবে।

মিশিগান বিশ্ববিদ্যালয়ের অধ্যাপক এবং বৈধতার জন্য আহ্বানের একজন প্রধান কণ্ঠস্বর অ্যাবিগেল জ্যাকবস জোর দিয়ে বলেন, “বৈধতাকে গুরুত্ব সহকারে নেওয়ার অর্থ হল একাডেমিয়া, শিল্প বা যেখানেই হোক লোকেদের দেখাতে বলা যে তাদের সিস্টেমটি তারা যা বলে তা করে। আমি মনে করি এটি AI বিশ্বে একটি দুর্বলতার দিকে ইঙ্গিত করে যদি তারা তাদের দাবি সমর্থন করতে পিছিয়ে যেতে চায়।”

ঐতিহ্যবাহী পরীক্ষার সীমাবদ্ধতা

AI শিল্পের বেঞ্চমার্কের উপর নির্ভরতা তাদের অতীতের সাফল্যের ফলস্বরূপ, বিশেষ করে ImageNet-এর মতো চ্যালেঞ্জগুলিতে।

ImageNet, ২০১০ সালে চালু হয়েছিল, গবেষকদের ১,০০০টি ভিন্ন শ্রেণীতে শ্রেণীবদ্ধ করা ৩০ লক্ষেরও বেশি চিত্রের একটি ডেটাবেস সরবরাহ করেছিল। চ্যালেঞ্জটি পদ্ধতি-অজ্ঞেয়বাদী ছিল, যা যেকোনো সফল অ্যালগরিদমকে তার অন্তর্নিহিত পদ্ধতি নির্বিশেষে বিশ্বাসযোগ্যতা অর্জন করতে দেয়। ২০১২ সালে AlexNet-এর সাফল্য, যা GPU প্রশিক্ষণের একটি অপ্রচলিত রূপ ব্যবহার করেছিল, আধুনিক AI-এর ভিত্তি হয়ে ওঠে। যদিও খুব কম লোকই ভবিষ্যদ্বাণী করতে পারত যে AlexNet-এর কনভলিউশনাল নিউরাল নেটওয়ার্কগুলি চিত্র সনাক্তকরণকে উন্মুক্ত করবে, এর উচ্চ স্কোর কোনও সন্দেহ দূর করে দিয়েছিল। (বিশেষত, AlexNet-এর একজন বিকাশকারী OpenAI-এর সহ-প্রতিষ্ঠাতা হন।)

ImageNet-এর কার্যকারিতা চ্যালেঞ্জ এবং বাস্তব-বিশ্বের চিত্র সনাক্তকরণ কার্যের মধ্যে ঘনিষ্ঠ সারিবদ্ধতা থেকে উদ্ভূত হয়েছিল। পদ্ধতি নিয়ে বিতর্ক থাকা সত্ত্বেও, সর্বোচ্চ স্কোরিং মডেলটি সর্বদা ব্যবহারিক প্রয়োগে শ্রেষ্ঠ পারফরম্যান্স প্রদর্শন করেছে।

তবে, এর পর থেকে AI গবেষকরা এই একই পদ্ধতি-অজ্ঞেয়বাদী পদ্ধতিটি ক্রমবর্ধমান সাধারণ কার্যের ক্ষেত্রে প্রয়োগ করেছেন। উদাহরণস্বরূপ, SWE-Bench প্রায়শই বিস্তৃত কোডিং ক্ষমতার একটি প্রক্সি হিসাবে ব্যবহৃত হয়, অন্যদিকে অন্যান্য পরীক্ষার-শৈলীর বেঞ্চমার্কগুলি যুক্তিবোধের ক্ষমতা পরিমাপ করতে ব্যবহৃত হয়। এই বিস্তৃত সুযোগ একটি নির্দিষ্ট বেঞ্চমার্ক কী পরিমাপ করে তা কঠোরভাবে সংজ্ঞায়িত করা কঠিন করে তোলে, যা অনুসন্ধানের দায়িত্বশীল ব্যাখ্যাকে বাধা দেয়।

কোথায় জিনিস ভেঙে যায়

স্ট্যানফোর্ডের একজন পিএইচডি ছাত্র আনকা রুয়েল যুক্তি দেন যে সাধারণীকরণের দিকে চাপ মূল্যায়নের সমস্যার মূলে রয়েছে। রুয়েল বলেন, “আমরা টাস্ক-স্পেসিফিক মডেল থেকে সাধারণ-উদ্দেশ্যের মডেলে চলে গেছি। এটি আর একটি একক কাজ নয়, বরং একগুচ্ছ কাজ, তাই মূল্যায়ন কঠিন হয়ে যায়।”

জ্যাকবসের মতো রুয়েলও বিশ্বাস করেন যে “বেঞ্চমার্কগুলির মূল সমস্যা হল বৈধতা, এমনকি ব্যবহারিক বাস্তবায়নের চেয়েও বেশি,” উল্লেখ করে: “সেখানেই অনেক কিছু ভেঙে যায়।” কোডিংয়ের মতো জটিল কাজের জন্য, সমস্যা সেটে প্রতিটি সম্ভাব্য পরিস্থিতি অন্তর্ভুক্ত করা প্রায় অসম্ভব। ফলস্বরূপ, কোনও মডেলের উচ্চ স্কোর প্রকৃত কোডিং দক্ষতা প্রতিফলিত করে নাকি কেবল সমস্যা সেটের চতুর ম্যানিপুলেশন তা বোঝা কঠিন হয়ে যায়। রেকর্ডের স্কোর অর্জনের তীব্র চাপ আরও শর্টকাটগুলিকে উৎসাহিত করে।

ডেভেলপাররা আশা করেন যে অনেকগুলি নির্দিষ্ট বেঞ্চমার্কে সাফল্য একটি সাধারণভাবে সক্ষম মডেলে অনুবাদ করবে। যাইহোক, এজেন্টিক AI-এর উত্থান, যেখানে একটি একক সিস্টেম জটিল মডেলগুলির একটি অ্যারে অন্তর্ভুক্ত করতে পারে, তা নির্দিষ্ট কাজগুলিতে উন্নতি সাধারণীকরণ হবে কিনা তা মূল্যায়ন করা কঠিন করে তোলে। প্রিন্সটনের কম্পিউটার বিজ্ঞানী এবং AI শিল্পে অগোছালো অনুশীলনের সমালোচক সায়াশ কাপুর বলেন, “এখানে আরও অনেক নব ঘোরানো যায়। যখন এজেন্টের কথা আসে, তখন তারা মূল্যায়নের জন্য সেরা অনুশীলনগুলি ছেড়ে দিয়েছে।”

গত জুলাই মাসে প্রকাশিত একটি গবেষণাপত্রে, কাপুর ২০২৪ সালে AI মডেলগুলি WebArena বেঞ্চমার্কের কাছে যাওয়ার পদ্ধতিগুলির সাথে সম্পর্কিত নির্দিষ্ট সমস্যাগুলি তুলে ধরেছিলেন, যা ওয়েব নেভিগেট করার জন্য একটি AI এজেন্টের ক্ষমতা পরীক্ষা করে। বেঞ্চমার্কটিতে Reddit, Wikipedia এবং অন্যান্যদের অনুকরণ করে ক্লোন করা ওয়েবসাইটগুলিতে সম্পাদিত ৮০০ টিরও বেশি কাজ রয়েছে। কাপুর এবং তার দল আবিষ্কার করেছে যে বিজয়ী মডেল, STeP, Reddit URL-এর কাঠামো ব্যবহার করে সরাসরি ব্যবহারকারীর প্রোফাইল পৃষ্ঠাগুলিতে অ্যাক্সেস করেছে, যা WebArena কাজগুলিতে একটি ঘন ঘন প্রয়োজন ছিল।

পুরোপুরি প্রতারণা না করলেও, কাপুর এটিকে “এজেন্টটি প্রথমবারের মতো WebArena-এ কাজগুলি দেখলে এটি কতটা ভাল কাজ করত তার একটি গুরুতর ভুল উপস্থাপনা” বলে মনে করেন। তা সত্ত্বেও, OpenAI-এর ওয়েব এজেন্ট, অপারেটর, তখন থেকে একই রকম নীতি গ্রহণ করেছে।

AI বেঞ্চমার্কগুলির সমস্যাগুলি আরও চিত্রিত করে, কাপুর এবং গবেষকদের একটি দল সম্প্রতি একটি গবেষণাপত্র প্রকাশ করেছে যা Chatbot Arena-এর উল্লেখযোগ্য সমস্যাগুলি প্রকাশ করেছে, যা একটি জনপ্রিয় ক্রাউডসোর্সড মূল্যায়ন সিস্টেম। তাদের অনুসন্ধানে ইঙ্গিত দেওয়া হয়েছে যে লিডারবোর্ডটি ম্যানিপুলেট করা হচ্ছে, কিছু শীর্ষ ফাউন্ডেশন মডেল অপ্রকাশিত ব্যক্তিগত পরীক্ষায় জড়িত এবং তাদের স্কোরগুলি বেছে বেছে প্রকাশ করছে।

এমনকি ImageNet, যে বেঞ্চমার্কটি সবকিছু শুরু করেছিল, এখন বৈধতার সমস্যার সম্মুখীন হচ্ছে। ওয়াশিংটন বিশ্ববিদ্যালয় এবং Google Research-এর গবেষকদের দ্বারা ২০২৩ সালের একটি সমীক্ষায় দেখা গেছে যে ImageNet-বিজয়ী অ্যালগরিদমগুলি ছয়টি বাস্তব-বিশ্ব ডেটাসেটে প্রয়োগ করার সময় “সামান্য থেকে কোনও অগ্রগতি” দেখায়নি, যা প্রস্তাব করে যে পরীক্ষাটির বাহ্যিক বৈধতা তার সীমায় পৌঁছেছে।

ছোট হয়ে যাওয়া

বৈধতার সমস্যা সমাধানের জন্য, কিছু গবেষক বেঞ্চমার্কগুলিকে নির্দিষ্ট কাজের সাথে পুনরায় সংযোগ করার প্রস্তাব করেন। রুয়েলের মতে, AI ডেভেলপারদের “এই উচ্চ-স্তরের বেঞ্চমার্কগুলির আশ্রয় নিতে হবে যা ডাউনস্ট্রিম গ্রাহকদের জন্য প্রায় অর্থহীন, কারণ বেঞ্চমার্ক ডেভেলপাররা আর ডাউনস্ট্রিম কাজের পূর্বাভাস দিতে পারে না।”

নভেম্বর ২০২৪-এ, রুয়েল BetterBench চালু করেন, একটি পাবলিক র‍্যাঙ্কিং প্রকল্প যা বিভিন্ন মানদণ্ডের ভিত্তিতে বেঞ্চমার্কগুলি মূল্যায়ন করে, যার মধ্যে রয়েছে কোড ডকুমেন্টেশনের স্পষ্টতা এবং গুরুত্বপূর্ণভাবে, এর ঘোষিত ক্ষমতা পরিমাপের ক্ষেত্রে বেঞ্চমার্কের বৈধতা। BetterBench ডিজাইনারদের স্পষ্টভাবে সংজ্ঞায়িত করতে চ্যালেঞ্জ জানায় যে তাদের বেঞ্চমার্ক কী পরীক্ষা করে এবং এটি বেঞ্চমার্ক অন্তর্ভুক্ত কাজগুলির সাথে কীভাবে সম্পর্কিত।

রুয়েল বলেন, “আপনার সক্ষমতাগুলির একটি কাঠামোগত বিভাজন থাকতে হবে। আপনি কোন প্রকৃত দক্ষতা সম্পর্কে যত্নশীল, এবং কীভাবে আপনি সেগুলিকে এমন কিছুতে পরিণত করেন যা আমরা পরিমাপ করতে পারি?”

ফলাফলগুলি প্রকাশ করে। Arcade Learning Environment (ALE), যা ২০১৩ সালে Atari ২৬০০ গেমগুলি কীভাবে খেলতে হয় তা শেখার জন্য মডেলগুলির ক্ষমতা পরীক্ষা করার জন্য প্রতিষ্ঠিত হয়েছিল, এটি সর্বোচ্চ স্কোরিং বেঞ্চমার্কগুলির মধ্যে একটি হিসাবে আবির্ভূত হয়েছে। বিপরীতভাবে, Massive Multitask Language Understanding (MMLU) বেঞ্চমার্ক, যা সাধারণ ভাষার দক্ষতার জন্য একটি বহুল ব্যবহৃত পরীক্ষা, প্রশ্ন এবং অন্তর্নিহিত দক্ষতার মধ্যে দুর্বল সংযোগের কারণে সর্বনিম্ন স্কোরগুলির মধ্যে একটি পায়।

BetterBench এখনও পর্যন্ত নির্দিষ্ট বেঞ্চমার্কগুলির খ্যাতির উপর উল্লেখযোগ্য প্রভাব ফেলেনি, তবে এটি সফলভাবে AI বেঞ্চমার্কগুলি কীভাবে উন্নত করা যায় সে সম্পর্কে আলোচনায় বৈধতাকে সামনের সারিতে নিয়ে এসেছে। রুয়েল Hugging Face, এডিনবার্গ বিশ্ববিদ্যালয় এবং EleutherAI দ্বারা হোস্ট করা একটি নতুন গবেষণা দলে যোগদান করেছেন, যেখানে তিনি বৈধতা এবং AI মডেল মূল্যায়ন সম্পর্কে তার ধারণাগুলি আরও বিকাশ করবেন।

Hugging Face-এর গ্লোবাল পলিসির প্রধান আইরিন সোলাইমান বলেন, গ্রুপটি বৈধ বেঞ্চমার্ক তৈরির উপর মনোযোগ দেবে যা সরল ক্ষমতার পরিমাপের বাইরে চলে যায়। সোলাইমান বলেন, “একটি ভাল বেঞ্চমার্কের জন্য এত বেশি ক্ষুধা রয়েছে যা ইতিমধ্যে কাজ করে। অনেক মূল্যায়ন খুব বেশি কিছু করার চেষ্টা করছে।”

বিস্তৃত শিল্প এই দৃশ্যের উপর একত্রিত হচ্ছে বলে মনে হয়। মার্চ মাসে প্রকাশিত একটি গবেষণাপত্রে, Google, Microsoft, Anthropic এবং অন্যদের গবেষকরা মূল্যায়ন উন্নত করার জন্য একটি নতুন কাঠামো তুলে ধরেছেন, যেখানে বৈধতা মূল ভিত্তি।

গবেষকরা যুক্তি দেন, “AI মূল্যায়ন বিজ্ঞানকে ‘সাধারণ বুদ্ধিমত্তা’-এর স্থূল দাবির বাইরে গিয়ে অগ্রগতির আরও কাজ-নির্দিষ্ট এবং বাস্তব-বিশ্ব সম্পর্কিত পরিমাপের দিকে যেতে হবে।”

“নরম” জিনিস পরিমাপ করা

এই পরিবর্তনকে সহজতর করার জন্য, কিছু গবেষক সামাজিক বিজ্ঞানের সরঞ্জামগুলির দিকে ঝুঁকছেন। ফেব্রুয়ারীর একটি অবস্থানপত্রে যুক্তি দেওয়া হয়েছে যে “GenAI সিস্টেমগুলির মূল্যায়ন একটি সামাজিক বিজ্ঞান পরিমাপ চ্যালেঞ্জ,” বিশেষভাবে অনুসন্ধান করে যে কীভাবে সামাজিক বিজ্ঞান বৈধতা সিস্টেমগুলি AI বেঞ্চমার্কিংয়ে প্রয়োগ করা যেতে পারে।

লেখকরা, প্রাথমিকভাবে Microsoft-এর গবেষণা শাখা থেকে তবে স্ট্যানফোর্ড এবং মিশিগান বিশ্ববিদ্যালয়ের শিক্ষাবিদদেরও অন্তর্ভুক্ত করে, সেই মানগুলির দিকে ইঙ্গিত করেছেন যা সামাজিক বিজ্ঞানীরা মতাদর্শ, গণতন্ত্র এবং মিডিয়া পক্ষপাতিত্বের মতো প্রতিদ্বন্দ্বিতামূলক ধারণাগুলি পরিমাপ করতে ব্যবহার করেন। AI বেঞ্চমার্কগুলিতে প্রয়োগ করা হলে, এই একই পদ্ধতিগুলি অস্পষ্ট সাধারণীকরণগুলির আশ্রয় না নিয়ে “যুক্তি” এবং “গণিত দক্ষতা”-র মতো ধারণাগুলি পরিমাপ করার একটি উপায় সরবরাহ করতে পারে।

সামাজিক বিজ্ঞান সাহিত্য পরিমাপ করা ধারণার কঠোরভাবে সংজ্ঞায়িত করার গুরুত্বের উপর জোর দেয়। উদাহরণস্বরূপ, একটি সমাজে গণতন্ত্রের স্তর পরিমাপ করার জন্য ডিজাইন করা একটি পরীক্ষাকে প্রথমে একটি “গণতান্ত্রিক সমাজ”-এর একটি সুস্পষ্ট সংজ্ঞা প্রতিষ্ঠা করতে হবে এবং তারপরে সেই সংজ্ঞার সাথে প্রাসঙ্গিক প্রশ্ন তৈরি করতে হবে।

SWE-Bench-এর মতো একটি বেঞ্চমার্কে এটি প্রয়োগ করার জন্য, ডিজাইনারদের GitHub থেকে প্রোগ্রামিং সমস্যা সংগ্রহ এবং উত্তর যাচাই করার জন্য একটি স্কিম তৈরি করার ঐতিহ্যবাহী মেশিন লার্নিং পদ্ধতি ত্যাগ করতে হবে। পরিবর্তে, তারা প্রথমে সংজ্ঞায়িত করবে যে বেঞ্চমার্ক কী পরিমাপ করতে চায় (যেমন, “সফটওয়্যারে চিহ্নিত সমস্যাগুলি সমাধান করার ক্ষমতা”), এটিকে উপ-দক্ষতায় (যেমন, বিভিন্ন ধরণের সমস্যা বা প্রোগ্রাম কাঠামো) ভেঙে দেবে এবং তারপরে এমন প্রশ্ন তৈরি করবে যা সঠিকভাবে সেই উপ-দক্ষতাগুলিকে কভার করে।

জ্যাকবসের মতো গবেষকদের জন্য, AI গবেষকরা সাধারণত বেঞ্চমার্কিংয়ের কাছে যাওয়ার পদ্ধতি থেকে এই গভীর পরিবর্তনটিই হল আসল বিষয়। তিনি বলেন, “টেক শিল্পে যা ঘটছে এবং সামাজিক বিজ্ঞান থেকে আসা এই সরঞ্জামগুলির মধ্যে একটি অমিল রয়েছে। মানুষের সম্পর্কে এই নরম জিনিসগুলি আমরা কীভাবে পরিমাপ করতে চাই সে সম্পর্কে আমাদের কয়েক দশক ধরে চিন্তা রয়েছে।”

গবেষণা সম্প্রদায়ে এই ধারণাগুলির ক্রমবর্ধমান প্রভাব থাকা সত্ত্বেও, AI সংস্থাগুলি কীভাবে প্রকৃতপক্ষে বেঞ্চমার্ক ব্যবহার করে তার উপর তাদের প্রভাব ধীর হয়েছে।

OpenAI, Anthropic, Google এবং Meta-এর সাম্প্রতিক মডেল প্রকাশগুলি MMLU-এর মতো একাধিক পছন্দের জ্ঞান বেঞ্চমার্কের উপর ব্যাপকভাবে নির্ভর করে চলেছে, যে পদ্ধতিটি বৈধতা গবেষকরা অতিক্রম করার চেষ্টা করছেন। মডেল প্রকাশগুলি, বেশিরভাগ ক্ষেত্রেই, এখনও সাধারণ বুদ্ধিমত্তার বৃদ্ধি প্রদর্শন করার উপর দৃষ্টি নিবদ্ধ করে এবং এই দাবিগুলিকে সমর্থন করার জন্য বিস্তৃত বেঞ্চমার্ক ব্যবহার করা হয়।

কিছু পর্যবেক্ষক এটিকে সন্তোষজনক মনে করেন। Wharton-এর অধ্যাপক ইথান মলিক পরামর্শ দেন যে বেঞ্চমার্কগুলি “জিনিসের খারাপ পরিমাপ হওয়া সত্ত্বেও, আমাদের কাছে যা আছে তাই।” তিনি আরও যোগ করেন, “একই সময়ে, মডেলগুলি আরও ভাল হচ্ছে। দ্রুত অগ্রগতির মাধ্যমে অনেক পাপ ক্ষমা করা হয়।”

আপাতত, কৃত্রিম সাধারণ বুদ্ধিমত্তার উপর শিল্পের দীর্ঘদিনের মনোযোগ একটি আরও বেশি দৃষ্টি নিবদ্ধ করা, বৈধতা-ভিত্তিক পদ্ধতিকে আড়াল করছে বলে মনে হয়। যতক্ষণ না AI মডেলগুলি সাধারণ বুদ্ধিমত্তায় অগ্রসর হতে থাকে, ততক্ষণ নির্দিষ্ট অ্যাপ্লিকেশনগুলি কম বাধ্যতামূলক মনে হয়, এমনকি যদি অনুশীলনকারীরা এমন সরঞ্জাম ব্যবহার করে যা তারা আর সম্পূর্ণরূপে বিশ্বাস করে না।

Hugging Face-এর সোলাইমান বলেন, “এটি সেই দড়ি যা আমরা হাঁটছি। সিস্টেমটিকে ফেলে দেওয়া খুব সহজ, তবে মূল্যায়নগুলি আমাদের মডেলগুলি বুঝতে সত্যিই সহায়ক, এমনকি এই সীমাবদ্ধতাগুলির সাথেও।”

এআই বেঞ্চমার্কগুলির পুনর্বিবেচনা: অর্থবহ পরিমাপের সন্ধান

কৃত্রিম বুদ্ধিমত্তার (এআই) বেঞ্চমার্ক স্কোরগুলি কি বাস্তব-বিশ্বের ক্ষমতার সঠিক নির্দেশক? ঐতিহ্যবাহী বেঞ্চমার্কগুলি ক্রমবর্ধমান সমালোচনার সম্মুখীন হওয়ায় এআই সম্প্রদায় এই প্রশ্নের সঙ্গে লড়ছে।