বিতর্কটির একটি গভীর পর্যালোচনা
সম্প্রতি, ওপেনএআই (OpenAI)-এর একজন কর্মচারী ইলন মাস্কের এআই উদ্যোগ xAI-এর বিরুদ্ধে একটি অভিযোগ এনেছেন। অভিযোগটি হল, xAI তাদের নতুন এআই মডেল গ্রক ৩ (Grok 3)-এর বেঞ্চমার্ক রেজাল্টকে ভুলভাবে উপস্থাপন করেছে। এই অভিযোগটি একটি বিতর্কের জন্ম দিয়েছে, যেখানে xAI-এর সহ-প্রতিষ্ঠাতা ইগোর বাবুশকিন কোম্পানির অবস্থানকে দৃঢ়ভাবে সমর্থন করেছেন।
পরিস্থিতির বাস্তবতা, যা প্রায়শই ঘটে থাকে, একটি আরও সূক্ষ্ম মধ্যবর্তী অবস্থানে রয়েছে।
একটি ব্লগ পোস্টে, xAI গ্রক ৩-এর AIME 2025-এর পারফরম্যান্স প্রদর্শন করে একটি গ্রাফ দেখিয়েছিল। এটি একটি সাম্প্রতিক আমন্ত্রণমূলক গণিত পরীক্ষার প্রশ্নাবলীর উপর ভিত্তি করে তৈরি করা হয়েছে, যা গাণিতিক সমস্যার একটি কঠিন সেট। যদিও কিছু বিশেষজ্ঞ AIME-কে একটি চূড়ান্ত এআই বেঞ্চমার্ক হিসাবে বৈধতা নিয়ে সন্দেহ প্রকাশ করেছেন, তবুও এটি এবং পরীক্ষার পুরোনো সংস্করণগুলি একটি মডেলের গাণিতিক দক্ষতা মূল্যায়নের জন্য সাধারণভাবে ব্যবহৃত একটি সরঞ্জাম হিসাবে রয়ে গেছে।
xAI এর গ্রাফটি বোঝা
xAI দ্বারা উপস্থাপিত গ্রাফটিতে গ্রক ৩-এর দুটি ভিন্নতা দেখানো হয়েছে – গ্রক ৩ রিজনিং বেটা (Grok 3 Reasoning Beta) এবং গ্রক ৩ মিনি রিজনিং (Grok 3 mini Reasoning) – যা দৃশ্যত AIME 2025-এ ওপেনএআই-এর শীর্ষ-পারফর্মিং উপলব্ধ মডেল o3-mini-high-কে ছাড়িয়ে গেছে। তবে, ওপেনএআই-এর কর্মচারীরা সোশ্যাল মিডিয়ায় দ্রুত প্রতিক্রিয়া জানিয়েছেন, একটি সুস্পষ্ট বাদ পড়ার দিকে ইঙ্গিত করেছেন: xAI-এর গ্রাফে o3-mini-high-এর “cons@64”-এ AIME 2025 স্কোর অন্তর্ভুক্ত ছিল না।
“cons@64” আসলে কী? এটি “consensus@64”-এর সংক্ষিপ্ত রূপ, একটি পদ্ধতি যা মূলত একটি মডেলকে বেঞ্চমার্কের প্রতিটি সমস্যার সমাধানের জন্য ৬৪ বার চেষ্টা করার সুযোগ দেয়। সর্বাধিক উত্পন্ন উত্তরগুলি তখন চূড়ান্ত উত্তর হিসাবে নির্বাচিত হয়। কেউ যেমন আশা করতে পারেন, cons@64 প্রায়শই একটি মডেলের বেঞ্চমার্ক স্কোরকে উল্লেখযোগ্যভাবে বাড়িয়ে তোলে। একটি তুলনা গ্রাফ থেকে এটিকে বাদ দেওয়া এই বিভ্রম তৈরি করতে পারে যে একটি মডেল অন্যটিকে ছাড়িয়ে গেছে, যখন বাস্তবে, তা নাও হতে পারে।
“বিশ্বের সবচেয়ে বুদ্ধিমান এআই” দাবি
AIME 2025-এর “@1”-এ স্কোরগুলি বিবেচনা করার সময় – যা নির্দেশ করে যে মডেলগুলি বেঞ্চমার্কে প্রথম স্কোর অর্জন করেছে – গ্রক ৩ রিজনিং বেটা এবং গ্রক ৩ মিনি রিজনিং উভয়ই o3-mini-high-এর স্কোরের চেয়ে কম। অধিকন্তু, গ্রক ৩ রিজনিং বেটা ওপেনএআই-এর o1 মডেলের “মিডিয়াম” কম্পিউটিং-এ সেট করা থেকে সামান্য পিছিয়ে রয়েছে। এই ফলাফলগুলি সত্ত্বেও, xAI সক্রিয়ভাবে গ্রক ৩-কে “বিশ্বের সবচেয়ে বুদ্ধিমান এআই” হিসাবে প্রচার করছে।
বাবুশকিন, সোশ্যাল মিডিয়ায়, পাল্টা যুক্তি দিয়েছিলেন যে ওপেনএআই অতীতে একই রকম বিভ্রান্তিকর বেঞ্চমার্ক চার্ট প্রকাশ করেছিল। তবে, সেই চার্টগুলি ওপেনএআই-এর নিজস্ব মডেলগুলির পারফরম্যান্সের তুলনা করতে ব্যবহৃত হয়েছিল। বিতর্কের একজন আরও নিরপেক্ষ পর্যবেক্ষক একটি আরও “সঠিক” গ্রাফ তৈরি করেছেন, যেখানে প্রায় প্রতিটি মডেলের cons@64-এ পারফরম্যান্স দেখানো হয়েছে।
অনুপস্থিত মেট্রিক: গণনামূলক খরচ
এআই গবেষক নাথান ল্যাম্বার্ট একটি গুরুত্বপূর্ণ বিষয় তুলে ধরেছেন: সবচেয়ে গুরুত্বপূর্ণ মেট্রিকটি রহস্যে আবৃত রয়ে গেছে। এটি হল প্রতিটি মডেল তার সেরা স্কোর অর্জনের জন্য যে গণনামূলক (এবং আর্থিক) খরচ বহন করে। এটি বেশিরভাগ এআই বেঞ্চমার্কের সাথে একটি মৌলিক সমস্যাকে তুলে ধরে – তারা একটি মডেলের সীমাবদ্ধতা, বা সেই ক্ষেত্রে, এর শক্তি সম্পর্কে খুব কম প্রকাশ করে।
গ্রক ৩-এর বেঞ্চমার্ক নিয়ে বিতর্কটি এআই সম্প্রদায়ের মধ্যে একটি বৃহত্তর সমস্যাকে তুলে ধরে: এআই মডেলগুলিকে কীভাবে মূল্যায়ন করা হয় এবং তুলনা করা হয় সে সম্পর্কে আরও বেশি স্বচ্ছতা এবং মানককরণের প্রয়োজন।
এআই বেঞ্চমার্কিং এর গভীরে
xAI কর্তৃক গ্রক ৩ এর পারফরম্যান্স উপস্থাপনের বিতর্কটি AI বেঞ্চমার্কিংয়ের প্রকৃতি সম্পর্কে বেশ কিছু গুরুত্বপূর্ণ প্রশ্ন উত্থাপন করে। একটি ভালো বেঞ্চমার্ক আসলে কী? ভুল ব্যাখ্যা এড়াতে ফলাফলগুলি কীভাবে উপস্থাপন করা উচিত? এবং এআই মডেলগুলির ক্ষমতা মূল্যায়নের জন্য শুধুমাত্র বেঞ্চমার্ক স্কোরের উপর নির্ভর করার সীমাবদ্ধতাগুলি কী কী?
বেঞ্চমার্কের উদ্দেশ্য:
তাত্ত্বিকভাবে, বেঞ্চমার্কগুলি নির্দিষ্ট কাজের ক্ষেত্রে বিভিন্ন এআই মডেলের পারফরম্যান্স পরিমাপ এবং তুলনা করার জন্য একটি প্রমিত উপায় হিসাবে কাজ করে। তারা একটি সাধারণ মাপকাঠি সরবরাহ করে, যা গবেষক এবং ডেভেলপারদের অগ্রগতি ট্র্যাক করতে, শক্তি এবং দুর্বলতা সনাক্ত করতে এবং পরিশেষে উদ্ভাবনকে চালিত করতে সহায়তা করে। যাইহোক, একটি বেঞ্চমার্কের কার্যকারিতা বেশ কয়েকটি কারণের উপর নির্ভর করে:
- প্রাসঙ্গিকতা: বেঞ্চমার্কটি কি বাস্তব-বিশ্বের কাজ এবং চ্যালেঞ্জগুলিকে সঠিকভাবে প্রতিফলিত করে?
- ব্যাপকতা: বেঞ্চমার্কটি কি এআই মডেলের উদ্দিষ্ট ব্যবহারের সাথে প্রাসঙ্গিক ক্ষমতার বিস্তৃত পরিসরকে কভার করে?
- বস্তুনিষ্ঠতা: বেঞ্চমার্কটি কি এমনভাবে ডিজাইন এবং পরিচালিত হয়েছে যা পক্ষপাতিত্ব কমিয়ে আনে এবং ন্যায্য তুলনা নিশ্চিত করে?
- পুনরুৎপাদনযোগ্যতা: বেঞ্চমার্কের ফলাফলগুলি কি স্বাধীন গবেষকদের দ্বারা ধারাবাহিকভাবে প্রতিলিপি করা যেতে পারে?
এআই বেঞ্চমার্কিংয়ের চ্যালেঞ্জ:
তাদের উদ্দিষ্ট উদ্দেশ্য থাকা সত্ত্বেও, এআই বেঞ্চমার্কগুলি প্রায়শই চ্যালেঞ্জে পরিপূর্ণ থাকে:
- ওভারফিটিং: মডেলগুলিকে বিশেষভাবে নির্দিষ্ট বেঞ্চমার্কে পারদর্শী হওয়ার জন্য প্রশিক্ষণ দেওয়া যেতে পারে, কিন্তু তার জন্য প্রকৃত বুদ্ধিমত্তা বা সাধারণীকরণের ক্ষমতা অর্জন করার প্রয়োজন নেই। “ওভারফিটিং” নামে পরিচিত এই ঘটনাটি স্ফীত স্কোরের দিকে পরিচালিত করতে পারে যা বাস্তব-বিশ্বের কর্মক্ষমতা প্রতিফলিত করে না।
- মানককরণের অভাব: বিভিন্ন বেঞ্চমার্কের বিস্তার, যাদের প্রত্যেকের নিজস্ব পদ্ধতি এবং স্কোরিং সিস্টেম রয়েছে, মডেল এবং গবেষণা ল্যাব জুড়ে ফলাফল তুলনা করা কঠিন করে তোলে।
- সিস্টেমের সাথে কারচুপি: xAI বিতর্ক যেমন চিত্রিত করে, কোম্পানিগুলির জন্য তাদের নিজস্ব মডেলের পক্ষে বেঞ্চমার্কের ফলাফলগুলিকে বেছে বেছে উপস্থাপন করার একটি প্রলোভন রয়েছে, যা সম্ভবত জনসাধারণকে বিভ্রান্ত করতে এবং বস্তুনিষ্ঠ মূল্যায়নকে বাধা দিতে পারে।
- সীমিত সুযোগ: বেঞ্চমার্কগুলি প্রায়শই সংকীর্ণ, সু-সংজ্ঞায়িত কাজগুলির উপর ফোকাস করে, মানুষের বুদ্ধিমত্তার সম্পূর্ণ জটিলতা এবং সূক্ষ্মতা ক্যাপচার করতে ব্যর্থ হয়। তারা সৃজনশীলতা, সাধারণ জ্ঞান যুক্তি, বা অভিনব পরিস্থিতিতে অভিযোজনযোগ্যতার মতো দিকগুলি পর্যাপ্তভাবে মূল্যায়ন করতে পারে না।
স্বচ্ছতা এবং সামগ্রিক মূল্যায়নের প্রয়োজনীয়তা
Grok 3 এর ঘটনাটি এআই মডেলগুলিকে মূল্যায়নের ক্ষেত্রে বৃহত্তর স্বচ্ছতা এবং আরও সামগ্রিক পদ্ধতির প্রয়োজনীয়তাকে তুলে ধরে। সম্পূর্ণ প্রসঙ্গ ছাড়াই উপস্থাপিত, বিশেষ করে একটি একক বেঞ্চমার্ক স্কোরের উপর নির্ভর করা অত্যন্ত বিভ্রান্তিকর হতে পারে।
বেঞ্চমার্কের বাইরে যাওয়া:
বেঞ্চমার্কগুলি একটি দরকারী হাতিয়ার হতে পারে, তবে সেগুলি কোনও এআই মডেলের ক্ষমতার একমাত্র নির্ধারক হওয়া উচিত নয়। একটি আরও ব্যাপক মূল্যায়নের মধ্যে নিম্নলিখিত বিষয়গুলি বিবেচনা করা উচিত:
- বাস্তব-বিশ্বের কর্মক্ষমতা: মডেলটি ব্যবহারিক প্রয়োগ এবং পরিস্থিতিতে কীভাবে কাজ করে?
- গুণগত বিশ্লেষণ: মডেলের আউটপুটগুলির বিশেষজ্ঞ মূল্যায়ন, সুসংগততা, সৃজনশীলতা এবং যুক্তিযুক্ত ক্ষমতার মতো বিষয়গুলি মূল্যায়ন করা।
- নৈতিক বিবেচ্য বিষয়: মডেলটি কি পক্ষপাতিত্ব প্রদর্শন করে বা ক্ষতিকারক সামগ্রী তৈরি করে?
- ব্যাখ্যাযোগ্যতা: মডেলের সিদ্ধান্ত গ্রহণের প্রক্রিয়াটি কি বোঝা এবং ব্যাখ্যা করা যেতে পারে?
- দৃঢ়তা: মডেলটি কতটা ভালোভাবে গোলমাল বা অপ্রত্যাশিত ইনপুটগুলি পরিচালনা করে?
স্বচ্ছতা প্রচার:
এআই ল্যাবগুলির তাদের বেঞ্চমার্কিং পদ্ধতিতে আরও বেশি স্বচ্ছতার জন্য প্রচেষ্টা করা উচিত। এর মধ্যে রয়েছে:
- স্পষ্টভাবে পদ্ধতি সংজ্ঞায়িত করা: বেঞ্চমার্ক সেটআপ সম্পর্কে বিশদ তথ্য সরবরাহ করা, যার মধ্যে ব্যবহৃত নির্দিষ্ট ডেটাসেট, মূল্যায়ন মেট্রিক্স এবং যেকোনো প্রাক-প্রক্রিয়াকরণ পদক্ষেপ অন্তর্ভুক্ত রয়েছে।
- সম্পূর্ণ ফলাফল রিপোর্ট করা: সমস্ত প্রাসঙ্গিক স্কোর উপস্থাপন করা, যার মধ্যে বিভিন্ন কনফিগারেশন বা পদ্ধতি (যেমন cons@64) ব্যবহার করে প্রাপ্ত স্কোরগুলিও অন্তর্ভুক্ত।
- গণনামূলক খরচ প্রকাশ করা: রিপোর্ট করা ফলাফল অর্জনের জন্য প্রয়োজনীয় গণনামূলক সংস্থানগুলি প্রকাশ করা।
- ওপেন-সোর্সিং বেঞ্চমার্ক: স্বাধীন যাচাইকরণ এবং তুলনা সহজতর করার জন্য বেঞ্চমার্ক ডেটাসেট এবং মূল্যায়ন সরঞ্জামগুলি সর্বজনীনভাবে উপলব্ধ করা।
কৃত্রিম বুদ্ধিমত্তার সাধনা একটি জটিল এবং দ্রুত বিকশিত ক্ষেত্র। বেঞ্চমার্কগুলি, অসম্পূর্ণ হলেও, অগ্রগতি পরিমাপ করতে একটি ভূমিকা পালন করে। যাইহোক, তাদের সীমাবদ্ধতাগুলি স্বীকার করা এবং এআই মডেলগুলি মূল্যায়নের জন্য আরও সূক্ষ্ম এবং স্বচ্ছ পদ্ধতির জন্য প্রচেষ্টা করা অত্যন্ত গুরুত্বপূর্ণ। চূড়ান্ত লক্ষ্য হওয়া উচিত এমন এআই সিস্টেম তৈরি করা যা কেবল শক্তিশালী নয়, নির্ভরযোগ্য, নৈতিক এবং সমাজের জন্য উপকারীও। ফোকাসটি কেবল উচ্চতর বেঞ্চমার্ক স্কোর তাড়া করা থেকে সরে এসে এমন এআই তৈরি করার দিকে মনোনিবেশ করতে হবে যা সত্যিকার অর্থে বোঝে এবং একটি অর্থপূর্ণ উপায়ে বিশ্বের সাথে যোগাযোগ করে।