টুরিং টেস্টের সংকট: AI কি একে ছাড়িয়ে গেছে?

বুদ্ধিমত্তার এই বিভ্রম উন্মোচন

কয়েক দশক ধরে, কৃত্রিম বুদ্ধিমত্তা পরিমাপের প্রচেষ্টায় Turing Test একটি মাইলফলক হিসেবে দাঁড়িয়ে আছে, যদিও এটি প্রায়শই ভুল বোঝা হয়। মেধাবী Alan Turing দ্বারা পরিকল্পিত, এটি একটি সহজ কিন্তু গভীর চ্যালেঞ্জ প্রস্তাব করেছিল: একটি মেশিন কি শুধুমাত্র টেক্সট-ভিত্তিক কথোপকথনের মাধ্যমে একজন মানুষকে বোঝাতে পারবে যে সেও মানুষ? অনেকে এই পরীক্ষায় সাফল্যকে সত্যিকারের মেশিন চিন্তার সূচনা হিসাবে ব্যাখ্যা করেছেন, একটি চিহ্ন যে সিলিকন মস্তিষ্ক অবশেষে আমাদের নিজস্ব জ্ঞানীয় ক্ষমতার প্রতিফলন ঘটাচ্ছে। যাইহোক, এই ব্যাখ্যাটি সর্বদা বিতর্কে পরিপূর্ণ ছিল, এবং OpenAI’র GPT-4.5 এর মতো অত্যাধুনিক AI মডেলগুলির সাম্প্রতিক উন্নয়নগুলি একটি সমালোচনামূলক পুনর্মূল্যায়নের জন্য চাপ সৃষ্টি করছে।

University of California at San Diego থেকে উঠে আসা যুগান্তকারী গবেষণা এই বিতর্ককে তীব্রতর করেছে। সেখানকার পণ্ডিতরা ক্লাসিক Turing Test ফরম্যাটে উন্নত লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs) এর বিরুদ্ধে মানুষকে দাঁড় করিয়ে পরীক্ষা চালিয়েছেন। ফলাফল ছিল চমকপ্রদ: OpenAI’র সর্বশেষ সংস্করণ, যা রিপোর্ট অনুযায়ী GPT-4.5, শুধু পাসই করেনি; এটি দক্ষতা দেখিয়েছে, মানুষের ছদ্মবেশ ধারণে প্রকৃত মানব অংশগ্রহণকারীদের নিজেদের মানবতা প্রমাণ করার চেয়ে বেশি বিশ্বাসযোগ্য প্রমাণিত হয়েছে। এটি জেনারেটিভ AI-এর ক্ষমতাতে একটি উল্লেখযোগ্য উল্লম্ফন, যা এমন প্রতিক্রিয়া তৈরি করতে পারে যা খাঁটিভাবে মানুষের মতো মনে হয়। তবুও, এমনকি এই গবেষণার পেছনের গবেষকরাও এই কথোপকথন দক্ষতাকে কৃত্রিম সাধারণ বুদ্ধিমত্তা (AGI) অর্জনের সাথে সমান করার বিরুদ্ধে সতর্ক করেছেন – যা মানুষের স্তরের জ্ঞানীয় ক্ষমতা সম্পন্ন মেশিন তৈরির অধরা লক্ষ্য। মনে হচ্ছে, পরীক্ষাটি মেশিনের বুদ্ধিমত্তার প্রকৃত প্রকৃতি সম্পর্কে জানার চেয়ে বরং পরীক্ষার নিজস্ব সীমাবদ্ধতা এবং আমাদের মানবিক অনুমান সম্পর্কে বেশি প্রকাশ করছে।

একটি ক্লাসিক পরীক্ষার আধুনিক মোড়

Turing Test-এর স্থায়ী আবেদন এর মার্জিত সরলতার মধ্যে নিহিত। Turing একটি ‘অনুকরণ খেলা’ কল্পনা করেছিলেন যাতে তিনজন খেলোয়াড় জড়িত: একজন মানব জিজ্ঞাসাকারী (বিচারক), একজন মানব সাক্ষী এবং একটি কম্পিউটার সাক্ষী। একে অপরের থেকে বিচ্ছিন্ন অবস্থায়, শুধুমাত্র টেক্সট বার্তার মাধ্যমে যোগাযোগ করে, সাক্ষীরা বিচারককে তাদের মানব পরিচয় সম্পর্কে বোঝানোর চেষ্টা করবে। বিচারক, যিনি জানেন যে একজন অংশগ্রহণকারী একটি মেশিন, তাকে নির্ধারণ করতে হবে কোনটি কে। এই সেটআপের প্রতিভা এর অন্তর্নিহিত তুলনামূলক প্রকৃতির মধ্যে। যদি বিচারক ভুলবশত কম্পিউটারকে মানুষ হিসাবে চিহ্নিত করেন, তবে এটি কেবল মেশিনের বিশ্বাসযোগ্য কর্মক্ষমতাই বোঝায় না, বরং মানব সাক্ষীর নিজের মানবতাকে পর্যাপ্তভাবে সংকেত দিতে ব্যর্থতা, অথবা সম্ভবত বিচারকের সেই সংকেতগুলি সঠিকভাবে উপলব্ধি করতে অক্ষমতাও বোঝায়। এটি মানব উপলব্ধি, বিশ্বাস এবং মানুষ হওয়ার সাথে যুক্ত সূক্ষ্ম ইঙ্গিতগুলির একটি আকর্ষণীয় পরীক্ষা হয়ে ওঠে, যতটা এটি গণনামূলক ক্ষমতার পরিমাপ।

এই ভিত্তির উপর নির্ভর করে, UC San Diego-র গবেষক Cameron Jones এবং Benjamin Bergen আধুনিক LLM-এর শক্তি ব্যবহার করে এবং স্নাতক ছাত্রদের জড়িত করে পরীক্ষার একটি সমসাময়িক সংস্করণ বাস্তবায়ন করেছেন। তাদের পরীক্ষামূলক নকশা Turing-এর ত্রি-মুখী কাঠামোর সাথে ঘনিষ্ঠভাবে মেনে চলেছিল। ছাত্রদের এলোমেলোভাবে ভূমিকা বরাদ্দ করা হয়েছিল: কেউ বিচারক হিসাবে কাজ করেছিল, অন্যরা মানব সাক্ষী হিসাবে। প্রতিটি বিচারক একজন মানবসাক্ষী এবং একজন AI সাক্ষীর সাথে একযোগে, স্বাধীনভাবে পাঁচ মিনিটের টেক্সট চ্যাটে নিযুক্ত ছিলেন। বিচারকের জন্য চ্যালেঞ্জ একই ছিল: মেশিনটিকে শনাক্ত করা।

বর্তমান AI-এর ক্ষমতা অন্বেষণ করতে, কম্পিউটার সাক্ষী হিসাবে বেশ কয়েকটি মডেল স্থাপন করা হয়েছিল:

  • GPT-4.5 (Minimal Prompt): এই সংস্করণটি শুধুমাত্র মৌলিক নির্দেশাবলী পেয়েছিল।
  • GPT-4.5 (PERSONA Prompt): এই সংস্করণটিকে উল্লেখযোগ্যভাবে আরও বিস্তারিত নির্দেশনা দেওয়া হয়েছিল। প্রম্পটটি AI-কে একটি নির্দিষ্ট ব্যক্তিত্ব গ্রহণ করার নির্দেশ দিয়েছিল – একজন ‘অন্তর্মুখী, ইন্টারনেট সংস্কৃতি সম্পর্কে জ্ঞানী এবং স্ল্যাং ব্যবহারকারী তরুণ ব্যক্তি’। এর লক্ষ্য ছিল AI-এর অভিযোজনযোগ্যতা এবং নির্দিষ্ট মানব আর্কিটাইপগুলি অনুকরণ করার ক্ষমতা পরীক্ষা করা।
  • GPT-4o: OpenAI’র অন্য বিশিষ্ট মডেল একটি তুলনামূলক বিন্দু হিসাবে কাজ করেছে।
  • Llama 3.1 405b: Meta Platforms-এর শক্তিশালী LLM পরিধি বিস্তৃত করার জন্য অন্তর্ভুক্ত করা হয়েছিল।
  • ELIZA: ১৯৬০-এর দশকের একটি মৌলিক চ্যাটবট প্রোগ্রাম নিয়ন্ত্রণ হিসাবে অন্তর্ভুক্ত করা হয়েছিল। এর আপেক্ষিক সরলতার উদ্দেশ্য ছিল এটি নির্ধারণে সহায়তা করা যে LLM-গুলির কোনও সাফল্য অত্যাধুনিক প্রোগ্রামিংয়ের কারণে নাকি কেবল এলোমেলো সুযোগ এবং সহজে বোকা বনে যাওয়া বিচারকদের কারণে।

এই মাল্টি-মডেল পদ্ধতি, কাঠামোগত, সময়সীমাবদ্ধ মিথস্ক্রিয়া এবং ন্যূনতম প্রম্পটযুক্ত ও পারসোনা-চালিত AI-এর মধ্যে তুলনা, মেশিনগুলি এখন কতটা কার্যকরভাবে মানুষের কথোপকথন অনুকরণ করতে পারে এবং মানুষ কীভাবে এই প্রচেষ্টাগুলি উপলব্ধি করে তা বিশ্লেষণের জন্য একটি সমৃদ্ধ ডেটাসেট সরবরাহ করেছে।

যখন অনুকরণ বাস্তবতাকে ছাড়িয়ে যায়

UC San Diego গবেষণার ফলাফলগুলি ছিল অসাধারণ, বিশেষ করে যখন GPT-4.5 বিস্তারিত PERSONA প্রম্পট দ্বারা পরিচালিত হয়েছিল তার কর্মক্ষমতা সম্পর্কিত। এই নির্দিষ্ট কনফিগারেশনটি একটি আশ্চর্যজনক ৭৩% ‘জয় হার’ অর্জন করেছে। মূলত, এই AI-এর সাথে মিথস্ক্রিয়া করা মানব বিচারকদের প্রায় তিন-চতুর্থাংশ সময় মনে হয়েছে যে তারা অন্য একজন মানুষের সাথে কথা বলছে। এই সংখ্যাটি কেবল তার পরম মানের জন্যই তাৎপর্যপূর্ণ নয়, অন্যান্য অংশগ্রহণকারীদের সাথে তুলনার ক্ষেত্রেও তাৎপর্যপূর্ণ।

বেঞ্চমার্কগুলি বিবেচনা করুন:

  • মানব সাক্ষী: পরিহাসের বিষয় হল, সাক্ষী হিসাবে অংশগ্রহণকারী প্রকৃত মানুষরা পারসোনা-চালিত GPT-4.5-এর চেয়ে বিচারকদের তাদের মানবতা সম্পর্কে বোঝাতে কম সফল হয়েছিল।
  • অন্যান্য AI মডেল: ন্যূনতম প্রম্পট সহ GPT-4.5, সেইসাথে GPT-4o এবং Llama 3.1 (এমনকি যখন একই ধরনের পারসোনা প্রম্পট দেওয়া হয়েছিল) যথেষ্ট কম স্কোর করেছে, যাদের জয়ের হার ২১% থেকে ৫৬% এর মধ্যে ছিল। এটি পরীক্ষিত নির্দিষ্ট GPT-4.5 মডেলের উন্নত ক্ষমতা এবং উপযুক্ত প্রম্পটিংয়ের উল্লেখযোগ্য প্রভাব তুলে ধরে।
  • পূর্ববর্তী GPT-4 পারফরম্যান্স: মাত্র এক বছর আগে একই গবেষকদের দ্বারা পরিচালিত পরীক্ষার পূর্ববর্তী পুনরাবৃত্তিতে, GPT-4 মাত্র ৫৪% জয়ের হার অর্জন করেছিল, যা এলোমেলো সুযোগের প্রান্তিক সীমা (৫০%) সামান্য অতিক্রম করেছিল। GPT-4.5-এর সাথে ৭৩%-এ লাফানো মডেলটির মানুষের মতো টেক্সট তৈরি করার ক্ষমতার দ্রুত অগ্রগতি প্রদর্শন করে।
  • ELIZA: ভিন্টেজ চ্যাটবট, প্রত্যাশিত হিসাবে, খারাপ পারফর্ম করেছে, একটি বেসলাইন হিসাবে তার উদ্দেশ্য পূরণ করেছে এবং নিশ্চিত করেছে যে LLM-গুলির সাফল্য কেবল বিচারকদের যেকোনো প্রোগ্রাম দ্বারা সহজে প্রতারিত হওয়ার কারণে ছিল না।

Jones এবং Bergen-এর উপসংহার ছিল কঠোর: বিচারকরা কেবল মানুষ এবং মেশিনের মধ্যে পার্থক্য করতে সংগ্রাম করছিলেন না; তারা সক্রিয়ভাবে পারসোনা-চালিত GPT-4.5-কে মানুষ হিসাবে বিশ্বাস করতে বেশি আগ্রহী ছিলেন, যতটা না তারা প্রকৃত মানব অংশগ্রহণকারীদের মানুষ হিসাবে বিশ্বাস করতে আগ্রহী ছিলেন। এটি ইঙ্গিত দেয় যে AI, যখন সঠিকভাবে নির্দেশিত হয়, তখন মানুষের মিথস্ক্রিয়ার অনুভূত সূক্ষ্মতাগুলি অনুকরণ করতে পারে – সম্ভবত এমনকি প্রকৃত মানব চ্যাটে উপস্থিত বিশ্রীতা বা অসঙ্গতিগুলি ফিল্টার করে – এই নির্দিষ্ট, সীমাবদ্ধ পরিবেশে মানুষের চেয়েও কার্যকরভাবে। সাফল্য কেবল পাস করার মধ্যেই সীমাবদ্ধ ছিল না; এটি পরীক্ষার সীমাবদ্ধতার মধ্যে অনুভূত ‘মানবতার’ ক্ষেত্রে মানব বেসলাইনকে অতিক্রম করার বিষয়ে ছিল।

মানবসদৃশতার বাধা: বুদ্ধিমত্তা নাকি অভিযোজন?

Turing Test-এর এই আধুনিক পুনরাবৃত্তিতে GPT-4.5-এর বিজয় কি AGI-এর আগমনের ইঙ্গিত দেয়? গবেষকরা, ক্ষেত্রের অনেক বিশেষজ্ঞের সাথে, সতর্কতার আহ্বান জানিয়েছেন। পরীক্ষার আশেপাশের ‘সবচেয়ে বিতর্কিত প্রশ্ন’, যেমন Jones এবং Bergen স্বীকার করেছেন, সর্বদা ছিল এটি সত্যিই বুদ্ধিমত্তা পরিমাপ করে নাকি অন্য কিছু। GPT-4.5-এর মানুষকে এত কার্যকরভাবে বোকা বানানোর ক্ষমতা নিঃসন্দেহে একটি প্রযুক্তিগত কৃতিত্ব হলেও, এটি প্রকৃত বোঝাপড়া বা চেতনার চেয়ে মডেলের অত্যাধুনিক অনুকরণ এবং অভিযোজনযোগ্যতা সম্পর্কে বেশি বলতে পারে।

একটি দৃষ্টিকোণ হল যে এই উন্নত LLM-গুলি প্যাটার্ন ম্যাচিং এবং ভবিষ্যদ্বাণীতে ব্যতিক্রমীভাবে পারদর্শী হয়ে উঠেছে। বিপুল পরিমাণ মানব টেক্সট ডেটা খাওয়ানোর ফলে, তারা বিভিন্ন ধরণের মানব মিথস্ক্রিয়ার সাথে যুক্ত শব্দ ক্রম, কথোপকথনের পালা এবং শৈলীগত উপাদানগুলির পরিসংখ্যানগত সম্ভাবনা শিখেছে। PERSONA প্রম্পট GPT-4.5-কে একটি নির্দিষ্ট টার্গেট প্যাটার্ন প্রদান করেছে – একজন অন্তর্মুখী, ইন্টারনেট-জ্ঞানী তরুণ ব্যক্তি। AI-এর সাফল্য, অতএব, অনুরোধ করা পারসোনার সাথে মেলে ধরতে ‘তার আচরণকে মানিয়ে নেওয়ার’ ক্ষমতা প্রদর্শনের হিসাবে দেখা যেতে পারে, সেই প্রোফাইলের সাথে সামঞ্জস্যপূর্ণ প্রতিক্রিয়া তৈরি করতে তার প্রশিক্ষণ ডেটার উপর নির্ভর করে। এটি নমনীয়তা এবং জেনারেটিভ শক্তির একটি অসাধারণ প্রদর্শন, যা মেশিনকে প্রম্পট দ্বারা সংজ্ঞায়িত প্রেক্ষাপটের মধ্যে বিশ্বাসযোগ্যভাবে মানুষ হিসাবে উপস্থিত হতে দেয়।

যাইহোক, এই অভিযোজনযোগ্যতা মানুষের অধিকারী সাধারণ বুদ্ধিমত্তা থেকে স্বতন্ত্র, যার মধ্যে যুক্তি, প্রসঙ্গ গভীরভাবে বোঝা, নতুন অভিজ্ঞতা থেকে শেখা এবং চেতনার অধিকারী হওয়া জড়িত – যে গুণাবলী বর্তমান LLM-গুলি প্রদর্শনযোগ্যভাবে দেখায় না। যেমন AI পণ্ডিত Melanie Mitchell যুক্তি দিয়েছেন, প্রাকৃতিক ভাষায় সাবলীলতা, অনেকটা দাবা খেলায় দক্ষতা অর্জনের মতো, সাধারণ বুদ্ধিমত্তার চূড়ান্ত প্রমাণ নয়। এটি একটি নির্দিষ্ট, যদিও জটিল, দক্ষতার ডোমেনে দক্ষতা প্রমাণ করে। অতএব, যদিও GPT-4.5-এর কর্মক্ষমতা প্রাকৃতিক ভাষা উৎপাদনে একটি মাইলফলক, এটিকে কেবল AGI-এর দিকে একটি পদক্ষেপ হিসাবে চিহ্নিত করা বিভ্রান্তিকর হতে পারে। এটিকে টেক্সট-ভিত্তিক কথোপকথনে উচ্চ মাত্রার ‘মানবসদৃশতা’ অর্জন হিসাবে বর্ণনা করা আরও সঠিক বলে মনে হয়, যা মানব-স্তরের বুদ্ধিমত্তা থেকে একটি সূক্ষ্ম কিন্তু গুরুত্বপূর্ণভাবে ভিন্ন ধারণা।

মিথস্ক্রিয়ার আয়না: পরীক্ষাটি আমাদের সম্পর্কে কী প্রকাশ করে

সম্ভবত UC San Diego গবেষণার সবচেয়ে আকর্ষণীয় দিকটি AI সম্পর্কে যা প্রকাশ করে তার মধ্যে নয়, বরং এটি মানব বিচার এবং আমরা মিথস্ক্রিয়াগুলিতে, বিশেষ করে অনলাইনে, যে অনুমানগুলি নিয়ে আসি সে সম্পর্কে যা প্রকাশ করে তার মধ্যে নিহিত। মানব বিচারকরা যে প্রায়শই প্রতারিত হয়েছিলেন, এবং কখনও কখনও এমনকি AI-এর মিথস্ক্রিয়া শৈলী পছন্দ করেছিলেন, তা এই বিন্যাসে মেশিনের বুদ্ধিমত্তার চূড়ান্ত সালিস হিসাবে মানব উপলব্ধিকে ব্যবহার করার অন্তর্নিহিত বিষয়বস্তুতা এবং সম্ভাব্য ত্রুটিগুলির দিকে নির্দেশ করে।

গবেষকরা বিচারকদের যুক্তিতে আকর্ষণীয় নিদর্শন লক্ষ্য করেছেন:

  • অপ্রত্যাশিত আচরণ: এমনকি আদিম ELIZA প্রোগ্রামও ২৩% সময় বিচারকদের বোকা বানাতে সক্ষম হয়েছিল। এটি এই কারণে নয় যে ELIZA বুদ্ধিমত্তা প্রদর্শন করেছিল, বরং প্রায়শই কারণ এটি বিচারকদের পূর্বকল্পিত ধারণার সাথে মেলেনি যে একটি AI কীভাবে আচরণ করা উচিত। বিচারকরা কারণ হিসাবে উল্লেখ করেছেন যে সাক্ষী ‘ব্যঙ্গাত্মক’ বা ‘অভদ্র’ ছিল, যে বৈশিষ্ট্যগুলি তারা একটি মেশিনের কাছ থেকে আশা করেননি, ফলে তারা এই সিদ্ধান্তে পৌঁছেছেন যে এটি অবশ্যই মানুষ।
  • বুদ্ধিবৃত্তির চেয়ে সামাজিকতার উপর ফোকাস: Alan Turing-এর প্রত্যাশার বিপরীতে যে বিচারকরা জ্ঞান এবং বুদ্ধিবৃত্তিক ক্ষমতার জন্য অনুসন্ধান করবেন, এই গবেষণার অংশগ্রহণকারীরা প্রায়শই কথোপকথনের শৈলী, মানসিক স্বর এবং সামাজিক ইঙ্গিতগুলির উপর বেশি মনোযোগী বলে মনে হয়েছিল।
  • অপূর্ণতার প্যারাডক্স: একটি আশ্চর্যজনক মোচড়ে, বিচারকরা একজন সাক্ষীকে সঠিকভাবে মানুষ হিসাবে চিহ্নিত করার জন্য যে কারণগুলি ব্যবহার করেছিলেন তার মধ্যে একটি ছিল জ্ঞানের অনুভূত অভাব। এটি একটি অন্তর্নিহিত অনুমান নির্দেশ করে যে মানুষ ভুলপ্রবণ এবং অপূর্ণ, যেখানে AI বিশ্বকোষীয় বা অতিরিক্ত নির্ভুল হবে বলে আশা করা যেতে পারে।

এই পর্যবেক্ষণগুলি Jones এবং Bergen-কে এই দাবি করতে পরিচালিত করে যে বিচারকদের সিদ্ধান্তগুলি ‘মানুষ এবং AI সিস্টেমগুলি কীভাবে আচরণ করতে পারে সে সম্পর্কে জটিল অনুমান’ অন্তর্ভুক্ত করে, যা বুদ্ধিমত্তার একটি সাধারণ মূল্যায়নের বাইরে চলে যায়। মানদণ্ডগুলি সামাজিক প্রত্যাশা, ব্যক্তিত্বের বিচার এবং এমনকি প্রযুক্তিগত ক্ষমতা সম্পর্কে পক্ষপাতিত্বের সাথে জড়িত হয়ে পড়ে। এমন এক যুগে যেখানে টেক্সট-ভিত্তিক যোগাযোগ সর্বব্যাপী, আমরা অনলাইন মিথস্ক্রিয়ার জন্য বদ্ধমূল অভ্যাস এবং প্রত্যাশা তৈরি করেছি। Turing Test, যা মূলত মানব-কম্পিউটার মিথস্ক্রিয়াতে একটি অভিনব অনুসন্ধান হিসাবে ডিজাইন করা হয়েছিল, এখন এই অনলাইন মানব অভ্যাস এবং পক্ষপাতিত্বের একটি পরীক্ষা হিসাবে বেশি কাজ করে। এটি ডিজিটাল ব্যক্তিত্ব পার্স করার আমাদের ক্ষমতা পরিমাপ করে, যা অনলাইনে মানুষ এবং বট উভয়ের সাথে আমাদের দৈনন্দিন অভিজ্ঞতা দ্বারা প্রভাবিত হয়। মৌলিকভাবে, আধুনিক Turing Test, যেমনটি এই গবেষণা দ্বারা প্রদর্শিত হয়েছে, মেশিনের বুদ্ধিমত্তার সরাসরি মূল্যায়নের চেয়ে অনুভূত মানবসদৃশতার একটি পরিমাপক হিসাবে বেশি প্রদর্শিত হয়, যা মানব প্রত্যাশার লেন্সের মাধ্যমে ফিল্টার করা হয়।

অনুকরণ খেলার বাইরে: AI মূল্যায়নের জন্য একটি নতুন পথ নির্ধারণ

GPT-4.5-এর মতো মডেলগুলির আকর্ষক কর্মক্ষমতা এবং ঐতিহ্যবাহী Turing Test ফরম্যাটে অন্তর্নিহিত সীমাবদ্ধতা ও পক্ষপাতিত্বগুলি তুলে ধরার প্রেক্ষিতে প্রশ্ন ওঠে: এই কয়েক দশক পুরনো বেঞ্চমার্কটি কি এখনও AGI-এর দিকে অগ্রগতি পরিমাপের জন্য সঠিক হাতিয়ার? UC San Diego গবেষকরা, AI সম্প্রদায়ের ক্রমবর্ধমান ঐকতানের সাথে, পরামর্শ দেন যে সম্ভবত নয় – অন্তত, একমাত্র বা চূড়ান্ত পরিমাপক হিসাবে নয়।

GPT-4.5-এর সাফল্য, বিশেষ করে PERSONA প্রম্পটের উপর এর নির্ভরতা, একটি মূল সীমাবদ্ধতা তুলে ধরে: পরীক্ষাটি একটি নির্দিষ্ট, প্রায়শই সংকীর্ণ, কথোপকথন প্রেক্ষাপটের মধ্যে কর্মক্ষমতা মূল্যায়ন করে। এটি অগত্যা গভীর জ্ঞানীয় ক্ষমতা যেমন যুক্তি, পরিকল্পনা, সৃজনশীলতা, বা বিভিন্ন পরিস্থিতিতে সাধারণ জ্ঞানের বোঝাপড়া অনুসন্ধান করে না। যেমন Jones এবং Bergen বলেছেন, ‘বুদ্ধিমত্তা জটিল এবং বহুমাত্রিক,’ যার অর্থ হল ‘বুদ্ধিমত্তার কোনও একক পরীক্ষাই নির্ণায়ক হতে পারে না।’

এটি মূল্যায়ন পদ্ধতির আরও ব্যাপক স্যুটের প্রয়োজনীয়তার দিকে নির্দেশ করে। বেশ কয়েকটি সম্ভাব্য পথ উঠে আসে:

  1. পরিবর্তিত পরীক্ষার নকশা: গবেষকরা নিজেরাই ভিন্নতা প্রস্তাব করেন। যদি বিচারকরা AI বিশেষজ্ঞ হতেন, যাদের ভিন্ন প্রত্যাশা এবং সম্ভবত একটি মেশিনের ক্ষমতা অনুসন্ধানের জন্য আরও অত্যাধুনিক পদ্ধতি থাকত? যদি উল্লেখযোগ্য আর্থিক প্রণোদনা চালু করা হত, যা বিচারকদের প্রতিক্রিয়াগুলি আরও সাবধানে এবং চিন্তাভাবনা করে পরীক্ষা করতে উৎসাহিত করত? এই পরিবর্তনগুলি গতিশীলতা পরিবর্তন করতে পারে এবং সম্ভাব্যভাবে ভিন্ন ফলাফল দিতে পারে, যা পরীক্ষার ফলাফলের উপর প্রেক্ষাপট এবং অনুপ্রেরণার প্রভাবকে আরও তুলে ধরে।
  2. বিস্তৃত ক্ষমতা পরীক্ষা: কথোপকথন সাবলীলতার বাইরে গিয়ে, মূল্যায়নগুলি বুদ্ধিমত্তার বিভিন্ন দিকগুলির প্রয়োজন এমন বিস্তৃত কাজের উপর ফোকাস করতে পারে – নতুন ডোমেনে সমস্যা সমাধান, দীর্ঘমেয়াদী পরিকল্পনা, জটিল কার্যকারণ সম্পর্ক বোঝা, বা প্রশিক্ষণ ডেটার অত্যাধুনিক রিমিক্সিংয়ের পরিবর্তে প্রকৃত সৃজনশীলতা প্রদর্শন করা।
  3. Human-in-the-Loop (HITL) মূল্যায়ন: AI মূল্যায়নে মানব বিচারকে আরও পদ্ধতিগতভাবে একীভূত করার দিকে একটি ক্রমবর্ধমান প্রবণতা রয়েছে, তবে সম্ভবত ক্লাসিক Turing Test-এর চেয়ে আরও কাঠামোগত উপায়ে। এর মধ্যে নির্দিষ্ট মানদণ্ডের ভিত্তিতে (যেমন, বাস্তব নির্ভুলতা, যৌক্তিক সঙ্গতি, নৈতিক বিবেচনা, উপযোগিতা) AI আউটপুট মূল্যায়নকারী মানুষ জড়িত থাকতে পারে, কেবল একটি বাইনারি মানব/মেশিন বিচার করার পরিবর্তে। মানুষ মডেল পরিমার্জিত করতে, দুর্বলতা চিহ্নিত করতে এবং সূক্ষ্ম প্রতিক্রিয়ার ভিত্তিতে উন্নয়নকে গাইড করতে সহায়তা করতে পারে।

মূল ধারণাটি হল যে বুদ্ধিমত্তার মতো জটিল কিছু মূল্যায়ন করার জন্য সাধারণ অনুকরণের বাইরে তাকানো প্রয়োজন। যদিও Turing Test একটি মূল্যবান প্রাথমিক কাঠামো প্রদান করেছে এবং গুরুত্বপূর্ণ আলোচনাকে উস্কে দিতে চলেছে, শুধুমাত্র এটির উপর নির্ভরতা অত্যাধুনিক অনুকরণকে প্রকৃত বোঝাপড়ার সাথে গুলিয়ে ফেলার ঝুঁকি তৈরি করে। AGI বোঝা এবং সম্ভাব্যভাবে অর্জন করার পথে মূল্যায়নের আরও সমৃদ্ধ, আরও বৈচিত্র্যময় এবং সম্ভবত আরও কঠোর পদ্ধতির প্রয়োজন।

AGI-এর রহস্য এবং মূল্যায়নের ভবিষ্যৎ

সাম্প্রতিক পরীক্ষাগুলি একটি মৌলিক চ্যালেঞ্জকে তুলে ধরে যা Turing Test-এর বাইরেও প্রসারিত: আমরা কৃত্রিম সাধারণ বুদ্ধিমত্তা (Artificial General Intelligence) কী গঠন করে তা সঠিকভাবে সংজ্ঞায়িত করতে সংগ্রাম করি, যদি আমরা এটির মুখোমুখি হই তবে আমরা কীভাবে এটিকে নিশ্চিতভাবে চিনতে পারব সে বিষয়ে একমত হওয়া তো দূরের কথা। যদি মানুষ, তাদের সমস্ত অন্তর্নিহিত পক্ষপাতিত্ব এবং অনুমান সহ, একটি সাধারণ চ্যাট ইন্টারফেসে একটি ভাল-প্রম্পটযুক্ত LLM দ্বারা এত সহজে প্রভাবিত হতে পারে, তাহলে আমরা কীভাবে সম্ভাব্যভাবে আরও অনেক উন্নত ভবিষ্যতের সিস্টেমগুলির গভীর জ্ঞানীয় ক্ষমতা নির্ভরযোগ্যভাবে বিচার করতে পারি?

AGI-এর দিকে যাত্রা অস্পষ্টতায় আচ্ছন্ন। UC San Diego গবেষণা একটি শক্তিশালী অনুস্মারক হিসাবে কাজ করে যে আমাদের বর্তমান বেঞ্চমার্কগুলি সামনের কাজের জন্য অপর্যাপ্ত হতে পারে। এটি সিমুলেটেড আচরণকে প্রকৃত বোঝাপড়া থেকে আলাদা করার গভীর অসুবিধা তুলে ধরে, বিশেষ করে যখন সিমুলেশন ক্রমবর্ধমানভাবে অত্যাধুনিক হয়ে ওঠে। এটি ভবিষ্যতের মূল্যায়ন প্যারাডাইম সম্পর্কে অনুমানমূলক, তবুও চিন্তা-উদ্দীপক, প্রশ্নের দিকে নিয়ে যায়। আমরা কি এমন একটি পর্যায়ে পৌঁছাতে পারি, যা বিজ্ঞান কল্পকাহিনীর বর্ণনার কথা মনে করিয়ে দেয়, যেখানে মানব বিচার উন্নত AI-কে মানুষ থেকে আলাদা করার জন্য খুব অবিশ্বস্ত বলে মনে করা হবে?

সম্ভবত, विरोधाभाসিকভাবে, অত্যন্ত উন্নত মেশিন বুদ্ধিমত্তার মূল্যায়নের জন্য অন্যান্য মেশিনের সহায়তা প্রয়োজন হবে। জ্ঞানীয় গভীরতা, সামঞ্জস্য এবং প্রকৃত যুক্তির জন্য বিশেষভাবে ডিজাইন করা সিস্টেমগুলি, যা সম্ভবত সামাজিক ইঙ্গিত এবং পক্ষপাতিত্বের প্রতি কম সংবেদনশীল যা মানব বিচারকদের প্রভাবিত করে, মূল্যায়ন টুলকিটের প্রয়োজনীয় উপাদান হয়ে উঠতে পারে। অথবা, অন্ততপক্ষে, মানব নির্দেশাবলী (প্রম্পট), AI অভিযোজন এবং বুদ্ধিমত্তার ফলস্বরূপ উপলব্ধির মধ্যে পারস্পরিক ক্রিয়ার একটি গভীর বোঝাপড়া অত্যন্ত গুরুত্বপূর্ণ হবে। নির্দিষ্ট, সম্ভাব্য প্রতারণামূলক, আচরণগুলি বের করার জন্য মানুষের প্রচেষ্টার প্রতি অন্যান্য মেশিনের প্রতিক্রিয়া পর্যবেক্ষণ করার সময় মেশিনগুলি কী বুঝতে পারে তা আমাদের জিজ্ঞাসা করতে হতে পারে। AI পরিমাপের অনুসন্ধান আমাদের কেবল মেশিন বুদ্ধিমত্তার প্রকৃতিই নয়, আমাদের নিজস্ব জটিল, প্রায়শই আশ্চর্যজনক, প্রকৃতির মুখোমুখি হতে বাধ্য করে।