চ্যাটজিপিটি কি টিউরিং টেস্টকে ছাড়িয়ে যাবে?

চ্যাটজিপিটি কি টিউরিং টেস্টকে ছাড়িয়ে যাবে? সাম্প্রতিক গবেষণা

ক্রমবর্ধমানভাবে মনে করা হচ্ছে যে চ্যাটজিপিটি সফলভাবে টিউরিং টেস্টে উত্তীর্ণ হবে। কিছু গবেষক ইতিমধ্যে নিশ্চিত যে এটি এই কৃতিত্ব অর্জন করেছে।

চ্যাটবটগুলির বিবর্তন, যেমন চ্যাটজিপিটি, বুদ্ধিমত্তা, স্বাভাবিকতা এবং মানুষের মতো গুণাবলীতে উল্লেখযোগ্য বৃদ্ধি দেখায়। এই অগ্রগতি যুক্তিযুক্ত, কারণ মানুষই বৃহৎ ভাষা মডেলগুলির (এলএলএম) স্থপতি যা এই এআই চ্যাটবটগুলির ভিত্তি তৈরি করে। এই সরঞ্জামগুলি যখন তাদের "যুক্তি" ক্ষমতাকে পরিমার্জন করে এবং আরও নির্ভুলতার সাথে মানুষের speech অনুকরণ করে, তখন একটি গুরুত্বপূর্ণ প্রশ্ন ওঠে: তারা কি টিউরিং টেস্টে উত্তীর্ণ হওয়ার জন্য যথেষ্ট উন্নত?

কয়েক দশক ধরে, টিউরিং টেস্ট মেশিনের বুদ্ধিমত্তার মূল্যায়নে একটি গুরুত্বপূর্ণ মানদণ্ড হিসাবে দাঁড়িয়েছে। বর্তমানে, গবেষকরা সক্রিয়ভাবে চ্যাটজিপিটির মতো এলএলএমগুলিকে এই কঠোর মূল্যায়নের আওতায় ফেলছেন। একটি সফল ফলাফল এআই বিকাশের ক্ষেত্রে একটি বিশাল মাইলফলক হবে।

তাহলে, চ্যাটজিপিটি কি টিউরিং টেস্টে উত্তীর্ণ হতে সক্ষম? কিছু গবেষক নিশ্চিত করেছেন যে এটি সক্ষম। তবে, ফলাফল এখনও ব্যাখ্যার জন্য উন্মুক্ত। টিউরিং টেস্ট একটি সরল বাইনারি ফলাফল দেয় না, যা ফলাফলগুলিকে কিছুটা অস্পষ্ট করে তোলে। তাছাড়া, চ্যাটজিপিটি যদি টিউরিং টেস্টে উত্তীর্ণও হয়, তবে এটি কোনও এলএলএম-এর মধ্যে সহজাত "মানুষের মতো" গুণাবলীর একটি নির্দিষ্ট ইঙ্গিত নাও দিতে পারে।

আসুন জটিলতাগুলি বিস্তারিতভাবে আলোচনা করি।

টিউরিং টেস্টের ব্যবচ্ছেদ

টিউরিং টেস্টের সারমর্মটি বেশ সরল।

ব্রিটিশ গণিতবিদ অ্যালান টিউরিং, কম্পিউটার বিজ্ঞানের একজন অগ্রণী ব্যক্তিত্ব, দ্বারা পরিকল্পিত, Imitation Game, যা প্রাথমিকভাবে পরিচিত ছিল, মেশিনের বুদ্ধিমত্তার জন্য একটি লিটমাস পরীক্ষা হিসাবে কাজ করে। টিউরিং টেস্টে একজন মানব পরীক্ষক একজন মানুষ এবং একটি মেশিন উভয়ের সাথে কথোপকথনে জড়িত হন, না জেনে কোনটি কী। যদি পরীক্ষক মেশিনটিকে মানুষ থেকে আলাদা করতে অক্ষম হন, তবে মেশিনটিকে টিউরিং টেস্টে উত্তীর্ণ বলে গণ্য করা হয়। একটি গবেষণা সেটিংয়ে, এই পরীক্ষাটি বিভিন্ন পরীক্ষক দ্বারা একাধিকবার পরিচালিত হয়।

এটা মনে রাখা গুরুত্বপূর্ণ যে এই পরীক্ষাটি নিশ্চিতভাবে নির্ধারণ করে না যে কোনও এলএলএম-এর মানুষের মতো একই স্তরের বুদ্ধি আছে কিনা। পরিবর্তে, এটি কোনও এলএলএম-এর একজন মানুষকে convincingly অনুকরণ করার ক্ষমতা মূল্যায়ন করে।

এলএলএমগুলির চিন্তাভাবনা প্রক্রিয়া

এলএলএমগুলির সহজাতভাবে কোনও শারীরিক মস্তিষ্ক, চেতনা বা বিশ্বের বিস্তৃত ধারণা নেই। তারা আত্ম-সচেতনতা থেকে বঞ্চিত এবং তাদের কোনও প্রকৃত মতামত বা বিশ্বাস নেই।

এই মডেলগুলি বই, অনলাইন নিবন্ধ, নথি এবং প্রতিলিপি সহ বিস্তৃত তথ্যের উৎস থেকে বিশাল ডেটাসেটের উপর প্রশিক্ষিত। যখন কোনও ব্যবহারকারী পাঠ্য ইনপুট সরবরাহ করে, তখন এআই মডেলটি ইনপুটের পেছনের সবচেয়ে সম্ভাব্য অর্থ এবং উদ্দেশ্য নির্ণয় করতে তার "যুক্তি" ক্ষমতা ব্যবহার করে। পরবর্তীতে, মডেল এই ব্যাখ্যার ভিত্তিতে একটি প্রতিক্রিয়া তৈরি করে।

তাদের মূল অংশে, এলএলএমগুলি অত্যাধুনিক শব্দ ভবিষ্যদ্বাণী ইঞ্জিন হিসাবে কাজ করে। তাদের বিস্তৃত প্রশিক্ষণ ডেটার ব্যবহার করে, তারা তাদের শব্দভাণ্ডার থেকে প্রতিক্রিয়ার প্রাথমিক "টোকেন" (সাধারণত একটি একক শব্দ) এর জন্য সম্ভাবনা গণনা করে। এই পুনরাবৃত্তিমূলক প্রক্রিয়াটি সম্পূর্ণ প্রতিক্রিয়া প্রণয়ন না হওয়া পর্যন্ত চলতে থাকে। যদিও এই ব্যাখ্যাটি সরলীকৃত, তবে এটি এলএলএমগুলি কীভাবে বিশ্বের প্রকৃত বোধগম্যতা ছাড়াই পরিসংখ্যানগত সম্ভাবনার ভিত্তিতে প্রতিক্রিয়া তৈরি করে তার সারমর্ম তুলে ধরে।

অতএব, এটি প্রস্তাব করা ভুল যে এলএলএমগুলি প্রচলিত অর্থে "চিন্তা" করে।

প্রায়োগিক প্রমাণ: চ্যাটজিপিটি এবং টিউরিং টেস্ট

বহু সংখ্যক গবেষণা টিউরিং টেস্টে চ্যাটজিপিটির কর্মক্ষমতা অনুসন্ধান করেছে, যার মধ্যে অনেকগুলি ইতিবাচক ফলাফল দিয়েছে। এর ফলে কিছু কম্পিউটার বিজ্ঞানী দাবি করেছেন যে জিপিটি-৪ এবং জিপিটি-৪.৫-এর মতো এলএলএমগুলি এখন টিউরিং টেস্টের প্রান্তিক মান অতিক্রম করেছে।

এই মূল্যায়নগুলির বেশিরভাগই ওপেনএআই-এর জিপিটি-৪ মডেলের উপর দৃষ্টি নিবদ্ধ করে, যা চ্যাটজিপিটি মিথস্ক্রিয়াগুলির বেশিরভাগ ক্ষমতা যোগায়। ইউসি সান দিয়েগোর একটি গবেষণা প্রকাশ করেছে যে মানব পরীক্ষকরা প্রায়শই জিপিটি-৪ কে মানুষ থেকে আলাদা করতে অক্ষম ছিলেন। এই গবেষণায়, জিপিটি-৪ কে ৫৪% ক্ষেত্রে মানুষ হিসাবে ভুলভাবে চিহ্নিত করা হয়েছিল। তবে, এই কর্মক্ষমতা এখনও প্রকৃত মানুষের চেয়ে পিছিয়ে ছিল, যাদের ৬৭% ক্ষেত্রে সঠিকভাবে মানুষ হিসাবে চিহ্নিত করা হয়েছিল।

জিপিটি-৪.৫ প্রকাশের পরে, ইউসি সান দিয়েগোর গবেষকরা গবেষণাটি পুনরায় তৈরি করেন। এইবার, এলএলএমটিকে ৭৩% ক্ষেত্রে মানুষ হিসাবে চিহ্নিত করা হয়েছিল, যা প্রকৃত মানুষের কর্মক্ষমতাকেও ছাড়িয়ে গেছে। গবেষণাটি আরও ইঙ্গিত দিয়েছে যে মেটার এলএলএএমএ-৩.১-৪০৫বি পরীক্ষাটি পার করতে সক্ষম।

ইউসি সান দিয়েগো থেকে স্বাধীনভাবে পরিচালিত অনুরূপ গবেষণাগুলিও জিপিটিকে পাসের গ্রেড দিয়েছে। রিডিং বিশ্ববিদ্যালয়ের ২০২৪ সালের একটি গবেষণায় জিপিটি-৪ আন্ডারগ্রাজুয়েট কোর্সের জন্য টেক-হোম অ্যাসেসমেন্টের প্রতিক্রিয়া তৈরি করে। গ্রেডাররা পরীক্ষা সম্পর্কে অবগত ছিলেন না এবং ৩৩টি জমা দেওয়ার মধ্যে মাত্র একটিকে চিহ্নিত করেছিলেন। চ্যাটজিপিটি বাকি ৩২টি এন্ট্রির জন্য গড়-গড়ের চেয়ে বেশি নম্বর পেয়েছে।

এই গবেষণাগুলো কি চূড়ান্ত? সম্পূর্ণরূপে নয়। কিছু সমালোচক যুক্তি দেন যে এই গবেষণার ফলাফলগুলি দেখতে যতটা চিত্তাকর্ষক ততটা নয়। এই সংশয় আমাদেরকে নিশ্চিতভাবে ঘোষণা করতে বাধা দেয় যে চ্যাটজিপিটি টিউরিং টেস্টে উত্তীর্ণ হয়েছে।

তা সত্ত্বেও, এটা স্পষ্ট যে জিপিটি-৪-এর মতো পূর্ববর্তী প্রজন্মের এলএলএমগুলি মাঝে মাঝে টিউরিং টেস্টে উত্তীর্ণ হলেও, এলএলএমগুলি ক্রমাগত অগ্রসর হওয়ার সাথে সাথে সফল ফলাফলের সংখ্যা বাড়ছে। জিপিটি-৪.৫-এর মতো অত্যাধুনিক মডেলগুলির আবির্ভাবের সাথে, আমরা দ্রুত এমন একটি পর্যায়ে পৌঁছে যাচ্ছি যেখানে মডেলগুলি ধারাবাহিকভাবে টিউরিং টেস্টে উত্তীর্ণ হতে পারে।

ওপেনএআই এমন একটি ভবিষ্যতের পরিকল্পনা করছে যেখানে মানুষ এবং এআই-এর মধ্যে পার্থক্য করা অসম্ভব হয়ে পড়বে। এই দৃষ্টিভঙ্গি ওপেনএআই-এর সিইও স্যাম অল্টম্যানের একটি মানব যাচাইকরণ প্রকল্পে বিনিয়োগের মধ্যে প্রতিফলিত হয়েছে, যেখানে চোখের বল-স্ক্যানিং ডিভাইস ব্যবহার করা হবে, যা দ্য Orb নামে পরিচিত।

চ্যাটজিপিটির আত্ম-মূল্যায়ন

যখন জিজ্ঞাসা করা হয়েছিল যে এটি টিউরিং টেস্টে উত্তীর্ণ হতে পারবে কিনা, চ্যাটজিপিটি ইতিবাচকভাবে সাড়া দিয়েছে, যদিও সেই সতর্কতাগুলির সাথে যা ইতিমধ্যে আলোচনা করা হয়েছে। যখন প্রশ্ন করা হয়েছিল, "চ্যাটজিপিটি কি টিউরিং টেস্টে উত্তীর্ণ হতে পারবে?" এআই চ্যাটবট (4o মডেল ব্যবহার করে) বলেছে যে "চ্যাটজিপিটি কিছু পরিস্থিতিতে টিউরিং টেস্টে উত্তীর্ণ হতে পারে, তবে নির্ভরযোগ্যভাবে বা বিশ্বব্যাপী নয়।” চ্যাটবট উপসংহারে এসেছে যে "এটি গড় ব্যবহারকারীর সাথে নৈমিত্তিক পরিস্থিতিতে টিউরিং টেস্টে উত্তীর্ণ হতে পারে, তবে একজন দৃঢ়প্রতিজ্ঞ এবং চিন্তাশীল জিজ্ঞাসাকারী প্রায় সবসময়ই এটিকে উন্মোচন করতে পারবে।”

টিউরিং টেস্টের সীমাবদ্ধতা

কিছু কম্পিউটার বিজ্ঞানী এখন টিউরিং টেস্টকে পুরনো এবং এলএলএমগুলি মূল্যায়নের জন্য সীমিত মূল্যের বলে মনে করেন। গ্যারি মার্কাস, একজন আমেরিকান মনোবিজ্ঞানী, জ্ঞানীয় বিজ্ঞানী, লেখক এবং এআই ভাষ্যকার, সম্প্রতি একটি ব্লগ পোস্টে এই দৃষ্টিকোণটি সংক্ষিপ্তভাবে তুলে ধরেছেন, যেখানে তিনি বলেছেন যে "আমি (এবং আরও অনেকে) বছরের পর বছর ধরে যেমন বলেছি, টিউরিং টেস্ট মানুষের সরলতার একটি পরীক্ষা, বুদ্ধিমত্তার পরীক্ষা নয়।”

এটি মনে রাখা গুরুত্বপূর্ণ যে টিউরিং টেস্ট প্রকৃত বুদ্ধিমত্তার চেয়ে বুদ্ধিমত্তার ধারণার উপর দৃষ্টি নিবদ্ধ করে। এই পার্থক্যটি গুরুত্বপূর্ণ। চ্যাটজিপিটি 4o-এর মতো একটি মডেল কেবল মানুষের speech অনুকরণ করে পরীক্ষায় উত্তীর্ণ হতে পারে। তদুপরি, পরীক্ষায় কোনও এলএলএম-এর সাফল্য আলোচনার বিষয় এবং পরীক্ষকের উপর নির্ভর করবে। চ্যাটজিপিটি নৈমিত্তিক কথোপকথনে পারদর্শী হতে পারে তবে প্রকৃত সংবেদনশীল বুদ্ধিমত্তার প্রয়োজনীয় মিথস্ক্রিয়ায় দুর্বল হতে পারে। তাছাড়া, আধুনিক এআই সিস্টেমগুলি ক্রমবর্ধমানভাবে সাধারণ কথোপকথনের বাইরেও অ্যাপ্লিকেশনগুলির জন্য ব্যবহৃত হচ্ছে, বিশেষ করে যখন আমরা এজেন্টিক এআই-এর বিশ্বের দিকে এগিয়ে যাচ্ছি।

এর মানে এই নয় যে টিউরিং টেস্ট সম্পূর্ণরূপে অপ্রাসঙ্গিক। এটি একটি গুরুত্বপূর্ণ ঐতিহাসিক মানদণ্ড হিসাবে রয়ে গেছে এবং এটি লক্ষণীয় যে এলএলএমগুলি এটি পার করতে সক্ষম। তবে, টিউরিং টেস্ট মেশিনের বুদ্ধিমত্তার চূড়ান্ত পরিমাপ নয়।

টিউরিং টেস্টের বাইরে: একটি উন্নত মানদণ্ডের সন্ধান

টিউরিং টেস্ট, ঐতিহাসিকভাবে তাৎপর্যপূর্ণ হলেও, ক্রমবর্ধমানভাবে প্রকৃত কৃত্রিম বুদ্ধিমত্তার একটি অপর্যাপ্ত পরিমাপ হিসাবে বিবেচিত হচ্ছে। মানুষের কথোপকথন অনুকরণ করার উপর এর মনোযোগ বুদ্ধিমত্তার গুরুত্বপূর্ণ দিকগুলিকে উপেক্ষা করে, যেমন সমস্যা সমাধান, সৃজনশীলতা এবং অভিযোজনযোগ্যতা। পরীক্ষার প্রতারণার উপর নির্ভরতাও নৈতিক উদ্বেগের জন্ম দেয়, কারণ এটি এআই সিস্টেমগুলিকে প্রকৃত বুদ্ধি বিকাশের পরিবর্তে মানুষের মতো গুণাবলী জাহির করতে উৎসাহিত করে।

নতুন মেট্রিক্সের প্রয়োজন

এআই প্রযুক্তির অগ্রগতির সাথে সাথে আরও ব্যাপক এবং প্রাসঙ্গিক মানদণ্ডের প্রয়োজনীয়তা ক্রমশ স্পষ্ট হয়ে উঠছে। এই নতুন মেট্রিকগুলি টিউরিং টেস্টের ত্রুটিগুলি সমাধান করবে এবং এআই ক্ষমতার আরও সঠিক মূল্যায়ন প্রদান করবে। ভবিষ্যতের মানদণ্ডের জন্য কিছু সম্ভাব্য দিকনির্দেশ অন্তর্ভুক্ত:

  • বাস্তব-বিশ্বের সমস্যা সমাধান: পরীক্ষা যা এআই সিস্টেমগুলিকে জটিল বাস্তব-বিশ্বের সমস্যাগুলি সমাধান করতে প্রয়োজনীয়, যেমন একটি টেকসই শক্তি গ্রিড ডিজাইন করা বা কোনও রোগের নিরাময় তৈরি করা।
  • সৃজনশীল কাজ: মূল্যায়ন যা কোনও এআই-এর মৌলিক এবং কল্পনাবাদী সামগ্রী তৈরি করার ক্ষমতা মূল্যায়ন করে, যেমন একটি উপন্যাস লেখা, সঙ্গীত রচনা করা বা শিল্পকর্ম তৈরি করা।
  • অভিযোজনযোগ্যতা এবং শিক্ষা: মেট্রিক যা নতুন অভিজ্ঞতা থেকে শিখতে এবং পরিবর্তনশীল পরিবেশের সাথে খাপ খাইয়ে নেওয়ার জন্য কোনও এআই-এর ক্ষমতা পরিমাপ করে।
  • নৈতিক বিবেচনা: মূল্যায়ন যা কোনও এআই-এর নৈতিক সিদ্ধান্ত নেওয়ার এবং পক্ষপাতিত্ব এড়ানোর ক্ষমতা মূল্যায়ন করে।

উদীয়মান মানদণ্ডের উদাহরণ

টিউরিং টেস্টের সীমাবদ্ধতাগুলি মোকাবেলার জন্য বেশ কয়েকটি নতুন মানদণ্ড তৈরি হচ্ছে। এইগুলির মধ্যে রয়েছে:

  • উইনোগ্রাড স্কিমা চ্যালেঞ্জ: এই পরীক্ষাটি কোনও এআই-এর বাক্যে অস্পষ্ট সর্বনামগুলি বোঝার ক্ষমতার উপর দৃষ্টি নিবদ্ধ করে।
  • এআই২ রিজনিং চ্যালেঞ্জ: এই মানদণ্ডটি জটিল পাঠ্যের উপর ভিত্তি করে কোনও এআই-এর যুক্তি দেওয়ার এবং প্রশ্নের উত্তর দেওয়ার ক্ষমতা মূল্যায়ন করে।
  • কমনসেন্স রিজনিং চ্যালেঞ্জ: এই পরীক্ষাটি সাধারণ জ্ঞানের কোনও এআই-এরবোধগম্যতা এবং অনুমান করার ক্ষমতা মূল্যায়ন করে।

এআই মূল্যায়নের ভবিষ্যৎ

এআই মূল্যায়নের ভবিষ্যতে সম্ভবত বিভিন্ন মানদণ্ডের সংমিশ্রণ জড়িত থাকবে, প্রতিটি বুদ্ধিমত্তার নির্দিষ্ট দিকগুলি মূল্যায়ন করার জন্য ডিজাইন করা হয়েছে। এআই প্রযুক্তির দ্রুত অগ্রগতির সাথে তাল মিলিয়ে চলার জন্য এই মানদণ্ডগুলি ক্রমাগত বিকশিত হওয়া উচিত। তদুপরি, এআই মানদণ্ডের বিকাশ ও মূল্যায়নে গবেষক, নীতিনির্ধারক এবং জনসাধারণসহ বিভিন্ন স্টেকহোল্ডারকে জড়িত করা অত্যন্ত গুরুত্বপূর্ণ।

অনুকরণের বাইরে যাওয়া

শেষ পর্যন্ত, এআই গবেষণার লক্ষ্য হওয়া উচিত এমন সিস্টেম তৈরি করা যা কেবল বুদ্ধিমান নয়, মানবতার জন্যও উপকারী। এর জন্য মানুষের মতো অনুকরণের সাধনা থেকে সরে গিয়ে এআই সিস্টেমগুলি বিকাশের দিকে মনোনিবেশ করা প্রয়োজন যা বাস্তব-বিশ্বের সমস্যাগুলি সমাধান করতে, সৃজনশীলতা বাড়াতে এবং নৈতিক সিদ্ধান্ত গ্রহণকে উৎসাহিত করতে পারে। নতুন মানদণ্ড গ্রহণ করে এবং এই বৃহত্তর লক্ষ্যগুলির উপর দৃষ্টি নিবদ্ধ করে, আমরা এআই-এর সম্পূর্ণ সম্ভাবনা উন্মোচন করতে পারি এবং এমন একটি ভবিষ্যত তৈরি করতে পারি যেখানে এআই এবং মানুষ একসাথে একটি উন্নত বিশ্ব তৈরি করতে কাজ করে।