এক নতুন মাইলফলক: উন্নত AI মডেল ট্যুরিং টেস্টে উত্তীর্ণ

কৃত্রিম বুদ্ধিমত্তার জগৎ ক্রমাগত পরিবর্তিত হচ্ছে, যা একসময় কল্পবিজ্ঞানের অংশ ছিল এমন সব মাইলফলক দ্বারা চিহ্নিত হচ্ছে। সাম্প্রতিক একটি ঘটনা প্রযুক্তি সম্প্রদায় এবং এর বাইরেও আলোড়ন সৃষ্টি করেছে: দুটি অত্যাধুনিক AI মডেল সফলভাবে Turing Test-এর জটিলতা অতিক্রম করেছে বলে জানা গেছে। এই আইকনিক বেঞ্চমার্কটি, যা বিংশ শতাব্দীর মাঝামাঝি সময়ে প্রতিভাবান ব্রিটিশ গণিতবিদ Alan Turing দ্বারা পরিকল্পিত হয়েছিল, দীর্ঘদিন ধরে মেশিন ইন্টেলিজেন্সের জন্য একটি ধারণাগত মাউন্ট এভারেস্ট হিসাবে দাঁড়িয়ে ছিল – এটি পরিমাপ করে যে একটি মেশিন এতটাই বিশ্বাসযোগ্যভাবে কথোপকথন করতে পারে কিনা যাতে এটি একজন মানুষ থেকে неотличимый (indistinguishable) হয়ে ওঠে। OpenAI-এর GPT-4.5 এবং Meta-র Llama-3.1 মডেলগুলি তর্কসাপেক্ষে এই শিখরে পৌঁছেছে এমন খবর AI-এর বিবর্তনে একটি সম্ভাব্য গুরুত্বপূর্ণ মুহূর্তের ইঙ্গিত দেয়, যা মানব জ্ঞান এবং কৃত্রিম ক্ষমতার মধ্যে ক্রমবর্ধমান অস্পষ্ট সীমানাগুলির একটি নতুন পরীক্ষা করতে বাধ্য করছে।

যুগান্তকারী পরীক্ষা: নকশা এবং চমকপ্রদ ফলাফল

এই AI সিস্টেমগুলি Turing Test পাস করেছে এই দাবিটি University of California San Diego-র Cameron R. Jones এবং Benjamin K. Bergen দ্বারা পরিচালিত গবেষণা থেকে উদ্ভূত হয়েছে। তাদের গবেষণা, যা বর্তমানে পিয়ার রিভিউ-এর পর্যালোচনার অপেক্ষায় রয়েছে, এমন একটি পদ্ধতি ব্যবহার করেছে যা Turing-এর মূল প্রস্তাবের ভাবনার সাথে ঘনিষ্ঠভাবে লেগে থাকার জন্য ডিজাইন করা হয়েছে এবং এতে আধুনিক কঠোরতা অন্তর্ভুক্ত করা হয়েছে। সরল, দ্বিপক্ষীয় পরীক্ষার সীমাবদ্ধতা স্বীকার করে, Jones এবং Bergen একটি আরও চ্যালেঞ্জিং ত্রিপক্ষীয় মিথস্ক্রিয়া মডেল বাস্তবায়ন করেছেন।

এই সেটআপে, একজন মানব অংশগ্রহণকারী (জিজ্ঞাসাবাদকারী) একই সাথে পাঁচ মিনিটের জন্য পৃথক, টেক্সট-ভিত্তিক কথোপকথনে নিযুক্ত ছিলেন। একজন কথোপকথন অংশীদার ছিলেন অন্য একজন মানুষ, অন্যজন ছিলেন একটি AI সিস্টেম। গুরুত্বপূর্ণভাবে, জিজ্ঞাসাবাদকারী জানতেন না কোনটি কে। পাঁচ মিনিটের আদান-প্রদানের পর, জিজ্ঞাসাবাদকারীর কাজ ছিল স্পষ্ট: মেশিনটিকে শনাক্ত করা। এই কাঠামোটি একটি সরাসরি তুলনা করতে বাধ্য করে এবং এটিকে কেবল একটি AI বিচ্ছিন্নভাবে মানুষের মতো মনে হয় কিনা তা জিজ্ঞাসা করার চেয়ে আরও শক্তিশালী মূল্যায়ন হিসাবে বিবেচনা করা হয়।

অনুসন্ধানগুলি যাতে একটি নির্দিষ্ট জনসংখ্যা দ্বারা প্রভাবিত না হয় তা নিশ্চিত করার জন্য, গবেষকরা দুটি স্বতন্ত্র জনসংখ্যার উপর তাদের সেটআপ পরীক্ষা করেছেন:

  1. স্নাতক ছাত্রছাত্রী, যারা সাধারণত ডিজিটাল যোগাযোগের সাথে পরিচিত একটি তরুণ জনসংখ্যা প্রতিনিধিত্ব করে।
  2. প্রলিফিক কর্মী (অনলাইন প্ল্যাটফর্ম থেকে নিয়োগকৃত), যারা বিভিন্ন অনলাইন মিথস্ক্রিয়ায় অভ্যস্ত জনসংখ্যার একটি বৃহত্তর অংশের প্রতিনিধিত্ব করে।

এই সূক্ষ্ম পদ্ধতির দ্বারা প্রাপ্ত ফলাফলগুলি ছিল চমকপ্রদ।

  • OpenAI-এর GPT-4.5 উল্লেখযোগ্যভাবে প্ররোচিতকারী হিসাবে আবির্ভূত হয়েছে। যখন নির্দিষ্টভাবে একটি নির্দিষ্ট পার্সোনা গ্রহণ করার নির্দেশ দেওয়া হয়েছিল (এ বিষয়ে পরে আরও), এটি কেবল বিশ্বাসযোগ্যই ছিল না; এটি জড়িত প্রকৃত মানুষের চেয়ে বেশি বিশ্বাসযোগ্য ছিল। জিজ্ঞাসাবাদকারীরা GPT-4.5-কে মানব অংশগ্রহণকারী হিসাবে চিহ্নিত করেছে একটি বিস্ময়কর ৭৩% ক্ষেত্রে। এই সংখ্যাটি কেবল প্রচলিত ৫০% পাসের থ্রেশহোল্ডকেই ছাড়িয়ে যায় না, বরং সেই হারকেও ছাড়িয়ে যায় যেখানে জিজ্ঞাসাবাদকারীরা প্রকৃত মানব অংশীদারদের সঠিকভাবে চিহ্নিত করেছিল।
  • Meta-র Llama-3.1-405B, আরেকটি অত্যাধুনিক বৃহৎ ভাষা মডেল, এটিও চিত্তাকর্ষকভাবে পারফর্ম করেছে। এটি মানুষ হিসাবে চিহ্নিত হওয়ার ক্ষেত্রে ৫৬% সাফল্যের হার অর্জন করেছে, যা কার্যকরভাবে পছন্দগুলি এলোমেলো হলে প্রত্যাশিত বেসলাইন পারফরম্যান্সের (প্রায় ৫০%) সাথে মিলে যায় এবং মানুষের কথোপকথনের ধরণগুলি অনুকরণ করার একটি শক্তিশালী ক্ষমতা প্রদর্শন করে।

এই উচ্চ সাফল্যের হারগুলি পরীক্ষায় অন্তর্ভুক্ত বেসলাইন এবং কন্ট্রোল মডেলগুলির পারফরম্যান্সের সাথে তীব্রভাবে বিপরীত:

  • GPT-4o, একটি সক্ষম কিন্তু সম্ভবত কম উন্নত OpenAI মডেল, এর জয়ের হার ছিল মাত্র ২১%
  • ELIZA, ১৯৬০-এর দশকে বিকশিত একটি প্রাথমিক চ্যাটবট, একটি কন্ট্রোল হিসাবে কাজ করেছিল। এর অন্তর্ভুক্তি অত্যাবশ্যক ছিল এটি নিশ্চিত করার জন্য যে জিজ্ঞাসাবাদকারীরা কম অত্যাধুনিক সিস্টেমের মুখোমুখি হলে অ-মানবিক প্রতিক্রিয়াগুলি সত্যিই আলাদা করতে পারে। প্রত্যাশিত হিসাবে, ELIZA খারাপ পারফর্ম করেছে, বেশিরভাগ সময়ই এটিকে অ-মানবিক হিসাবে সঠিকভাবে চিহ্নিত করা হয়েছে (মাত্র ২৩% জয়ের হার, যা মূলত নয়েজ ফ্লোর বা অংশগ্রহণকারীর ত্রুটি পরিমাপ করে)।

GPT-4.5 এবং Llama-3.1-এর পারফরম্যান্সের সাথে GPT-4o এবং ELIZA-র পারফরম্যান্সের মধ্যে উল্লেখযোগ্য ব্যবধান সাম্প্রতিক AI বিকাশে করা অগ্রগতিগুলিকে তুলে ধরে। গবেষকরা জোর দিয়ে বলেছেন যে তাদের গবেষণা ‘প্রথম শক্তিশালী প্রমাণ সরবরাহ করে যে কোনও সিস্টেম মূল ত্রিপক্ষীয় Turing test পাস করেছে’, একটি দাবি যা, পিয়ার রিভিউ মুলতুবি থাকা অবস্থায়, AI ইতিহাসে একটি গুরুত্বপূর্ণ মুহূর্ত চিহ্নিত করে।

পার্সোনা এবং প্রম্পটিংয়ের গুরুত্বপূর্ণ ভূমিকা

তবে, AI বিজয়ের আখ্যানটি একটি গুরুত্বপূর্ণতারকাচিহ্ন সহ আসে, যা শিরোনামের পরিসংখ্যানগুলির পিছনের সূক্ষ্ম বাস্তবতাকে তুলে ধরে। GPT-4.5 এবং Llama-3.1-এর চিত্তাকর্ষক সাফল্যের হারগুলি তাদের অন্তর্নিহিত, আউট-অফ-দ্য-বক্স ক্ষমতার মাধ্যমে অর্জন করা হয়নি। পরিবর্তে, মানব জিজ্ঞাসাবাদকারীদের বোকা বানানোর তাদের ক্ষমতা নির্দিষ্ট নির্দেশাবলীর উপর ব্যাপকভাবে নির্ভরশীল ছিল – প্রম্পট – যা মিথস্ক্রিয়া শুরু হওয়ার আগে তাদের দেওয়া হয়েছিল।

গবেষকরা AI মডেলগুলিকে একটি সাবধানে সংজ্ঞায়িত পার্সোনা গ্রহণ করার নির্দেশ দিয়েছিলেন: একজন তরুণ, কিছুটা অন্তর্মুখী ব্যক্তি যিনি ইন্টারনেট সংস্কৃতি সম্পর্কে জ্ঞানী। এই নির্দিষ্ট চরিত্রায়ন তাদের সাফল্যের চাবিকাঠি বলে মনে হয়। যখন একই উন্নত AI মডেলগুলি (GPT-4.5 এবং Llama-3.1) এই পার্সোনা প্রম্পট ছাড়া পরীক্ষার মাধ্যমে চালানো হয়েছিল, তখন তাদের পারফরম্যান্স উল্লেখযোগ্যভাবে হ্রাস পেয়েছিল। মানব জিজ্ঞাসাবাদকারীরা তাদের মেশিন হিসাবে অনেক সহজে শনাক্ত করতে পেরেছিল।

এই অনুসন্ধানটি বিভিন্ন কারণে অত্যন্ত গুরুত্বপূর্ণ:

  1. এটি প্রম্পট ইঞ্জিনিয়ারিংয়ের শক্তিকে তুলে ধরে: কার্যকর প্রম্পট তৈরি করার ক্ষমতা বৃহৎ ভাষা মডেলগুলির ক্ষমতাকে কাজে লাগানোর জন্য ক্রমবর্ধমানভাবে কেন্দ্রীয় হয়ে উঠছে। এই গবেষণাটি দেখায় যে প্রম্পটিং কেবল একটি AI থেকে সঠিক তথ্য বের করার বিষয় নয়; এটি একটি নির্দিষ্ট প্রসঙ্গে মানানসই করার জন্য এর আচরণ, স্বর এবং আপাত ব্যক্তিত্বকে আকার দেওয়ার বিষয়ও। এখানকার সাফল্যকে অন্তর্নিহিত AI আর্কিটেকচারের মতো দক্ষ প্রম্পটিংয়ের প্রমাণ হিসাবেও দেখা যেতে পারে।
  2. এটি ‘পাস করা’ মানে কী তা নিয়ে প্রশ্ন তোলে: যদি একটি AI শুধুমাত্র তখনই Turing Test পাস করতে পারে যখন তাকে নির্দিষ্ট ধরণের মানুষের মতো আচরণ করার জন্য বিশেষভাবে কোচিং দেওয়া হয়, তবে এটি কি সত্যিই Turing-এর মূল চ্যালেঞ্জের ভাব পূরণ করে? নাকি এটি কেবল মডেলের নমনীয়তা এবং সুস্পষ্ট মঞ্চ নির্দেশনা দেওয়া হলে অত্যাধুনিক অনুকরণের ক্ষমতা প্রদর্শন করে?
  3. এটি অভিযোজনযোগ্যতাকে একটি মূল বৈশিষ্ট্য হিসাবে তুলে ধরে: যেমন Jones এবং Bergen তাদের গবেষণাপত্রে উল্লেখ করেছেন, ‘এটি তর্কসাপেক্ষে সেই সহজতা যার সাথে LLM-গুলিকে বিভিন্ন পরিস্থিতিতে তাদের আচরণ মানিয়ে নিতে প্রম্পট করা যেতে পারে যা তাদের এত নমনীয় করে তোলে: এবং দৃশ্যত মানুষ হিসাবে পাস করতে এত সক্ষম।’ এই অভিযোজনযোগ্যতা নিঃসন্দেহে একটি শক্তিশালী বৈশিষ্ট্য, তবে এটি ফোকাসকে সহজাত ‘বুদ্ধিমত্তা’ থেকে প্রোগ্রামেবল পারফরম্যান্সে স্থানান্তরিত করে।

পার্সোনার উপর নির্ভরতা ইঙ্গিত দেয় যে বর্তমান AI, এমনকি তার সবচেয়ে উন্নত পর্যায়েও, একটি সাধারণীকৃত, অন্তর্নিহিত ‘মানুষের মতো’ গুণাবলীর অধিকারী নাও হতে পারে বরং নির্দেশ দেওয়া হলে নির্দিষ্ট মানুষের মতো মুখোশ ধারণ করতে পারদর্শী।

অনুকরণের ঊর্ধ্বে: প্রকৃত বুদ্ধিমত্তার প্রশ্ন

গবেষকরা নিজেরাই তাদের অনুসন্ধানের ব্যাখ্যাকে সংযত করতে সতর্ক। এই নির্দিষ্ট কথোপকথন পরীক্ষা পাস করা, এমনকি কঠোর শর্তের অধীনেও, স্বয়ংক্রিয়ভাবে প্রকৃত মেশিন বুদ্ধিমত্তা, চেতনা বা বোঝার আগমনের সাথে সমান করা উচিত নয়। Turing Test, ঐতিহাসিকভাবে তাৎপর্যপূর্ণ হলেও, প্রাথমিকভাবে একটি সীমিত প্রসঙ্গে (একটি সংক্ষিপ্ত টেক্সট কথোপকথন) আচরণগত неотличимость (indistinguishability) মূল্যায়ন করে। এটি অগত্যা গভীর জ্ঞানীয় ক্ষমতা যেমন যুক্তি, সাধারণ জ্ঞান, নৈতিক বিচার, বা প্রকৃত আত্ম-সচেতনতা অনুসন্ধান করে না।

GPT-4.5 এবং Llama-3.1-এর মতো আধুনিক বৃহৎ ভাষা মডেলগুলি (LLMs) ইন্টারনেট থেকে স্ক্র্যাপ করা টেক্সট এবং কোড সম্বলিত অকল্পনীয়ভাবে বিশাল ডেটাসেটের উপর প্রশিক্ষিত। তারা প্যাটার্ন শনাক্ত করতে, একটি ক্রমানুসারে পরবর্তী শব্দটি ভবিষ্যদ্বাণী করতে এবং পরিসংখ্যানগতভাবে মানুষের যোগাযোগের মতো টেক্সট তৈরি করতে পারদর্শী। যেমন Sinead Bovell, প্রযুক্তি শিক্ষা সংস্থা Waye-এর প্রতিষ্ঠাতা, যথার্থই প্রশ্ন তুলেছেন, ‘এটা কি সম্পূর্ণ আশ্চর্যজনক যে… AI অবশেষে আমাদের ‘মানুষের মতো শোনাতে’ পরাজিত করবে যখন এটি কোনও একক ব্যক্তির পড়া বা দেখার চেয়ে বেশি মানব ডেটার উপর প্রশিক্ষিত হয়েছে?’

এই দৃষ্টিকোণটি পরামর্শ দেয় যে AI অগত্যা মানুষের মতো ‘চিন্তা’ করছে না বরং প্যাটার্ন-ম্যাচিং এবং অনুকরণের একটি অবিশ্বাস্যভাবে অত্যাধুনিক রূপ স্থাপন করছে, যা ট্রিলিয়ন শব্দের সংস্পর্শে এসে পরিমার্জিত হয়েছে যা অগণিত মানব কথোপকথন, নিবন্ধ এবং মিথস্ক্রিয়া প্রতিনিধিত্ব করে। পরীক্ষায় সাফল্য তাই মানব-সদৃশ জ্ঞানের দিকে একটি মৌলিক লাফের পরিবর্তে এর প্রশিক্ষণ ডেটার নিছক পরিমাণ এবং বিস্তৃতি প্রতিফলিত করতে পারে।

ফলস্বরূপ, গবেষণার লেখক সহ অনেক বিশেষজ্ঞ যুক্তি দেন যে Turing Test, একটি মূল্যবান ঐতিহাসিক চিহ্নিতকারী হলেও, AI-তে অর্থপূর্ণ অগ্রগতি পরিমাপের জন্য আর সবচেয়ে উপযুক্ত বেঞ্চমার্ক নাও হতে পারে। একটি ক্রমবর্ধমান ঐকমত্য রয়েছে যে ভবিষ্যতের মূল্যায়নগুলি আরও চাহিদাপূর্ণ মানদণ্ডের উপর ফোকাস করা উচিত, যেমন:

  • শক্তিশালী যুক্তি (Robust Reasoning): জটিল সমস্যা সমাধান, যৌক্তিক অনুমান আঁকা এবং কারণ ও প্রভাব বোঝার AI-এর ক্ষমতা মূল্যায়ন করা।
  • নৈতিক সংগতি (Ethical Alignment): AI-এর সিদ্ধান্ত গ্রহণ প্রক্রিয়াগুলি মানবিক মূল্যবোধ এবং নৈতিক নীতির সাথে সঙ্গতিপূর্ণ কিনা তা মূল্যায়ন করা।
  • সাধারণ জ্ঞান (Common Sense): ভৌত এবং সামাজিক জগৎ সম্পর্কে অন্তর্নিহিত জ্ঞানের AI-এর উপলব্ধি পরীক্ষা করা যা মানুষ স্বাভাবিকভাবে ধরে নেয়।
  • নতুন পরিস্থিতিতে অভিযোজনযোগ্যতা (Adaptability to Novel Situations): AI তার প্রশিক্ষণ ডেটা থেকে উল্লেখযোগ্যভাবে ভিন্ন পরিস্থিতির মুখোমুখি হলে কতটা ভাল পারফর্ম করে তা পরিমাপ করা।

বিতর্কটি ‘এটি কি আমাদের মতো কথা বলতে পারে?’ থেকে ‘এটি কি আমাদের মতো যুক্তি, বুঝতে এবং দায়িত্বশীলভাবে আচরণ করতে পারে?’ দিকে স্থানান্তরিত হচ্ছে।

ঐতিহাসিক প্রেক্ষাপট এবং পূর্ববর্তী প্রচেষ্টা

Turing Test পাস করতে পারে এমন একটি মেশিন তৈরি করার অনুসন্ধান কয়েক দশক ধরে কম্পিউটার বিজ্ঞানী এবং জনসাধারণকে মোহিত করেছে। এই সাম্প্রতিক গবেষণাটি সাফল্যের দাবির প্রথম উদাহরণ নয়, যদিও পূর্ববর্তী উদাহরণগুলি প্রায়শই সন্দেহ বা যোগ্যতার সাথে দেখা হয়েছে।

সম্ভবত সবচেয়ে বিখ্যাত পূর্ববর্তী দাবিটি Eugene Goostman চ্যাটবটকে ঘিরে ২০১৪ সালে হয়েছিল। এই প্রোগ্রামটি একজন ১৩ বছর বয়সী ইউক্রেনীয় мальчика অনুকরণ করার লক্ষ্য নিয়েছিল। Alan Turing-এর মৃত্যুর ৬০তম বার্ষিকী উপলক্ষে একটি প্রতিযোগিতায়, Goostman পাঁচ মিনিটের কথোপকথনের সময় ৩৩% বিচারককে বোঝাতে সক্ষম হয়েছিল যে এটি মানুষ। যদিও ব্যাপকভাবে ‘Turing Test পাস করেছে’ বলে রিপোর্ট করা হয়েছিল, এই দাবিটি বিতর্কিত ছিল। অনেকে যুক্তি দিয়েছিলেন যে ৩৩% সাফল্যের হার প্রায়শই প্রয়োজনীয় বলে বিবেচিত ৫০% থ্রেশহোল্ডের চেয়ে কম ছিল (যদিও Turing নিজে কোনও নির্দিষ্ট শতাংশ নির্দিষ্ট করেননি)। উপরন্তু, সমালোচকরা উল্লেখ করেছেন যে একজন অ-নেটিভ ইংরেজিভাষী কিশোরকে অনুকরণ করা ব্যাকরণগত ত্রুটি এবং জ্ঞানের ফাঁকগুলিকে আরও ক্ষমার যোগ্য করে তুলতে পারে, যা সম্ভাব্যভাবে প্রতারণার জন্য বার কমিয়ে দেয়।

Jones এবং Bergen গবেষণায় ELIZA-র অন্তর্ভুক্তি মূল্যবান ঐতিহাসিক ভিত্তি প্রদান করে। ১৯৬০-এর দশকে MIT-তে Joseph Weizenbaum দ্বারা বিকশিত, ELIZA সরল প্যাটার্ন ম্যাচিং এবং কীওয়ার্ড প্রতিস্থাপন ব্যবহার করে কাজ করত, প্রায়শই ব্যবহারকারীর বিবৃতিগুলিকে প্রশ্ন হিসাবে প্রতিফলিত করত (যেমন, ব্যবহারকারী: ‘আমি দুঃখ বোধ করছি।’ ELIZA: ‘আপনি কেন দুঃখ বোধ করছেন?’)। এর সরলতা সত্ত্বেও, কিছু ব্যবহারকারী বিখ্যাতভাবে এর প্রতি মানুষের মতো বোঝার ক্ষমতা আরোপ করেছিলেন। সাম্প্রতিক, আরও কঠোর ত্রিপক্ষীয় পরীক্ষায় এর দুর্বল পারফরম্যান্স (২৩% জয়ের হার) নিশ্চিত করে যে পরীক্ষামূলক নকশাটি প্রাথমিক অনুকরণ এবং আধুনিক LLM-গুলির অত্যাধুনিক কথোপকথন ক্ষমতার মধ্যে পার্থক্য করার জন্য যথেষ্ট সংবেদনশীল ছিল। ELIZA থেকে GPT-4.5 পর্যন্ত যাত্রা কম্পিউটেশনাল শক্তি, অ্যালগরিদমিক পরিশীলতা এবং ডেটা প্রাপ্যতার ক্ষেত্রে একটি বিশাল উল্লম্ফন প্রতিনিধিত্ব করে।

মানবিক উপাদান: জিজ্ঞাসাবাদের কৌশল এবং ধারণা

UC San Diego গবেষণাটি কথোপকথনে কৃত্রিমতা বোঝার জন্য মানুষ কীভাবে চেষ্টা করে সে সম্পর্কেও আকর্ষণীয় অন্তর্দৃষ্টি প্রদান করে। জিজ্ঞাসাবাদকারীদের কৌশলগুলির বিশ্লেষণ সাধারণ পদ্ধতিগুলি প্রকাশ করেছে:

  • ছোট ছোট কথায় জড়িত হওয়া (৬১% খেলায়): দৈনন্দিন কার্যকলাপ, শখ বা জাগতিক ব্যক্তিগত বিবরণ নিয়ে আলোচনা করা একটি ঘন ঘন কৌশল, সম্ভবত এই অনুমানের উপর ভিত্তি করে যে AI দৈনন্দিন মানব অভিজ্ঞতার সূক্ষ্মতা বা একটি বিশ্বাসযোগ্য ব্যক্তিগত ইতিহাসের অভাবের সাথে লড়াই করতে পারে।
  • সামাজিক এবং মানসিক গুণাবলী অনুসন্ধান করা (৫০%): জিজ্ঞাসাবাদকারীরা প্রায়শই অনুভূতি, মতামত, সহানুভূতি বা সামাজিক বোঝার সাথে সম্পর্কিত প্রতিক্রিয়া আদায় করার চেষ্টা করত, যে ক্ষেত্রগুলি ঐতিহ্যগতভাবে অনন্যভাবে মানবিক হিসাবে বিবেচিত হয়।
  • অদ্ভুততা দিয়ে পরীক্ষা করা: কিছু সবচেয়ে কার্যকর কৌশলের মধ্যে স্বাভাবিক কথোপকথন থেকে বিচ্যুত হওয়া জড়িত ছিল। এর মধ্যে প্রতিক্রিয়া পরিমাপ করার জন্য অদ্ভুত বা অপ্রত্যাশিত কিছু বলা, নতুনত্ব বা অযৌক্তিকতা সুন্দরভাবে পরিচালনা করার AI-এর ক্ষমতা পরীক্ষা করা অন্তর্ভুক্ত ছিল।
  • ‘জেলব্রেকিং’-এর চেষ্টা: আরও প্রযুক্তিগতভাবে পারদর্শী জিজ্ঞাসাবাদকারীরা AI-এর নিরাপত্তা প্রোটোকলগুলিকে বাইপাস করার জন্য বা এটিকে একটি মেশিন হিসাবে তার অন্তর্নিহিত প্রকৃতি প্রকাশ করতে বাধ্য করার জন্য ডিজাইন করা নির্দিষ্ট প্রম্পট বা প্রশ্ন ব্যবহার করার চেষ্টা করেছিল।

এই কৌশলগুলি পরামর্শ দেয় যে মানুষ প্রায়শই অনুভূত মানসিক গভীরতা, ব্যক্তিগত বর্ণনায় ধারাবাহিকতা এবং কথোপকথনের কার্ভবলগুলি পরিচালনা করার ক্ষমতাকে মানবতার চিহ্নিতকারী হিসাবে নির্ভর করে।

আশ্চর্যজনকভাবে, GPT-4.5-এর সাফল্য, বিশেষ করে প্রকৃত মানুষের তুলনায় এর উচ্চ রেটিং, উদ্ভাবন চিন্তাবিদ John Nosta-কে মন্তব্য করতে পরিচালিত করেছিল, ‘আমরা কৃত্রিম বুদ্ধিমত্তার কাছে হারছি না। আমরা কৃত্রিম সহানুভূতির কাছে হারছি।’ এই মন্তব্যটি কেবল ভাষার ধরণ অনুকরণে AI-এর ক্রমবর্ধমান পারদর্শিতার দিকেই নির্দেশ করে না, বরং মানব মিথস্ক্রিয়ার আবেগিক গুণাবলী অনুকরণ করার দিকেও নির্দেশ করে – আপাত বোঝাপড়া, উদ্বেগ বা ভাগ করা অনুভূতি প্রকাশ করা, এমনকি যদি এগুলি প্রকৃতভাবে অনুভূত না হয়ে অ্যালগরিদমিকভাবে তৈরি হয়। সহানুভূতিপূর্ণ-শোনা প্রতিক্রিয়া তৈরি করার ক্ষমতা AI-এর সত্যতা সম্পর্কে মানুষকে বোঝানোর একটি শক্তিশালী হাতিয়ার বলে মনে হয়।

বৃহত্তর প্রভাব: অর্থনীতি, সমাজ এবং ভবিষ্যৎ

GPT-4.5 এবং Llama-3.1-এর মতো মডেলগুলির দ্বারা Turing Test বেঞ্চমার্কের সফল নেভিগেশন, এমনকি প্রম্পটিংয়ের সতর্কবাণী সহ, একাডেমিক বা প্রযুক্তিগত ক্ষেত্রের বাইরেও সুদূরপ্রসারী প্রভাব বহন করে। এটি AI-তে কথোপকথনের সাবলীলতা এবং আচরণগত অভিযোজনযোগ্যতার একটি স্তর নির্দেশ করে যা জীবনের বিভিন্ন দিককে উল্লেখযোগ্যভাবে পুনর্নির্মাণ করতে পারে।

অর্থনৈতিক বিঘ্ন: মানুষের মতো উপায়ে মিথস্ক্রিয়া করার AI-এর ক্ষমতা চাকরিচ্যুতির বিষয়ে আরও উদ্বেগ বাড়ায়। যোগাযোগ, গ্রাহক পরিষেবা, বিষয়বস্তু তৈরি এবং এমনকি সাহচর্য বা কোচিংয়ের নির্দিষ্ট ফর্মগুলির উপর ব্যাপকভাবে নির্ভরশীল ভূমিকাগুলি সম্ভাব্যভাবে স্বয়ংক্রিয় বা উল্লেখযোগ্যভাবে পরিবর্তিত হতে পারে AI সিস্টেমগুলির দ্বারা যা স্বাভাবিকভাবে এবং কার্যকরভাবে কথোপকথন করতে পারে।

সামাজিক উদ্বেগ: AI অনুকরণের ক্রমবর্ধমান পরিশীলতা মানব সম্পর্ক এবং সামাজিক বিশ্বাসের জন্য চ্যালেঞ্জ তৈরি করে।

  • অত্যন্ত বিশ্বাসযোগ্য AI চ্যাটবটগুলির সাথে ব্যাপক মিথস্ক্রিয়া কি প্রকৃত মানব সংযোগের অবমূল্যায়নের দিকে নিয়ে যেতে পারে?
  • আমরা কীভাবে স্বচ্ছতা নিশ্চিত করব, যাতে লোকেরা জানতে পারে যে তারা কোনও মানুষ বা AI-এর সাথে মিথস্ক্রিয়া করছে কিনা, বিশেষ করে সহায়তা পরিষেবা বা অনলাইন সম্পর্কের মতো সংবেদনশীল প্রসঙ্গে?
  • স্ক্যাম, ডিসইনফরমেশন ক্যাম্পেইন বা দূষিত সামাজিক প্রকৌশলের জন্য অত্যন্ত বিশ্বাসযোগ্য ‘ডিপফেক’ পার্সোনা তৈরির অপব্যবহারের সম্ভাবনা উল্লেখযোগ্যভাবে বৃদ্ধি পায়।

এজেন্টিক AI-এর উত্থান: এই উন্নয়নগুলি Agentic AI-এর দিকে বৃহত্তর প্রবণতার সাথে সামঞ্জস্যপূর্ণ – সিস্টেমগুলি কেবল প্রম্পটে সাড়া দেওয়ার জন্য নয়, বরং স্বায়ত্তশাসিতভাবে লক্ষ্যগুলি অনুসরণ করতে, কাজ সম্পাদন করতে এবং ডিজিটাল পরিবেশের সাথে মিথস্ক্রিয়া করার জন্য ডিজাইন করা হয়েছে। Microsoft, Adobe, Zoom, এবং Slack-এর মতো সংস্থাগুলি সক্রিয়ভাবে AI এজেন্ট তৈরি করছে যা ভার্চুয়াল সহকর্মী হিসাবে কাজ করার উদ্দেশ্যে, মিটিং নির্ধারণ এবং নথি সংক্ষিপ্ত করা থেকে শুরু করে প্রকল্প পরিচালনা এবং গ্রাহকদের সাথে মিথস্ক্রিয়া করার মতো কাজগুলি স্বয়ংক্রিয় করে। একটি AI যা কথোপকথনে বিশ্বাসযোগ্যভাবে মানুষের জন্য পাস করতে পারে তা কার্যকর এবং সমন্বিত AI এজেন্ট তৈরির জন্য একটি মৌলিক উপাদান।

সতর্কতার কণ্ঠস্বর: অ্যালাইনমেন্ট এবং অপ্রত্যাশিত পরিণতি

AI অগ্রগতির আশেপাশের উত্তেজনার মধ্যে, বিশিষ্ট কণ্ঠস্বরগুলি সতর্কতার আহ্বান জানাচ্ছে, নিরাপত্তা এবং নৈতিক বিবেচনার গুরুত্বপূর্ণ গুরুত্বের উপর জোর দিচ্ছে। Florida Atlantic University-তে Center for the Future Mind-এর প্রতিষ্ঠাতা পরিচালক Susan Schneider, এই শক্তিশালী চ্যাটবটগুলির অ্যালাইনমেন্ট (alignment) নিয়ে উদ্বেগ প্রকাশ করেছেন। ‘খুব খারাপ এই AI চ্যাটবটগুলি সঠিকভাবে অ্যালাইন করা হয়নি,’ তিনি সতর্ক করে দিয়েছিলেন, যদি AI উন্নয়ন এই সিস্টেমগুলি নিরাপদে এবং মানবিক মূল্যবোধ অনুসারে কাজ করে তা নিশ্চিত করার আমাদের ক্ষমতাকে ছাড়িয়ে যায় তবে সম্ভাব্য বিপদগুলি তুলে ধরে।

Schneider একটি ভবিষ্যৎ ভবিষ্যদ্বাণী করেছেন যা চ্যালেঞ্জে পরিপূর্ণ হবে যদি অ্যালাইনমেন্টকে অগ্রাধিকার না দেওয়া হয়: ‘তবুও, আমি ভবিষ্যদ্বাণী করছি: তারা ক্ষমতায় বাড়তে থাকবে এবং এটি একটি দুঃস্বপ্ন হবে—আকস্মিক বৈশিষ্ট্য (emergent properties), ‘গভীরতর জাল’ (deeper fakes), চ্যাটবট সাইবার যুদ্ধ (chatbot cyberwars)।’

  • আকস্মিক বৈশিষ্ট্য (Emergent properties) বলতে উন্নত AI-এর মতো জটিল সিস্টেমে উদ্ভূত হতে পারে এমন অপ্রত্যাশিত আচরণ বা ক্ষমতা বোঝায়, যা তাদের নির্মাতাদের দ্বারা স্পষ্টভাবে প্রোগ্রাম করা বা প্রত্যাশিত নাও হতে পারে।
  • ‘গভীরতর জাল’ (‘Deeper fakes’) ম্যানিপুলেটেড ছবি বা ভিডিওর বাইরে প্রসারিত হয়ে সম্ভাব্যভাবে সম্পূর্ণ বানোয়াট, ইন্টারেক্টিভ পার্সোনা অন্তর্ভুক্ত করতে পারে যা বৃহৎ পরিসরে প্রতারণার জন্য ব্যবহৃত হয়।
  • ‘চ্যাটবট সাইবার যুদ্ধ’ (‘Chatbot cyberwars’) এমন পরিস্থিতি কল্পনা করে যেখানে AI সিস্টেমগুলি একে অপরের বিরুদ্ধে বা মানব সিস্টেমগুলির বিরুদ্ধে দূষিত উদ্দেশ্যে মোতায়েন করা হয়, যেমন বড় আকারের ডিসইনফরমেশন বা স্বয়ংক্রিয় সামাজিক ম্যানিপুলেশন।

এই সতর্কতামূলক দৃষ্টিকোণটি প্রায়শই Ray Kurzweil (যাকে Schneider উল্লেখ করেছেন) এর মতো ভবিষ্যৎবাদীদের সাথে যুক্ত আরও আশাবাদী দৃষ্টিভঙ্গির সাথে তীব্রভাবে বিপরীত, যিনি বিখ্যাতভাবে একটি ভবিষ্যৎ ভবিষ্যদ্বাণী করেছেন যা মূলত ইতিবাচকভাবে রূপান্তরিত হবে, দ্রুতগতিতে অগ্রসরমান AI দ্বারা যা একটি প্রযুক্তিগত সিঙ্গুলারিটির (technological singularity) দিকে নিয়ে যাবে। বিতর্কটি কৃত্রিম বুদ্ধিমত্তার বিকাশের পরবর্তী পর্যায়গুলি নেভিগেট করার সাথে জড়িত গভীর অনিশ্চয়তা এবং উচ্চ ঝুঁকিগুলিকে তুলে ধরে। বিশ্বাসযোগ্যভাবে মানব কথোপকথন অনুকরণ করার ক্ষমতা একটি অসাধারণ প্রযুক্তিগত কৃতিত্ব, তবে এটি নৈতিক, সামাজিক এবং অস্তিত্বের প্রশ্নগুলির একটি প্যান্ডোরার বাক্সও খুলে দেয় যা আমরা এই নতুন যুগে আরও পা রাখার সাথে সাথে সতর্ক বিবেচনার দাবি রাখে।