کیا چیٹ جی پی ٹی ٹیورنگ ٹیسٹ پاس کر سکتا ہے؟

چیٹ جی پی ٹی (ChatGPT) جیسی چیٹ بوٹس کی ترقی ذہانت، فطری پن، اور انسانی خصوصیات میں ایک قابل ذکر اضافہ کو ظاہر کرتی ہے۔ یہ پیش رفت منطقی ہے، اس بات پر غور کرتے ہوئے کہ انسان بڑے لسانی ماڈلز (LLMs) کے معمار ہیں جو ان AI چیٹ بوٹس کی بنیاد بناتے ہیں۔ جیسے جیسے یہ ٹولز اپنی استدلال کی صلاحیتوں کو بہتر بناتے ہیں اور زیادہ درستگی کے ساتھ انسانی تقریر کی نقل کرتے ہیں، ایک اہم سوال پیدا ہوتا ہے: کیا وہ ٹیورنگ ٹیسٹ پاس کرنے کے لیے کافی حد تک ترقی یافتہ ہیں؟

دہائیوں سے، ٹیورنگ ٹیسٹ مشین کی ذہانت کی تشخیص میں ایک اہم معیار کے طور پر کھڑا ہے۔ اس وقت، محققین فعال طور پر چیٹ جی پی ٹی جیسے ایل ایل ایمز (LLMs) کو اس سخت تشخیص کے تابع کر رہے ہیں۔ ایک کامیاب نتیجہ AI کی ترقی کے میدان میں ایک یادگار سنگ میل کی نمائندگی کرے گا۔

تو، کیا چیٹ جی پی ٹی ٹیورنگ ٹیسٹ پاس کرنے کی صلاحیت رکھتا ہے؟ کچھ محققین اس بات کی تصدیق کرتے ہیں کہ یہ کر سکتا ہے۔ تاہم، نتائج تشریح کے لیے کھلے ہیں۔ ٹیورنگ ٹیسٹ ایک سیدھا بائنری نتیجہ پیش نہیں کرتا ہے، جس سے نتائج کسی حد تک مبہم ہو جاتے ہیں۔ مزید برآں، یہاں تک کہ اگر چیٹ جی پی ٹی ٹیورنگ ٹیسٹ پاس کر لیتا ہے، تو یہ ایل ایل ایم (LLM) میں موجود "انسانی جیسی" خصوصیات کا حتمی اشارہ فراہم نہیں کر سکتا ہے۔

آئیے پیچیدگیوں میں غوطہ زن ہوں۔

ٹیورنگ ٹیسٹ کو کھولنا

ٹیورنگ ٹیسٹ کا جوہر خاصا سادہ ہے۔

برطانوی ریاضی دان ایلن ٹیورنگ، جو کمپیوٹر سائنس میں ایک علمبردار شخصیت تھے، کے تصور کردہ، امیٹیشن گیم، جیسا کہ اسے ابتدائی طور پر جانا جاتا تھا، مشین کی ذہانت کے لیے ایک لٹمس ٹیسٹ کا کام کرتا ہے۔ ٹیورنگ ٹیسٹ میں ایک انسانی جانچ کنندہ ایک انسان اور ایک مشین دونوں کے ساتھ گفتگو میں مشغول ہوتا ہے، بغیر یہ جانے کہ کون سا کون ہے۔ اگر جانچ کنندہ مشین کو انسان سے ممتاز کرنے سے قاصر ہے، تو مشین کو ٹیورنگ ٹیسٹ پاس کرنے والا سمجھا جاتا ہے۔ ایک تحقیقی ترتیب میں، یہ ٹیسٹ مختلف جانچ کنندگان کے ساتھ متعدد بار کیا جاتا ہے۔

یہ تسلیم کرنا بہت ضروری ہے کہ یہ ٹیسٹ قطعی طور پر اس بات کا پتہ نہیں لگاتا ہے کہ آیا ایک ایل ایل ایم (LLM) میں انسان جیسی ذہانت کی سطح موجود ہے۔ اس کے بجائے، یہ ایک انسان کی کامیابی کے ساتھ تقلید کرنے کی ایل ایل ایم (LLM) کی صلاحیت کا جائزہ لیتا ہے۔

ایل ایل ایمز (LLMs) کا سوچنے کا عمل

ایل ایل ایمز (LLMs)، اپنی فطرت کے اعتبار سے، ایک جسمانی دماغ، شعور، یا دنیا کی جامع سمجھ سے عاری ہیں۔ وہ خود آگاہی سے خالی ہیں اور ان کے پاس حقیقی رائے یا عقائد نہیں ہیں۔

ان ماڈلز کو وسیع ڈیٹا سیٹس پر تربیت دی جاتی ہے جس میں معلومات کے ذرائع کی ایک وسیع رینج شامل ہوتی ہے، بشمول کتابیں، آن لائن مضامین، دستاویزات، اور ٹرانسکرپٹس۔ جب کوئی صارف متنی ان پٹ فراہم کرتا ہے، تو AI ماڈل ان پٹ کے پیچھے سب سے زیادہ ممکنہ معنی اور ارادے کو سمجھنے کے لیے اپنی "استدلال" کی صلاحیتوں کا استعمال کرتا ہے۔ اس کے بعد، ماڈل اس تشریح کی بنیاد پر ایک ردعمل پیدا کرتا ہے۔

اپنی بنیادی سطح پر، ایل ایل ایمز (LLMs) نفیس لفظ کی پیش گوئی کرنے والے انجن کے طور پر کام کرتے ہیں۔ اپنے وسیع تربیتی ڈیٹا سے فائدہ اٹھاتے ہوئے، وہ ردعمل کے ابتدائی "ٹوکن" (عام طور پر ایک لفظ) کے لیے امکانات کا حساب لگاتے ہیں، اپنی ذخیرہ الفاظ سے استفادہ کرتے ہوئے۔ یہ تکراری عمل اس وقت تک جاری رہتا ہے جب تک کہ ایک مکمل ردعمل تشکیل نہیں پا جاتا۔ اگرچہ یہ وضاحت آسان ہے، لیکن یہ اس جوہر کو پکڑ لیتی ہے کہ کس طرح ایل ایل ایمز (LLMs) دنیا کی حقیقی سمجھ کے بجائے شماریاتی امکانات کی بنیاد پر ردعمل پیدا کرتے ہیں۔

لہذا، یہ تجویز کرنا درست نہیں ہے کہ ایل ایل ایمز (LLMs) روایتی معنوں میں "سوچتے" ہیں۔

تجرباتی ثبوت: چیٹ جی پی ٹی اور ٹیورنگ ٹیسٹ

متعدد مطالعات نے ٹیورنگ ٹیسٹ پر چیٹ جی پی ٹی کی کارکردگی کا جائزہ لیا ہے، جن میں سے بہت سے مثبت نتائج برآمد ہوئے ہیں۔ اس کی وجہ سے کچھ کمپیوٹر سائنسدانوں نے یہ دعویٰ کیا ہے کہ جی پی ٹی-4 (GPT-4) اور جی پی ٹی-4.5 (GPT-4.5) جیسے ایل ایل ایمز (LLMs) نے اب ٹیورنگ ٹیسٹ کی حد کو عبور کر لیا ہے۔

ان میں سے بیشتر جائزوں میں اوپن اے آئی (OpenAI) کے جی پی ٹی-4 (GPT-4) ماڈل پر توجہ مرکوز کی گئی ہے، جو چیٹ جی پی ٹی کے بیشتر تعاملات کو طاقت بخشتا ہے۔ یو سی سان ڈیاگو (UC San Diego) کی جانب سے کی جانے والی ایک تحقیق میں انکشاف ہوا ہے کہ انسانی جانچ کنندگان اکثر جی پی ٹی-4 (GPT-4) کو ایک انسان سے ممتاز کرنے سے قاصر تھے۔ اس تحقیق میں، جی پی ٹی-4 (GPT-4) کو 54 فیصد معاملات میں انسان کے طور پر غلط شناخت کیا گیا۔ تاہم، یہ کارکردگی اب بھی حقیقی انسانوں سے پیچھے رہی، جن کی درست طور پر 67 فیصد وقت انسان کے طور پر شناخت کی گئی۔

جی پی ٹی-4.5 (GPT-4.5) کے اجراء کے بعد، یو سی سان ڈیاگو (UC San Diego) کے محققین نے اس تحقیق کو دہرایا۔ اس بار، ایل ایل ایم (LLM) کی 73 فیصد معاملات میں انسان کے طور پر شناخت ہوئی، جس نے حقیقی انسانوں کی کارکردگی کو پیچھے چھوڑ دیا۔ اس تحقیق سے یہ بھی اشارہ ملا کہ میٹا (Meta) کا LLaMa-3.1-405B ٹیسٹ پاس کرنے کی صلاحیت رکھتا ہے۔

یو سی سان ڈیاگو (UC San Diego) سے آزادانہ طور پر کی جانے والی ملتی جلتی مطالعات نے بھی جی پی ٹی (GPT) کو پاسنگ گریڈ تفویض کیے ہیں۔ یونیورسٹی آف ریڈنگ (University of Reading) کی جانب سے 2024 میں کی جانے والی ایک تحقیق میں جی پی ٹی-4 (GPT-4) نے انڈر گریجویٹ کورسز کے لیے ٹیک-ہوم اسسمنٹس (take-home assessments) کے ردعمل پیدا کیے۔ گریڈرز تجربے سے بے خبر تھے اور انہوں نے 33 جمع کرائی جانے والی دستاویزات میں سے صرف ایک کی نشاندہی کی۔ چیٹ جی پی ٹی کو باقی 32 اندراجات کے لیے اوسط سے زیادہ گریڈ ملے۔

کیا یہ مطالعات حتمی ہیں؟ مکمل طور پر نہیں۔ کچھ ناقدین کا استدلال ہے کہ یہ تحقیقی نتائج بظاہر نظر آنے سے کم متاثر کن ہیں۔ یہ شکوک و شبہات ہمیں قطعی طور پر یہ اعلان کرنے سے روکتے ہیں کہ چیٹ جی پی ٹی نے ٹیورنگ ٹیسٹ پاس کر لیا ہے۔

بہر حال، یہ واضح ہے کہ جب کہ ایل ایل ایمز (LLMs) کی پچھلی نسلیں، جیسے کہ جی پی ٹی-4 (GPT-4)، کبھی کبھار ٹیورنگ ٹیسٹ پاس کرتی تھیں، ایل ایل ایمز (LLMs) کی ترقی جاری رہنے کے ساتھ ساتھ کامیاب نتائج تیزی سے عام ہوتے جا رہے ہیں۔ جی پی ٹی-4.5 (GPT-4.5) جیسے جدید ترین ماڈلز کے ظہور کے ساتھ، ہم تیزی سے ایک ایسے مقام کے قریب پہنچ رہے ہیں جہاں ماڈلز مسلسل ٹیورنگ ٹیسٹ پاس کر سکتے ہیں۔

اوپن اے آئی (OpenAI) ایک ایسے مستقبل کا تصور کرتا ہے جہاں انسان اور AI کے درمیان تمیز کرنا ناممکن ہو جائے۔ اس وژن کی عکاسی اوپن اے آئی (OpenAI) کے سی ای او (CEO) سام آلٹمین (Sam Altman) کی جانب سے انسانی تصدیق کے ایک ایسے پروجیکٹ میں سرمایہ کاری میں ہوتی ہے جس میں ایک آئی بال-اسکیننگ (eyeball-scanning) آلہ شامل ہے جسے دا آرب (The Orb) کہا جاتا ہے۔

چیٹ جی پی ٹی کا خود تشخیصی جائزہ

جب اس سے پوچھا گیا کہ کیا یہ ٹیورنگ ٹیسٹ پاس کر سکتا ہے، تو چیٹ جی پی ٹی نے اثبات میں جواب دیا، اگرچہ ان انتباہات کے ساتھ جن پر پہلے ہی تبادلہ خیال کیا جا چکا ہے۔ جب اس سوال کے ساتھ اشارہ کیا گیا کہ "کیا چیٹ جی پی ٹی ٹیورنگ ٹیسٹ پاس کر سکتا ہے؟" تو AI چیٹ بوٹ (4o ماڈل کا استعمال کرتے ہوئے) نے کہا کہ "چیٹ جی پی ٹی کچھ منظرناموں میں ٹیورنگ ٹیسٹ پاس کر سکتا ہے، لیکن قابل اعتماد یا عالمگیر طور پر نہیں۔" چیٹ بوٹ نے نتیجہ اخذ کیا کہ "یہ اوسط صارف کے ساتھ آرام دہ حالات میں ٹیورنگ ٹیسٹ پاس کر سکتا ہے، لیکن ایک پرعزم اور سوچ سمجھ کر پوچھ گچھ کرنے والا تقریبا ہمیشہ اس کا پردہ فاش کر سکتا ہے۔"

ٹیورنگ ٹیسٹ کی حدود

کچھ کمپیوٹر سائنسدان اب ٹیورنگ ٹیسٹ کو متروک اور ایل ایل ایمز (LLMs) کی تشخیص میں محدود قدر کا حامل سمجھتے ہیں۔ گیری مارکس (Gary Marcus)، ایک امریکی ماہر نفسیات، سنجیدگی کے سائنسدان، مصنف، اور AI کے مبصر نے حال ہی میں ایک بلاگ پوسٹ میں اس تناظر کا اختصار کیا، جس میں کہا گیا ہے کہ "جیسا کہ میں نے (اور بہت سے دوسرے لوگوں نے) سالوں سے کہا ہے، ٹیورنگ ٹیسٹ انسانی سادگی کا ٹیسٹ ہے، ذہانت کا ٹیسٹ نہیں۔"

یہ یاد رکھنا بھی ضروری ہے کہ ٹیورنگ ٹیسٹ حقیقی ذہانت کے بجائے ذہانت کے تصور پر توجہ مرکوز کرتا ہے۔ یہ امتیاز بہت اہم ہے۔ چیٹ جی پی ٹی 4o جیسا ماڈل صرف انسانی تقریر کی نقل کر کے ٹیسٹ پاس کر سکتا ہے۔ مزید برآں، ٹیسٹ پر ایل ایل ایم (LLM) کی کامیابی بحث کے موضوع اور جانچ کنندہ پر منحصر ہوگی۔ چیٹ جی پی ٹی آرام دہ گفتگو میں مہارت حاصل کر سکتا ہے لیکن حقیقی جذباتی ذہانت کی ضرورت والے تعاملات کے ساتھ جدوجہد کر سکتا ہے۔ مزید برآں، جدید AI نظاموں کو تیزی سے سادہ گفتگو سے ہٹ کر دیگر ایپلیکیشنز کے لیے استعمال کیا جا رہا ہے، خاص طور پر جیسے جیسے ہم ایجنٹک AI کی دنیا کی طرف بڑھ رہے ہیں۔

یہ تجویز کرنا نہیں ہے کہ ٹیورنگ ٹیسٹ مکمل طور پر غیر متعلق ہے۔ یہ ایک اہم تاریخی معیار بنا ہوا ہے، اور یہ قابل ذکر ہے کہ ایل ایل ایمز (LLMs) اسے پاس کرنے کی صلاحیت رکھتے ہیں۔ تاہم، ٹیورنگ ٹیسٹ مشین کی ذہانت کا حتمی پیمانہ نہیں ہے۔

ٹیورنگ ٹیسٹ سے آگے: ایک بہتر معیار کی تلاش

ٹیورنگ ٹیسٹ، اگرچہ تاریخی طور پر اہم ہے، لیکن اسے حقیقی مصنوعی ذہانت کے ایک ناکافی پیمانے کے طور پر تیزی سے دیکھا جا رہا ہے۔ انسانی گفتگو کی نقل کرنے پر اس کی توجہ ذہانت کے اہم پہلوؤں کو نظر انداز کرتی ہے، جیسے کہ مسئلہ حل کرنا، تخلیقی صلاحیت، اور موافقت۔ فریب پر ٹیسٹ کا انحصار اخلاقی خدشات کو بھی جنم دیتا ہے، کیونکہ یہ AI نظاموں کو حقیقی ذہانت کو فروغ دینے کے بجائے انسانی جیسی خصوصیات کا بہانہ کرنے کی ترغیب دیتا ہے۔

نئے میٹرکس کی ضرورت

جیسے جیسے AI ٹیکنالوجی آگے بڑھ رہی ہے، زیادہ جامع اور متعلقہ بینچ مارکس کی ضرورت تیزی سے واضح ہوتی جا رہی ہے۔ ان نئے میٹرکس کو ٹیورنگ ٹیسٹ کی خامیوں کو دور کرنا چاہیے اور AI کی صلاحیتوں کا زیادہ درست اندازہ فراہم کرنا چاہیے۔ مستقبل کے بینچ مارکس کے لیے کچھ ممکنہ سمتیں درج ذیل ہیں:

  • حقیقی دنیا میں مسئلہ حل کرنا: ایسے ٹیسٹ جن میں AI نظاموں کو پیچیدہ حقیقی دنیا کے مسائل کو حل کرنے کی ضرورت ہوتی ہے، جیسے کہ ایک پائیدار توانائی کا گرڈ ڈیزائن کرنا یا کسی بیماری کا علاج تیار کرنا۔
  • تخلیقی کام: ایسی تشخیص جو AI کی اصل اور تخیلاتی مواد تیار کرنے کی صلاحیت کا جائزہ لیتی ہیں، جیسے کہ ایک ناول لکھنا، موسیقی ترتیب دینا، یا فن پارے تخلیق کرنا۔
  • موافقت اور سیکھنا: ایسے میٹرکس جو نئے تجربات سے سیکھنے اور بدلتے ہوئے ماحول کے مطابق ڈھلنے کی AI کی صلاحیت کی پیمائش کرتے ہیں۔
  • اخلاقی تحفظات: ایسی تشخیص جو AI کی جانب سے اخلاقی فیصلے کرنے اور تعصبات سے بچنے کی صلاحیت کا جائزہ لیتی ہیں۔

ابھرتے ہوئے بینچ مارکس کی مثالیں

ٹیورنگ ٹیسٹ کی حدود کو دور کرنے کے لیے کئی نئے بینچ مارکس ابھر رہے ہیں۔ ان میں درج ذیل شامل ہیں:

  • وینوگراڈ اسکیما چیلنج (The Winograd Schema Challenge): یہ ٹیسٹ جملوں میں مبہم ضمیروں کو سمجھنے کی AI کی صلاحیت پر توجہ مرکوز کرتا ہے۔
  • اے آئی 2 ریزننگ چیلنج (The AI2 Reasoning Challenge): یہ بینچ مارک پیچیدہ متنوں کی بنیاد پر استدلال کرنے اور سوالات کے جواب دینے کی AI کی صلاحیت کا جائزہ لیتا ہے۔
  • کامنسینس ریزننگ چیلنج (The Commonsense Reasoning Challenge): یہ ٹیسٹ عام فہم علم کی AI کی سمجھ اور نتائج اخذ کرنے کی اس کی صلاحیت کا جائزہ لیتا ہے۔

AI تشخیص کا مستقبل

AI تشخیص کے مستقبل میں ممکنہ طور پر مختلف بینچ مارکس کا ایک مجموعہ شامل ہوگا، جن میں سے ہر ایک کو ذہانت کے مخصوص پہلوؤں کا جائزہ لینے کے لیے ڈیزائن کیا گیا ہے۔ ان بینچ مارکس کو AI ٹیکنالوجی میں تیزی سے ہونے والی پیشرفت کے ساتھ رفتار برقرار رکھنے کے لیے مسلسل تیار ہوتے رہنا چاہیے۔ مزید برآں، AI بینچ مارکس کی ترقی اور تشخیص میں متنوع اسٹیک ہولڈرز، بشمول محققین، پالیسی سازوں، اور عوام کو شامل کرنا بہت ضروری ہے۔

نقالی سے آگے بڑھنا

بالآخر، AI تحقیق کا مقصد ایسے نظاموں کو تیار کرنا ہونا چاہیے جو نہ صرف ذہین ہوں بلکہ انسانیت کے لیے بھی فائدہ مند ہوں۔ اس کے لیے انسانی جیسی نقالی کے حصول سے آگے بڑھنے اور ایسے AI نظاموں کو تیار کرنے پر توجہ مرکوز کرنے کی ضرورت ہے جو حقیقی دنیا کے مسائل کو حل کر سکیں، تخلیقی صلاحیت کو بڑھا سکیں، اور اخلاقی فیصلہ سازی کو فروغ دے سکیں۔ نئے بینچ مارکس کو اپنا کر اور ان وسیع تر مقاصد پر توجہ مرکوز کر کے، ہم AI کی پوری صلاحیت کو غیر مقفل کر سکتے ہیں اور ایک ایسا مستقبل تخلیق کر سکتے ہیں جہاں AI اور انسان مل کر ایک بہتر دنیا بنائیں۔