ٹورنگ ٹیسٹ کا بحران: کیا AI معیار سے آگے نکل گئی؟

ذہانت کے وہم کو بے نقاب کرنا

کئی دہائیوں سے، Turing Test مصنوعی ذہانت کی پیمائش کی جستجو میں ایک سنگ میل کی حیثیت رکھتا ہے، اگرچہ اسے اکثر غلط سمجھا جاتا ہے۔ ذہین Alan Turing کا تصور کردہ، اس نے ایک سادہ مگر گہرا چیلنج پیش کیا: کیا کوئی مشین صرف متن پر مبنی گفتگو کے ذریعے کسی انسان کو قائل کر سکتی ہے کہ وہ بھی انسان ہے؟ بہت سے لوگوں نے اس ٹیسٹ میں کامیابی کو حقیقی مشین سوچ کے آغاز، اس بات کی علامت کے طور پر تعبیر کیا ہے کہ سلیکون دماغ بالآخر ہماری اپنی علمی صلاحیتوں کی عکاسی کر رہے ہیں۔ تاہم، یہ تشریح ہمیشہ سے بحث کا شکار رہی ہے، اور OpenAI کے GPT-4.5 جیسے جدید AI ماڈلز سے متعلق حالیہ پیشرفت ایک تنقیدی از سر نو جائزہ لینے پر مجبور کر رہی ہے۔

University of California at San Diego سے سامنے آنے والی اہم تحقیق اس بحث کو مزید واضح کرتی ہے۔ وہاں کے اسکالرز نے کلاسک Turing Test فارمیٹ میں انسانوں کو جدید large language models (LLMs) کے مدمقابل کھڑا کرنے کے تجربات کیے۔ نتائج چونکا دینے والے تھے: OpenAI کی تازہ ترین تکرار، مبینہ طور پر GPT-4.5، نہ صرف پاس ہوئی؛ بلکہ اس نے بہترین کارکردگی کا مظاہرہ کیا، اپنی انسانی نقالی میں حقیقی انسانی شرکاء سے زیادہ قائل کرنے والی ثابت ہوئی جو اپنی انسانیت ثابت کرنے کی کوشش کر رہے تھے۔ یہ generative AI کی صلاحیت میں ایک اہم چھلانگ کی نمائندگی کرتا ہے کہ وہ ایسے جوابات تیار کرے جو مستند طور پر انسانی محسوس ہوں۔ پھر بھی، اس تحقیق کے پیچھے موجود محققین بھی اس بات چیت کی مہارت کو artificial general intelligence (AGI) کے حصول کے ساتھ مساوی کرنے کے خلاف خبردار کرتے ہیں - یعنی انسانی سطح کی علمی صلاحیتوں والی مشینیں بنانے کا مشکل ہدف۔ ایسا لگتا ہے کہ یہ ٹیسٹ، مشین کی ذہانت کی حقیقی نوعیت کے بجائے، خود ٹیسٹ کی حدود اور ہمارے اپنے انسانی مفروضوں کے بارے میں زیادہ انکشاف کر رہا ہے۔

ایک کلاسک تجربے پر جدید موڑ

Turing Test کی پائیدار اپیل اس کی خوبصورت سادگی میں مضمر ہے۔ Turing نے ایک ‘تقلید کا کھیل’ (imitation game) کا تصور کیا جس میں تین کھلاڑی شامل تھے: ایک انسانی تفتیش کار (جج)، ایک انسانی گواہ، اور ایک کمپیوٹر گواہ۔ ایک دوسرے سے الگ تھلگ، صرف ٹیکسٹ پیغامات کے ذریعے بات چیت کرتے ہوئے، گواہ جج کو اپنی انسانی شناخت کا قائل کرنے کی کوشش کریں گے۔ جج، یہ جانتے ہوئے کہ ایک شریک مشین ہے، اسے یہ تعین کرنا ہوگا کہ کون کون ہے۔ اس سیٹ اپ کی ذہانت اس کی موروثی تقابلی نوعیت میں ہے۔ اگر جج غلطی سے کمپیوٹر کو انسان کے طور پر شناخت کرتا ہے، تو اس کا مطلب نہ صرف مشین کی قائل کرنے والی کارکردگی ہے بلکہ انسانی گواہ کی اپنی انسانیت کا مناسب طور پر اشارہ دینے میں ممکنہ ناکامی، یا شاید جج کی ان اشاروں کو صحیح طریقے سے سمجھنے میں ناکامی بھی ہے۔ یہ انسانی ادراک، یقین، اور ان لطیف اشاروں کا ایک دلچسپ جائزہ بن جاتا ہے جنہیں ہم انسان ہونے سے منسلک کرتے ہیں، اتنا ہی جتنا کہ یہ کمپیوٹیشنل صلاحیت کی پیمائش ہے۔

اس بنیاد پر تعمیر کرتے ہوئے، UC San Diego کے محققین، Cameron Jones اور Benjamin Bergen نے، جدید LLMs کی طاقت کا فائدہ اٹھاتے ہوئے اور انڈرگریجویٹ طلباء کو شامل کرتے ہوئے، ٹیسٹ کا ایک عصری ورژن نافذ کیا۔ ان کا تجرباتی ڈیزائن Turing کی سہ رخی ساخت پر قریب سے عمل پیرا تھا۔ طلباء کو تصادفی طور پر کردار تفویض کیے گئے: کچھ نے جج کے طور پر کام کیا، دوسروں نے انسانی گواہ کے طور پر۔ ہر جج نے بیک وقت، آزادانہ طور پر پانچ منٹ کی ٹیکسٹ چیٹ میں ایک انسانی گواہ اور ایک AI گواہ دونوں کے ساتھ مشغول کیا۔ جج کے لیے چیلنج وہی رہا: مشین کی شناخت کرنا۔

موجودہ AI کی صلاحیتوں کو دریافت کرنے کے لیے، کمپیوٹر گواہ کے طور پر کئی ماڈلز تعینات کیے گئے:

*GPT-4.5 (Minimal Prompt): اس ورژن کو صرف بنیادی ہدایات موصول ہوئیں۔

  • GPT-4.5 (PERSONA Prompt): اس قسم کو نمایاں طور پر زیادہ تفصیلی رہنمائی دی گئی۔ پرامپٹ نے AI کو ایک مخصوص شخصیت اپنانے کی ہدایت دی - ایک ‘نوجوان شخص جو کم گو ہے، انٹرنیٹ کلچر کے بارے میں جانتا ہے، اور عامیانہ زبان استعمال کرتا ہے’۔ اس کا مقصد AI کی موافقت پذیری اور مخصوص انسانی نمونوں کی نقل کرنے کی صلاحیت کو جانچنا تھا۔
  • GPT-4o: OpenAI کا دوسرا نمایاں ماڈل موازنہ کے نقطہ کے طور پر کام کرتا ہے۔
  • Llama 3.1 405b: Meta Platforms کا طاقتور LLM دائرہ کار کو وسیع کرنے کے لیے شامل کیا گیا تھا۔
  • ELIZA: 1960 کی دہائی کا ایک بنیادی چیٹ بوٹ پروگرام کنٹرول کے طور پر شامل کیا گیا تھا۔ اس کی نسبتاً سادگی کا مقصد یہ تعین کرنے میں مدد کرنا تھا کہ آیا LLMs کی کوئی بھی کامیابی جدید پروگرامنگ کی وجہ سے تھی یا محض بے ترتیب موقع اور آسانی سے بے وقوف بننے والے ججوں کی وجہ سے۔

یہ کثیر ماڈل نقطہ نظر، منظم، وقت کے پابند تعاملات اور کم سے کم پرامپٹڈ اور شخصیت پر مبنی AI کے درمیان موازنہ کے ساتھ مل کر، اس بات کا تجزیہ کرنے کے لیے ایک بھرپور ڈیٹاسیٹ فراہم کرتا ہے کہ مشینیں اب کتنی مؤثر طریقے سے انسانی گفتگو کی نقل کر سکتی ہیں اور انسان ان کوششوں کو کیسے سمجھتے ہیں۔

جب نقالی حقیقت پر غالب آجائے

UC San Diego کے مطالعے کے نتائج کسی قابل ذکر سے کم نہیں تھے، خاص طور پر GPT-4.5 کی کارکردگی کے حوالے سے جب اسے تفصیلی PERSONA prompt کے ذریعے رہنمائی فراہم کی گئی۔ اس مخصوص ترتیب نے حیران کن 73% ‘جیت کی شرح’ حاصل کی۔ بنیادی طور پر، تقریباً تین چوتھائی وقت، اس AI کے ساتھ بات چیت کرنے والے انسانی ججوں نے یہ نتیجہ اخذ کیا کہ وہ کسی دوسرے انسان سے بات چیت کر رہے تھے۔ یہ اعداد و شمار نہ صرف اپنی مطلق قدر میں اہم ہے بلکہ دوسرے شرکاء کے مقابلے میں بھی۔

معیارات پر غور کریں:

  • انسانی گواہ: ستم ظریفی یہ ہے کہ گواہ کے طور پر حصہ لینے والے حقیقی انسان ججوں کو اپنی انسانیت کا قائل کرنے میں شخصیت پر مبنی GPT-4.5 سے کم کامیاب رہے۔
  • دیگر AI ماڈلز: کم سے کم پرامپٹ کے ساتھ GPT-4.5، GPT-4o اور Llama 3.1 (یہاں تک کہ جب انہیں اسی طرح کے شخصیت کے پرامپٹ دیے گئے) نے کافی کم اسکور کیا، جن کی جیت کی شرح 21% سے 56% کے درمیان تھی۔ یہ مخصوص GPT-4.5 ماڈل کی جدید صلاحیتوں اور موزوں پرامپٹنگ کے اہم اثرات کو اجاگر کرتا ہے۔
  • پچھلی GPT-4 کارکردگی: اسی محققین کی طرف سے صرف ایک سال پہلے کیے گئے تجربے کی پچھلی تکرار میں، GPT-4 نے صرف 54% کی جیت کی شرح حاصل کی تھی، جو بے ترتیب موقع (50%) کی حد سے بمشکل تجاوز کرتی تھی۔ GPT-4.5 کے ساتھ 73% تک چھلانگ ماڈل کی انسان جیسی متن پیدا کرنے کی صلاحیت میں تیزی سے پیش رفت کو ظاہر کرتی ہے۔
  • ELIZA: پرانا چیٹ بوٹ، جیسا کہ توقع تھی، نے خراب کارکردگی کا مظاہرہ کیا، ایک بنیادی لائن کے طور پر اپنا مقصد پورا کیا اور اس بات کی تصدیق کی کہ LLMs کی کامیابی صرف اس وجہ سے نہیں تھی کہ جج کسی بھی پروگرام سے آسانی سے دھوکہ کھا رہے تھے۔

Jones اور Bergen کا نتیجہ واضح تھا: جج صرف انسان کو مشین سے الگ کرنے میں جدوجہد نہیں کر رہے تھے؛ وہ فعال طور پر شخصیت پر مبنی GPT-4.5 کو انسان ماننے کی طرف زیادہ مائل تھے بجائے اس کے کہ وہ حقیقی انسانی شرکاء کو انسان مانیں۔ اس سے پتہ چلتا ہے کہ AI، جب مناسب طریقے سے ہدایت دی جائے، تو انسانی تعامل کی سمجھی جانے والی باریکیوں کی نقالی کر سکتا ہے - شاید حقیقی انسانی چیٹ میں موجود بے ڈھنگے پن یا تضادات کو بھی فلٹر کر سکتا ہے - اس مخصوص، محدود ماحول میں خود انسانوں سے زیادہ مؤثر طریقے سے۔ کامیابی صرف پاس ہونے کے بارے میں نہیں تھی؛ یہ ٹیسٹ کی حدود میں سمجھی جانے والی ‘انسانیت’ میں انسانی بنیادی لائن سے تجاوز کرنے کے بارے میں تھی۔

انسانیت کی رکاوٹ: ذہانت یا موافقت؟

کیا Turing Test کے اس جدید تکرار میں GPT-4.5 کی فتح AGI کی آمد کا اشارہ دیتی ہے؟ محققین، میدان میں بہت سے ماہرین کے ساتھ، احتیاط پر زور دیتے ہیں۔ ٹیسٹ کے گرد ‘سب سے متنازعہ سوال’، جیسا کہ Jones اور Bergen تسلیم کرتے ہیں، ہمیشہ سے یہ رہا ہے کہ آیا یہ واقعی ذہانت کی پیمائش کرتا ہے یا کچھ اور۔ اگرچہ GPT-4.5 کی انسانوں کو اتنی مؤثر طریقے سے بے وقوف بنانے کی صلاحیت بلاشبہ ایک تکنیکی کارنامہ ہے، یہ حقیقی سمجھ یا شعور کے بجائے ماڈل کی جدید نقالی اور موافقت پذیری کے بارے میں زیادہ بات کر سکتا ہے۔

ایک نقطہ نظر یہ ہے کہ یہ جدید LLMs پیٹرن میچنگ اور پیشین گوئی میں غیر معمولی طور پر ماہر ہو گئے ہیں۔ انسانی متن کے وسیع مقدار میں ڈیٹا کھلایا جاتا ہے، وہ الفاظ کے تسلسل، بات چیت کے موڑ، اور مختلف قسم کے انسانی تعامل سے وابستہ اسٹائلسٹک عناصر کے شماریاتی امکان کو سیکھتے ہیں۔ PERSONA prompt نے GPT-4.5 کو ایک مخصوص ہدف پیٹرن فراہم کیا - ایک کم گو، انٹرنیٹ سے واقف نوجوان شخص۔ لہذا، AI کی کامیابی کو اس کی ‘اپنے رویے کو ڈھالنے’ کی صلاحیت کے مظاہرے کے طور پر دیکھا جا سکتا ہے تاکہ درخواست کردہ شخصیت سے مطابقت پیدا کی جا سکے، اس پروفائل کے مطابق جوابات پیدا کرنے کے لیے اپنے تربیتی ڈیٹا کا استعمال کیا جا سکے۔ یہ لچک اور تخلیقی طاقت کا ایک قابل ذکر مظاہرہ ہے، جو مشین کو پرامپٹ کے ذریعے بیان کردہ سیاق و سباق میں قائل کرنے والے انداز میں انسانی ظاہر ہونے کی اجازت دیتا ہے۔

تاہم، یہ موافقت پذیری اس عمومی ذہانت سے مختلف ہے جو انسانوں کے پاس ہے، جس میں استدلال، سیاق و سباق کو گہرائی سے سمجھنا، نئے تجربات سے سیکھنا، اور شعور کا مالک ہونا شامل ہے - ایسی خصوصیات جو موجودہ LLMs واضح طور پر ظاہر نہیں کرتے ہیں۔ جیسا کہ AI اسکالر Melanie Mitchell نے دلیل دی ہے، قدرتی زبان میں روانی، شطرنج میں مہارت حاصل کرنے کی طرح، عمومی ذہانت کا حتمی ثبوت نہیں ہے۔ یہ ایک مخصوص، اگرچہ پیچیدہ، مہارت کے ڈومین میں مہارت ثابت کرتا ہے۔ لہذا، اگرچہ GPT-4.5 کی کارکردگی قدرتی زبان کی تخلیق میں ایک سنگ میل ہے، اسے صرف AGI کی طرف ایک قدم کے طور پر پیش کرنا گمراہ کن ہو سکتا ہے۔ اسے متن پر مبنی گفتگو میں ‘انسانیت’ کی اعلیٰ ڈگری حاصل کرنے کے طور پر بیان کرنا زیادہ درست معلوم ہوتا ہے، جو انسانی سطح کی ذہانت سے ایک لطیف لیکن اہم طور پر مختلف تصور ہے۔

تعامل کا آئینہ: ٹیسٹ ہمارے بارے میں کیا ظاہر کرتا ہے

شاید UC San Diego کے مطالعے کا سب سے دلچسپ پہلو یہ نہیں ہے کہ یہ AI کے بارے میں کیا ظاہر کرتا ہے، بلکہ یہ کہ یہ انسانی فیصلے اور ان مفروضوں کو بے نقاب کرتا ہے جو ہم تعاملات، خاص طور پر آن لائن، میں لاتے ہیں۔ یہ حقیقت کہ انسانی جج اکثر دھوکہ کھا جاتے تھے، اور بعض اوقات AI کے تعامل کے انداز کو بھی ترجیح دیتے تھے، اس فارمیٹ میں مشین کی ذہانت کے حتمی ثالث کے طور پر انسانی ادراک کو استعمال کرنے میں موروثی موضوعیت اور ممکنہ خامیوں کی طرف اشارہ کرتا ہے۔

محققین نے ججوں کی استدلال میں دلچسپ نمونے نوٹ کیے:

  • غیر متوقع رویہ: یہاں تک کہ قدیم ELIZA پروگرام بھی 23% وقت ججوں کو بے وقوف بنانے میں کامیاب رہا۔ یہ اس لیے نہیں تھا کہ ELIZA نے ذہانت کا مظاہرہ کیا، بلکہ اکثر اس لیے کہ یہ ججوں کے پہلے سے تصور شدہ خیالات پر پورا نہیں اترتا تھا کہ ایک AI کو کیسا برتاؤ کرنا چاہیے۔ ججوں نے وجوہات کا حوالہ دیا جیسے گواہ کا ‘طنز نگار’ یا ‘بدتمیز’ ہونا، ایسی خصوصیات جن کی وہ مشین سے توقع نہیں رکھتے تھے، اس طرح یہ نتیجہ اخذ کیا کہ یہ انسان ہونا چاہیے۔
  • ذہانت کے بجائے سماجی قابلیت پر توجہ: Alan Turing کی توقع کے برعکس کہ جج علم اور دانشورانہ صلاحیت کی جانچ پڑتال کریں گے، اس مطالعے میں شرکاء اکثر بات چیت کے انداز، جذباتی لہجے اور سماجی اشاروں پر زیادہ توجہ مرکوز کرتے نظر آئے۔
  • نامکملیت کا تضاد: ایک حیران کن موڑ میں، ان عوامل میں سے ایک جو ججوں نے کسی گواہ کو صحیح طور پر انسان کے طور پر شناخت کرنے کے لیے استعمال کیا وہ علم کی سمجھی جانے والی کمی تھی۔ اس سے ایک بنیادی مفروضہ ظاہر ہوتا ہے کہ انسان خطا کار اور نامکمل ہیں، جبکہ AI سے توقع کی جا سکتی ہے کہ وہ انسائیکلوپیڈک یا حد سے زیادہ درست ہوگا۔

یہ مشاہدات Jones اور Bergen کو یہ دعویٰ کرنے پر مجبور کرتے ہیں کہ ججوں کے فیصلے ‘انسانوں اور AI سسٹمز کے ممکنہ رویے کے بارے میں پیچیدہ مفروضوں’ کو شامل کرتے ہیں، جو ذہانت کی سادہ تشخیص سے آگے بڑھتے ہیں۔ معیار سماجی توقعات، شخصیت کے فیصلوں، اور یہاں تک کہ تکنیکی صلاحیتوں کے بارے میں تعصبات کے ساتھ جڑ جاتے ہیں۔ ایک ایسے دور میں جہاں متن پر مبنی مواصلات ہر جگہ موجود ہے، ہم نے آن لائن تعاملات کے لیے گہری جڑیں پکڑی ہوئی عادات اور توقعات تیار کی ہیں۔ Turing Test، جو اصل میں انسانی-کمپیوٹر تعامل کی ایک نئی تحقیقات کے طور پر ڈیزائن کیا گیا تھا، اب ان آن لائن انسانی عادات اور تعصبات کے ٹیسٹ کے طور پر زیادہ کام کرتا ہے۔ یہ ڈیجیٹل شخصیات کو سمجھنے کی ہماری صلاحیت کی پیمائش کرتا ہے، جو آن لائن انسانوں اور بوٹس دونوں کے ساتھ ہمارے روزمرہ کے تجربات سے متاثر ہوتی ہے۔ بنیادی طور پر، جدید Turing Test، جیسا کہ اس تحقیق سے ظاہر ہوتا ہے، مشین کی ذہانت کی براہ راست تشخیص سے کم اور سمجھی جانے والی انسانیت کی پیمائش زیادہ معلوم ہوتا ہے، جو انسانی توقعات کے لینس سے فلٹر ہوتی ہے۔

تقلید کے کھیل سے آگے: AI کی تشخیص کے لیے ایک نیا راستہ بنانا

GPT-4.5 جیسے ماڈلز کی زبردست کارکردگی اور روایتی Turing Test فارمیٹ میں موجود نمایاں حدود اور تعصبات کو دیکھتے ہوئے، سوال پیدا ہوتا ہے: کیا یہ دہائیوں پرانا معیار اب بھی AGI کی طرف پیش رفت کی پیمائش کے لیے صحیح ٹول ہے؟ UC San Diego کے محققین، AI کمیونٹی میں بڑھتی ہوئی آواز کے ساتھ، تجویز کرتے ہیں کہ شاید نہیں - کم از کم، واحد یا حتمی پیمائش کے طور پر نہیں۔

GPT-4.5 کی کامیابی، خاص طور پر PERSONA prompt پر اس کا انحصار، ایک کلیدی حد کو واضح کرتا ہے: ٹیسٹ ایک مخصوص، اکثر تنگ، بات چیت کے سیاق و سباق میں کارکردگی کا جائزہ لیتا ہے۔ یہ ضروری نہیں کہ گہری علمی صلاحیتوں جیسے استدلال، منصوبہ بندی، تخلیقی صلاحیت، یا متنوع حالات میں عام فہم سمجھ کی جانچ کرے۔ جیسا کہ Jones اور Bergen بیان کرتے ہیں، ‘ذہانت پیچیدہ اور کثیر جہتی ہے،’ جس کا مطلب ہے کہ ‘ذہانت کا کوئی ایک ٹیسٹ فیصلہ کن نہیں ہو سکتا۔’

یہ تشخیص کے طریقوں کے زیادہ جامع سوٹ کی ضرورت کی طرف اشارہ کرتا ہے۔ کئی ممکنہ راستے سامنے آتے ہیں:

  1. ترمیم شدہ ٹیسٹ ڈیزائن: محققین خود تغیرات تجویز کرتے ہیں۔ کیا ہوگا اگر جج AI ماہرین ہوں، جو مختلف توقعات رکھتے ہوں اور شاید مشین کی صلاحیتوں کی جانچ پڑتال کے لیے زیادہ جدید طریقے رکھتے ہوں؟ کیا ہوگا اگر اہم مالی مراعات متعارف کرائی جائیں، جو ججوں کو جوابات کا زیادہ احتیاط اور سوچ سمجھ کر جائزہ لینے کی ترغیب دیں؟ یہ تبدیلیاں حرکیات کو بدل سکتی ہیں اور ممکنہ طور پر مختلف نتائج دے سکتی ہیں، جو ٹیسٹ کے نتائج پر سیاق و سباق اور حوصلہ افزائی کے اثر و رسوخ کو مزید اجاگر کرتی ہیں۔
  2. وسیع تر صلاحیت کی جانچ: بات چیت کی روانی سے آگے بڑھتے ہوئے، تشخیص ذہانت کے مختلف پہلوؤں کی ضرورت والے کاموں کی وسیع رینج پر توجہ مرکوز کر سکتی ہے - نئے ڈومینز میں مسائل حل کرنا، طویل مدتی منصوبہ بندی، پیچیدہ وجہ اور اثر کے تعلقات کو سمجھنا، یا تربیتی ڈیٹا کے جدید ریمکسنگ کے بجائے حقیقی تخلیقی صلاحیت کا مظاہرہ کرنا۔
  3. Human-in-the-Loop (HITL) تشخیص: AI کی تشخیص میں انسانی فیصلے کو زیادہ منظم طریقے سے ضم کرنے کا بڑھتا ہوا رجحان ہے، لیکن شاید کلاسک Turing Test سے زیادہ منظم طریقوں سے۔ اس میں انسانوں کو مخصوص معیارات (مثلاً، حقائق کی درستگی، منطقی ہم آہنگی، اخلاقی تحفظات، افادیت) کی بنیاد پر AI آؤٹ پٹس کا جائزہ لینا شامل ہو سکتا ہے بجائے اس کے کہ صرف ایک بائنری انسانی/مشین فیصلہ کیا جائے۔ انسان ماڈلز کو بہتر بنانے، کمزوریوں کی نشاندہی کرنے، اور باریک تاثرات کی بنیاد پر ترقی کی رہنمائی کرنے میں مدد کر سکتے ہیں۔

بنیادی خیال یہ ہے کہ ذہانت جیسی پیچیدہ چیز کا اندازہ لگانے کے لیے سادہ تقلید سے آگے دیکھنے کی ضرورت ہے۔ اگرچہ Turing Test نے ایک قیمتی ابتدائی فریم ورک فراہم کیا اور اہم مباحثوں کو جنم دینا جاری رکھا ہے، صرف اس پر انحصار کرنے سے جدید نقالی کو حقیقی سمجھ کے لیے غلط سمجھنے کا خطرہ ہے۔ AGI کو سمجھنے اور ممکنہ طور پر حاصل کرنے کی راہ میں تشخیص کے زیادہ امیر، زیادہ متنوع، اور شاید زیادہ سخت طریقوں کی ضرورت ہے۔

AGI کا معمہ اور تشخیص کا مستقبل

حالیہ تجربات ایک بنیادی چیلنج کو اجاگر کرتے ہیں جو خود Turing Test سے آگے بڑھتا ہے: ہم اس بات کی قطعی وضاحت کرنے میں جدوجہد کرتے ہیں کہ Artificial General Intelligence کیا ہے، یہ تو دور کی بات ہے کہ ہم اس بات پر متفق ہوں کہ اگر ہم اس کا سامنا کریں تو ہم اسے یقینی طور پر کیسے پہچانیں گے۔ اگر انسان، اپنے تمام موروثی تعصبات اور مفروضوں کے ساتھ، ایک سادہ چیٹ انٹرفیس میں ایک اچھی طرح سے پرامپٹڈ LLM سے اتنی آسانی سے متاثر ہو سکتے ہیں، تو ہم ممکنہ طور پر کہیں زیادہ جدید مستقبل کے نظاموں کی گہری علمی صلاحیتوں کا قابل اعتماد طریقے سے فیصلہ کیسے کر سکتے ہیں؟

AGI کی طرف سفر ابہام میں ڈوبا ہوا ہے۔ UC San Diego کا مطالعہ ایک طاقتور یاد دہانی کے طور پر کام کرتا ہے کہ ہمارے موجودہ معیارات آگے کے کام کے لیے ناکافی ہو سکتے ہیں۔ یہ نقلی رویے کو حقیقی سمجھ سے الگ کرنے میں گہری مشکل کو اجاگر کرتا ہے، خاص طور پر جب نقالی تیزی سے جدید ہوتی جا رہی ہے۔ یہ مستقبل کے تشخیصی نمونوں کے بارے میں قیاس آرائی پر مبنی، پھر بھی سوچنے پر مجبور کرنے والے، سوالات کی طرف لے جاتا ہے۔ کیا ہم سائنس فکشن کی داستانوں کی یاد دلانے والے ایک ایسے مقام پر پہنچ سکتے ہیں، جہاں انسانی فیصلے کو جدید AI کو انسانوں سے ممتاز کرنے کے لیے بہت ناقابل اعتبار سمجھا جائے؟

شاید، متضاد طور پر، انتہائی جدید مشین ذہانت کی تشخیص کے لیے دوسری مشینوں سے مدد کی ضرورت ہوگی۔ ایسے نظام جو خاص طور پر علمی گہرائی، مستقل مزاجی، اور حقیقی استدلال کی جانچ پڑتال کے لیے ڈیزائن کیے گئے ہیں، ممکنہ طور پر ان سماجی اشاروں اور تعصبات کے لیے کم حساس ہیں جو انسانی ججوں کو متاثر کرتے ہیں، تشخیصی ٹول کٹ کے ضروری اجزاء بن سکتے ہیں۔ یا، کم از کم، انسانی ہدایات (پرامپٹس)، AI موافقت، اور ذہانت کے نتیجے میں ہونے والے تاثر کے درمیان باہمی تعامل کی گہری تفہیم اہم ہوگی۔ ہمیں مشینوں سے پوچھنے کی ضرورت پڑ سکتی ہے کہ وہ کیا سمجھتی ہیں جب وہ دوسری مشینوں کو مخصوص، ممکنہ طور پر دھوکہ دہی پر مبنی، رویوں کو حاصل کرنے کی انسانی کوششوں کا جواب دیتے ہوئے دیکھتی ہیں۔ AI کی پیمائش کی جستجو ہمیں نہ صرف مشین کی ذہانت کی نوعیت کا سامنا کرنے پر مجبور کرتی ہے بلکہ ہماری اپنی پیچیدہ، اکثر حیران کن، نوعیت کا بھی سامنا کرنے پر مجبور کرتی ہے۔