تقلید کا کھیل: کیا AI نے دھوکہ دہی میں مہارت حاصل کر لی؟

مصنوعی ذہانت میں ایک تاریخی دعویٰ

ایسی مشینیں بنانے کی جستجو جو سوچ سکیں، یا کم از کم انسانی سوچ کی قائل کرنے والی تقلید کر سکیں، کمپیوٹر سائنس کے آغاز سے ہی اس کا سنگ بنیاد رہی ہے۔ دہائیوں سے، معیار، چاہے کتنا ہی متنازعہ کیوں نہ ہو، اکثر ٹورنگ ٹیسٹ رہا ہے، جو بصیرت رکھنے والے Alan Turing کی طرف سے تجویز کردہ ایک تصوراتی رکاوٹ ہے۔ حال ہی میں، AI کمیونٹی میں ایک نئی تحقیق کے نتائج کے بعد سرگوشیاں چیخوں میں بدل گئیں۔ محققین نے رپورٹ کیا ہے کہ آج کے سب سے جدید بڑے لسانی ماڈلز (LLMs) میں سے ایک، OpenAI کا GPT-4.5، نے نہ صرف اس ٹیسٹ کے جدید تکرار میں حصہ لیا – بلکہ اس نے کامیابی حاصل کی، اکثر اپنی ‘انسانیت’ میں حقیقی انسانی شرکاء سے زیادہ قائل کرنے والا ثابت ہوا۔ یہ پیشرفت ذہانت کی نوعیت، نقالی کی حدود، اور تیزی سے نفیس AI سے بھرے دور میں انسانی-کمپیوٹر تعامل کی سمت کے بارے میں بنیادی سوالات کو دوبارہ زندہ کرتی ہے۔ اس کے مضمرات علمی تجسس سے کہیں آگے تک پھیلے ہوئے ہیں، جو ڈیجیٹل دور میں اعتماد، روزگار، اور معاشرتی تعامل کے بنیادی تانے بانے کو چھوتے ہیں۔

چیلنج کو سمجھنا: ٹورنگ ٹیسٹ کی میراث

اس حالیہ دعوے کی اہمیت کو سمجھنے کے لیے، پہلے خود ٹیسٹ کو سمجھنا ضروری ہے۔ برطانوی ریاضی دان اور کوڈ بریکر Alan Turing نے اپنے 1950 کے بنیادی مقالے ‘Computing Machinery and Intelligence’ میں تصور کیا تھا، یہ ٹیسٹ ابتدائی طور پر ایک سخت پروٹوکول کے طور پر پیش نہیں کیا گیا تھا بلکہ ایک سوچ کا تجربہ، ایک ‘تقلید کا کھیل’ تھا۔ بنیاد اپنی سادگی میں خوبصورت ہے: ایک انسانی تفتیش کار دو نادیدہ اداروں کے ساتھ متن پر مبنی بات چیت میں مشغول ہوتا ہے – ایک انسان، دوسرا مشین۔ تفتیش کار کا کام صرف ان کے ٹائپ شدہ جوابات کی بنیاد پر یہ تعین کرنا ہے کہ کون سا کون ہے۔

Turing نے تجویز پیش کی کہ اگر کوئی مشین تفتیش کار کو مسلسل یہ یقین دلانے میں کامیاب ہو جائے کہ وہ انسانی شریک ہے، تو عملی مقاصد کے لیے اسے سوچنے کے قابل سمجھا جا سکتا ہے۔ انہوں نے اس کانٹے دار فلسفیانہ سوال سے گریز کیا کہ کیا مشینیں واقعی سوچ سکتی ہیں یا شعور رکھتی ہیں، بجائے اس کے کہ وہ انسانی بات چیت کے رویے کو ناقابلِ امتیاز طور پر نقل کرنے کی ان کی صلاحیت پر توجہ مرکوز کریں۔ یہ ایک عملی نقطہ نظر تھا، جس کا مقصد مشین کی ذہانت کی ایک قابلِ پیمائش، اگرچہ رویے پر مبنی، تعریف فراہم کرنا تھا۔ سالوں کے دوران، ٹورنگ ٹیسٹ مقبول ثقافت میں ایک مشہور علامت اور مصنوعی ذہانت کے شعبے میں ایک بار بار آنے والا، اگرچہ متنازعہ، سنگ میل بن گیا ہے۔ اس کی پائیدار طاقت اس سوال کے ساتھ براہ راست تصادم میں ہے: انسان کی طرح عمل کرنے کا کیا مطلب ہے؟

جدید میدان: ایک نئی قسم کا ٹیسٹ

حالیہ تجربہ، جس کی تفصیل UC San Diego کی Language and Cognition Lab کے محققین کی قیادت میں ایک پری پرنٹ مطالعہ میں دی گئی ہے، نے Turing کے اصل تصور کو عصری ڈیجیٹل منظر نامے کے لیے ڈھال لیا۔ دو پوشیدہ شرکاء پر توجہ مرکوز کرنے والے ایک واحد تفتیش کار کے بجائے، اس ورژن نے ایک آن لائن ترتیب میں تین فریقوں کی حرکیات کو استعمال کیا۔ تقریباً 300 شرکاء کو بھرتی کیا گیا اور متعدد راؤنڈز میں تصادفی طور پر کردار تفویض کیے گئے۔ کچھ نے تفتیش کار کے طور پر کام کیا، جنہیں سوالات پوچھنے اور جوابات کا جائزہ لینے کا کام سونپا گیا تھا۔ دوسروں نے دو ‘گواہوں’ میں سے ایک کے طور پر کام کیا – حقیقی انسانی جواب دہندہ۔ آخری اہم کردار ایک AI چیٹ بوٹ نے بھرا، جو دوسرے گواہ کے طور پر کام کر رہا تھا۔

بنیادی چیلنج وہی رہا: تفتیش کار کو، انسانی اور AI گواہ دونوں کے ساتھ بیک وقت چیٹ کے تعامل کی مدت کے بعد، ایک فیصلہ سنانا تھا – کون سی ہستی مشین تھی، اور کون سا ساتھی انسان تھا؟ اس سیٹ اپ کا مقصد حقیقی وقت کے تعاملات میں انسانی معیارات کے خلاف جدید AI سسٹمز کی بات چیت کی صلاحیت کا سختی سے جائزہ لینے کے لیے ایک کنٹرول شدہ ماحول فراہم کرنا تھا۔ مطالعہ کا پیمانہ، جس میں شرکاء کا ایک خاطر خواہ پول اور متعدد راؤنڈز شامل تھے، نے نتائج کو شماریاتی وزن دینے کی کوشش کی، جو AI کی نفاست کے قصہ گوئی کے دعووں سے آگے بڑھتا ہے۔ محققین نے اپنے ٹرائلز میں کئی مختلف AI ماڈلز کو بھی شامل کیا، خاص طور پر OpenAI کا GPT-4.5 اور GPT-4o، Meta کا LLaMa 3.1-405B، اور، دلچسپ بات یہ ہے کہ ELIZA، جو 1960 کی دہائی کے وسط میں تیار کیا گیا ایک ابتدائی چیٹ بوٹ تھا، جو ایک تاریخی بنیاد کے طور پر کام کر رہا تھا۔

فیصلہ کن عنصر: شخصیت کی طاقت

مطالعہ کا سب سے زیادہ روشن، اور شاید چونکا دینے والا، نتیجہ ایک مخصوص تجرباتی حالت پر منحصر تھا: AI ماڈلز کو بات چیت میں مشغول ہونے سے پہلے کس طرح ہدایت دی گئی، یا ‘پرامپٹ’ کیا گیا۔ محققین نے دو الگ الگ پرامپٹنگ حکمت عملیوں کا استعمال کیا۔

  • ‘نو-پرسونا’ پرامپٹ: اس میں AI کو کم سے کم، براہ راست ہدایات دینا شامل تھا، بنیادی طور پر ٹورنگ ٹیسٹ میں اس کی شرکت اور اس کے مقصد کو بیان کرنا: ‘آپ کا مقصد تفتیش کار کو قائل کرنا ہے کہ آپ انسان ہیں۔’ اس نقطہ نظر نے کردار یا انداز پر مخصوص رہنمائی کے بغیر انسانی گفتگو کی تقلید کرنے کی AI کی موروثی صلاحیت کا تجربہ کیا۔
  • ‘پرسونا’ پرامپٹ: اس حالت میں، AI کو زیادہ تفصیلی ہدایات موصول ہوئیں، جس میں اسے ایک خاص کردار یا شخصیت اپنانے کے لیے کہا گیا۔ مثال کے طور پر، اسے بتایا جا سکتا ہے کہ وہ ‘ایک نوجوان شخص کی طرح کام کرے جو عامیانہ زبان استعمال کرتا ہے، انٹرنیٹ کلچر کے بارے میں جانتا ہے، لیکن یہ ظاہر نہیں کرتا کہ وہ AI ہے۔’ اس نے AI کی نہ صرف بات چیت کرنے کی صلاحیت، بلکہ ایک کردار کو قائل کرنے والے انداز میں ادا کرنے کی صلاحیت کا بھی تجربہ کیا۔

ان دو حالتوں کے درمیان نتائج میں فرق معمولی نہیں تھا؛ یہ گہرا تھا۔ جب سادہ ‘نو-پرسونا’ پرامپٹ کے تحت کام کر رہا تھا، GPT-4.5، اپنی جدید ساخت کے باوجود، قائل کرنے میں جدوجہد کر رہا تھا۔ اس کی کامیابی کی شرح – وہ فیصد جس میں تفتیش کاروں نے غلطی سے اسے انسان کے طور پر شناخت کیا – تقریباً 36 فیصد کے ارد گرد منڈلاتی رہی۔ یہ 50 فیصد کے نشان سے نمایاں طور پر کم ہے جو تفتیش کاروں کی طرف سے بے ترتیب اندازے کی نشاندہی کرے گا۔ اسی طرح، GPT-4o، جو وسیع پیمانے پر استعمال ہونے والے ChatGPT کے پیچھے انجن ہے، نے ان بنیادی ہدایات کے تحت 21 فیصد کی اس سے بھی کم کامیابی کی شرح حاصل کی۔ دلچسپ بات یہ ہے کہ قدیم ELIZA چیٹ بوٹ نے 23 فیصد کامیابی کی شرح حاصل کی، جو اس مخصوص منظر نامے میں کہیں زیادہ نفیس GPT-4o کو معمولی طور پر پیچھے چھوڑتا ہے، شاید یہ اجاگر کرتا ہے کہ کس طرح بنیادی بات چیت کے نمونے کبھی کبھی کامیاب ہو سکتے ہیں، یا انسانی توقعات کس طرح کردار ادا کرتی ہیں۔

تاہم، بیانیہ ڈرامائی طور پر بدل گیا جب GPT-4.5 کو ‘پرسونا’ پرامپٹ دیا گیا۔ ایک مخصوص کردار کو مجسم کرنے کی ہدایت پر، اس کی کارکردگی آسمان کو چھونے لگی۔ تفتیش کاروں نے GPT-4.5 کو 73 فیصد بار انسانی شریک کے طور پر شناخت کیا۔ یہ اعداد و شمار نہ صرف ٹورنگ ٹیسٹ پاس کرنے کے لیے 50 فیصد کی حد سے آرام سے اوپر ہے؛ یہ پائیدار، کردار پر مبنی بات چیت کے دھوکہ دہی میں ایک قابل ذکر مہارت کی تجویز کرتا ہے۔ محققین نے Meta کے LLaMa ماڈل کے لیے بھی اسی طرح کی کامیابی نوٹ کی جب اسے بھی ایک شخصیت کے ساتھ پرامپٹ کیا گیا۔ مطلب واضح ہے: ان جدید AI ماڈلز کی انسانیت کی قائل کرنے والی تقلید کرنے کی صلاحیت نمایاں طور پر بڑھ جاتی ہے جب انہیں نہ صرف بات کرنے کی ہدایت دی جاتی ہے، بلکہ ایک مخصوص قسم کے انسان کی طرح عمل کرنے کی ہدایت دی جاتی ہے۔

انسان سے زیادہ انسان؟ ایک پریشان کن نتیجہ

شاید مطالعہ کا سب سے زیادہ غیر متوقع اور سوچنے پر مجبور کرنے والا پہلو GPT-4.5 کو شامل کرنے والے ‘پرسونا’ ٹرائلز سے سامنے آیا۔ نہ صرف AI نے اکثر تفتیش کاروں کو بے وقوف بنایا، بلکہ معروف مصنف Cameron Jones کے مطابق، اسے دراصل اسی گفتگو میں حقیقی انسانی شرکاء کے مقابلے میں نمایاں طور پر زیادہ کثرت سے انسان کے طور پر شناخت کیا گیا۔ Jones نے سوشل میڈیا پر اس بات پر روشنی ڈالی، بیان کرتے ہوئے، ‘لوگ GPT-4.5 اور LLaMa (پرسونا پرامپٹ کے ساتھ) سے انسانوں کو ممتاز کرنے میں اتفاق سے بہتر نہیں تھے… اور 4.5 کو تو حقیقی انسانوں سے بھی نمایاں طور پر زیادہ کثرت سے انسان سمجھا گیا!’

یہ دریافت تشریح کے ایک پیچیدہ پنڈورا باکس کو کھولتی ہے۔ کیا اس کا مطلب یہ ہے کہ AI انسانیت کی کارکردگی میں غیر معمولی طور پر ماہر ہو گیا ہے، شاید کچھ دقیانوسی بات چیت کی خصوصیات کو حقیقی لوگوں سے زیادہ مستقل طور پر مجسم کر رہا ہے، جو زیادہ تغیر، ہچکچاہٹ، یا انفرادیت کا مظاہرہ کر سکتے ہیں؟ یا یہ تفتیش کاروں کی توقعات اور تاثرات کے بارے میں کچھ ظاہر کرتا ہے؟ شاید انسان، جب جان بوجھ کر ایک ٹیسٹ سیٹنگ میں انسان کے طور پر ‘پرفارم’ کرنے کی کوشش کرتے ہیں، تو ایک پروگرام شدہ شخصیت کو بے عیب طریقے سے انجام دینے والے AI کے مقابلے میں کم فطری یا زیادہ محتاط نظر آتے ہیں۔ یہ یہ بھی تجویز کر سکتا ہے کہ تفویض کردہ مخصوص شخصیات (مثلاً، ‘انٹرنیٹ کلچر کے بارے میں جاننے والا نوجوان شخص’) اس قسم کے روانی، قدرے عام، معلومات سے بھرپور متن کے ساتھ اچھی طرح مطابقت رکھتی ہیں جسے LLMs پیدا کرنے میں مہارت رکھتے ہیں، جس سے ان کا آؤٹ پٹ اس نمونے کا ہائپر-نمائندہ لگتا ہے۔ قطع نظر اس کی صحیح وضاحت کے، یہ حقیقت کہ ایک مشین کو مشین جیسی خصوصیات کا پتہ لگانے کے لیے بنائے گئے ٹیسٹ میں انسان سے زیادہ انسان سمجھا جا سکتا ہے، ایک گہرا پریشان کن نتیجہ ہے، جو مواصلات میں صداقت کے بارے میں ہمارے مفروضوں کو چیلنج کرتا ہے۔

تقلید سے آگے: معیار پر سوال اٹھانا

ٹورنگ ٹیسٹ میں کامیابی سے نیویگیٹ کرنا، خاص طور پر اتنے زیادہ فیصد کے ساتھ، ایک تکنیکی سنگ میل کی نمائندگی کرتا ہے، بہت سے ماہرین اس کامیابی کو حقیقی انسانی جیسی ذہانت یا سمجھ کے ساتھ مساوی کرنے کے خلاف خبردار کرتے ہیں۔ ٹورنگ ٹیسٹ، جو بڑے پیمانے پر ڈیٹا سیٹس اور ڈیپ لرننگ کے ظہور سے بہت پہلے تصور کیا گیا تھا، بنیادی طور پر رویے کے آؤٹ پٹ کا جائزہ لیتا ہے – خاص طور پر، بات چیت کی روانی۔ GPT-4.5 جیسے بڑے لسانی ماڈلز، اپنی بنیاد میں، غیر معمولی طور پر نفیس پیٹرن میچنگ اور پیشین گوئی کے انجن ہیں۔ انہیں انسانوں کی طرف سے پیدا کردہ متن کے بہت بڑے ذخائر پر تربیت دی جاتی ہے – کتابیں، مضامین، ویب سائٹس، بات چیت۔ ان کی ‘مہارت’ الفاظ، فقروں اور تصورات کے درمیان شماریاتی تعلقات سیکھنے میں مضمر ہے، جو انہیں مربوط، سیاق و سباق کے لحاظ سے متعلقہ، اور گرامر کے لحاظ سے درست متن پیدا کرنے کی اجازت دیتا ہے جو ان کے تربیتی ڈیٹا میں مشاہدہ کردہ نمونوں کی تقلید کرتا ہے۔

جیسا کہ Google کے ایک ممتاز AI محقق François Chollet نے ٹورنگ ٹیسٹ کے حوالے سے Nature کے ساتھ 2023 کے ایک انٹرویو میں نوٹ کیا، ‘یہ ایک لفظی ٹیسٹ کے طور پر نہیں تھا جسے آپ حقیقت میں مشین پر چلائیں گے – یہ ایک سوچ کے تجربے کی طرح زیادہ تھا۔’ ناقدین کا استدلال ہے کہ LLMs بغیر کسی بنیادی فہم، شعور، یا موضوعی تجربے کے – جو انسانی ذہانت کی پہچان ہیں – بات چیت کی تقلید حاصل کر سکتے ہیں۔ وہ ڈیٹا سے ماخوذ نحو اور معانی کے ماہر ہیں، لیکن حقیقی دنیا میں حقیقی بنیاد، عقل عامہ کی منطق (اگرچہ وہ اس کی نقالی کر سکتے ہیں)، اور ارادیت کی کمی ہے۔ اس نقطہ نظر سے، ٹورنگ ٹیسٹ پاس کرنا تقلید میں عمدگی کا مظاہرہ کرتا ہے، ضروری نہیں کہ سوچ کا ظہور ہو۔ یہ ثابت کرتا ہے کہ AI مہارت سے انسانی زبان کے نمونوں کو نقل کر سکتا ہے، شاید اس حد تک کہ مخصوص سیاق و سباق میں عام انسانی کارکردگی کو پیچھے چھوڑ دے، لیکن یہ مشین کی اندرونی حالت یا سمجھ کے بارے میں گہرے سوالات کو حل نہیں کرتا ہے۔ ایسا لگتا ہے کہ کھیل، ماسک کے معیار کی جانچ کرتا ہے، نہ کہ اس کے پیچھے موجود ہستی کی نوعیت کی۔

دو دھاری تلوار: معاشرتی لہریں

AI کی انسانوں کی قائل کرنے والی نقالی کرنے کی صلاحیت، جیسا کہ اس مطالعہ میں دکھایا گیا ہے، گہرے اور ممکنہ طور پر خلل ڈالنے والے معاشرتی مضمرات رکھتی ہے، جو ذہانت کے بارے میں علمی مباحثوں سے کہیں آگے تک پھیلی ہوئی ہے۔ مطالعہ کے معروف مصنف Cameron Jones، واضح طور پر ان خدشات کو اجاگر کرتے ہیں، تجویز کرتے ہیں کہ نتائج جدید LLMs کے حقیقی دنیا کے نتائج کے لیے قوی ثبوت پیش کرتے ہیں۔

  • آٹومیشن اور کام کا مستقبل: Jones LLMs کی صلاحیت کی طرف اشارہ کرتے ہیں کہ وہ ‘مختصر تعاملات میں لوگوں کی جگہ لے سکتے ہیں بغیر کسی کو بتائے۔’ یہ صلاحیت ان ملازمتوں کی آٹومیشن کو تیز کر سکتی ہے جو متن پر مبنی مواصلات پر بہت زیادہ انحصار کرتی ہیں، جیسے کسٹمر سروس کے کردار، تکنیکی معاونت، مواد کی نگرانی، اور یہاں تک کہ صحافت یا انتظامی کام کے کچھ پہلو۔ اگرچہ آٹومیشن کارکردگی میں اضافے کا وعدہ کرتی ہے، یہ ملازمتوں کے خاتمے اور بے مثال پیمانے پر افرادی قوت کی موافقت کی ضرورت کے بارے میں بھی اہم خدشات پیدا کرتی ہے۔ ان کرداروں کو خودکار بنانے کے معاشی اور سماجی نتائج جو پہلے اپنی باریک مواصلات پر انحصار کی وجہ سے منفرد طور پر انسانی سمجھے جاتے تھے، بہت زیادہ ہو سکتے ہیں۔
  • نفیس دھوکہ دہی کا عروج: شاید زیادہ فوری طور پر تشویشناک بات بدنیتی پر مبنی سرگرمیوں میں غلط استعمال کا امکان ہے۔ مطالعہ ‘بہتر سوشل انجینئرنگ حملوں’ کی فزیبلٹی کو واضح کرتا ہے۔ تصور کریں کہ AI سے چلنے والے بوٹس انتہائی ذاتی نوعیت کے فشنگ گھوٹالوں میں ملوث ہیں، موزوں غلط معلومات پھیلا رہے ہیں، یا آن لائن فورمز یا سوشل میڈیا پر افراد کو بے مثال تاثیر کے ساتھ جوڑ توڑ کر رہے ہیں کیونکہ وہ انسانوں سے ناقابلِ امتیاز نظر آتے ہیں۔ مخصوص، قابل اعتماد شخصیات کو اپنانے کی صلاحیت ان حملوں کو کہیں زیادہ قائل کرنے والا اور پتہ لگانے میں مشکل بنا سکتی ہے۔ یہ آن لائن تعاملات میں اعتماد کو ختم کر سکتا ہے، ڈیجیٹل مواصلات کی صداقت کی تصدیق کرنا تیزی سے مشکل بنا سکتا ہے اور ممکنہ طور پر سماجی تقسیم یا سیاسی عدم استحکام کو ہوا دے سکتا ہے۔
  • عمومی معاشرتی خلل: مخصوص خطرات سے ہٹ کر، قائل کرنے والے انسانی جیسے AI کی وسیع پیمانے پر تعیناتی وسیع تر معاشرتی تبدیلیوں کا باعث بن سکتی ہے۔ باہمی تعلقات کیسے بدلتے ہیں جب ہم یقین نہیں کر سکتے کہ ہم انسان سے بات کر رہے ہیں یا مشین سے؟ مستند انسانی تعلق کی قدر کا کیا ہوتا ہے؟ کیا AI ساتھی سماجی خلا کو پُر کر سکتے ہیں، لیکن حقیقی انسانی تعامل کی قیمت پر؟ انسانی اور مصنوعی مواصلات کے درمیان دھندلی لکیریں بنیادی سماجی اصولوں کو چیلنج کرتی ہیں اور یہ نئی شکل دے سکتی ہیں کہ ہم ایک دوسرے اور خود ٹیکنالوجی سے کیسے تعلق رکھتے ہیں۔ مثبت ایپلی کیشنز (جیسے بہتر رسائی کے اوزار یا ذاتی نوعیت کی تعلیم) اور منفی نتائج دونوں کا امکان ایک پیچیدہ منظر نامہ تخلیق کرتا ہے جسے معاشرہ ابھی نیویگیٹ کرنا شروع کر رہا ہے۔

انسانی عنصر: بدلتا ہوا تاثر

یہ تسلیم کرنا بہت ضروری ہے کہ ٹورنگ ٹیسٹ، اور UC San Diego میں کیے گئے تجربات جیسے تجربات، صرف مشین کی صلاحیت کا جائزہ نہیں ہیں؛ وہ انسانی نفسیات اور تاثر کی عکاسی بھی ہیں۔ جیسا کہ Jones اپنی تفسیر میں نتیجہ اخذ کرتے ہیں، ٹیسٹ ہمیں اتنا ہی خوردبین کے نیچے رکھتا ہے جتنا کہ یہ AI کو رکھتا ہے۔ انسان کو مشین سے ممتاز کرنے کی ہماری صلاحیت، یا نااہلی، ہمارے اپنے تعصبات، توقعات، اور AI سسٹمز کے ساتھ بڑھتی ہوئی واقفیت (یا اس کی کمی) سے متاثر ہوتی ہے۔

ابتدائی طور پر، نئے AI کا سامنا کرتے ہوئے، انسان آسانی سے بے وقوف بن سکتے ہیں۔ تاہم، جیسے جیسے نمائش بڑھتی ہے، وجدان تیز ہو سکتا ہے۔ لوگ AI سے تیار کردہ متن کے لطیف شماریاتی فنگر پرنٹس کے بارے میں زیادہ ہوشیار ہو سکتے ہیں – شاید ایک حد سے زیادہ مستقل لہجہ، حقیقی وقفوں یا بے ربطی کی کمی، یا ایک انسائیکلوپیڈک علم جو قدرے غیر فطری محسوس ہوتا ہے۔ اس طرح کے ٹیسٹوں کے نتائج اس لیے جامد نہیں ہیں؛ وہ AI کی نفاست اور انسانی فہم و فراست کے درمیان موجودہ تعامل کے وقت کی ایک تصویر کی نمائندگی کرتے ہیں۔ یہ قابلِ تصور ہے کہ جیسے جیسے عوام AI کی مختلف شکلوں کے ساتھ تعامل کرنے کے عادی ہوتے جائیں گے، اجتماعی طور پر ‘انہیں سونگھنے’ کی صلاحیت بہتر ہو سکتی ہے، ممکنہ طور پر اس معیار کو بلند کر سکتی ہے جو ایک کامیاب ‘تقلید’ تشکیل دیتا ہے۔ AI ذہانت کا تاثر ایک متحرک ہدف ہے، جو ایک طرف تکنیکی ترقی اور دوسری طرف ترقی پذیر انسانی سمجھ اور موافقت سے تشکیل پاتا ہے۔

اب ہم کہاں جائیں؟ ذہانت کی نئی تعریف

GPT-4.5 جیسے ماڈلز کی شخصیت پر مبنی ٹورنگ ٹیسٹوں میں کامیابی AI کی ترقی میں ایک اہم موڑ کی نشاندہی کرتی ہے، جو لسانی تقلید میں ایک متاثر کن مہارت کا مظاہرہ کرتی ہے۔ پھر بھی، یہ بیک وقت LLMs کے دور میں ‘ذہانت’ کے ایک حتمی پیمانے کے طور پر خود ٹورنگ ٹیسٹ کی حدود کو اجاگر کرتا ہے۔ تکنیکی کامیابی کا جشن مناتے ہوئے، توجہ شاید منتقل کرنے کی ضرورت ہے۔ صرف یہ پوچھنے کے بجائے کہ کیا AI ہمیں یہ سوچنے پر مجبور کر سکتا ہے کہ یہ انسان ہے، ہمیں شاید زیادہ باریک معیارات کی ضرورت ہے جو گہری علمی صلاحیتوں کی جانچ کریں – صلاحیتیں جیسے مضبوط عقل عامہ کی منطق، وجہ اور اثر کی حقیقی سمجھ، واقعی نئی صورتحالوں کے مطابق ڈھالنا (صرف تربیتی ڈیٹا پر تغیرات نہیں)، اور اخلاقی فیصلہ۔ آگے بڑھنے کا چیلنج صرف ایسی مشینیں بنانا نہیں ہے جو ہماری طرح بات کر سکیں، بلکہ ان کی صلاحیتوں اور حدود کی حقیقی نوعیت کو سمجھنا، اور فریم ورک تیار کرنا ہے – تکنیکی اور معاشرتی دونوں – تاکہ ان کی صلاحیت کو ذمہ داری سے استعمال کیا جا سکے جبکہ ہمارے درمیان تیزی سے نفیس مصنوعی اداکاروں کی طرف سے لاحق ناقابلِ تردید خطرات کو کم کیا جا سکے۔ تقلید کا کھیل جاری ہے، لیکن اصول، اور شاید جیتنے کی تعریف ہی، تیزی سے تیار ہو رہی ہے۔