معیار پر نظر ثانی: ٹیورنگ کے وژن پر ایک جدید موڑ
یہ سوال کہ کیا کوئی مشین واقعی ‘سوچ’ سکتی ہے، کئی دہائیوں سے کمپیوٹر سائنسدانوں اور فلاسفروں کو مسحور کیے ہوئے ہے۔ اس بحث کے مرکز میں اکثر وہ بنیادی تصور ہوتا ہے جو Alan Turing نے پیش کیا تھا، وہ شاندار برطانوی ریاضی دان اور کوڈ بریکر جن کے کام نے جدید کمپیوٹنگ کی بنیاد رکھی۔ Turing نے ایک منظر نامے کا تصور کیا، جسے اب مشہور زمانہ Turing Test کے نام سے جانا جاتا ہے، جہاں ایک انسانی تفتیش کار دو نادیدہ ہستیوں - ایک انسان، ایک مشین - کے ساتھ متن پر مبنی گفتگو کرتا ہے۔ مشین کی کامیابی کا اہم پیمانہ؟ اس کی تفتیش کار کو یہ یقین دلانے کی صلاحیت کہ وہ انسانی شریک ہے۔ Turing نے قیاس کیا کہ اگر تفتیش کار مشین اور انسان میں قابل اعتماد طور پر فرق نہیں کر سکتا، تو مشین کو انسان کی طرح ذہین رویے کے قابل سمجھا جا سکتا ہے۔ اگرچہ اصل ٹیسٹ کو شعور یا سمجھ کے حقیقی پیمائش کے طور پر اس کی کافی ہونے کے بارے میں تنقید کا سامنا کرنا پڑا ہے، اس کا بنیادی خیال - AI کی انسانی تعامل کو قائل کرنے کی صلاحیت کا اندازہ لگانا - ایک طاقتور معیار بنا ہوا ہے۔
اب، University of California, San Diego سے تعلق رکھنے والے محققین نے اس کلاسک تشخیص میں نئی جان ڈال دی ہے، جس نے آج کے جدید AI منظر نامے کے لیے ڈیزائن کیا گیا ایک مجبور کن تغیر متعارف کرایا ہے۔ ان کا مطالعہ Turing Test کی تین طرفہ تکرار کا آغاز کرتا ہے، جس سے تشخیص میں پیچیدگی اور شاید زیادہ حقیقت پسندانہ حرکیات شامل ہوتی ہیں۔ یہ صرف ایک AI کو ایک انسان سے ممتاز کرنے کے بارے میں نہیں تھا؛ اس میں تعامل اور دھوکہ دہی کا ایک زیادہ پیچیدہ رقص شامل تھا، جس نے عصری مصنوعی ذہانت کے نظاموں کو نقالی کے فن میں ان کی حدود تک پہنچا دیا۔ نتائج بتاتے ہیں کہ سب سے زیادہ جدید AI ماڈلز نہ صرف انسان جیسی گفتگو کی دہلیز تک پہنچ رہے ہیں؛ کچھ سیاق و سباق میں، وہ شاید اس سے بھی آگے نکل رہے ہیں، کبھی کبھی خود انسانوں سے زیادہ انسانی دکھائی دیتے ہیں۔
آزمائش: انسانوں کا جدید ترین AI سے مقابلہ
UC San Diego ٹیم کی طرف سے تیار کردہ تجرباتی ڈیزائن مخصوص اور سخت تھا۔ تعامل کے ہر دور میں ایک تینوں شامل تھے: دو انسانی شرکاء اور ایک AI ماڈل۔ انسانوں کو ایک واحد، چیلنجنگ ہدف دیا گیا تھا: گفتگو کی مدت کے بعد، یہ تعین کریں کہ ان کے دو نادیدہ بات چیت کرنے والوں میں سے کون مصنوعی ذہانت تھا اور کون ساتھی انسان تھا۔ یہ سیٹ اپ فطری طور پر اصل ون آن ون آن ون Turing Test کے مقابلے میں داؤ کو بڑھاتا ہے۔
اس تعین میں سہولت فراہم کرنے کے لیے، شرکاء نے دو بیک وقت، متوازی متن پر مبنی مکالموں میں حصہ لیا - ایک چھپے ہوئے انسان کے ساتھ، دوسرا چھپے ہوئے AI کے ساتھ۔ انہیں ہر دور کے لیے ایک مختصر پانچ منٹ کی ونڈو مختص کی گئی تھی۔ اس ٹائم فریم کے اندر، انسانی ججوں کو مکمل آزادی تھی۔ وہ کسی بھی سوال کرنے کی حکمت عملی استعمال کر سکتے تھے، کسی بھی موضوع پر تحقیقات کر سکتے تھے، یا کسی بھی بات چیت کی حکمت عملی کا استعمال کر سکتے تھے جسے وہ اپنے چیٹ پارٹنرز کی حقیقی نوعیت کو بے نقاب کرنے میں موثر سمجھتے تھے۔ تعامل کی ونڈو کی اختصار ایک اور چیلنج کی تہہ ڈالتی ہے، AI کی تیزی سے ایک قائل کرنے والا کردار قائم کرنے اور اسے جانچ پڑتال کے تحت برقرار رکھنے کی صلاحیت کی جانچ کرتی ہے، جبکہ انسان کی محدود بات چیت کے ڈیٹا کی بنیاد پر تیز، درست فیصلے کرنے کی صلاحیت کی بھی جانچ کرتی ہے۔ پانچ منٹ کی تعامل کی مدت کے بعد، سچائی کا لمحہ آ گیا: انسانی شرکاء نے اپنے ووٹ ڈالے، اس ہستی کی نشاندہی کی جسے وہ AI سمجھتے تھے۔
محققین نے کسی ایک AI نظام پر انحصار نہیں کیا۔ اس کے بجائے، انہوں نے AI کی ترقی میں مختلف ادوار اور صلاحیتوں کی نمائندگی کرنے والی ایک متنوع لائن اپ تیار کی:
- ELIZA: ایک ابتدائی چیٹ بوٹ جو Joseph Weizenbaum نے تقریباً چھ دہائیاں قبل تیار کیا تھا (ماخذ میں ذکر کردہ 80 نہیں، ELIZA 1960 کی دہائی کے وسط کا ہے)۔ اگرچہ آج کے معیارات کے لحاظ سے قدیم ہے، پیٹرن میچنگ اور سادہ اسکرپٹس پر انحصار کرتے ہوئے، ELIZA نے ایک تاریخی بنیاد کے طور پر کام کیا، جو بات چیت کرنے والے AI کی ابتدائی کوششوں کی نمائندگی کرتا ہے۔
- Meta’s Llama 3.1-405B: Meta AI کا ایک طاقتور، عصری بڑا لسانی ماڈل (LLM)، جو اپنی جدید متن کی تخلیق اور استدلال کی صلاحیتوں کے لیے جانا جاتا ہے۔ اس کی شمولیت ایک بڑے AI ریسرچ لیب سے موجودہ جدید ترین حالت کی نمائندگی کرتی ہے۔
- OpenAI’s GPT-4o: مطالعہ کے وقت OpenAI کا تازہ ترین عوامی طور پر جاری کردہ ملٹی موڈل ماڈل، جو پچھلے GPT تکرار کے مقابلے میں اپنی رفتار، کارکردگی، اور بہتر بات چیت کی صلاحیتوں کے لیے پہچانا جاتا ہے۔
- OpenAI’s GPT-4.5: بظاہر OpenAI کی فلیگ شپ ماڈل سیریز کا ایک زیادہ جدید، شاید غیر جاری شدہ یا اندرونی ورژن۔ اس کی شمولیت ان ماڈلز تک رسائی کا مشورہ دیتی ہے جو ممکنہ طور پر عوامی طور پر دستیاب نظاموں سے آگے کی حدود کو آگے بڑھا رہے ہیں۔
اس انتخاب نے محققین کو نہ صرف جدید AI کا انسانوں سے بلکہ ایک تاریخی معیار اور عصری AI کی نفاست کی مختلف سطحوں سے بھی موازنہ کرنے کی اجازت دی۔ بنیادی سوال باقی رہا: کیا یہ مشینیں، خاص طور پر جدید LLMs، کامیابی کے ساتھ اس تین طرفہ بات چیت کی الجھن کو نیویگیٹ کر سکتی ہیں اور انسان کے طور پر گزر سکتی ہیں؟
پرسونا حکمت عملی: GPT-4.5 نے غیر معمولی کامیابی کیسے حاصل کی
مطالعہ نے AI ماڈلز کے لیے دو الگ الگ آپریشنل منظرنامے شامل کیے، جس سے تحقیقات میں ایک اور جہت شامل ہوئی۔ محققین یہ سمجھنا چاہتے تھے کہ کیا AI کا واضح ہدف انسانی شرکاء کو دھوکہ دینے کی اس کی صلاحیت کو متاثر کرتا ہے۔
منظر نامہ 1: واضح دھوکہ دہی کا کام: اس سیٹ اپ میں، AI کو ایک براہ راست اور غیر مبہم ہدایت دی گئی تھی: انسانی شریک کو گمراہ کریں۔ اس کا پروگرام شدہ مقصد یہ تھا کہ بات چیت کے ذریعے ہر ممکن کوشش کی جائے تاکہ انسانی جج کو یقین دلایا جا سکے کہ وہ کسی دوسرے حقیقی شخص کے ساتھ بات چیت کر رہے ہیں۔ اس نے AI کی حکمت عملی بنانے اور شاید گفتگو کو اس مقصد کی طرف موڑنے کی صلاحیت کی جانچ کی کہ جب واضح طور پر ایسا کرنے کو کہا جائے تو وہ انسانی دکھائی دے۔
منظر نامہ 2: پرسونا نقالی کا کام: یہاں، AI کو ایک مختلف قسم کا پرامپٹ ملا۔ اسے واضح طور پر دھوکہ دینے کے لیے نہیں کہا گیا تھا۔ اس کے بجائے، اسے ایک مخصوص پرسونا اپنانے کی ہدایت دی گئی تھی - ایک نوجوان فرد کا جو انٹرنیٹ کلچر میں گہرائی سے ڈوبا ہوا ہے، جس میں اس آبادی کے لیے مخصوص عصری سلینگ اور مواصلاتی انداز کا استعمال شامل ہے۔ AI سے صرف یہ کہا گیا تھا کہ وہ یہ کردار بنے، تفتیش کار کو دھوکہ دینے کی کھلی ہدایت کے بغیر۔
ان دو منظرناموں کے نتائج حیرت انگیز طور پر مختلف تھے، خاص طور پر نمایاں کارکردگی دکھانے والے، GPT-4.5 کے لیے۔ جب گمراہ کرنے کی واضح ہدایت کے تحت کام کیا (منظر نامہ 1)، GPT-4.5 نے 36% کامیابی کی شرح حاصل کی۔ اگرچہ یہ غیر اہم نہیں ہے، یہ اعداد و شمار بتاتے ہیں کہ جب کھلے عام دھوکہ دینے کی کوشش کی جاتی ہے، تو AI شاید کم قائل کرنے والا تھا، یا شاید اس کی کوششیں انسانی ججوں کے ذریعہ زیادہ آسانی سے قابل شناخت تھیں جو مصنوعی پن کے لیے زیادہ چوکس ہو سکتے تھے۔
تاہم، پرسونا نقالی کے کام (منظر نامہ 2) میں کہانی ڈرامائی طور پر پلٹ گئی۔ جب صرف نوجوان، انٹرنیٹ سے واقف پرسونا کو مجسم کرنے کے لیے کہا گیا، تو GPT-4.5 کی کارکردگی آسمان کو چھونے لگی۔ اس نے ایک قابل ذکر 73% تعاملات میں انسانی شرکاء کو اپنی انسانیت کا قائل کرنے میں کامیابی حاصل کی۔ یہ بتاتا ہے کہ ایک قدرتی نظر آنے والے کردار کو اپنانا، یہاں تک کہ ایک اسٹائلائزڈ کردار بھی، براہ راست دھوکہ دہی کی کوشش کرنے کے مقابلے میں گھل مل جانے کے لیے کہیں زیادہ مؤثر حکمت عملی تھی۔ اس کا مطلب یہ ہے کہ AI کی طاقت حسابی ہیرا پھیری میں کم اور مخصوص آبادی یا شخصیات سے وابستہ انسانی مواصلات کے نمونوں کو حقیقت پسندانہ طور پر ترکیب اور نقل کرنے کی صلاحیت میں زیادہ ہے، جو اس نے اپنے وسیع تربیتی ڈیٹا سے سیکھا ہے۔ AI انسان بننے کی کوشش نہیں کر رہا تھا؛ یہ ایک مخصوص قسم کے انسان کے طور پر کام کر رہا تھا، اور اس نے حیرت انگیز تاثیر کے ساتھ ایسا کیا۔
تقابلی کارکردگی: دھوکہ دہی کا ایک سپیکٹرم
جبکہ GPT-4.5 نے شو چرا لیا، دوسرے AI ماڈلز کی کارکردگی نے قیمتی سیاق و سباق اور کچھ دلچسپ حیرتیں فراہم کیں۔
Meta’s Llama 3.1-405B نے بھی کافی قابلیت کا مظاہرہ کیا۔ اس نے انسانوں کو اپنی اصلیت کا قائل کرنے میں 56% کامیابی کی شرح حاصل کی۔ یہ نتیجہ بے ترتیب موقع سے نمایاں طور پر بہتر ہے (جو دو انتخابی منظر نامے میں 50% ہوگا، حالانکہ تین طرفہ ٹیسٹ کی حرکیات سادہ مشکلات کو قدرے پیچیدہ کرتی ہیں)۔ یہ Llama 3.1 کو مضبوطی سے انتہائی قابل بات چیت کرنے والے نقالوں کے زمرے میں رکھتا ہے، جو اکثر انسانی ججوں کو بے وقوف بنانے کے قابل ہے، اگرچہ GPT-4.5 کی طرف سے اس کے بہترین منظر نامے میں دکھائی گئی غیر معمولی سطحوں تک نہیں پہنچ پاتا۔ یہ ٹھوس کارکردگی معروف بڑے لسانی ماڈلز کی باریک انسانی مکالمے کی نقل تیار کرنے میں عمومی پیشرفت کو واضح کرتی ہے۔
شاید سب سے غیر متوقع تلاش GPT-4o اور تاریخی ELIZA پروگرام کے درمیان موازنہ سے سامنے آئی۔ OpenAI کے جدید GPT-4o ماڈل نے صرف 21% معاملات میں شرکاء کو یہ باور کرایا کہ وہ انسان ہے۔ غیر متوقع طور پر، بہت آسان، اسکرپٹ پر مبنی ELIZA پروگرام نے قدرے بہتر کارکردگی کا مظاہرہ کیا، 23% کامیابی کی شرح حاصل کی۔ اگرچہ دونوں فیصد کم ہیں، جو اس بات کی نشاندہی کرتے ہیں کہ اس مخصوص ٹیسٹ سیٹ اپ میں کوئی بھی خاص طور پر قائل کرنے والا نہیں تھا، ELIZA کی برتری، چاہے کتنی ہی معمولی کیوں نہ ہو، قابل ذکر ہے۔ یہ ان مختصر تعاملات میں انسانی تاثر اور فیصلے کی نوعیت کے بارے میں سوالات اٹھاتا ہے۔ کیا یہ ہو سکتا ہے کہ ELIZA کی سادگی اور پیش گوئی، جسے شاید نرالا یا مخصوص سمجھا جاتا ہے، کبھی کبھی انسانی غیر معیاری مواصلات کے طور پر غلط سمجھا جاتا تھا، جبکہ GPT-4o کے زیادہ پیچیدہ لیکن ممکنہ طور پر جراثیم سے پاک یا حد سے زیادہ رسمی جوابات (اس کے مخصوص پرامپٹنگ اور ٹیسٹ میں رویے پر منحصر ہے) زیادہ آسانی سے مصنوعی کے طور پر جھنڈے لگائے گئے تھے؟ متبادل طور پر، یہ مخصوص تعاملات یا شرکاء کی توقعات میں باریکیوں کی عکاسی کر سکتا ہے جنہوں نے کم تعداد میں معاملات میں ELIZA کے انداز کی حمایت کی۔ یہ نتیجہ یقینی طور پر اس بارے میں مزید تحقیقات کا متقاضی ہے کہ انسان مختلف قسم کی مصنوعی پن یا غیر معیاری مواصلات کو کیسے سمجھتے ہیں۔
تاہم، نمایاں نتیجہ GPT-4.5 کی کارکردگی ہی رہا، جسے خاص طور پر مطالعہ کے مرکزی مصنف، Cameron Jones، جو UC San Diego میں Language and Cognition Laboratory کے محقق ہیں، نے اجاگر کیا۔ Jones نے سب سے زیادہ چونکا دینے والے پہلو پر زور دیا: ‘لوگ GPT-4.5 اور LLaMa سے لوگوں میں فرق کرنے سے قاصر تھے اور 4.5 کو حقیقی لوگوں سے بھی کہیں زیادہ کثرت سے انسان کا درجہ دیا گیا!’ یہ ایک گہرا بیان ہے۔ AI کا انسان کے طور پر گزرنا ایک بات ہے؛ اسی ٹیسٹ میں حصہ لینے والے حقیقی انسانوں سے زیادہ انسانی سمجھا جانا بالکل دوسری بات ہے۔ یہ بتاتا ہے کہ GPT-4.5، کم از کم پرسونا منظر نامے میں، ایسے جوابات پیدا کر سکتا ہے جو شرکاء کی عام انسانی آن لائن تعامل کی توقعات کے ساتھ زیادہ قریب سے منسلک تھے (شاید زیادہ مشغول، مستقل، یا دقیانوسی طور پر ‘انسانی’) حقیقی، ممکنہ طور پر زیادہ متنوع یا کم پیش گوئی کرنے والے، حقیقی انسانی ہم منصبوں کے جوابات کے مقابلے میں۔
ٹیورنگ سے آگے: انتہائی حقیقت پسندانہ AI نقالی کے مضمرات
جبکہ محققین تسلیم کرتے ہیں کہ Turing Test خود، اپنی اصل تشکیل میں اور دلیل کے طور پر اس ترمیم شدہ شکل میں بھی، حقیقی مشین ذہانت یا سمجھ کا اندازہ لگانے کے لیے ایک پرانا میٹرک ہو سکتا ہے، مطالعہ کے نتائج اہم وزن رکھتے ہیں۔ وہ اس بات کا واضح ثبوت پیش کرتے ہیں کہ AI نظام، خاص طور پر وہ جو انسانی متن اور گفتگو کے وسیع ڈیٹا سیٹس پر تربیت یافتہ بڑے لسانی ماڈلز پر بنائے گئے ہیں، نقالی کے فن میں مہارت حاصل کرنے میں کس حد تک ترقی کر چکے ہیں۔
نتائج ظاہر کرتے ہیں کہ یہ نظام بات چیت کا آؤٹ پٹ پیدا کر سکتے ہیں جو نہ صرف گرامر کے لحاظ سے درست یا سیاق و سباق کے لحاظ سے متعلقہ ہے، بلکہ ادراکی طور پر انسانی آؤٹ پٹ سے ناقابل امتیاز ہے، کم از کم مختصر، متن پر مبنی تعاملات کی رکاوٹوں کے اندر۔ یہاں تک کہ اگر بنیادی AI حقیقی فہم، شعور، یا ان موضوعی تجربات کا مالک نہیں ہے جو انسانی مواصلات کو مطلع کرتے ہیں، اس کی قابل قبول، مشغول، اور کردار کے مطابق جوابات کی ترکیب کرنے کی صلاحیت تیزی سے بہتر ہو رہی ہے۔ یہ مؤثر طریقے سے سمجھ کا ایک اگواڑا بنا سکتا ہے جو انسانی ججوں کو زیادہ تر وقت بے وقوف بنانے کے لیے کافی قائل کرنے والا ہے، خاص طور پر جب ایک متعلقہ پرسونا اپنایا جائے۔
اس قابلیت کے گہرے مضمرات ہیں، جو Turing Test کی علمی تجسس سے کہیں آگے تک پھیلے ہوئے ہیں۔ Cameron Jones اس جدید نقالی سے چلنے والی کئی ممکنہ سماجی تبدیلیوں کی طرف اشارہ کرتے ہیں:
- ملازمت آٹومیشن: AI کی مختصر مدت کے تعاملات میں بغیر کسی کھوج کے انسانوں کی جگہ لینے کی صلاحیت، متن پر مبنی مواصلات پر بہت زیادہ انحصار کرنے والے کرداروں میں آٹومیشن کے لیے دروازہ وسیع تر کھولتی ہے۔ کسٹمر سروس چیٹس، مواد کی تخلیق، ڈیٹا انٹری، شیڈولنگ، اور ڈیجیٹل مدد کی مختلف شکلوں میں AI کو زیادہ اپنایا جا سکتا ہے، اگر AI کافی قائل کرنے والا اور لاگت مؤثر ثابت ہوتا ہے تو انسانی کارکنوں کو بے گھر کر سکتا ہے۔ مطالعہ بتاتا ہے کہ ‘قائل کرنے والی’ دہلیز پوری ہو رہی ہے یا اس سے تجاوز کیا جا رہا ہے۔
- بہتر سوشل انجینئرنگ: غلط استعمال کا امکان اہم ہے۔ بدنیتی پر مبنی اداکار جدید فشنگ گھوٹالوں، غلط معلومات پھیلانے، عوامی رائے میں ہیرا پھیری کرنے، یا دھوکہ دہی کے مقاصد کے لیے افراد کی نقالی کرنے کے لیے انتہائی حقیقت پسندانہ AI چیٹ بوٹس کا فائدہ اٹھا سکتے ہیں۔ ایک AI جو حقیقی انسانوں سے زیادہ کثرت سے انسانی سمجھا جاتا ہے، دھوکہ دہی کے لیے ایک ناقابل یقین حد تک طاقتور ذریعہ ہو سکتا ہے، جس سے افراد کے لیے آن لائن تعاملات پر بھروسہ کرنا مشکل ہو جاتا ہے۔ ‘پرسونا’ حکمت عملی کی تاثیر یہاں خاص طور پر تشویشناک ہے، کیونکہ AI کو مخصوص قسم کے قابل اعتماد افراد یا اتھارٹی شخصیات کی نقالی کرنے کے لیے تیار کیا جا سکتا ہے۔
- عمومی سماجی ہلچل: مخصوص ایپلی کیشنز سے ہٹ کر، ناقابل شناخت انسانی نقالی کے قابل AI کی وسیع پیمانے پر تعیناتی بنیادی طور پر سماجی حرکیات کو تبدیل کر سکتی ہے۔ ہم آن لائن ماحول میں اعتماد کیسے قائم کرتے ہیں؟ انسانی تعلق کی نوعیت کا کیا ہوتا ہے جب ممکنہ طور پر مصنوعی بات چیت کرنے والوں کے ذریعے ثالثی کی جاتی ہے؟ کیا یہ بڑھتی ہوئی تنہائی کا باعث بن سکتا ہے، یا متضاد طور پر، AI-انسانی صحبت کی نئی شکلیں؟ انسانی اور مشین مواصلات کے درمیان دھندلی لکیر ان سوالات کے ساتھ ایک سماجی حساب کتاب کی ضرورت ہے۔ یہ ڈیجیٹل دور میں صداقت اور تعامل کی ہماری تعریفوں کو چیلنج کرتا ہے۔
یہ مطالعہ، جو فی الحال ہم مرتبہ جائزے کا منتظر ہے، AI کی انسانی بات چیت کے رویے کی نقل تیار کرنے کی صلاحیت میں تیزی سے پیشرفت کو واضح کرنے والے ایک اہم ڈیٹا پوائنٹ کے طور پر کام کرتا ہے۔ یہ اس بات پر زور دیتا ہے کہ جب حقیقی مصنوعی عمومی ذہانت کے بارے میں بحث جاری ہے، مخصوص سیاق و سباق میں AI کی عمل کرنے کی عملی صلاحیت ایک نازک موڑ پر پہنچ گئی ہے۔ ہم ایک ایسے دور میں داخل ہو رہے ہیں جہاں ثبوت کا بوجھ بدل سکتا ہے - یہ پوچھنے کے بجائے کہ کیا کوئی مشین انسانی لگ سکتی ہے، ہمیں تیزی سے یہ سوال کرنے کی ضرورت پڑ سکتی ہے کہ کیا وہ ‘انسان’ جس کے ساتھ ہم آن لائن بات چیت کر رہے ہیں واقعی حیاتیاتی ہے۔ نقالی کا کھیل ایک نئی سطح پر پہنچ گیا ہے، اور اس کے نتائج ابھی سامنے آنا شروع ہوئے ہیں۔