مصنوعی ذہانت (AI) کا منظرنامہ مسلسل بدل رہا ہے، جس میں ایسے سنگ میل عبور کیے جا رہے ہیں جو کبھی سائنس فکشن کا حصہ سمجھے جاتے تھے۔ ان میں سب سے پائیدار معیاروں میں سے ایک ٹیورنگ ٹیسٹ رہا ہے، جو ستر سال پہلے ایک مشین کی انسانی گفتگو کی قائل کرنے والی نقل کرنے کی صلاحیت کی پیمائش کے طور پر وضع کیا گیا تھا۔ دہائیوں تک، یہ ایک زبردست، شاید علامتی، چیلنج بنا رہا۔ تاہم، حالیہ پیش رفت بتاتی ہے کہ یہ حد فیصلہ کن طور پر عبور کر لی گئی ہو سکتی ہے۔ یونیورسٹی آف کیلیفورنیا ایٹ سان ڈیاگو (University of California at San Diego) سے سامنے آنے والی ایک تحقیق سے پتہ چلتا ہے کہ OpenAI کا جدید لینگویج ماڈل، GPT-4.5، نہ صرف ٹیسٹ میں کامیاب ہوا بلکہ حیران کن کامیابی کے ساتھ ایسا کیا، اکثر اپنی انسانی نقالی میں حقیقی انسانوں سے زیادہ قائل کرنے والا ثابت ہوا۔ یہ نتیجہ AI کی صلاحیتوں کے بارے میں گفتگو کو نئے علاقے میں لے جاتا ہے، جس میں خود ٹیسٹ، مشین انٹیلیجنس کی نوعیت، اور ایسی ہستیوں کی تخلیق کے مضمرات پر گہری نظر ڈالنے کی ضرورت ہے جو ہمارے اپنے لسانی رویے کی اتنی مؤثر طریقے سے عکاسی کر سکتی ہیں۔
ڈیجیٹل دھوکہ دہی کو سمجھنا: تجربے کے اندر
تحقیقی کوشش، جس کا موزوں عنوان ‘Large Language Models Pass the Turing Test’ ہے اور فی الحال ہم مرتبہ جائزہ (peer review) سے گزر رہی ہے، نے ایک ایسا طریقہ کار استعمال کیا جو AI کی بات چیت کی صلاحیتوں کو انسانوں کے ساتھ براہ راست موازنہ میں جانچنے کے لیے ڈیزائن کیا گیا تھا۔ سیٹنگ ایک آن لائن پلیٹ فارم تھی جہاں تعاملات خالصتاًمتن کے ذریعے ہوتے تھے، جس سے بصری اور سمعی اشارے ختم ہو جاتے تھے جو غیر انسانی شریک کو ظاہر کر سکتے تھے۔ اس ڈیجیٹل نقاب پوشی کے لیے تقریباً تین سو یونیورسٹی طلباء کو بھرتی کیا گیا تھا۔ ہر شریک کو تصادفی طور پر تین کرداروں میں سے ایک تفویض کیا گیا تھا: سمجھدار جج، ایک انسانی ‘گواہ’، یا، جج کو ابتدائی طور پر معلوم نہ ہوتے ہوئے، ایک AI ‘گواہ’۔
بنیادی کام قائل کرنے کا کھیل تھا۔ انسانی گواہ اور AI گواہ دونوں، الگ الگ ڈیجیٹل کمروں سے کام کرتے ہوئے، جج کے ساتھ متن پر مبنی گفتگو میں مشغول ہوئے۔ ان کا مقصد واحد تھا: جج کو اپنی انسانی شناخت کا قائل کرنا۔ جج، بات چیت کی مدت کے بعد، نازک فیصلے کا سامنا کرتا تھا - شناخت کریں کہ کون سا بات چیت کرنے والا انسان تھا اور کون سی مشین۔
یہ صرف ایک AI کا انسانی بنیاد کے خلاف ٹیسٹ نہیں تھا۔ محققین نے کئی مختلف AI پروگراموں کو اس چیلنج کے مقابلے میں کھڑا کیا، جس سے بات چیت کرنے والے AI کی حالت پر ایک تقابلی نقطہ نظر فراہم ہوا:
- GPT-4.5 (پرسونا پرامپٹ کے ساتھ): یہ ماڈل، جب خاص طور پر انسانی جیسی شخصیت اپنانے کی ہدایت دی گئی، تو ایک قابل ذکر کارنامہ انجام دیا۔ 73% تبادلوں میں جہاں یہ اس شرط کے تحت کام کرتا تھا، ججوں نے غلطی سے اسے انسانی شریک کے طور پر شناخت کیا۔ یہ اعداد و شمار نہ صرف مطلق معنوں میں زیادہ ہے؛ اس نے اسی تجرباتی سیٹ اپ کے اندر اپنی انسانیت ثابت کرنے کی کوشش کرنے والے حقیقی انسانی گواہوں کی کامیابی کی شرح کو بھی پیچھے چھوڑ دیا۔
- Meta’s LLaMa 3.1 405b (پرسونا پرامپٹ کے ساتھ): ایک اور طاقتور عصری بڑا لینگویج ماڈل، LLaMa 3.1، نے بھی اسی طرح پرامپٹ کیے جانے پر اہم قائل کرنے کی صلاحیت کا مظاہرہ کیا، ججوں کو 56% وقت بے وقوف بنایا۔ اگرچہ اس مخصوص آزمائش میں GPT-4.5 کی بلندیوں تک نہیں پہنچا، اس کی کارکردگی نے پھر بھی انسانی اور مشین مواصلات کے درمیان کی لکیروں کو نمایاں طور پر دھندلا دیا۔
- GPT-4o (OpenAI کا پچھلا ماڈل): دلچسپ بات یہ ہے کہ OpenAI کا تھوڑا پہلے کا ماڈل، GPT-4o، جب مخصوص پرسونا پرامپٹ کے بغیر ٹیسٹ کیا گیا تو نمایاں طور پر مختلف کارکردگی کا مظاہرہ کیا۔ اسے صرف 21% وقت انسان کے طور پر شناخت کیا گیا، جو مخصوص ہدایات کے اہم کردار یا شاید ماڈلز کے بات چیت کے انداز میں موروثی فرق کی نشاندہی کرتا ہے جب واضح طور پر رہنمائی نہ کی گئی ہو۔
- ELIZA: ایک تاریخی معیار کے طور پر، محققین نے ELIZA کو شامل کیا، جو 1960 کی دہائی میں تیار کیا گیا ایک ابتدائی چیٹ بوٹ تھا جو راجیرین سائیکو تھراپسٹ کی نقالی کرنے والی سادہ پیٹرن میچنگ تکنیک کے لیے جانا جاتا تھا۔ حیرت کی بات نہیں، ELIZA کی انسانی نقالی کی کوششیں جدید شرکاء کے لیے بہت کم قائل کرنے والی تھیں، جنہیں صرف 23% وقت انسان سمجھا گیا۔ یہ درمیانی دہائیوں میں قدرتی زبان کی پروسیسنگ میں ہونے والی بے پناہ پیش رفت کو اجاگر کرتا ہے۔
کیمرون جونز (Cameron Jones)، UC San Diego کی لینگویج اینڈ کوگنیشن لیب (Language and Cognition Lab) سے اس تحقیق میں شامل ایک محقق، نے اس حیران کن تلاش کا خلاصہ مختصر طور پر کیا۔ انہوں نے نوٹ کیا کہانسانی ججوں کو نمایاں طور پر جدوجہد کرنا پڑی، جب وہ انسانوں اور GPT-4.5 یا LLaMa کے پرامپٹڈ ورژن کے درمیان فرق کرنے کی کوشش کر رہے تھے تو وہ بے ترتیب موقع سے بہتر کارکردگی کا مظاہرہ نہیں کر سکے۔ زیادہ واضح طور پر، انہوں نے غیر متوقع نتیجہ پر زور دیا: ‘اور 4.5 کو تو حقیقی انسانوں سے بھی نمایاں طور پر زیادہ کثرت سے انسان سمجھا گیا!’ اس سے پتہ چلتا ہے کہ AI، مخصوص حالات میں، متن میں انسانیت کو پیش کرنے میں خود انسانوں سے بہتر ہو سکتا ہے، شاید بات چیت کے اصولوں پر زیادہ قریب سے عمل پیرا ہو کر یا ان مخصوص نشانیوں سے بچ کر جو حقیقی لوگ ظاہر کرتے ہیں۔ اس کا مضمر گہرا ہے - AI صرف پاس نہیں ہو رہا تھا؛ یہ اس مخصوص تناظر میں سمجھی جانے والی انسانیت کے لیے ایک نیا معیار قائم کر رہا تھا۔
معیار پر نظر ثانی: کیا ٹیورنگ ٹیسٹ اب بھی سونے کا معیار ہے؟
یہ خبر کہ ایک مشین نے ممکنہ طور پر ٹیورنگ ٹیسٹ ‘پاس’ کر لیا ہے، خاص طور پر انسانوں کو پیچھے چھوڑ کر، لازمی طور پر بحث کو جنم دیتی ہے۔ کیا یہ حقیقی مشین انٹیلیجنس کے آغاز کی نشاندہی کرتا ہے، جس قسم کا ایلن ٹیورنگ (Alan Turing) نے خود قیاس کیا تھا؟ یا کیا یہ صرف اس ٹیسٹ کی حدود کو ظاہر کرتا ہے جو اس نے ہمارے اپنے دور سے یکسر مختلف دور میں تجویز کیا تھا؟ AI کمیونٹی میں کئی نمایاں آوازیں احتیاط پر زور دیتی ہیں، یہ تجویز کرتے ہوئے کہ اس خاص امتحان میں کامیابی حاصل کرنا مصنوعی عمومی ذہانت (AGI) - AI کی ایک وسیع رینج کے کاموں میں انسانی سطح پر علم کو سمجھنے، سیکھنے اور لاگو کرنے کی فرضی صلاحیت - کے حصول کے مترادف نہیں ہے۔
میلانی مچل (Melanie Mitchell)، سانتا فے انسٹی ٹیوٹ (Santa Fe Institute) کی ایک AI اسکالر، نے جرنل Science میں اس شکوک و شبہات کو طاقتور طریقے سے بیان کیا۔ وہ دلیل دیتی ہیں کہ ٹیورنگ ٹیسٹ، خاص طور پر اپنی کلاسیکی بات چیت کی شکل میں، حقیقی علمی صلاحیت کی پیمائش سے کم اور ہمارے اپنے انسانی رجحانات اور مفروضوں کی عکاسی زیادہ ہو سکتا ہے۔ ہم سماجی مخلوق ہیں، روانی زبان کو بنیادی سوچ اور ارادے کی علامت کے طور پر تعبیر کرنے کے لیے مائل ہیں۔ GPT-4.5 جیسے بڑے لینگویج ماڈلز انسانی متن کے بہت بڑے ڈیٹاسیٹس پر تربیت یافتہ ہیں، جو انہیں پیٹرن کی شناخت کرنے اور شماریاتی طور پر ممکنہ لسانی ردعمل پیدا کرنے میں غیر معمولی طور پر ماہر بناتے ہیں۔ وہ نحو میں مہارت رکھتے ہیں، بات چیت کے بہاؤ کی نقل کرتے ہیں، اور یہاں تک کہ اسٹائلسٹک باریکیوں کو بھی نقل کر سکتے ہیں۔ تاہم، مچل کا موقف ہے، ‘قدرتی زبان میں روانی سے بولنے کی صلاحیت، شطرنج کھیلنے کی طرح، عمومی ذہانت کا حتمی ثبوت نہیں ہے۔’ کسی مخصوص مہارت میں مہارت، یہاں تک کہ زبان جیسی پیچیدہ مہارت بھی، لازمی طور پر وسیع فہم، شعور، یا تربیت کے دوران سیکھے گئے نمونوں سے ہٹ کر نئے استدلال کی صلاحیت کا مطلب نہیں ہے۔
مچل مزید ٹیورنگ ٹیسٹ کے تصور کی بدلتی ہوئی تشریح، اور شاید کمزوری، کی طرف اشارہ کرتی ہیں۔ وہ اسٹینفورڈ یونیورسٹی (Stanford University) کی جانب سے پہلے کے GPT-4 ماڈل پر تحقیق کے حوالے سے 2024 کے اعلان کا حوالہ دیتی ہیں۔ اسٹینفورڈ ٹیم نے اپنے نتائج کو ‘پہلی باروں میں سے ایک قرار دیا جب کسی مصنوعی ذہانت کے ذریعے نے سخت ٹیورنگ ٹیسٹ پاس کیا’۔ پھر بھی، جیسا کہ مچل مشاہدہ کرتی ہیں، ان کے طریقہ کار میں نفسیاتی سروے اور انٹرایکٹو گیمز پر GPT-4 کے ردعمل میں شماریاتی نمونوں کا انسانی ڈیٹا سے موازنہ کرنا شامل تھا۔ اگرچہ تقابلی تجزیہ کی ایک درست شکل ہے، وہ خشک لہجے میں نوٹ کرتی ہیں کہ یہ تشکیل ‘شاید ٹیورنگ کے لیے قابل شناخت نہ ہو’، جن کی اصل تجویز ناقابل شناخت گفتگو پر مرکوز تھی۔
یہ ایک اہم نکتہ کو اجاگر کرتا ہے: ٹیورنگ ٹیسٹ کوئی یک سنگی وجود نہیں ہے۔ اس کی تشریح اور اطلاق مختلف رہا ہے۔ UC San Diego کا تجربہ ٹیورنگ کی اصل بات چیت کی توجہ کے قریب لگتا ہے، پھر بھی یہاں بھی سوالات پیدا ہوتے ہیں۔ کیا ٹیسٹ واقعی ذہانت کی پیمائش کر رہا تھا، یا یہ AI کی ایک مخصوص کام - پرسونا اپنانے اور بات چیت کی نقالی - کو غیر معمولی طور پر اچھی طرح سے انجام دینے کی صلاحیت کی پیمائش کر رہا تھا؟ یہ حقیقت کہ GPT-4.5 نے ‘پرسونا پرامپٹ’ دیے جانے پر نمایاں طور پر بہتر کارکردگی کا مظاہرہ کیا، یہ بتاتا ہے کہ اس کی کامیابی ہدایات پر مبنی مہارت سے اداکاری کے بارے میں زیادہ ہو سکتی ہے بجائے اس کے کہ ایک موروثی، عمومی انسانی جیسی خوبی ہو۔
ناقدین کا کہنا ہے کہ LLMs بنیادی طور پر انسانی ذہنوں سے مختلف طریقے سے کام کرتے ہیں۔ وہ تصورات کو اس طرح ‘نہیں سمجھتے’ جس طرح انسان سمجھتے ہیں؛ وہ سیکھے ہوئے شماریاتی تعلقات کی بنیاد پر علامتوں میں ہیرا پھیری کرتے ہیں۔ ان میں زندہ تجربہ، تجسیم، شعور، اور حقیقی ارادیت کی کمی ہے۔ اگرچہ وہ جذبات یا تجربات کے بارے میں متن تیار کر سکتے ہیں، وہ انہیں محسوس نہیں کرتے۔ لہذا، صرف لسانی پیداوار پر مبنی ٹیسٹ پاس کرنا انجینئرنگ اور ڈیٹا سائنس کا ایک متاثر کن کارنامہ ہو سکتا ہے، لیکن یہ ضروری نہیں کہ حقیقی ذی شعور ذہانت کے فرق کو ختم کرے۔ ٹیسٹ شاید مشینوں کی اندرونی حالتوں کے بجائے سطحی انسانی رویے کی نقل تیار کرنے کے لیے بڑے ڈیٹاسیٹس اور جدید الگورتھم کی طاقت کے بارے میں زیادہ ظاہر کر رہا ہو۔ یہ ہمیں اس بات کا سامنا کرنے پر مجبور کرتا ہے کہ کیا لسانی روانی انسانی ذہانت کی گہری، کثیر جہتی نوعیت کے لیے کافی پراکسی ہے۔
ایک ایسی دنیا میں رہنمائی جہاں لکیریں دھندلا جاتی ہیں
اس سے قطع نظر کہ GPT-4.5 کی کارکردگی حقیقی ذہانت پر مشتمل ہے یا محض جدید نقالی، عملی مضمرات ناقابل تردید اور دور رس ہیں۔ ہم ایک ایسے دور میں داخل ہو رہے ہیں جہاں آن لائن انسانی اور مشین سے تیار کردہ متن کے درمیان فرق کرنا تیزی سے مشکل ہوتا جا رہا ہے، اگر بعض سیاق و سباق میں ناممکن نہیں۔ اس کے اعتماد، مواصلات، اور ہمارے ڈیجیٹل معاشرے کی ساخت پر گہرے نتائج مرتب ہوتے ہیں۔
AI کی انسانوں کی قائل کرنے والی نقالی کرنے کی صلاحیت غلط معلومات اور ہیرا پھیری کے بارے میں فوری خدشات کو جنم دیتی ہے۔ بدنیتی پر مبنی اداکار ایسی ٹیکنالوجی کو جدید فشنگ اسکیموں، افراد کے لیے تیار کردہ پروپیگنڈا پھیلانے، یا عوامی رائے کو متاثر کرنے یا آن لائن کمیونٹیز میں خلل ڈالنے کے لیے جعلی سوشل میڈیا پروفائلز کی فوجیں بنانے کے لیے استعمال کر سکتے ہیں۔ اگر کنٹرول شدہ تجربے میں سمجھدار صارفین بھی فرق بتانے میں جدوجہد کرتے ہیں، تو کھلے انٹرنیٹ پر دھوکہ دہی کا امکان بہت زیادہ ہے۔ AI سے چلنے والی نقالی اور AI کا پتہ لگانے والے ٹولز کے درمیان ہتھیاروں کی دوڑ تیز ہونے کا امکان ہے، لیکن فائدہ اکثر نقالی کرنے والوں کو ہو سکتا ہے، خاص طور پر جیسے جیسے ماڈل زیادہ بہتر ہوتے جاتے ہیں۔
بدنیتی پر مبنی استعمال سے ہٹ کر، دھندلاتی لکیریں روزمرہ کے تعاملات کو متاثر کرتی ہیں۔ جب چیٹ بوٹس انسانی ایجنٹوں سے ناقابل شناخت ہو جائیں گے تو کسٹمر سروس کیسے بدلے گی؟ کیا آن لائن ڈیٹنگ پروفائلز یا سماجی تعاملات کے لیے تصدیق کی نئی شکلوں کی ضرورت ہوگی؟ انسانوں پر نفسیاتی اثرات بھی اہم ہیں۔ یہ جاننا کہ جس ہستی سے آپ آن لائن بات چیت کر رہے ہیں وہ AI ہو سکتی ہے، عدم اعتماد اور بیگانگی کو فروغ دے سکتا ہے۔ اس کے برعکس، انتہائی قائل کرنے والے AI ساتھیوں سے جذباتی وابستگی قائم کرنا، یہاں تک کہ ان کی نوعیت کو جانتے ہوئے بھی، اپنے اخلاقی اور سماجی سوالات کا مجموعہ پیش کرتا ہے۔
GPT-4.5 جیسے ماڈلز کی کامیابی ہمارے تعلیمی نظاموں اور تخلیقی صنعتوں کو بھی چیلنج کرتی ہے۔ جب AI قابل قبول مضامین تیار کر سکتا ہے تو ہم طالب علم کے کام کا اندازہ کیسے لگاتے ہیں؟ جب AI خبروں کے مضامین، اسکرپٹس، یا یہاں تک کہ شاعری تیار کر سکتا ہے جو قارئین کے ساتھ گونجتی ہے تو انسانی تصنیف کی کیا قدر ہے؟ اگرچہ AI اضافہ اور مدد کے لیے ایک طاقتور ٹول ہو سکتا ہے، انسانی پیداوار کی نقل تیار کرنے کی اس کی صلاحیت اصلیت، تخلیقی صلاحیتوں، اور دانشورانہ املاک کا از سر نو جائزہ لینے کی ضرورت پیدا کرتی ہے۔
مزید برآں، UC San Diego کا مطالعہ AI کی پیشرفت کا اندازہ لگانے کے لیے صرف بات چیتکے ٹیسٹوں پر انحصار کرنے کی حدود کو واضح کرتا ہے۔ اگر مقصد حقیقی طور پر ذہین نظام (AGI) بنانا ہے، نہ کہ صرف ماہر نقال، تو شاید توجہ ان معیارات کی طرف منتقل کرنے کی ضرورت ہے جو استدلال، متنوع ڈومینز میں مسائل حل کرنے، نئی صورتحال کے مطابق ڈھالنے، اور شاید شعور یا خود آگاہی کے پہلوؤں کا بھی جائزہ لیتے ہیں - بدنام زمانہ طور پر مشکل تصورات جن کی تعریف کرنا تو دور کی بات، پیمائش کرنا بھی مشکل ہے۔ ٹیورنگ ٹیسٹ، جو ایک مختلف تکنیکی دور میں وضع کیا گیا تھا، نے ایک متاثر کن گول پوسٹ کے طور پر اپنا مقصد پورا کیا ہو گا، لیکن جدید AI کی پیچیدگیاں زیادہ باریک اور کثیر جہتی تشخیصی فریم ورک کا مطالبہ کر سکتی ہیں۔
GPT-4.5 کی کامیابی ایک اختتامی نقطہ سے زیادہ تنقیدی عکاسی کے لیے ایک محرک ہے۔ یہ انسانی زبان میں مہارت حاصل کرنے میں موجودہ AI تکنیکوں کی غیر معمولی طاقت کو ظاہر کرتا ہے، ایک ایسا کارنامہ جس میں فائدے اور نقصان دونوں کے بے پناہ امکانات ہیں۔ یہ ہمیں ذہانت، شناخت، اور ایک ایسی دنیا میں انسانی مشین کے تعامل کے مستقبل کے بارے میں بنیادی سوالات سے نمٹنے پر مجبور کرتا ہے جہاں قائل کرنے والی ‘بات کرنے’ کی صلاحیت اب خصوصی طور پر انسانی علاقہ نہیں رہی۔ تقلید کا کھیل ایک نئی سطح پر پہنچ گیا ہے، اور اصولوں، کھلاڑیوں، اور داؤ پر لگی چیزوں کو سمجھنا پہلے سے کہیں زیادہ اہم ہو گیا ہے۔