اینتھروپک کا کلاڈ پوکیمون کو کیوں نہیں ہرا سکا؟

AGI کا وعدہ

مصنوعی ذہانت کے بڑھتے ہوئے شعبے میں، ‘مصنوعی جنرل انٹیلی جنس’ (AGI) کا تصور ایک دلفریب امکان بن گیا ہے۔ صنعت کے رہنما تیزی سے یہ تجویز کر رہے ہیں کہ ہم ایسے ورچوئل ایجنٹس بنانے کے دہانے پر ہیں جو علمی کاموں کی ایک وسیع رینج میں انسانی سمجھ اور کارکردگی کا مقابلہ کرنے، یا اس سے بھی آگے نکل جانے کی صلاحیت رکھتے ہیں۔ اس توقع نے ٹیک کمپنیوں کے درمیان ایک دوڑ کو ہوا دی ہے، ہر ایک اس اہم سنگ میل کو حاصل کرنے والا پہلا بننے کی کوشش کر رہا ہے۔

OpenAI، AI کے میدان میں ایک بڑا کھلاڑی، ‘پی ایچ ڈی لیول’ AI ایجنٹ کی آمد کا اشارہ دے رہا ہے۔ ان کا کہنا ہے کہ یہ ایجنٹ خود مختار طور پر کام کر سکتا ہے، ‘اعلی آمدنی والے علمی کارکن’ کی سطح پر کارکردگی کا مظاہرہ کر سکتا ہے۔ ایلون مسک، ہمیشہ پرجوش کاروباری، نے اس سے بھی زیادہ جرات مندانہ پیشین گوئیاں کی ہیں، یہ کہتے ہوئے کہ 2025 کے آخر تک ہمارے پاس AI ‘کسی بھی انسان سے زیادہ ذہین’ ہونے کا امکان ہے۔ ڈاریو اموڈی، Anthropic کے CEO، ایک اور ممتاز AI کمپنی، تھوڑا زیادہ محتاط ٹائم لائن پیش کرتے ہیں لیکن ایک جیسا وژن رکھتے ہیں، یہ تجویز کرتے ہیں کہ AI 2027 کے آخر تک ‘تقریباً ہر چیز میں انسانوں سے بہتر’ ہو سکتا ہے۔

Anthropic کا ‘Claude Plays Pokémon’ تجربہ

پرجوش پیشین گوئیوں کے اس پس منظر کے درمیان، Anthropic نے گزشتہ ماہ اپنا ‘Claude Plays Pokémon’ تجربہ متعارف کرایا۔ اس پروجیکٹ کو، متوقع AGI مستقبل کی جانب ایک قدم کے طور پر پیش کیا گیا، ‘AI سسٹمز کی جھلکیاں دکھانے کے طور پر بیان کیا گیا جو چیلنجوں سے بڑھتی ہوئی قابلیت کے ساتھ نمٹتے ہیں، نہ صرف تربیت کے ذریعے بلکہ عمومی استدلال کے ساتھ۔’ Anthropic نے اس بات پر روشنی ڈال کر کافی توجہ حاصل کی کہ کس طرح Claude 3.7 Sonnet کی ‘بہتر استدلال کی صلاحیتوں’ نے کمپنی کے تازہ ترین ماڈل کو کلاسک Game Boy RPG، Pokémon میں ترقی کرنے کے قابل بنایا، جس طرح سے ‘پرانے ماڈلز کو حاصل کرنے کی بہت کم امید تھی۔’

کمپنی نے اس بات پر زور دیا کہ Claude 3.7 Sonnet کی ‘توسیع شدہ سوچ’ نے نئے ماڈل کو ‘آگے کی منصوبہ بندی کرنے، اپنے مقاصد کو یاد رکھنے، اور ابتدائی حکمت عملی ناکام ہونے پر اپنانے’ کی اجازت دی۔ Anthropic نے دلیل دی کہ یہ ‘پکسلیٹڈ جم لیڈرز سے لڑنے کے لیے اہم مہارتیں ہیں۔ اور، ہم سمجھتے ہیں، حقیقی دنیا کے مسائل کو حل کرنے میں بھی۔’ اس کا مطلب واضح تھا: Pokémon میں Claude کی پیشرفت صرف ایک کھیل نہیں تھی۔ یہ AI کی پیچیدہ، حقیقی دنیا کے چیلنجوں سے نمٹنے کی بڑھتی ہوئی صلاحیت کا مظاہرہ تھا۔

حقیقت کی جانچ: Claude کی جدوجہد

تاہم، Claude کی Pokémon کارکردگی کے بارے میں ابتدائی جوش و خروش حقیقت کی ایک خوراک سے کم ہو گیا ہے۔ اگرچہ Claude 3.7 Sonnet نے بلاشبہ اپنے پیشروؤں سے بہتر کارکردگی کا مظاہرہ کیا، لیکن اس نے گیم پر مہارت حاصل نہیں کی۔ Twitch پر ہزاروں ناظرین نے Claude کی جاری جدوجہد کا مشاہدہ کیا ہے، اس کی بار بار غلطیوں اور ناکارآمدیوں کا مشاہدہ کیا ہے۔

حرکتوں کے درمیان توسیع شدہ ‘سوچ’ کے وقفوں کے باوجود – جس کے دوران ناظرین سسٹم کے مصنوعی استدلال کے عمل کا مشاہدہ کر سکتے ہیں – Claude اکثر خود کو پاتا ہے:

  • مکمل شدہ قصبوں کا دوبارہ دورہ: AI بار بار ان علاقوں میں واپس آتا ہے جنہیں وہ پہلے ہی دریافت کر چکا ہے، بظاہر بغیر کسی مقصد کے۔
  • اندھے کونوں میں پھنس جانا: Claude اکثر نقشے کے کونوں میں طویل عرصے تک پھنس جاتا ہے، باہر نکلنے کا راستہ تلاش کرنے سے قاصر رہتا ہے۔
  • غیر مددگار NPCs کے ساتھ بار بار بات چیت: AI کو ایک ہی غیر کھلاڑی کرداروں کے ساتھ بار بار بے نتیجہ گفتگو کرتے ہوئے دیکھا گیا ہے۔

واضح طور پر ذیلی انسانی ان-گیم کارکردگی کی یہ مثالیں کچھ لوگوں کے تصور کردہ سپر انٹیلی جنس سے بہت دور ایک تصویر پینٹ کرتی ہیں۔ بچوں کے لیے بنائے گئے گیم کے ساتھ Claude کو جدوجہد کرتے ہوئے دیکھ کر، یہ تصور کرنا مشکل ہو جاتا ہے کہ ہم کمپیوٹر انٹیلی جنس کے ایک نئے دور کا آغاز دیکھ رہے ہیں۔

ذیلی انسانی کارکردگی سے سبق

اپنی خامیوں کے باوجود، Claude کی Pokémon کارکردگی کی موجودہ سطح عمومی، انسانی سطح کی مصنوعی ذہانت کی جاری جستجو کے بارے میں قیمتی بصیرت فراہم کرتی ہے۔ یہاں تک کہ اس کی جدوجہد بھی اہم اسباق رکھتی ہے جو مستقبل کی ترقی کی کوششوں کو مطلع کر سکتی ہے۔

ایک لحاظ سے، یہ قابل ذکر ہے کہ Claude Pokémon بالکل کھیل سکتا ہے۔ Go اور Dota 2 جیسے گیمز کے لیے AI سسٹم تیار کرتے وقت، انجینئرز عام طور پر اپنے الگورتھم کو گیم کے قواعد و ضوابط اور حکمت عملیوں کے بارے میں وسیع معلومات فراہم کرتے ہیں، ساتھ ہی ان کی سیکھنے کی رہنمائی کے لیے ایک انعامی فنکشن بھی فراہم کرتے ہیں۔ اس کے برعکس، ڈیوڈ ہرشی، Claude Plays Pokémon پروجیکٹ کے پیچھے ڈویلپر، نے ایک غیر ترمیم شدہ، عمومی Claude ماڈل کے ساتھ شروعات کی جسے خاص طور پر Pokémon گیمز کھیلنے کے لیے تربیت یافتہ یا ٹیون نہیں کیا گیا تھا۔

ہرشی نے Ars کو بتایا، “یہ خالصتاً وہ مختلف چیزیں ہیں جو [Claude] دنیا کے بارے میں سمجھتا ہے جسے ویڈیو گیمز کی طرف اشارہ کرنے کے لیے استعمال کیا جا رہا ہے۔” انہوں نے مزید کہا، “لہذا اس میں پوکیمون کا احساس ہے۔ اگر آپ claude.ai پر جائیں اور پوکیمون کے بارے میں پوچھیں، تو یہ جانتا ہے کہ پوکیمون کیا ہے اس کی بنیاد پر جو اس نے پڑھا ہے… اگر آپ پوچھیں تو یہ آپ کو بتائے گا کہ آٹھ جم بیجز ہیں، یہ آپ کو بتائے گا کہ پہلا بروک ہے… یہ وسیع ڈھانچہ جانتا ہے۔”

بصری تشریح کے چیلنجز

گیم اسٹیٹ کی معلومات کے لیے کلیدی Game Boy RAM ایڈریسز کی نگرانی کے علاوہ، Claude گیم کے بصری آؤٹ پٹ کی تشریح اسی طرح کرتا ہے جیسے ایک انسانی کھلاڑی کرے گا۔ تاہم، AI امیج پروسیسنگ میں حالیہ پیشرفت کے باوجود، Claude اب بھی Game Boy اسکرین شاٹ کی کم ریزولوشن، پکسلیٹڈ دنیا کی تشریح اسی درستگی کے ساتھ کرنے کے لیے جدوجہد کرتا ہے جیسے ایک انسان۔

ہرشی نے اعتراف کیا، “Claude اب بھی اسکرین پر کیا ہے اسے سمجھنے میں خاص طور پر اچھا نہیں ہے۔” “آپ اسے ہر وقت دیواروں میں چلنے کی کوشش کرتے ہوئے دیکھیں گے۔”

ہرشی کو شبہ ہے کہ Claude کے تربیتی ڈیٹا میں غالباً Game Boy اسکرینز سے ملتی جلتی تصاویر کی تفصیلی متنی وضاحتوں کا فقدان ہے۔ اس کا مطلب ہے کہ، کسی حد تک متضاد طور پر، Claude درحقیقت زیادہ حقیقت پسندانہ امیجری کے ساتھ بہتر کارکردگی کا مظاہرہ کر سکتا ہے۔

ہرشی نے نوٹ کیا، “یہ انسانوں کے بارے میں ان مضحکہ خیز چیزوں میں سے ایک ہے کہ ہم لوگوں کے ان آٹھ بائی آٹھ پکسل بلابز کو دیکھ کر کہہ سکتے ہیں، ‘یہ نیلے بالوں والی لڑکی ہے۔’” “لوگوں میں، میرے خیال میں، ہماری حقیقی دنیا سے نقشہ بنانے اور سمجھنے اور اس طرح کی… صلاحیت ہے… لہذا میں ایمانداری سے حیران ہوں کہ Claude اسکرین پر ایک شخص کو دیکھنے کے قابل ہونے میں اتنا اچھا ہے۔”

مختلف طاقتیں، مختلف کمزوریاں

یہاں تک کہ کامل بصری تشریح کے ساتھ، ہرشی کا خیال ہے کہ Claude اب بھی 2D نیویگیشن چیلنجز کے ساتھ جدوجہد کرے گا جو انسانوں کے لیے معمولی ہیں۔ انہوں نے کہا، “میرے لیے یہ سمجھنا کافی آسان ہے کہ [ایک ان-گیم] عمارت ایک عمارت ہے اور میں کسی عمارت سے نہیں گزر سکتا۔” “اور یہ [کچھ] ہے جسے سمجھنا Claude کے لیے کافی مشکل ہے… یہ مضحکہ خیز ہے کیونکہ یہ صرف مختلف طریقوں سے ہوشیار ہے، آپ جانتے ہیں؟”

ہرشی کے مطابق، جہاں Claude سبقت لے جاتا ہے، وہ گیم کے زیادہ ٹیکسٹ پر مبنی پہلوؤں میں ہے۔ لڑائیوں کے دوران، Claude آسانی سے دیکھتا ہے جب گیم اشارہ کرتا ہے کہ ایک الیکٹرک ٹائپ پوکیمون کا حملہ ایک راک ٹائپ مخالف کے خلاف ‘بہت موثر نہیں’ ہے۔ پھر یہ اس معلومات کو مستقبل کے حوالے کے لیے اپنے وسیع تحریری علمی بنیاد میں محفوظ کرتا ہے۔ Claude پوکیمون کو پکڑنے اور ان کا انتظام کرنے کے طویل مدتی منصوبوں میں ان حکمت عملیوں کو بڑھاتے ہوئے، متعدد معلومات کو جدید جنگی حکمت عملیوں میں بھی ضم کر سکتا ہے۔

Claude اس وقت بھی حیران کن ‘ذہانت’ کا مظاہرہ کرتا ہے جب گیم کا متن جان بوجھ کر گمراہ کن یا نامکمل ہو۔ ہرشی نے ابتدائی گیم ٹاسک کا حوالہ دیا جہاں کھلاڑی کو پروفیسر اوک کو اگلے دروازے پر تلاش کرنے کے لیے کہا جاتا ہے، صرف یہ دریافت کرنے کے لیے کہ وہ وہاں نہیں ہے۔ ہرشی نے کہا، “5 سال کی عمر میں، یہ میرے لیے بہت الجھا دینے والا تھا۔” “لیکن Claude درحقیقت عام طور پر حرکات کے اسی سیٹ سے گزرتا ہے جہاں وہ ماں سے بات کرتا ہے، لیب میں جاتا ہے، [اوک] کو نہیں ڈھونڈتا، کہتا ہے، ‘مجھے کچھ معلوم کرنے کی ضرورت ہے’… یہ اتنا نفیس ہے کہ [انسانوں] کو دراصل اسے سیکھنے کا طریقہ بھی ہے۔”

انسانی سطح کے کھیل کے مقابلے میں یہ متضاد طاقتیں اور کمزوریاں، AI تحقیق اور صلاحیتوں کی مجموعی حالت کی عکاسی کرتی ہیں، ہرشی نے وضاحت کی۔ “میرے خیال میں یہ ان ماڈلز کے بارے میں صرف ایک قسم کی عالمگیر چیز ہے… ہم نے اس کا ٹیکسٹ سائیڈ پہلے بنایا، اور ٹیکسٹ سائیڈ یقینی طور پر… زیادہ طاقتور ہے۔ یہ ماڈل تصاویر کے بارے میں کیسے استدلال کر سکتے ہیں یہ بہتر ہو رہا ہے، لیکن میرے خیال میں یہ ایک مہذب سا پیچھے ہے۔”

یادداشت کی حدود

بصری اور متنی تشریح کے ساتھ چیلنجوں سے ہٹ کر، ہرشی نے تسلیم کیا کہ Claude جو کچھ سیکھا ہے اسے ‘یاد رکھنے’ میں جدوجہد کرتا ہے۔ موجودہ ماڈل میں 200,000 ٹوکنز کی ‘کنٹیکسٹ ونڈو’ ہے، جو کسی بھی وقت اس کی ‘یادداشت’ میں ذخیرہ کر سکنے والی متعلقہ معلومات کی مقدار کو محدود کرتی ہے۔ جب سسٹم کا پھیلتا ہوا علمی بنیاد اس ونڈو کو بھرتا ہے، تو Claude ایک وسیع خلاصہ عمل سے گزرتا ہے، تفصیلی نوٹوں کو مختصر خلاصوں میں گاڑھا کرتا ہے جو لامحالہ کچھ باریک تفصیلات کھو دیتے ہیں۔

اس سے Claude ‘بہت لمبے عرصے تک چیزوں کا ٹریک رکھنے میں مشکل پیش آتی ہے اور واقعی اس کا ایک بڑا احساس ہوتا ہے کہ اس نے اب تک کیا کوشش کی ہے،’ ہرشی نے کہا۔ “آپ یقینی طور پر اسے کبھی کبھار ایسی چیز کو حذف کرتے ہوئے دیکھیں گے جسے اسے نہیں کرنا چاہیے تھا۔ کوئی بھی چیز جو آپ کے علمی بنیاد میں نہیں ہے یا آپ کے خلاصے میں نہیں ہے وہ ختم ہو جائے گی، لہذا آپ کو اس بارے میں سوچنا ہوگا کہ آپ وہاں کیا رکھنا چاہتے ہیں۔”

غلط معلومات کے خطرات

اہم معلومات کو بھول جانے سے زیادہ مسئلہ Claude کا نادانستہ طور پر اپنے علمی بنیاد میں غلط معلومات داخل کرنے کا رجحان ہے۔ ایک سازشی تھیوریسٹ کی طرح جو ایک ناقص بنیاد پر ایک عالمی نظریہ بناتا ہے، Claude اس بات کو پہچاننے میں بہت سست ہو سکتا ہے جب اس کے خود تصنیف کردہ علمی بنیاد میں کوئی غلطی اس کے Pokémon کھیل کو گمراہ کر رہی ہو۔

ہرشی نے کہا، “وہ چیزیں جو ماضی میں لکھی گئی ہیں، یہ ایک طرح سے کافی اندھے پن سے بھروسہ کرتا ہے۔” “میں نے اسے بہت قائل ہوتے دیکھا ہے کہ اسے [ان-گیم لوکیشن] Viridian Forest کا راستہ کچھ مخصوص نقاط پر ملا ہے، اور پھر یہ ان نقاط کے ارد گرد ایک چھوٹے سے چھوٹے مربع کی تلاش میں گھنٹوں اور گھنٹوں گزارتا ہے جو غلط ہیں بجائے اس کے کہ کچھ اور کریں۔ اسے یہ فیصلہ کرنے میں بہت زیادہ وقت لگتا ہے کہ یہ ‘ناکامی’ تھی۔”

ان چیلنجوں کے باوجود، ہرشی نے نوٹ کیا کہ Claude 3.7 Sonnet پچھلے ماڈلز کے مقابلے میں ‘اپنی مفروضوں پر سوال کرنے، نئی حکمت عملیوں کو آزمانے، اور مختلف حکمت عملیوں کے طویل افق پر نظر رکھنے میں نمایاں طور پر بہتر ہے [یہ دیکھنے کے لیے] کہ آیا وہ کام کرتے ہیں یا نہیں۔’ جب کہ نیا ماڈل اب بھی ‘واقعی طویل عرصے تک جدوجہد کرتا ہے’ ایک ہی کام کو دوبارہ کرنے کی کوشش کرتا ہے، یہ بالآخر ‘اس بات کا احساس حاصل کرنے کا رجحان رکھتا ہے کہ کیا ہو رہا ہے اور اس نے پہلے کیا کرنے کی کوشش کی ہے، اور یہ اس سے حقیقی پیشرفت میں بہت زیادہ ٹھوکر کھاتا ہے،’ ہرشی نے کہا۔

آگے کا راستہ

ہرشی نے کہا کہ Claude Plays Pokémon کو متعدد تکراروں میں دیکھنے کے سب سے دلچسپ پہلوؤں میں سے ایک یہ دیکھنا ہے کہ سسٹم کی پیشرفت اور حکمت عملی رنز کے درمیان نمایاں طور پر کیسے مختلف ہو سکتی ہے۔ بعض اوقات، Claude ‘مختلف راستوں کو آزمانے کے بارے میں تفصیلی نوٹ رکھ کر’ ‘دراصل ایک کافی مربوط حکمت عملی بنانے کے قابل’ ہونے کا مظاہرہ کرتا ہے، انہوں نے وضاحت کی۔ لیکن ‘زیادہ تر وقت ایسا نہیں ہوتا… زیادہ تر وقت، یہ دیوار میںگھومتا ہے کیونکہ اسے یقین ہے کہ اسے باہر نکلنے کا راستہ نظر آتا ہے۔’

ہرشی کے مطابق، Claude کے موجودہ ورژن کی بڑی حدود میں سے ایک یہ ہے کہ ‘جب یہ اچھی حکمت عملی اخذ کرتا ہے، تو مجھے نہیں لگتا کہ اس میں ضروری طور پر خود آگاہی ہے کہ وہ جان سکے کہ ایک حکمت عملی [یہ] دوسری سے بہتر ہے۔’ اور یہ، انہوں نے تسلیم کیا، حل کرنے کے لیے کوئی معمولی مسئلہ نہیں ہے۔

بہر حال، ہرشی Game Boy اسکرین شاٹس کے بارے میں ماڈل کی سمجھ کو بڑھا کر Claude کے Pokémon کھیل کو بہتر بنانے کے لیے ‘کم لٹکنے والے پھل’ دیکھتا ہے۔ انہوں نے کہا، “میرے خیال میں ایک موقع ہے کہ اگر اسکرین پر کیا ہے اس کا ایک بہترین احساس ہوتا تو یہ گیم کو ہرا سکتا ہے،” یہ تجویز کرتے ہوئے کہ ایسا ماڈل غالباً ‘انسان سے تھوڑا سا کم’ کارکردگی کا مظاہرہ کرے گا۔

ہرشی نے مزید کہا کہ مستقبل کے Claude ماڈلز کے لیے سیاق و سباق کی ونڈو کو بڑھانے سے وہ ‘طویل عرصے تک استدلال کرنے اور طویل عرصے تک چیزوں کو زیادہ مربوط طریقے سے سنبھالنے’ کے قابل ہو جائیں گے۔ انہوں نے کہا کہ مستقبل کے ماڈلز ‘یاد رکھنے میں تھوڑا بہتر ہو کر، ایک مربوط سیٹ کا ٹریک رکھنے میں جو اسے پیشرفت کرنے کی کوشش کرنے کی ضرورت ہے’ میں بہتری لائیں گے۔

جب کہ AI ماڈلز میں آنے والی بہتری کا امکان ناقابل تردید ہے، Claude کی موجودہ Pokémon کارکردگی یہ تجویز نہیں کرتی ہے کہ یہ انسانی سطح کی، مکمل طور پر عمومی مصنوعی ذہانت کے دور کا آغاز کرنے والا ہے۔ ہرشی نے اعتراف کیا کہ Claude 3.7 Sonnet کو 80 گھنٹے تک Mt. Moon پر پھنسے ہوئے دیکھ کر یہ ‘ایسا ماڈل لگ سکتا ہے جو نہیں جانتا کہ یہ کیا کر رہا ہے۔’

تاہم، ہرشی اس کبھی کبھار آگاہی کی جھلکوں سے متاثر رہتا ہے جو Claude کا نیا استدلال ماڈل ظاہر کرتا ہے، یہ نوٹ کرتے ہوئے کہ یہ بعض اوقات ‘ایک طرح سے بتائے گا کہ یہ نہیں جانتا کہ یہ کیا کر رہا ہے اور جانتا ہے کہ اسے کچھ مختلف کرنے کی ضرورت ہے۔ اور ‘بالکل نہیں کر سکتا’ اور ‘ایک طرح سے کر سکتا ہے’ کے درمیان فرق میرے لیے ان AI چیزوں کے لیے کافی بڑا ہے،’ انہوں نے جاری رکھا۔ ‘آپ جانتے ہیں، جب کوئی چیز ایک طرح سے کچھ کر سکتی ہے تو اس کا عام طور پر مطلب ہوتا ہے کہ ہم اسے واقعی، واقعی اچھی طرح سے کرنے کے قابل ہونے کے کافی قریب ہیں۔’