AI بینچ مارکس پر نظر ثانی: بامعنی پیمائش کی تلاش

مصنوعی ذہانت (AI) کی برتری کے حصول کو اکثر بینچ مارک اسکورز سے تقویت ملتی ہے، لیکن کیا یہ اسکور واقعی حقیقی دنیا کی صلاحیتوں کے اشارے ہیں؟ AI کمیونٹی اس سوال سے نبرد آزما ہے کیونکہ روایتی بینچ مارکس کو بڑھتی ہوئی جانچ پڑتال کا سامنا ہے۔

SWE-Bench، جسے نومبر 2024 میں متعارف کرایا گیا، نے تیزی سے AI ماڈل کی کوڈنگ کی مہارت کا اندازہ لگانے کے لیے ایک مقبول ٹول کے طور پر مقبولیت حاصل کی۔ یہ ایک درجن پائتھن پر مبنی پروجیکٹس میں پھیلے ہوئے عوامی گٹ ہب ریپوزٹریز سے نکالے گئے 2,000 سے زیادہ مستند پروگرامنگ چیلنجوں سے فائدہ اٹھاتا ہے۔ ایک مضبوط SWE-Bench اسکور ایک مطلوبہ بیج بن گیا ہے، جو OpenAI، Anthropic، اور Google جیسے معروف AI ڈویلپرز کی جانب سے جاری کردہ بڑے ماڈلز میں نمایاں طور پر دکھائی دیتا ہے۔ ان جنات سے آگے، AI کمپنیاں جو فائن ٹیوننگ میں مہارت رکھتی ہیں، مسلسل SWE-Bench لیڈر بورڈ پر برتری کے لیے مقابلہ کرتی ہیں۔

تاہم، ان بینچ مارکس کے گرد موجود جوش و خروش گمراہ کن ہو سکتا ہے۔ پرنسٹن یونیورسٹی کے محقق جان یانگ، جو SWE-Bench کی ترقی میں شامل ہیں، نوٹ کرتے ہیں کہ سب سے اوپر مقام کے لیے سخت مقابلے کی وجہ سے نظام کی “گیمنگ” ہوئی ہے۔ اس سے اس بارے میں خدشات پیدا ہوتے ہیں کہ کیا یہ بینچ مارکس درست طور پر حقیقی AI کامیابی کی عکاسی کرتے ہیں۔

مسئلہ ضروری نہیں کہ صریحاً دھوکہ دہی ہو، بلکہ ایسی حکمت عملیوں کی ترقی ہے جو خاص طور پر بینچ مارک کی حدود کا استحصال کرنے کے لیے تیار کی گئی ہیں۔ مثال کے طور پر، ابتدائی SWE-Bench نے صرف پائتھن کوڈ پر توجہ مرکوز کی، جس سے ڈویلپرز کو اپنے ماڈلز کو خصوصی طور پر پائتھن پر تربیت دینے کی ترغیب ملی۔ یانگ نے مشاہدہ کیا کہ یہ اعلیٰ اسکور کرنے والے ماڈلز اکثر مختلف پروگرامنگ زبانوں کا سامنا کرنے پر لڑکھڑا جاتے ہیں، جس سے ایک سطحی سمجھداری ظاہر ہوتی ہے جسے وہ “گِلڈڈ” قرار دیتے ہیں۔

یانگ وضاحت کرتے ہیں، "یہ پہلی نظر میں اچھا اور چمکیلا لگتا ہے، لیکن پھر آپ اسے کسی دوسری زبان پر چلانے کی کوشش کرتے ہیں اور پوری چیز بس ختم ہو جاتی ہے۔" "اس مقام پر، آپ ایک سافٹ ویئر انجینئرنگ ایجنٹ ڈیزائن نہیں کر رہے ہیں۔ آپ ایک SWE-Bench ایجنٹ بنانے کے لیے ڈیزائن کر رہے ہیں، جو کہ بہت کم دلچسپ ہے۔"

یہ "SWE-Bench مسئلہ" AI تشخیص میں ایک وسیع تر چیلنج کی عکاسی کرتا ہے۔ بینچ مارکس، جنہیں کبھی پیش رفت کے قابل اعتماد اشارے سمجھا جاتا تھا، تیزی سے حقیقی دنیا کی صلاحیتوں سے الگ ہو رہے ہیں۔ اس مسئلے کو مزید پیچیدہ کرتے ہوئے، شفافیت کے بارے میں خدشات سامنے آئے ہیں، جس سے ان میٹرکس پر اعتماد مزید کم ہو رہا ہے۔ ان مسائل کے باوجود، بینچ مارکس ماڈل کی ترقی میں ایک اہم کردار ادا کرتے رہتے ہیں، حالانکہ بہت سے ماہرین ان کی موروثی قدر پر سوال اٹھاتے ہیں۔ OpenAI کے شریک بانی آندرے کارپیتھی نے موجودہ صورتحال کو "تشخیصی بحران" قرار دیا ہے، جس میں AI صلاحیتوں کی پیمائش کے لیے قابل اعتماد طریقوں کی کمی اور آگے بڑھنے کے لیے ایک واضح راستے کی عدم موجودگی پر افسوس کا اظہار کیا گیا ہے۔

سٹینفورڈ یونیورسٹی کے انسٹی ٹیوٹ فار ہیومن سینٹرڈ AI کی ریسرچ ڈائریکٹر وینیسا پارلی پوچھتی ہیں، "تاریخی طور پر، بینچ مارکس وہ طریقہ تھے جن سے ہم AI سسٹمز کا جائزہ لیتے تھے۔ کیا یہ وہ طریقہ ہے جس سے ہم مستقبل میں سسٹمز کا جائزہ لینا چاہتے ہیں؟ اور اگر ایسا نہیں ہے تو، طریقہ کیا ہے؟"

اکیڈمکس اور AI محققین کی ایک بڑھتی ہوئی جماعت ایک زیادہ مرکوز نقطہ نظر کی وکالت کرتی ہے، جو سماجی علوم سے تحریک لیتی ہے۔ وہ "صداقت" کو ترجیح دینے کی تجویز پیش کرتے ہیں، ایک تصور جو مقداری سماجی سائنسکے لیے مرکزی حیثیت رکھتا ہے، جو اس بات کا اندازہ لگاتا ہے کہ پیمائش کا ایک ٹول کس حد تک درست طریقے سے مطلوبہ تعمیر کو حاصل کرتا ہے۔ صداقت پر یہ زور ان بینچ مارکس کو چیلنج کر سکتا ہے جو مبہم طور پر بیان کردہ تصورات جیسے کہ "استدلال" یا "سائنسی علم" کا جائزہ لیتے ہیں۔ اگرچہ یہ مصنوعی عمومی ذہانت (AGI) کے حصول کو کم کر سکتا ہے، لیکن یہ انفرادی ماڈلز کی تشخیص کے لیے ایک زیادہ ٹھوس بنیاد فراہم کرے گا۔

مشی گن یونیورسٹی کی پروفیسر اور صداقت کے لیے زور دینے میں ایک سرکردہ آواز، ابیگیل جیکبس کا کہنا ہے، "صداقت کو سنجیدگی سے لینے کا مطلب ہے اکیڈمیا، صنعت، یا جہاں کہیں بھی لوگوں سے یہ پوچھنا کہ ان کا نظام وہ کام کرتا ہے جو وہ کہتے ہیں۔ میرے خیال میں یہ AI دنیا میں ایک کمزوری کی نشاندہی کرتا ہے اگر وہ یہ ظاہر کرنے سے پیچھے ہٹنا چاہتے ہیں کہ وہ اپنے دعوے کی تائید کر سکتے ہیں۔"

روایتی جانچ کی حدود

AI انڈسٹری کا بینچ مارکس پر انحصار ان کی ماضی کی کامیابیوں سے جڑا ہوا ہے، خاص طور پر ImageNet جیسے چیلنجوں میں۔

ImageNet، جو 2010 میں شروع ہوا، نے محققین کو 1,000 مختلف کلاسوں میں درجہ بندی کردہ 3 ملین سے زیادہ تصاویر کے ڈیٹا بیس کے ساتھ پیش کیا۔ چیلنج طریقہ کار سے قطع نظر تھا، جس سے کسی بھی کامیاب الگورتھم کو اس کے بنیادی نقطہ نظر سے قطع نظر اعتبار حاصل کرنے کی اجازت ملتی ہے۔ 2012 میں AlexNet کی پیش رفت، جس نے GPU تربیت کی ایک غیر روایتی شکل کا استعمال کیا، جدید AI کا ایک سنگ بنیاد بن گئی۔ اگرچہ بہت کم لوگوں نے یہ پیش گوئی کی ہو گی کہ AlexNet کے convolutional neural networks تصویر کی شناخت کو کھول دیں گے، لیکن اس کے اعلیٰ اسکور نے کسی بھی شک کو دور کر دیا۔ (خاص طور پر، AlexNet کے ڈویلپرز میں سے ایک بعد میں OpenAI کا شریک بانی بنا۔)

ImageNet کی تاثیر اس چیلنج اور حقیقی دنیا کے تصویر کی شناخت کے کاموں کے درمیان قریبی ہم آہنگی سے نکلی ہے۔ طریقوں کے بارے میں بحث کے باوجود، سب سے زیادہ اسکور کرنے والے ماڈل نے ہمیشہ عملی ایپلی کیشنز میں اعلیٰ کارکردگی کا مظاہرہ کیا۔

تاہم، اس کے بعد کے سالوں میں، AI محققین نے اسی طریقہ کار سے قطع نظر نقطہ نظر کو تیزی سے عام کاموں پر لاگو کیا ہے۔ SWE-Bench، مثال کے طور پر، اکثر وسیع تر کوڈنگ کی صلاحیت کے لیے ایک پراکسی کے طور پر استعمال ہوتا ہے، جبکہ دیگر امتحان طرز کے بینچ مارکس استدلال کی صلاحیت کو جانچنے کے لیے استعمال ہوتے ہیں۔ یہ وسیع دائرہ کار اس بات کی قطعی تعریف کرنا مشکل بناتا ہے کہ ایک مخصوص بینچ مارک کیا پیمائش کرتا ہے، جس سے نتائج کی ذمہ دارانہ تشریح میں رکاوٹ آتی ہے۔

چیزیں کہاں ٹوٹتی ہیں

سٹینفورڈ کی پی ایچ ڈی کی طالبہ انکا روئل کا کہنا ہے کہ عمومیت کی طرف دھکیلنا تشخیص کے مسئلے کی جڑ ہے۔ روئل کہتی ہیں، "ہم ٹاسک سے متعلقہ ماڈلز سے جنرل پرپز ماڈلز کی طرف چلے گئے ہیں۔" "یہ اب ایک واحد کام کے بارے میں نہیں ہے بلکہ بہت سارے کاموں کے بارے میں ہے، اس لیے تشخیص مشکل ہو جاتی ہے۔"

جیکبس کی طرح، روئل کا بھی خیال ہے کہ "بینچ مارکس کے ساتھ بنیادی مسئلہ صداقت ہے، عملی نفاذ سے بھی زیادہ،" یہ نوٹ کرتے ہوئے: "یہ وہ جگہ ہے جہاں بہت سی چیزیں ٹوٹ جاتی ہیں۔" کوڈنگ جیسے پیچیدہ کاموں کے لیے، ہر تصوراتی منظر نامے کو ایک مسئلہ سیٹ میں شامل کرنا تقریباً ناممکن ہے۔ نتیجے کے طور پر، یہ معلوم کرنا مشکل ہو جاتا ہے کہ آیا ماڈل کا اعلیٰ اسکور حقیقی کوڈنگ کی مہارت کی عکاسی کرتا ہے یا محض مسئلہ سیٹ کی ہوشیار ہیرا پھیری۔ ریکارڈ اسکور حاصل کرنے کے لیے شدید دباؤ مزید شارٹ کٹس کی حوصلہ افزائی کرتا ہے۔

ڈویلپرز کو امید ہے کہ مخصوص بینچ مارکس کی ایک کثرت میں کامیابی عام طور پر قابل ماڈل میں ترجمہ کرے گی۔ تاہم، ایجنٹک AI کے عروج کے ساتھ، جہاں ایک واحد نظام ماڈلز کی ایک پیچیدہ صف کو شامل کر سکتا ہے، یہ اندازہ لگانا مشکل ہو جاتا ہے کہ آیا مخصوص کاموں پر بہتری عام ہو گی۔ پرنسٹن کے کمپیوٹر سائنسدان اور AI انڈسٹری میں لاپرواہی کے طریقوں کے نقاد سایاش کپور کا کہنا ہے، "بس بہت سے زیادہ نوبز ہیں جنہیں آپ گھما سکتے ہیں۔" "جب ایجنٹوں کی بات آتی ہے تو، انہوں نے تشخیص کے لیے بہترین طریقوں کو تقریباً ترک کر دیا ہے۔"

گزشتہ جولائی میں شائع ہونے والے ایک مقالے میں، کپور نے AI ماڈلز کے 2024 میں WebArena بینچ مارک تک رسائی کے طریقوں میں مخصوص مسائل کو اجاگر کیا، جو ایک AI ایجنٹ کی ویب پر نیویگیٹ کرنے کی صلاحیت کی جانچ کرتا ہے۔ بینچ مارک میں ریڈٹ، ویکیپیڈیا اور دیگر کی نقل کرنے والی کلون ویب سائٹس پر کیے جانے والے 800 سے زیادہ کام شامل ہیں۔ کپور اور ان کی ٹیم نے دریافت کیا کہ جیتنے والے ماڈل، STeP نے ریڈٹ URLs کے ڈھانچے کا استحصال براہ راست صارف پروفائل صفحات تک رسائی حاصل کرنے کے لیے کیا، جو WebArena کے کاموں میں ایک بار بار ضرورت ہے۔

اگرچہ صریحاً دھوکہ دہی نہیں، کپور اسے "اس بات کی سنگین غلط بیانی سمجھتے ہیں کہ ایجنٹ نے WebArena میں پہلی بار کاموں کو دیکھنے کی صورت میں کتنی اچھی طرح کام کیا ہو گا۔" اس کے باوجود، OpenAI کے ویب ایجنٹ، آپریٹر نے تب سے ایک ایسی ہی پالیسی اپنائی ہے۔

AI بینچ مارکس کے ساتھ مسائل کی مزید وضاحت کرتے ہوئے، کپور اور محققین کی ایک ٹیم نے حال ہی میں ایک مقالہ شائع کیا جس میں چیٹ بوٹ ایرینا میں اہم مسائل کا انکشاف کیا گیا، جو ایک مقبول کراؤڈ سورسڈ تشخیص کا نظام ہے۔ ان کے نتائج نے اشارہ کیا کہ لیڈر بورڈ میں ہیرا پھیری کی جا رہی تھی، کچھ اعلیٰ فاؤنڈیشن ماڈلز غیر اعلانیہ نجی جانچ میں مصروف تھے اور منتخب طور پر اپنے اسکور جاری کر رہے تھے۔

یہاں تک کہ ImageNet، بینچ مارک جس نے یہ سب شروع کیا، اب صداقت کے مسائل کا سامنا کر رہا ہے۔ واشنگٹن یونیورسٹی اور گوگل ریسرچ کے محققین کی 2023 کی ایک تحقیق میں پتا چلا ہے کہ ImageNet جیتنے والے الگورتھمز نے چھ حقیقی دنیا کے ڈیٹا سیٹس پر لاگو ہونے پر "تھوڑی سے بھی پیش رفت نہیں دکھائی،" یہ تجویز کرتے ہوئے کہ ٹیسٹ کی بیرونی صداقت اپنی حد تک پہنچ گئی ہے۔

چھوٹا ہونا

صداقت کے مسئلے کو حل کرنے کے لیے، کچھ محققین بینچ مارکس کو مخصوص کاموں سے دوبارہ جوڑنے کی تجویز پیش کرتے ہیں۔ جیسا کہ روئل نے کہا، AI ڈویلپرز کو "ان اعلیٰ سطحی بینچ مارکس کا سہارا لینا پڑتا ہے جو ڈاؤن اسٹریم صارفین کے لیے تقریباً بے معنی ہیں، کیونکہ بینچ مارک ڈویلپرز اب ڈاؤن اسٹریم ٹاسک کی توقع نہیں کر سکتے۔"

نومبر 2024 میں، روئل نے BetterBench شروع کیا، جو ایک عوامی درجہ بندی کا منصوبہ ہے جو مختلف معیاروں کی بنیاد پر بینچ مارکس کا جائزہ لیتا ہے، بشمول کوڈ دستاویزات کی وضاحت اور، اہم طور پر، اس کی بتائی ہوئی صلاحیت کی پیمائش میں بینچ مارک کی صداقت۔ BetterBench ڈیزائنرز کو واضح طور پر یہ بتانے کا چیلنج دیتا ہے کہ ان کا بینچ مارک کس چیز کی جانچ کرتا ہے اور یہ ان کاموں سے کیسے متعلق ہے جو بینچ مارک پر مشتمل ہیں۔

روئل کہتی ہیں، "آپ کے پاس صلاحیتوں کی ایک ساختی خرابی ہونی چاہیے۔" "وہ کون سی اصل مہارتیں ہیں جن کی آپ پروا کرتے ہیں، اور آپ انہیں کسی ایسی چیز میں کیسے تبدیل کرتے ہیں جسے ہم پیمائش کر سکیں؟"

نتائج آشکار کرنے والے ہیں۔ آرکیڈ لرننگ انوائرمنٹ (ALE)، جو 2013 میں قائم کیا گیا تھا تاکہ ماڈلز کی اٹاری 2600 گیمز کھیلنے کا طریقہ سیکھنے کی صلاحیت کی جانچ کی جا سکے، سب سے زیادہ اسکور کرنے والے بینچ مارکس میں سے ایک کے طور پر ابھرتا ہے۔ اس کے برعکس، ماسیو ملٹی ٹاسک لینگویج انڈرسٹینڈنگ (MMLU) بینچ مارک، جو عام زبان کی مہارت کے لیے ایک وسیع پیمانے پر استعمال ہونے والا ٹیسٹ ہے، سوالات اور بنیادی مہارت کے درمیان ناقص تعریف شدہ تعلق کی وجہ سے سب سے کم اسکورز میں سے ایک حاصل کرتا ہے۔

اگرچہ BetterBench نے ابھی تک مخصوص بینچ مارکس کی ساکھ پر نمایاں اثر نہیں ڈالا ہے، لیکن اس نے AI بینچ مارکس کو بہتر بنانے کے طریقوں کے بارے میں بات چیت میں صداقت کو کامیابی سے پیش کیا ہے۔ روئل نے Hugging Face، یونیورسٹی آف ایڈنبرا، اور EleutherAI کی میزبانی میں ایک نئے تحقیقی گروپ میں شمولیت اختیار کی ہے، جہاں وہ صداقت اور AI ماڈل کی تشخیص پر اپنے خیالات کو مزید فروغ دیں گی۔

Hugging Face کی گلوبل پالیسی کی سربراہ آئرین سلیمان کا کہنا ہے کہ گروپ درست بینچ مارکس بنانے پر توجہ مرکوز کرے گا جو سیدھی سادی صلاحیتوں کی پیمائش سے آگے بڑھتے ہیں۔ سلیمان کہتی ہیں، "شیلف سے ایک اچھے بینچ مارک کی اتنی بھوک ہے جو پہلے سے ہی کام کرتا ہے۔" "بہت سارے تشخیص بہت کچھ کرنے کی کوشش کر رہے ہیں۔"

وسیع تر صنعت اس نقطہ نظر پر متفق ہوتی نظر آتی ہے۔ مارچ میں شائع ہونے والے ایک مقالے میں، گوگل، مائیکروسافٹ، اینتھروپک، اور دیگر کے محققین نے تشخیص کو بہتر بنانے کے لیے ایک نیا فریم ورک تیار کیا، جس میں صداقت ایک سنگ بنیاد ہے۔

محققین کا کہنا ہے کہ "AI تشخیص سائنس کو ‘عمومی ذہانت’ کے موٹے دانے والے دعووں سے آگے بڑھ کر پیش رفت کے زیادہ ٹاسک سے متعلقہ اور حقیقی دنیا کے متعلقہ اقدامات کی طرف بڑھنا چاہیے۔"

"اسکوشی" چیزوں کی پیمائش کرنا

اس تبدیلی کو آسان بنانے کے لیے، کچھ محققین سماجی سائنس کے اوزاروں کی طرف رجوع کر رہے ہیں۔ فروری کے ایک پوزیشن پیپر میں استدلال کیا گیا کہ "GenAI سسٹمز کا جائزہ لینا ایک سماجی سائنس کی پیمائش کا چیلنج ہے،" خاص طور پر اس بات کی تلاش کرنا کہ کس طرح سماجی سائنس کی صداقت کے نظام کو AI بینچ مارکنگ پر لاگو کیا جا سکتا ہے۔

مصنفین، بنیادی طور پر مائیکروسافٹ کی تحقیقی شاخ سے لیکن سٹینفورڈ اور مشی گن یونیورسٹی کے اکیڈمکس سمیت، ان معیارات کی طرف اشارہ کرتے ہیں جو سماجی سائنسدان نظریے، جمہوریت اور میڈیا تعصب جیسے متنازعہ تصورات کی پیمائش کے لیے استعمال کرتے ہیں۔ AI بینچ مارکس پر لاگو کیا جائے تو، یہی طریقہ کار "استدلال" اور "ریاضی کی مہارت" جیسے تصورات کی پیمائش کرنے کا ایک طریقہ فراہم کر سکتے ہیں بغیر دھندلی عمومیت کا سہارا لیے۔

سماجی سائنس ادب اس تصور کی قطعی تعریف کی اہمیت پر زور دیتا ہے جس کی پیمائش کی جا رہی ہے۔ مثال کے طور پر، کسی معاشرے میں جمہوریت کی سطح کی پیمائش کے لیے ڈیزائن کردہ ٹیسٹ کو پہلے "جمہوری معاشرے" کی ایک واضح تعریف قائم کرنی چاہیے اور پھر اس تعریف سے متعلق سوالات تیار کرنے چاہئیں۔

اسے SWE-Bench جیسے بینچ مارک پر لاگو کرنے کے لیے، ڈیزائنرز کو گٹ ہب سے پروگرامنگ کے مسائل جمع کرنے اور جوابات کی توثیق کے لیے ایک اسکیم بنانے کے روایتی مشین لرننگ نقطہ نظر کو ترک کرنا ہوگا۔ اس کے بجائے، انہیں پہلے یہ تعریف کرنی ہوگی کہ بینچ مارک کس چیز کی پیمائش کرنا چاہتا ہے (مثال کے طور پر، "سافٹ ویئر میں نشان زدہ مسائل کو حل کرنے کی صلاحیت"), اس کو ذیلی مہارتوں میں تقسیم کریں (مثال کے طور پر، مختلف قسم کے مسائل یا پروگرام کے ڈھانچے)، اور پھر ایسے سوالات تیار کریں جو ان ذیلی مہارتوں کو درست طریقے سے کور کریں۔

جیکبس جیسے محققین کے لیے، یہ گہری تبدیلی اس نقطہ سے ٹھیک ہے کہ AI محققین عام طور پر بینچ مارکنگ سے کیسے رجوع کرتے ہیں۔ وہ کہتی ہیں، "ٹیک انڈسٹری میں جو کچھ ہو رہا ہے اور سماجی سائنس کے ان اوزاروں کے درمیان ایک عدم مطابقت ہے۔" "ہمارے پاس دہائیوں اور دہائیوں کی سوچ ہے کہ ہم انسانوں کے بارے میں ان اسکوشی چیزوں کی پیمائش کیسے کرنا چاہتے ہیں۔"

تحقیقی برادری میں ان خیالات کے بڑھتے ہوئے اثرات کے باوجود، AI کمپنیاں اصل میں بینچ مارکس کا استعمال کیسے کرتی ہیں اس پر ان کا اثر سست رہا ہے۔

OpenAI، Anthropic، Google، اور Meta کی جانب سے حالیہ ماڈل ریلیزز MMLU جیسے متعدد چوائس نالج بینچ مارکس پر بہت زیادہ انحصار کرتے رہتے ہیں، یہ بالکل وہی طریقہ ہے جس سے صداقت کے محققین آگے بڑھنے کی کوشش کر رہے ہیں۔ ماڈل ریلیزز، زیادہ تر حصے کے لیے، اب بھی عام ذہانت میں اضافے کو ظاہر کرنے پر توجہ مرکوز کرتے ہیں، اور ان دعووں کی حمایت کے لیے وسیع بینچ مارکس استعمال کیے جاتے ہیں۔

کچھ مبصرین اسے تسلی بخش پاتے ہیں۔ وارٹن کے پروفیسر ایتھن مولک کا کہنا ہے کہ بینچ مارکس، "چیزوں کے برے پیمانے ہونے کے باوجود، ہمارے پاس بھی یہی ہے۔" انہوں نے مزید کہا، "اس کے ساتھ ہی، ماڈلز بہتر ہو رہے ہیں۔ تیز پیش رفت سے بہت سارے گناہوں کو معاف کر دیا جاتا ہے۔"

ابھی کے لیے، انڈسٹری کی طویل عرصے سے مصنوعی عمومی ذہانت پر توجہ ایک زیادہ مرکوز، صداقت پر مبنی نقطہ نظر کو چھپاتی نظر آتی ہے۔ جب تک AI ماڈلز عام ذہانت میں ترقی کرتے رہتے ہیں، مخصوص ایپلی کیشنز کم دلکش لگتی ہیں، چاہے پریکٹیشنرز ایسے اوزار استعمال کر رہے ہوں جن پر وہ اب پوری طرح سے اعتماد نہیں کرتے۔

Hugging Face کے سلیمان کا کہنا ہے، "یہ وہ تنگ رسی ہے جس پر ہم چل رہے ہیں۔" "نظام کو باہر پھینکنا بہت آسان ہے، لیکن تشخیص ہمارے ماڈلز کو سمجھنے میں واقعی مددگار ہیں، یہاں تک کہ ان حدود کے ساتھ بھی۔"