ایک شاندار اقدام میں، ٹیک انڈسٹری کے ناممکن ہونے کے دعووں کو مسترد کرتے ہوئے، محققین کی ایک سرشار ٹیم نے وہ حاصل کر لیا ہے جسے بہت سے لوگوں نے ناقابل حصول سمجھا تھا: ایک AI ماڈل کی تخلیق جو مکمل طور پر اخلاقی ذرائع سے حاصل کردہ ڈیٹا پر مبنی ہے۔ یہ شاندار کامیابی، جو MIT، Cornell University، اور University of Toronto جیسے معتبر اداروں کے ماہرین کی جانب سے پیش کی گئی ہے، AI ترقی کے مستقبل کے لیے ایک قابل عمل اور ذمہ دار بلیو پرنٹ پیش کرتی ہے۔ اس کامیابی کا راز؟ ایک احتیاط سے تیار کردہ ڈیٹا سیٹ جو مکمل طور پر کھلے لائسنس یافتہ یا عوامی ڈومین مواد پر مشتمل ہے۔
اخلاقی ڈیٹا سورسنگ کا ہرکولیسی ٹاسک
اس اخلاقی AI نخلستان تک کا سفر پارک میں سیر کرنے جیسا نہیں تھا۔ جیسا کہ محققین آسانی سے تسلیم کرتے ہیں، اصل رکاوٹ کمپیوٹیشنل پاور نہیں تھی، بلکہ خالص انسانی کوشش تھی۔ Common Pile v0.1 کو جمع کرنے کا عمل، ایک وسیع ڈیٹا سیٹ جو آٹھ ٹیرا بائٹس سے زیادہ ہے، AI تربیت کے لیے اسے موزوں بنانے کے لیے تکلیف دہ دستی صفائی اور ری فارمیٹنگ کا مطالبہ کرتا ہے۔ ذرا تصور کریں کہ ڈیجیٹل معلومات کے لامتناہی ڈھیروں میں چھان بین کرنا، کسی بھی قسم کی خرابی کی تلاش کرنا جو ڈیٹا سیٹ کو خراب کر سکتی ہے۔
لیکن اصل چیلنج کاپی رائٹ کی حیثیت کی محتاط ڈبل چیکنگ میں پوشیدہ تھا۔ انٹرنیٹ کے افراتفری کے دائرے میں، بڑے پیمانے پر غلط لائسنسنگ ایک معمول ہے، جو کاپی رائٹ کی تصدیق کو ایک سیسیفن ٹاسک میں تبدیل کر دیتی ہے۔
WaPo کو مطالعہ کے شریک مصنف Stella Biderman نے بتایا کہ "یہ ایسی چیز نہیں ہے جہاں آپ صرف اپنے پاس موجود وسائل کو بڑھا سکیں۔ ہم خودکار ٹولز استعمال کرتے ہیں، لیکن دن کے اختتام پر ہماری تمام چیزوں کو دستی طور پر تشریح کیا گیا اور لوگوں نے چیک کیا۔ اور یہ واقعی مشکل ہے۔"
کاپی رائٹ کے مسائل کی تلاش میں ٹیرا بائٹس ڈیٹا کی چھان بین کرنے کا عمل آسان نہیں ہے۔ محققین اس عمل میں مزید کمپیوٹر چپس شامل نہیں کرسکتے تھے اور حل کی امید نہیں کرسکتے تھے۔ اس کے بجائے، انہیں دستی طور پر تمام ڈیٹا کی تصدیق اور تشریح کرنے کی ضرورت تھی۔
مشکلات پر فتح: ایک اخلاقی AI کی پیدائش
مشکل رکاوٹوں کے باوجود، Biderman اور ان کی سرشار ٹیم ثابت قدم رہی۔ ایک بار جب Common Pile بنانے کا مشکل کام مکمل ہو گیا، تو انہوں نے سات بلین پیرامیٹر لارج لینگویج ماڈل (LLM) کو تربیت دینے کے لیے اس کی صلاحیت کو بروئے کار لایا۔ نتیجے میں آنے والی AI نے نہ صرف Meta کے Llama 1 اور Llama 2 7B جیسے انڈسٹری بینچ مارکس کے خلاف اپنی کارکردگی کا مظاہرہ کیا، بلکہ ایک صاف اخلاقی ضمیر کے ساتھ ایسا کیا۔
لیکن AI ریسرچ لینڈ سکیپ ایک تیز رفتار گولی کی طرح تیزی سے تیار ہوتا ہے۔ یہ یاد رکھنا ضروری ہے کہ Meta نے Llama 1 اور Llama 2 کو چند سال پہلے جاری کیا تھا، جو AI کی دنیا میں ایک رشتہ دار ابدیت ہے۔
یہ حقیقت کہ ایک دبلی پتلی، پرعزم ٹیم محدود وسائل کے ساتھ موازنہ نتائج حاصل کر سکتی ہے، ان کی ذہانت کا ثبوت ہے۔ ایک خاص طور پر حوصلہ افزا دریافت لائبریری آف کانگریس میں 130,000 سے زیادہ انگریزی زبان کی کتابوں کا ایک خزانہ تھی جسے پہلے نظرانداز کیا گیا تھا۔
AI اور کاپی رائٹ کے تاریک پانی
کاپی رائٹ AI کے زمانے میں ایک تکلیف دہ اخلاقی اور قانونی مسئلہ ہے۔ OpenAI اور Google جیسی انڈسٹری جنات نے خبروں کے مضامین سے لے کر ذاتی سوشل میڈیا پوسٹس تک ہر چیز کو نگل کر وسیع ڈیٹا سیٹس جمع کیے ہیں۔ اس عمل نے ہر طرف سے تنقید کو جنم دیا ہے۔ مصنفین نے AI ماڈلز کو تربیت دینے کے لیے کاپی رائٹ شدہ کتابوں کے غیر قانونی استعمال کا الزام لگاتے ہوئے مقدمات بھی دائر کیے ہیں۔
ٹیک انڈسٹری کا دعویٰ ہے کہ اس طرح کے طریقے منصفانہ استعمال کے مترادف ہیں، اور دلیل دیتے ہیںکہ ڈیٹا تک غیر محدود رسائی کے بغیر AI کی ترقی "ناممکن" ہوگی۔ یہ تازہ ترین تحقیق اس سلیکون ویلی بیانیے کو ایک زبردست تردید پیش کرتی ہے۔
اگرچہ یہ کامیابی ایک اہم قدم آگے کی نشاندہی کرتی ہے، لیکن یہ تمام اخلاقی تحفظات کو ختم نہیں کرتی ہے۔ بڑے لسانی ماڈلز، جن میں انسانی کارکنوں کو بے گھر کرنے کی صلاحیت ہے، اب بھی مزدوری کے مستقبل کے بارے میں بنیادی سوالات اٹھاتے ہیں۔ مزید برآں، عوامی ڈومین میں کاموں کا استعمال ہر کسی کو پسند نہیں آ سکتا ہے، خاص طور پر ان لوگوں کو جن کے تخلیقی تعاون کو اب AI دوبارہ پیش کر رہا ہے۔
یہاں تک کہ ایک فرضی مستقبل میں جہاں AI فرموں کو ڈیٹا کے استعمال کے لیے اجازت لینے یا معاوضہ فراہم کرنے پر مجبور کیا جاتا ہے، کاپی رائٹ ہولڈرز کو اب بھی AI تربیت کی اجازت دینے کے لیے بے جا دباؤ کا سامنا کرنا پڑ سکتا ہے۔ AI ماڈلز کو تربیت دیتے وقت جو بے پناہ وسائل استعمال کیے جا سکتے ہیں اس کا مطلب ہے کہ زیادہ تر کاپی رائٹ ہولڈرز بڑے AI فرموں کے دباؤ کا مقابلہ نہیں کر پائیں گے تاکہ انہیں ڈیٹا استعمال کرنے کی اجازت دی جائے۔
AI میں شفافیت اور احتساب کی طرف
Biderman، تاہم، عملی رہتی ہے۔ اسے کوئی وہم نہیں ہے کہ OpenAI جیسی کمپنیاں اچانک اخلاقی ڈیٹا سورسنگ کو اپنا لیں گی۔ اس کے بجائے، اسے امید ہے کہ اس کا کام ڈیٹا کے استعمال میں زیادہ شفافیت کی حوصلہ افزائی کرے گا۔ کون سے ڈیٹا سیٹس کس AI پروڈکٹس کو تربیت دینے کے لیے استعمال کیے گئے؟ اس سوال کا جواب جاننا AI کے مستقبل کے لیے اہم مضمرات کا حامل ہو سکتا ہے۔
انہوں نے WaPo کو بتایا کہ "جزوی شفافیت میں بھی سماجی قدر کی ایک بہت بڑی مقدار اور سائنسی قدر کی ایک معتدل مقدار ہوتی ہے۔"
فی الحال ایک مخصوص AI کو تربیت دینے کے لیے استعمال ہونے والے عین ڈیٹا سیٹس کو قریب سے محفوظ راز رکھا جاتا ہے۔ AI ماڈل کو نقل کرنے کا واحد طریقہ یہ ہے کہ یا تو بتانا کہ موجودہ AI ماڈل کیسے بنایا گیا تھا، یا AI ماڈل کو ریورس انجینئر کرنا جس میں بہت زیادہ وقت اور کوشش لگ سکتی ہے۔
AI ترقی میں ایک تبدیلی
اس تحقیق کے مضمرات AI اخلاقیات کے دائرے سے کہیں آگے تک پھیلے ہوئے ہیں۔ یہ اس بات میں ایک بنیادی تبدیلی کی نشاندہی کرتا ہے کہ AI کو کیسے تیار کیا جا سکتا ہے، یہ ظاہر کرتے ہوئے کہ اخلاقی تحفظات اور تکنیکی ترقی ایک دوسرے سے الگ نہیں ہونے چاہئیں۔ شفافیت، ذمہ دار ڈیٹا سورسنگ، اور انسانی نگرانی کو ترجیح دے کر، ہم ایک ایسا مستقبل تشکیل دے سکتے ہیں جہاں AI انسانیت کی خدمت کرے، نہ کہ اس کے برعکس۔
اخلاقی خدشات اور سماجی اثرات کو دور کرنا
ٹیک انڈسٹری کا یہ استدلال کہ اخلاقی ڈیٹا کا استعمال ایک ناقابل تسخیر رکاوٹ ہے، اب निर्णायक طور پر چیلنج کیا گیا ہے۔ اس منصوبے کی کامیابی ایک ٹھوس اخلاقی بنیاد پر AI ماڈلز بنانے کے امکان کو اجاگر کرتی ہے۔ تاہم، AI ترقی کے اخلاقی جہتیں کاپی رائٹ کے مسائل سے آگے بڑھتی ہیں۔ AI کے سماجی و اقتصادی اثرات، بشمول ملازمت کا بے گھر ہونا اور الگورتھمک تعصب، محتاط غور و خوض کا مطالبہ کرتے ہیں۔
اخلاقی تحفظات جو AI ماڈلز کو متاثر کرتے ہیں وہ صرف سورسنگ سے آگے بڑھتے ہیں۔ ہمیں یہ بھی تصدیق کرنی چاہیے کہ ڈیٹا کسی بھی آبادی کے حصے کے لیے AI ماڈلز کو متعصب کرنے کا سبب نہیں بن رہا ہے۔
شفافیت اور احتساب کو فروغ دینا
اعتماد کو فروغ دینے اور ذمہ دارانہ جدت کو یقینی بنانے کے لیے، AI انڈسٹری کو شفافیت اور احتساب کو اپنانا چاہیے۔ کمپنیوں کو ان ڈیٹا ذرائع کے بارے میں کھلا ہونا چاہیے جو ان کے ماڈلز کو تربیت دینے کے لیے استعمال ہوتے ہیں اور ان طریقوں کو جو تعصب کو کم کرنے کے لیے استعمال ہوتے ہیں۔ آزادانہ آڈٹ اور بیرونی نگرانی مزید احتساب کو بڑھا سکتی ہے اور اخلاقی خرابیوں کو روک سکتی ہے۔
AI شفافیت کو اس بات کی تصدیق کے لیے نافذ کیا جا سکتا ہے کہ डेटासेट्स میں AI ماڈل میں تعصب سے بچنے کے لیے کافی وسیع تقسیم موجود ہے۔ AI احتساب کو بیرونی آڈٹ کے ذریعے نافذ کیا جا سکتا ہے تاکہ ممکنہ اخلاقی خرابیوں کی جانچ کی جا سکے۔
تعاون اور اوپن سورس حل
اخلاقی ذرائع سے حاصل کردہ AI کی ترقی کے لیے تعاون اور اوپن سورس حل کی ضرورت ہوتی ہے۔ ڈیٹا سیٹس، طریقوں اور بہترین طریقوں کو بانٹ کر، محققین اور ڈویلپرز ترقی کو تیز کر سکتے ہیں اور اجتماعی طور پر اخلاقی AI ترقی کے چیلنجوں سے نمٹ سکتے ہیں۔ اوپن سورس اقدامات چھوٹے تنظیموں اور افراد کو بھی AI انقلاب میں حصہ لینے کے لیے بااختیار بنا سکتے ہیں، اس بات کو یقینی بناتے ہوئے کہ اس ٹیکنالوجی کے فوائد زیادہ مساوی طور پر تقسیم ہوں۔
ایک روشن مستقبل کا وعدہ
مکمل طور پر اخلاقی ذرائع سے حاصل کردہ ڈیٹا پر مبنی AI ماڈل کی تخلیق ذمہ دار اور فائدہ مند AI کی تلاش میں ایک سنگ میل کی نمائندگی کرتی ہے۔ یہ شاندار کامیابی نہ صرف یہ ثابت کرتی ہے کہ اخلاقی AI ترقی ممکن ہے بلکہ دوسروں کے لیے پیروی کرنے کے لیے ایک روڈ میپ بھی فراہم کرتی ہے۔ شفافیت، تعاون، اور اخلاقی اصولوں کے عزم کو اپنا کر، ہم AI کی مکمل صلاحیت کو غیر مقفل کر سکتے ہیں جبکہ انسانی اقدار کی حفاظت اور ایک زیادہ منصفانہ اور مساوی مستقبل کو فروغ دے سکتے ہیں۔