عظیم AI 'اوپن سورس' کا بہروپ: سائنسی سالمیت کا مطالبہ

ایک بنیادی تصور کی قدر میں کمی: ‘اوپن سورس’ کا خاتمہ

‘اوپن سورس’ کی اصطلاح کبھی تکنیکی اور سائنسی منظرناموں میں ایک روشنی کے مینار کی حیثیت رکھتی تھی۔ یہ شفافیت، غیر محدود رسائی، اشتراکی بہتری، اور تکرار پذیری کے بنیادی اصول پر مبنی ایک طاقتور اخلاقیات کی نمائندگی کرتی تھی۔ محققین اور ڈویلپرز کی نسلوں کے لیے، اس نے مشترکہ علم اور اجتماعی ترقی کے عزم کی نشاندہی کی۔ R Studio جیسے ماحول میں پائے جانے والے بنیادی شماریاتی ٹولز سے، جو لاتعداد تجزیوں کو مختلف شعبوں میں بااختیار بناتے ہیں، لے کر OpenFOAM جیسے جدید ترین سیمولیشن پلیٹ فارمز تک، جو سیال حرکیات کی پیچیدگیوں کو کھولنے کے لیے استعمال ہوتے ہیں، اوپن سورس سافٹ ویئر جدت طرازی کے لیے ایک ناگزیر محرک رہا ہے۔ اس نے دنیا بھر کے سائنسدانوں کو ایک دوسرے کے کام کا معائنہ کرنے، تصدیق کرنے، ترمیم کرنے اور اس پر تعمیر کرنے کی اجازت دے کر دریافت کو تیز کیا، اس بات کو یقینی بناتے ہوئے کہ نتائج کو نقل کیا جا سکے اور ان کی توثیق کی جا سکے – جو سائنسی طریقہ کار کی بنیاد ہے۔

تاہم، اب اس قابل اعتماد عہدہ پر ایک سایہ منڈلا رہا ہے، جو مصنوعی ذہانت (AI) کے بڑھتے ہوئے شعبے کی وجہ سے ہے۔ جیسا کہ حالیہ تنقیدی مباحثوں میں اجاگر کیا گیا ہے، بشمول Nature جیسی اشاعتوں میں ذکر کردہ، ایک تشویشناک رجحان سامنے آیا ہے جہاں ممتاز AI ڈویلپرز اپنے ماڈلز کے لیے ‘اوپن سورس’ کا لیبل اپناتے ہیں جبکہ بیک وقت حقیقی کھلے پن کے لیے ضروری اہم اجزاء کو روکتے ہیں۔ یہ عمل اصطلاح کے معنی کو کمزور کرنے کا خطرہ رکھتا ہے، اسے شفافیت کی علامت سے ممکنہ طور پر گمراہ کن مارکیٹنگ نعرے میں تبدیل کر دیتا ہے۔ بنیادی مسئلہ اکثر جدید AI سسٹمز کی منفرد نوعیت میں پنہاں ہوتا ہے۔ روایتی سافٹ ویئر کے برعکس جہاں سورس کوڈ سب سے اہم ہوتا ہے، بڑے AI ماڈلز کی طاقت اور رویہ ان کے تربیت کے لیے استعمال ہونے والے وسیع ڈیٹا سیٹس اور ان کی وضاحت کرنے والے پیچیدہ فن تعمیرات سے لازم و ملزوم ہیں۔ جب اس ٹریننگ ڈیٹا یا ماڈل کی تعمیر اور وزن کے بارے میں تفصیلی معلومات تک رسائی محدود ہوتی ہے، تو ‘اوپن سورس’ ہونے کا دعویٰ کھوکھلا لگتا ہے، چاہے ماڈل کے کوڈ کا کچھ حصہ دستیاب ہی کیوں نہ ہو۔ یہ تضاد اوپن سورس فلسفے کے دل پر حملہ کرتا ہے، رسائی کا ایک وہم پیدا کرتا ہے جبکہ آزادانہ جانچ پڑتال اور تکرار کے لیے سب سے اہم عناصر کو چھپاتا ہے۔

سائنسی AI میں حقیقی کھلے پن کی ضرورت

AI میں حقیقی کھلے پن کو برقرار رکھنے سے وابستہ داؤ، خاص طور پر سائنسی ڈومین کے اندر، اس سے زیادہ نہیں ہو سکتا۔ سائنس نتائج کی آزادانہ طور پر تصدیق کرنے، طریقہ کار کو سمجھنے، اور پچھلے کام پر تعمیر کرنے کی صلاحیت پر پروان چڑھتی ہے۔ جب خود ٹولز – تیزی سے جدید ہوتے AI ماڈلز – بلیک باکس بن جاتے ہیں، تو یہ بنیادی عمل خطرے میں پڑ جاتا ہے۔ ایسے AI سسٹمز پر انحصار کرنا جن کے اندرونی کام، ٹریننگ ڈیٹا کے تعصبات، یا ممکنہ ناکامی کے طریقے غیر شفاف ہیں، تحقیق میں ناقابل قبول سطح کی غیر یقینی صورتحال متعارف کراتا ہے۔ ایک سائنسدان AI کے آؤٹ پٹ پر اعتماد کے ساتھ نتائج کیسے اخذ کر سکتا ہے اگر اس آؤٹ پٹ کو تشکیل دینے والے عوامل نامعلوم یا ناقابل تصدیق ہوں؟ کمیونٹی ملکیتی سسٹمز سے پیدا ہونے والے نتائج پر کیسے بھروسہ کر سکتی ہے جن کا آزادانہ طور پر آڈٹ یا نقل نہیں کیا جا سکتا؟

سائنس میں اوپن سورس سافٹ ویئر کی تاریخی کامیابی ایک واضح تضاد اور ایک واضح معیار فراہم کرتی ہے۔ روایتی اوپن سورس پروجیکٹس میں شامل شفافیت نے اعتماد کو فروغ دیا اور مضبوط ہم مرتبہ جائزہ کو ممکن بنایا۔ محققین الگورتھم کا جائزہ لے سکتے تھے، ان کی حدود کو سمجھ سکتے تھے، اور انہیں مخصوص ضروریات کے لیے ڈھال سکتے تھے۔ اس اشتراکی ماحولیاتی نظام نے بائیو انفارمیٹکس سے لے کر فلکی طبیعیات تک کے شعبوں میں ترقی کو تیز کیا۔ سائنسی دریافت میں انقلاب لانے کی AI کی صلاحیت بہت زیادہ ہے، جو پیچیدہ ڈیٹا سیٹس کا تجزیہ کرنے، مفروضے پیدا کرنے، اور بے مثال پیمانوں پر پیچیدہ عملوں کی تقلید کرنے کا وعدہ کرتی ہے۔ تاہم، اس صلاحیت کا ادراک ان ہی شفافیت اور تکرار پذیری کے اصولوں کو برقرار رکھنے پر منحصر ہے جنہوں نے ہمیشہ سائنسی ترقی کی بنیاد رکھی ہے۔ بند، ملکیتی AI سسٹمز کی طرف ایک تبدیلی، یہاں تک کہ وہ جو ‘اوپن’ کے طور پر بھیس بدلتے ہیں، تحقیقی برادری کو ٹکڑے ٹکڑے کرنے، تعاون میں رکاوٹ ڈالنے، اور بالآخر سمجھ اور توثیق میں رکاوٹیں کھڑی کرکے دریافت کی رفتار کو سست کرنے کا خطرہ ہے۔ سائنسی کوشش ایسے ٹولز کا مطالبہ کرتی ہے جو نہ صرف طاقتور ہوں، بلکہ شفاف اور قابل اعتماد بھی ہوں۔

ڈیٹا کا معمہ: AI کا شفافیت چیلنج

AI میں ‘اوپن سورس’ بحث کے مرکز میں ٹریننگ ڈیٹا کا اہم مسئلہ ہے۔ روایتی سافٹ ویئر کے برعکس جو بنیادی طور پر اس کے کوڈ سے متعین ہوتا ہے، بڑے لینگویج ماڈلز (LLMs) اور دیگر بنیادی AI سسٹمز بنیادی طور پر ان بڑے ڈیٹا سیٹس سے تشکیل پاتے ہیں جو وہ اپنی ترقی کے دوران استعمال کرتے ہیں۔ اس ڈیٹا کی خصوصیات، تعصبات، اور ماخذ ماڈل کے رویے، اس کی صلاحیتوں، اور اس کی ممکنہ حدود پر گہرا اثر ڈالتے ہیں۔ لہذا، AI میں حقیقی کھلے پن کے لیے اس ڈیٹا کے حوالے سے شفافیت کی ایک ایسی سطح کی ضرورت ہوتی ہے جو صرف ماڈل ویٹس یا انفرنس کوڈ جاری کرنے سے کہیں زیادہ ہو۔

فی الحال ‘اوپن سورس’ کے جھنڈے تلے مارکیٹ کیے جانے والے بہت سے ماڈلز اس محاذ پر نمایاں طور پر کم ہیں۔ Meta کی Llama سیریز، Microsoft کا Phi-2، یا Mistral AI کا Mixtral جیسی نمایاں مثالوں پر غور کریں۔ اگرچہ یہ کمپنیاں کچھ اجزاء جاری کرتی ہیں، جس سے ڈویلپرز ماڈلز کو چلا سکتے ہیں یا فائن ٹیون کر سکتے ہیں، وہ اکثر بنیادی ٹریننگ ڈیٹا کے بارے میں اہم پابندیاں عائد کرتی ہیں یا بہت کم تفصیلات فراہم کرتی ہیں۔ اس میں شامل ڈیٹا سیٹس بہت بڑے، ملکیتی، ویب سے کم کیوریشن کے ساتھ کھرچے ہوئے، یا لائسنسنگ کی رکاوٹوں کے تابع ہو سکتے ہیں، جس سے مکمل عوامی ریلیز مشکل یا ناممکن ہو جاتی ہے۔ تاہم، جامع معلومات کے بغیر:

  • ڈیٹا کے ذرائع: معلومات کہاں سے آئیں؟ کیا یہ بنیادی طور پر متن، تصاویر، کوڈ تھا؟ کن ویب سائٹس، کتابوں، یا ڈیٹا بیس سے؟
  • ڈیٹا کیوریشن: ڈیٹا کو کیسے فلٹر، صاف، اور پروسیس کیا گیا؟ معلومات کو شامل کرنے یا خارج کرنے کے لیے کیا معیار استعمال کیے گئے؟
  • ڈیٹا کی خصوصیات: ڈیٹا کے اندر معلوم تعصبات کیا ہیں (مثلاً، آبادیاتی، ثقافتی، لسانی)؟ یہ کس ٹائم پیریڈ کا احاطہ کرتا ہے؟
  • پری پروسیسنگ کے مراحل: ٹریننگ سے پہلے ڈیٹا پر کون سی تبدیلیاں لاگو کی گئیں؟

…آزاد محققین کے لیے ماڈل کے رویے کو مکمل طور پر سمجھنا، اس کی ترقی کو نقل کرنا، یا اس کے ممکنہ تعصبات اور ناکامی کے نکات کا تنقیدی جائزہ لینا انتہائی مشکل ہو جاتا ہے۔ ڈیٹا کی شفافیت کی یہ کمی بنیادی وجہ ہے کہ بہت سے موجودہ ‘اوپن سورس’ AI ریلیزز سافٹ ویئر کی دنیا میں قائم حقیقی کھلے پن کی روح، اگر حرف نہیں تو، کو پورا کرنے میں ناکام رہتے ہیں۔ اس کے برعکس، Allen Institute for AI کے OLMo ماڈل جیسی پہلیں یا LLM360 کے CrystalCoder جیسے کمیونٹی پر مبنی کوششوں نے اپنے ڈیٹا اور ٹریننگ کے طریقوں کے حوالے سے زیادہ شفافیت فراہم کرنے کے لیے زیادہ مربوط کوششیں کی ہیں، جو روایتی اوپن سورس اقدار کے ساتھ زیادہ ہم آہنگ ایک اعلیٰ معیار قائم کرتی ہیں۔

‘اوپن واشنگ’: اسٹریٹجک لیبلنگ یا ریگولیٹری سائیڈ سٹیپ؟

ان اداروں کی طرف سے ‘اوپن سورس’ لیبل کا استعمال جو اس کے اصولوں کو پوری طرح سے قبول نہیں کرتے ہیں، نے ‘اوپن واشنگ’ کے بارے میں خدشات کو جنم دیا ہے۔ یہ اصطلاح شفافیت اور رسائی کی متعلقہ سطح کا عہد کیے بغیر، تعلقات عامہ کے فوائد یا اسٹریٹجک فائدے کے لیے کھلے پن کے مثبت مفہوم سے فائدہ اٹھانے کے عمل کو بیان کرتی ہے۔ کمپنیاں ایسا کیوں کر سکتی ہیں؟ کئی عوامل کارفرما ہو سکتے ہیں۔ ‘اوپن سورس’ برانڈ کافی خیر سگالی رکھتا ہے، جو کمیونٹی اور مشترکہ ترقی کے عزم کا مشورہ دیتا ہے، جو ڈویلپرز اور صارفین کے لیے پرکشش ہو سکتا ہے۔

مزید برآں، جیسا کہ Nature اور دیگر مبصرین نے نوٹ کیا ہے، ریگولیٹری منظرنامے نادانستہ طور پر اس طرح کے رویے کی حوصلہ افزائی کر سکتے ہیں۔ یورپی یونین کا تاریخی AI ایکٹ، جو 2024 میں حتمی شکل اختیار کر گیا، ایسی دفعات شامل کرتا ہے جو زیادہ خطرے والے اور عمومی مقصد والے AI سسٹمز پر سخت تقاضے عائد کرتی ہیں۔ تاہم، اس میں اوپن سورس لائسنس کے تحت جاری کردہ AI ماڈلز کے لیے ممکنہ چھوٹ یا ہلکے تقاضے بھی شامل ہیں۔ یہ ایک ممکنہ خامی پیدا کرتا ہے جہاں کمپنیاں حکمت عملی کے تحت اپنے ماڈلز کو ‘اوپن سورس’ کے طور پر لیبل کر سکتی ہیں – یہاں تک کہ اگر ٹریننگ ڈیٹا جیسے کلیدی اجزاء محدود رہیں – خاص طور پر ریگولیٹری رکاوٹوں سے نمٹنے اور زیادہ سخت تعمیل کی ذمہ داریوں سے بچنے کے لیے۔

ریگولیٹری ثالثی کا یہ امکان گہری تشویش کا باعث ہے۔ اگر ‘اوپن واشنگ’ طاقتور AI سسٹمز کو حفاظت، انصاف اور جوابدہی کو یقینی بنانے کے لیے بنائے گئے جانچ پڑتال سے بچنے کی اجازت دیتا ہے، تو یہ ریگولیشن کے اصل مقصد کو کمزور کرتا ہے۔ یہ سائنسی برادری کو بھی ایک غیر یقینی پوزیشن میں ڈالتا ہے۔ محققین ان نام نہاد ‘اوپن’ سسٹمز کی طرف مکمل طور پر بند تجارتی پیشکشوں کے مقابلے میں ان کی رسائی کی وجہ سے متوجہ ہو سکتے ہیں، صرف خود کو ایسے ٹولز پر انحصار کرتے ہوئے پاتے ہیں جن کے طریقہ کار غیر شفاف اور ناقابل تصدیق رہتے ہیں۔ یہ انحصار سائنسی سالمیت سے سمجھوتہ کرنے کا خطرہ رکھتا ہے، جس سے یہ یقینی بنانا مشکل ہو جاتا ہے کہ تحقیق قابل تکرار، غیر متعصب، اور ایک ٹھوس، قابل فہم بنیاد پر استوار ہو۔ ایک مانوس لیبل کی کشش بنیادی پابندیوں کو چھپا سکتی ہے جو حقیقی سائنسی تحقیقات میں رکاوٹ بنتی ہیں۔

AI دور کے لیے کھلے پن کی نئی تعریف: OSAID فریم ورک

AI کی طرف سے پیش کردہ منفرد چیلنجز کے لیے روایتی اوپن سورس تعریفوں کی ناکافی کو تسلیم کرتے ہوئے، Open Source Initiative (OSI) – اوپن سورس اصولوں کا ایک دیرینہ نگران – نے ایک اہم عالمی کوشش شروع کی ہے۔ ان کا مقصد مصنوعی ذہانت کے لیے خاص طور پر تیار کردہ ایک واضح، مضبوط تعریف قائم کرنا ہے: Open Source AI Definition (OSAID 1.0)۔ یہ اقدام AI کے تناظر میں ‘اوپن’ کے معنی کو دوبارہ حاصل کرنے اور شفافیت اور جوابدہی کے لیے غیر مبہم معیارات قائم کرنے کی طرف ایک اہم قدم کی نمائندگی کرتا ہے۔

مجوزہ OSAID فریم ورک کے اندر ایک کلیدی جدت ‘ڈیٹا انفارمیشن’ کا تصور ہے۔ یہ تسلیم کرتے ہوئے کہ بڑے پیمانے پر ٹریننگ ڈیٹا سیٹس کی مکمل ریلیز اکثر رازداری کے خدشات، کاپی رائٹ کی پابندیوں، یا سراسر پیمانے کی وجہ سے ناقابل عمل یا قانونی طور پر ممنوع ہو سکتی ہے، OSAID ڈیٹا کے بارے میں جامع انکشاف کو لازمی قرار دینے پر توجہ مرکوز کرتا ہے۔ اس میں ڈویلپرز کے لیے تفصیلی معلومات فراہم کرنے کے تقاضے شامل ہیں:

  1. ذرائع اور ساخت: ٹریننگ ڈیٹا کی اصلیت کی واضح طور پر نشاندہی کرنا۔
  2. خصوصیات: ڈیٹا کے اندر معلوم خصوصیات، حدود، اور ممکنہ تعصبات کی دستاویز بندی کرنا۔
  3. تیاری کے طریقے: ٹریننگ کے لیے ڈیٹا کو صاف کرنے، فلٹر کرنے، اور تیار کرنے کے لیے استعمال ہونے والے عمل کی وضاحت کرنا۔

یہاں تک کہ اگر خام ڈیٹا کا اشتراک نہیں کیا جا سکتا ہے، یہ میٹا ڈیٹا فراہم کرنے سے محققین اور آڈیٹرز کو ان عوامل کے بارے میں اہم بصیرت حاصل کرنے کی اجازت ملتی ہے جنہوں نے AI ماڈل کو تشکیل دیا۔ یہ ممکنہ تعصبات کی بہتر تفہیم میں سہولت فراہم کرتا ہے، زیادہ باخبر خطرے کی تشخیص کو ممکن بناتا ہے، اور نقل یا تقابلی مطالعات کی کوشش کرنے کی بنیاد فراہم کرتا ہے۔

ڈیٹا انفارمیشن سے ہٹ کر، OSI کی کوشش، Open Future جیسی تنظیموں کی وکالت کے ساتھ، ‘ڈیٹا کامنز’ ماڈل کی طرف ایک وسیع تر تبدیلی کو فروغ دیتی ہے۔ یہ ایک ایسے مستقبل کا تصور کرتا ہے جہاں AI ٹریننگ کے لیے ضروری ڈیٹا سیٹس کو زیادہ کھلے اور منصفانہ طریقے سے کیوریٹ اور دستیاب کیا جاتا ہے، جو AI کی ترقی کے لیے ایک زیادہ شفاف اور اشتراکی ماحولیاتی نظام کو فروغ دیتا ہے، خاص طور پر تحقیقی برادری کے اندر۔ OSAID تعریف کا مقصد ایک واضح معیار فراہم کرنا ہے جس کے خلاف AI سسٹمز کا جائزہ لیا جا سکے، سطحی لیبلز سے آگے بڑھ کر کھلے پن کے حقیقی عزم کا اندازہ لگایا جا سکے۔

ایک اجتماعی ذمہ داری: حقیقی AI شفافیت کو آگے بڑھانا

AI میں حقیقی کھلے پن کو یقینی بنانے کا چیلنج صرف تعریفوں سے حل نہیں کیا جا سکتا؛ اس کے لیے متعدد اسٹیک ہولڈرز کی جانب سے مربوط کارروائی کی ضرورت ہے۔ سائنسی برادری، بطور ڈویلپرز اور جدید AI ٹولز کے بنیادی صارفین، ایک اہم ذمہ داری رکھتی ہے۔ محققین کو OSAID 1.0 جیسی پہل میں فعال طور پر مشغول ہونا چاہیے، اس کے اصولوں کو سمجھنا چاہیے اور ان کو اپنانے کی وکالت کرنی چاہیے۔ انہیں ان AI ماڈلز کے ‘کھلے پن’ کے دعووں کا تنقیدی جائزہ لینے کی ضرورت ہے جنہیں وہ استعمال کرنے پر غور کرتے ہیں، ان کو ترجیح دیتے ہوئے جو ٹریننگ ڈیٹا اور طریقہ کار کے حوالے سے زیادہ شفافیت پیش کرتے ہیں، چاہے اس کے لیے بظاہر آسان لیکن غیر شفاف سسٹمز کی کشش کا مقابلہ کرنا پڑے۔ اشاعتوں، کانفرنسوں، اور ادارہ جاتی مباحثوں میں قابل تصدیق، قابل تکرار AI ٹولز کی ضرورت کا اظہار کرنا سب سے اہم ہے۔

عوامی فنڈنگ ایجنسیاں اور سرکاری ادارے بھی ایک اہم کردار ادا کرتے ہیں۔ وہ گرانٹ کی ضروریات اور خریداری کی پالیسیوں کے ذریعے کافی اثر و رسوخ رکھتے ہیں۔ US National Institutes of Health (NIH) جیسے ادارے، جو پہلے ہی اپنی فنڈنگ کے ذریعے پیدا ہونے والے تحقیقی ڈیٹا کے لیے اوپن لائسنسنگ لازمی قرار دیتے ہیں، ایک قابل قدر مثال فراہم کرتے ہیں۔ اسی طرح، اٹلی کی عوامی انتظامیہ کے اداروں کے لیے اوپن سورس سافٹ ویئر کو ترجیح دینے کی ضرورت جیسی مثالیں ظاہر کرتی ہیں کہ پالیسی کس طرح اپنانے کو آگے بڑھا سکتی ہے۔ ان اصولوں کو AI کے دائرے تک بڑھایا جا سکتا ہے اور بڑھایا جانا چاہیے۔ حکومتوں اور فنڈنگ باڈیز کو غور کرنا چاہیے:

  • عوامی طور پر فنڈڈ AI تحقیق اور ترقی کے لیے مضبوط اوپن سورس AI معیارات (جیسے OSAID) کی پابندی کو لازمی قرار دینا۔
  • حقیقی معنوں میں کھلے، اعلیٰ معیار کے ڈیٹا سیٹس – ایک ‘ڈیٹا کامنز’ – کی تخلیق میں سرمایہ کاری کرنا جو تحقیق پر مرکوز AI ماڈلز کی تربیت کے لیے موزوں ہوں۔
  • اس بات کو یقینی بنانا کہ EU AI ایکٹ جیسے ضوابط اس طرح نافذ کیے جائیں جو ‘اوپن واشنگ’ کو روکیں اور تمام طاقتور AI سسٹمز کو جوابدہ ٹھہرائیں، چاہے ان کے لائسنسنگ کے دعوے کچھ بھی ہوں۔

بالآخر، تحقیق میں AI کے مستقبل کی حفاظت کے لیے ایک متحدہ محاذ کی ضرورت ہے۔ سائنسدانوں کو شفافیت کا مطالبہ کرنا چاہیے، اداروں کو ایسی پالیسیاں نافذ کرنی چاہئیں جو حقیقی کھلے پن کو ترجیح دیں، اور ریگولیٹرز کو یقینی بنانا چاہیے کہ ‘اوپن سورس’ کا لیبل جوابدہی کے لیے ایک بامعنی عزم کی نشاندہی کرے، نہ کہ ایک آسان فرار کا راستہ۔ ان اجتماعی کوششوں کے بغیر، سائنسی دریافت کے لیے AI کی بے پناہ صلاحیت بند، ملکیتی سسٹمز کے زیر تسلط منظر نامے کی وجہ سے سمجھوتہ کرنے کا خطرہ ہے، جو بنیادی طور پر سائنسی ترقی کی اشتراکی اور قابل تصدیق نوعیت کو کمزور کرتا ہے۔ مستقبل کی تحقیق کی سالمیت داؤ پر لگی ہوئی ہے۔