مصنوعی ذہانت کی ترقی کی مسلسل پیش قدمی، جس کی قیادت OpenAI جیسی بڑی کمپنیاں کر رہی ہیں، اکثر دانشورانہ املاک اور ڈیٹا کی ملکیت کے دیرینہ اصولوں سے ٹکراتی ہے۔ یہ تصادم ایک بار پھر تنازعہ کا باعث بنا ہے، تازہ الزامات سامنے آئے ہیں کہ OpenAI کا نیا فلیگ شپ ماڈل، GPT-4o، ممکنہ طور پر پے والز کے پیچھے محفوظ کاپی رائٹ شدہ مواد استعمال کرکے تربیت یافتہ کیا گیا ہے، اور شاید ضروری اجازتیں حاصل کیے بغیر۔ یہ دعوے ایک نئے قائم کردہ نگران گروپ، AI Disclosures Project کی طرف سے آئے ہیں، جو پہلے سے ہی پیچیدہ بحث میں ایک اور تہہ کا اضافہ کرتے ہیں جو جدید AI سسٹمز کی تربیت کے لیے ڈیٹا کی اخلاقی سورسنگ کے گرد گھومتی ہے۔
نگران گروپ کا شور: AI Disclosures Project کے الزامات
2024 میں شروع کیا گیا، AI Disclosures Project خود کو ایک غیر منافع بخش ادارے کے طور پر پیش کرتا ہے جو AI انڈسٹری کے اکثر غیر شفاف طریقوں کی جانچ پڑتال کے لیے وقف ہے۔ اس کے بانیوں میں میڈیا انٹرپرینیور Tim O’Reilly جیسی قابل ذکر شخصیات شامل ہیں، جو O’Reilly Media کے بانی ہیں، جو تکنیکی کتابوں کے ایک ممتاز پبلشر ہیں، اور ماہر معاشیات Ilan Strauss۔ O’Reilly Media سے یہ تعلق خاص طور پر متعلقہ ہے، کیونکہ پروجیکٹ کی ابتدائی تہلکہ خیز رپورٹ خاص طور پر GPT-4o کے تربیتی ڈیٹاسیٹ میں O’Reilly کی پے وال شدہ کتابوں کے مواد کی مبینہ موجودگی پر مرکوز ہے۔
ان کے مطالعے کا مرکزی دعویٰ اشتعال انگیز ہے: OpenAI اور O’Reilly Media کے درمیان کسی معلوم لائسنسنگ معاہدے کی عدم موجودگی کے باوجود، GPT-4o ماڈل O’Reilly کی کاپی رائٹ شدہ کتابوں سے براہ راست اخذ کردہ مواد سے نمایاں طور پر اعلیٰ سطح کی واقفیت ظاہر کرتا ہے۔ رپورٹ کا مؤقف ہے کہ یہ واقفیت، مضبوطی سے تجویز کرتی ہے کہ یہ پے وال شدہ مواد اس وسیع ڈیٹا کارپس میں شامل کیا گیا تھا جو ماڈل کی صلاحیتوں کو بنانے کے لیے استعمال کیا گیا تھا۔ مطالعہ پرانے OpenAI ماڈلز، خاص طور پر GPT-3.5 Turbo کے مقابلے میں ایک اہم فرق کو نمایاں کرتا ہے، جو GPT-4o کی ترقی تک ڈیٹا کے حصول کے طریقوں میں ممکنہ تبدیلی یا توسیع کا اشارہ دیتا ہے۔
اس کے مضمرات کافی ہیں۔ اگر ملکیتی، بامعاوضہ مواد AI ماڈلز کے ذریعے بغیر اجازت یا معاوضے کے استعمال کیا جا رہا ہے، تو یہ جنریٹو AI کے دور میں کاپی رائٹ قانون کے بارے میں بنیادی سوالات اٹھاتا ہے۔ پبلشرز اور مصنفین سبسکرپشن یا خریداری کے ماڈلز پر انحصار کرتے ہیں، جو ان کے مواد کی خصوصیت پر مبنی ہوتے ہیں۔ تربیت کے لیے اس مواد کا مبینہ استعمال ان کاروباری ماڈلز کو کمزور کرنے کے طور پر دیکھا جا سکتا ہے، ممکنہ طور پر اس مواد کی قدر کو کم کرنا جس کی تخلیق کے لیے اہم سرمایہ کاری کی ضرورت ہوتی ہے۔ یہ مخصوص الزام عوامی طور پر دستیاب ویب سائٹس کی اسکریپنگ سے آگے بڑھتا ہے، اور واضح طور پر ادائیگی کرنے والے صارفین کے لیے بنائے گئے مواد تک رسائی کے علاقے میں داخل ہوتا ہے۔
بلیک باکس کے اندر جھانکنا: ممبرشپ انفرنس اٹیک
اپنے دعووں کو ثابت کرنے کے لیے، AI Disclosures Project کے محققین نے ایک جدید تکنیک کا استعمال کیا جسے ‘میمبرشپ انفرنس اٹیک’ کہا جاتا ہے، خاص طور پر ایک طریقہ استعمال کرتے ہوئے جسے وہ DE-COP کہتے ہیں۔ اس نقطہ نظر کے پیچھے بنیادی خیال یہ جانچنا ہے کہ آیا AI ماڈل نے متن کے مخصوص ٹکڑوں کو ‘یاد’ کر لیا ہے یا کم از کم ان سے گہری واقفیت پیدا کر لی ہے۔ بنیادی طور پر، یہ حملہ ماڈل کی جانچ کرتا ہے کہ آیا وہ قابل اعتماد طریقے سے اصل متن کے اقتباسات (اس معاملے میں، O’Reilly کی کتابوں سے) اور انہی اقتباسات کے احتیاط سے بنائے گئے پیرافریزڈ ورژن، جو کسی دوسرے AI نے تیار کیے ہیں، کے درمیان فرق کر سکتا ہے۔
اس کے پیچھے منطق یہ ہے کہ اگر کوئی ماڈل مسلسل اصل انسانی تصنیف شدہ متن کو قریبی پیرافریز کے مقابلے میں شناخت کرنے کی بے ترتیب سے زیادہ صلاحیت دکھاتا ہے، تو اس کا مطلب ہے کہ ماڈل نے اس اصل متن کا پہلے سامنا کیا ہے - ممکنہ طور پر اس کی تربیت کے مرحلے کے دوران۔ یہ اس بات کی جانچ کرنے کے مترادف ہے کہ آیا کوئی شخص کسی مخصوص، کم معروف تصویر کو پہچانتا ہے جسے اس نے کبھی نہ دیکھنے کا دعویٰ کیا ہو؛ مسلسل پہچان پہلے کی نمائش کا مشورہ دیتی ہے۔
AI Disclosures Project کے ٹیسٹ کا پیمانہ کافی بڑا تھا۔ انہوں نے 34 مختلف O’Reilly Media کتابوں سے لیے گئے 13,962 الگ الگ پیراگراف کے اقتباسات استعمال کیے۔ یہ اقتباسات اس قسم کے خصوصی، اعلیٰ قدر والے مواد کی نمائندگی کرتے تھے جو عام طور پر پبلشر کے پے وال کے پیچھے پائے جاتے ہیں۔ اس کے بعد مطالعہ نے اس تفریق کے کام پر GPT-4o اور اس کے پیشرو، GPT-3.5 Turbo دونوں کی کارکردگی کی پیمائش کی۔
نتائج، جیسا کہ رپورٹ میں پیش کیا گیا ہے، چونکا دینے والے تھے۔ GPT-4o نے پے وال شدہ O’Reilly مواد کو پہچاننے کی نمایاں طور پر بڑھی ہوئی صلاحیت کا مظاہرہ کیا۔ اس کی کارکردگی کو AUROC (Area Under the Receiver Operating Characteristic curve) اسکور کا استعمال کرتے ہوئے مقدار میں طے کیا گیا، جو بائنری کلاسیفائرز کی کارکردگی کا جائزہ لینے کے لیے ایک عام میٹرک ہے۔ GPT-4o نے 82% کا AUROC اسکور حاصل کیا۔ اس کے برعکس، GPT-3.5 Turbo نے صرف 50% سے اوپر اسکور کیا، جو بنیادی طور پر بے ترتیب اندازے کے برابر ہے - جو ٹیسٹ شدہ مواد کی کسی خاص پہچان کی نشاندہی نہیں کرتا۔ رپورٹ کا استدلال ہے کہ یہ واضح فرق، اگرچہ بالواسطہ، زبردست ثبوت فراہم کرتا ہے کہ پے وال شدہ مواد واقعی GPT-4o کی تربیتی خوراک کا حصہ تھا۔ 82% کا اسکور ایک مضبوط سگنل تجویز کرتا ہے، جو اتفاق یا عمومی علم سے متوقع حد سے کہیں زیادہ ہے۔
ضروری انتباہات اور غیر جوابی سوالات
اگرچہ نتائج ایک زبردست بیانیہ پیش کرتے ہیں، مطالعہ کے شریک مصنفین، بشمول AI محقق Sruly Rosenblat، قابل تعریف طور پر ان کے طریقہ کار میں ممکنہ حدود اور AI تربیت کی پیچیدہ نوعیت کو تسلیم کرتے ہیں۔ ایک اہم انتباہ جو وہ اٹھاتے ہیںوہ بالواسطہ ڈیٹا انجیشن کا امکان ہے۔ وہ نوٹ کرتے ہیں کہ یہ ممکن ہے کہ ChatGPT (OpenAI کا مقبول انٹرفیس) کے صارفین نے پے وال شدہ O’Reilly کتابوں کے اقتباسات کو براہ راست چیٹ انٹرفیس میں مختلف مقاصد کے لیے کاپی اور پیسٹ کیا ہو، جیسے متن کے بارے میں سوالات پوچھنا یا خلاصے کی درخواست کرنا۔ اگر ایسا کافی کثرت سے ہوا، تو ماڈل ابتدائی تربیتی ڈیٹاسیٹ میں براہ راست شمولیت کے بجائے صارف کے تعاملات کے ذریعے بالواسطہ طور پر مواد سیکھ سکتا تھا۔ صارف کے پرامپٹس کے ذریعے بالواسطہ سیکھنے سے براہ راست تربیتی نمائش کو الگ کرنا AI فرانزکس میں ایک اہم چیلنج ہے۔
مزید برآں، مطالعہ کا دائرہ کار OpenAI کے بالکل تازہ ترین یا خصوصی ماڈل تکرارات تک نہیں بڑھایا گیا جو GPT-4o کے مرکزی تربیتی چکر کے ساتھ یا اس کے بعد تیار یا جاری کیے گئے ہوں گے۔ ممکنہ طور پر GPT-4.5 (اگر یہ اس مخصوص نام یا صلاحیت کی سطح کے تحت موجود ہے) اور استدلال پر مرکوز ماڈلز جیسے o3-mini اور o1 شامل کرنے والے ماڈلز کو اسی ممبرشپ انفرنس حملوں کا نشانہ نہیں بنایا گیا۔ اس سے یہ سوال کھلا رہتا ہے کہ آیا ڈیٹا سورسنگ کے طریقے مزید تیار ہوئے ہیں، یا کیا یہ نئے ماڈل پے وال شدہ مواد کے ساتھ واقفیت کے اسی طرح کے نمونے ظاہر کرتے ہیں۔ AI کی ترقی میں تیز رفتار تکرار کے چکروں کا مطلب ہے کہ کوئی بھی سنیپ شاٹ تجزیہ تقریباً فوری طور پر تھوڑا سا پرانا ہونے کا خطرہ رکھتا ہے۔
یہ حدود ضروری نہیں کہ مطالعہ کے بنیادی نتائج کو باطل کر دیں، لیکن وہ باریکی کی اہم پرتیں شامل کرتی ہیں۔ یہ ثابت کرنا کہ فاؤنڈیشن ماڈل کی تربیت کے لیے استعمال ہونے والے ٹیرا بائٹس ڈیٹا کے اندر کیا ہے، بدنام زمانہ طور پر مشکل ہے۔ ممبرشپ انفرنس حملے امکانی ثبوت پیش کرتے ہیں، جو مطلق یقین دہانی پیش کرنے کے بجائے امکان تجویز کرتے ہیں۔ OpenAI، دیگر AI لیبز کی طرح، اپنی تربیتی ڈیٹا کی تشکیل کو قریب سے محفوظ رکھتا ہے، ملکیتی خدشات اور مسابقتی حساسیت کا حوالہ دیتا ہے۔
ایک وسیع تر تنازعہ: AI میدان میں کاپی رائٹ کی لڑائیاں
AI Disclosures Project کی طرف سے لگائے گئے الزامات خلا میں موجود نہیں ہیں۔ وہ AI ڈویلپرز اور تخلیق کاروں کے درمیان تربیتی مقاصد کے لیے کاپی رائٹ شدہ مواد کے استعمال پر ایک بہت وسیع، جاری تنازعہ میں تازہ ترین جھڑپ کی نمائندگی کرتے ہیں۔ OpenAI، Google، Meta، اور Microsoft جیسے دیگر نمایاں کھلاڑیوں کے ساتھ، خود کو متعدد ہائی پروفائل قانونی مقدمات میں الجھا ہوا پاتا ہے۔ یہ قانونی چیلنجز، جو مصنفین، فنکاروں، نیوز تنظیموں، اور دیگر حقوق کے حاملین کی طرف سے لائے گئے ہیں، عام طور پر جنریٹو AI ماڈلز کی تربیت کے لیے انٹرنیٹ سے متن اور تصاویر کی وسیع مقدار کی غیر مجاز اسکریپنگ اور انجیشن سے پیدا ہونے والی وسیع پیمانے پر کاپی رائٹ کی خلاف ورزی کا الزام لگاتے ہیں۔
AI کمپنیوں کی طرف سے اکثر پیش کیا جانے والا بنیادی دفاع منصفانہ استعمال کے نظریے (ریاستہائے متحدہ میں) یا دیگر دائرہ اختیار میں اسی طرح کی استثنیٰ پر منحصر ہے۔ وہ دلیل دیتے ہیں کہ تربیت کے لیے کاپی رائٹ شدہ کاموں کا استعمال ایک ‘تبدیلی’ والا استعمال ہے - AI ماڈل صرف اصل کاموں کو دوبارہ پیش نہیں کر رہے ہیں بلکہ ڈیٹا کو پیٹرن، اسٹائل اور معلومات سیکھنے کے لیے استعمال کر رہے ہیں تاکہ بالکل نئی آؤٹ پٹ تیار کی جا سکے۔ اس تشریح کے تحت، تربیتی عمل خود، جس کا مقصد ایک طاقتور نیا ٹول بنانا ہے، ہر استعمال شدہ ڈیٹا کے ٹکڑے کے لیے لائسنس کی ضرورت کے بغیر قابل اجازت ہونا چاہیے۔
تاہم، حقوق کے حاملین اس نظریے کی سختی سے مخالفت کرتے ہیں۔ ان کا مؤقف ہے کہ کاپی کرنے کا سراسر پیمانہ، بنائے جانے والے AI مصنوعات کی تجارتی نوعیت، اور AI آؤٹ پٹس کا اصل کاموں سے براہ راست مقابلہ کرنے اور ان کی جگہ لینے کا امکان منصفانہ استعمال کے فیصلے کے خلاف بہت زیادہ وزن رکھتا ہے۔ تنازعہ یہ ہے کہ AI کمپنیاں تخلیق کاروں کو معاوضہ دیے بغیر تخلیقی کام کی بنیاد پر اربوں ڈالر کے کاروباری ادارے بنا رہی ہیں۔
اس قانونی پس منظر کے خلاف، OpenAI نے مختلف مواد فراہم کنندگان کے ساتھ لائسنسنگ ڈیلز کرکے کچھ خطرات کو کم کرنے کے لیے فعال طور پر کوشش کی ہے۔ بڑے نیوز پبلشرز (جیسے Associated Press اور Axel Springer)، سوشل میڈیا پلیٹ فارمز (جیسے Reddit)، اور اسٹاک میڈیا لائبریریز (جیسے Shutterstock) کے ساتھ معاہدوں کا اعلان کیا گیا ہے۔ یہ سودے OpenAI کو ادائیگی کے بدلے مخصوص ڈیٹاسیٹس تک جائز رسائی فراہم کرتے ہیں، ممکنہ طور پر ممکنہ طور پر خلاف ورزی کرنے والے ویب اسکریپڈ ڈیٹا پر اس کا انحصار کم کرتے ہیں۔ کمپنی نے مبینہ طور پر صحافیوں کی خدمات بھی حاصل کی ہیں، جنہیں اس کے ماڈلز کے آؤٹ پٹس کے معیار اور وشوسنییتا کو بہتر بنانے میں مدد کرنے کا کام سونپا گیا ہے، جو اعلیٰ معیار، ممکنہ طور پر کیوریٹڈ، ان پٹ کی ضرورت کے بارے میں آگاہی کا مشورہ دیتا ہے۔
لہر کا اثر: مواد کے ماحولیاتی نظام کے خدشات
AI Disclosures Project کی رپورٹ اپنے خدشات کو OpenAI کے لیے فوری قانونی مضمرات سے آگے بڑھاتی ہے۔ یہ اس مسئلے کو ایک نظامی خطرے کے طور پر پیش کرتا ہے جو پورے ڈیجیٹل مواد کے ماحولیاتی نظام کی صحت اور تنوع کو منفی طور پر متاثر کر سکتا ہے۔ مطالعہ ایک ممکنہ طور پر نقصان دہ فیڈ بیک لوپ پیش کرتا ہے: اگر AI کمپنیاں تخلیق کاروں کو معاوضہ دیے بغیر اعلیٰ معیار، پیشہ ورانہ طور پر تخلیق کردہ مواد (بشمول پے وال شدہ مواد) آزادانہ طور پر استعمال کر سکتی ہیں، تو یہ پہلے مرحلے میں اس طرح کے مواد کی تیاری کی مالی استحکام کو ختم کر دیتا ہے۔
پیشہ ورانہ مواد کی تخلیق - چاہے وہ تحقیقاتی صحافت ہو، گہرائی سے تکنیکی دستورالعمل، افسانہ نگاری، یا تعلیمی تحقیق - اکثر اہم وقت، مہارت اور مالی سرمایہ کاری کی ضرورت ہوتی ہے۔ پے والز اور سبسکرپشن ماڈلز اکثر اس کام کی فنڈنگ کے لیے ضروری میکانزم ہوتے ہیں۔ اگر ان کوششوں کی حمایت کرنے والے آمدنی کے سلسلے کم ہو جاتے ہیں کیونکہ مواد مؤثر طریقے سے بغیر معاوضے کے مسابقتی AI سسٹمز کی تربیت کے لیے استعمال کیا جا رہا ہے، تو اعلیٰ معیار، متنوع مواد تخلیق کرنے کی ترغیب کم ہو سکتی ہے۔ اس سے کم باخبر عوام، خصوصی علمی وسائل میں کمی، اور ممکنہ طور پر کم معیار یا AI سے تیار کردہ مواد کا غلبہ رکھنے والا انٹرنیٹ ہو سکتا ہے جس میں انسانی مہارت اور تصدیق کی کمی ہو۔
نتیجتاً، AI Disclosures Project AI کمپنیوں سے ان کے تربیتی ڈیٹا کے طریقوں کے حوالے سے زیادہ شفافیت اور جوابدہی کی سختی سے وکالت کرتا ہے۔ وہ مضبوط پالیسیوں اور ممکنہ طور پر ریگولیٹری فریم ورک کے نفاذ کا مطالبہ کرتے ہیں جو اس بات کو یقینی بناتے ہیں کہ مواد کے تخلیق کاروں کو منصفانہ معاوضہ دیا جائے جب ان کا کام تجارتی AI ماڈلز کی ترقی میں حصہ ڈالتا ہے۔ یہ دنیا بھر کے تخلیق کار گروپوں کی وسیع تر کالوں کی بازگشت ہے جو میکانزم تلاش کرتے ہیں - چاہے لائسنسنگ معاہدوں، رائلٹی سسٹمز، یا اجتماعی سودے بازی کے ذریعے - اس بات کو یقینی بنانے کے لیے کہ وہ اپنی دانشورانہ املاک پر تربیت یافتہ AI سسٹمز سے پیدا ہونے والی قدر کا حصہ وصول کریں۔ بحث ایک پائیدار توازن تلاش کرنے پر مرکوز ہے جہاں AI جدت طرازی انسانی تخلیقی صلاحیتوں اور علم کی پیداوار کے لیے ایک فروغ پزیر ماحولیاتی نظام کے ساتھ پھل پھول سکتی ہے۔ جاری قانونی لڑائیوں کا حل اور نئی قانون سازی یا صنعتی معیارات کا امکان اس مستقبل کے توازن کو تشکیل دینے میں اہم ہوگا۔ بڑے، پیچیدہ AI ماڈلز میں ڈیٹا کے ماخذ کا سراغ لگانے اور قدر منسوب کرنے کا سوال ایک اہم تکنیکی اور اخلاقی رکاوٹ بنی ہوئی ہے۔