کیا OpenAI کا AI کاپی رائٹ شدہ مواد یاد کر رہا ہے؟

اے آئی کے دور میں کاپی رائٹ: ایک بڑھتا ہوا طوفان

مصنوعی ذہانت کی دنیا، خاص طور پر OpenAI جیسی صنعت کی بڑی کمپنیوں کے تیار کردہ جدید ترین لارج لینگویج ماڈلز (LLMs)، ایک بڑھتے ہوئے قانونی اور اخلاقی طوفان کا سامنا کر رہی ہے۔ اس طوفان کے مرکز میں ایک بنیادی سوال ہے: ان طاقتور مشینوں کو کون سا ڈیٹا ایندھن فراہم کرتا ہے، اور کیا اس عمل میں تخلیق کاروں کے حقوق کا احترام کیا گیا؟ الزامات بڑھ رہے ہیں، جن میں یہ تجویز کیا گیا ہے کہ کاپی رائٹ شدہ مواد کی بڑی مقدار - ناول، مضامین، کوڈ، اور بہت کچھ - ان ماڈلز نے اپنی تربیت کے مرحلے کے دوران ضروری اجازتوں یا معاوضے کے بغیر استعمال کیا ہو سکتا ہے۔ یہ محض ایک علمی بحث نہیں ہے؛ یہ تیزی سے اعلیٰ خطرات والے قانونی چارہ جوئی میں تبدیل ہو رہی ہے۔

OpenAI خود کو مصنفین، پروگرامرز، اور مختلف حقوق کے حاملین کی طرف سے شروع کی گئی قانونی لڑائیوں میں تیزی سے الجھا ہوا پاتا ہے۔ یہ مدعی دعویٰ کرتے ہیں کہ ان کی دانشورانہ املاک کو ان AI ماڈلز کی تعمیر کے لیے غلط طریقے سے استعمال کیا گیا جو سرخیاں بنا رہے ہیں اور صنعتوں کو تبدیل کر رہے ہیں۔ ان کی دلیل اس دعوے پر مبنی ہے کہ موجودہ کاپی رائٹ قانون تجارتی AI سسٹمز کے لیے تربیتی مواد کے طور پر محفوظ شدہ کاموں کے بڑے پیمانے پر استعمال کی واضح طور پر اجازت نہیں دیتا ہے۔ OpenAI نے جواب میں، مسلسل ‘منصفانہ استعمال’ (fair use) کے نظریے کا حوالہ دیا ہے، جو ایک پیچیدہ قانونی اصول ہے جو مخصوص حالات میں بغیر اجازت کے کاپی رائٹ شدہ مواد کے محدود استعمال کی اجازت دیتا ہے۔ تاہم، AI تربیت کے بے مثال پیمانے اور نوعیت پر منصفانہ استعمال کا اطلاق ایک شدید متنازعہ خاکستری علاقہ ہے، جو تاریخی قانونی نظیروں کے لیے اسٹیج تیار کر رہا ہے۔ بنیادی تناؤ اس بات کے گرد گھومتا ہے کہ آیا کاپی رائٹ شدہ کاموں کو ماڈل کے اندر شماریاتی نمونوں میں تبدیل کرنا ‘تبدیلی لانے والا استعمال’ (transformative use) ہے - جو منصفانہ استعمال کا ایک کلیدی عنصر ہے - یا محض بڑے پیمانے پر غیر مجاز تولید۔ ان مقدمات کا نتیجہ AI کی ترقی کے مستقبل کی سمت کو گہرائی سے تشکیل دے سکتا ہے، ممکنہ طور پر ماڈل بنانے والوں پر اہم پابندیاں یا اخراجات عائد کر سکتا ہے۔

بلیک باکس کے اندر جھانکنا: یادداشت کا پتہ لگانے کا ایک نیا طریقہ

اس آتش گیر بحث کو مزید ہوا دینے والی ایک حالیہ تحقیق ہے جو University of Washington، University of Copenhagen، اور Stanford University سمیت ممتاز اداروں کے محققین کی ایک مشترکہ ٹیم نے کی ہے۔ ان کا کام ایک جدید تکنیک متعارف کراتا ہے جو خاص طور پر ان مثالوں کا پتہ لگانے کے لیے ڈیزائن کی گئی ہے جہاں AI ماڈلز، یہاں تک کہ وہ بھی جن تک صرف OpenAI کی طرح محدود ایپلیکیشن پروگرامنگ انٹرفیس (APIs) کے ذریعے رسائی حاصل کی جاتی ہے، اپنے تربیتی ڈیٹا کے مخصوص حصوں کو ‘یاد’ کرتے ہوئے دکھائی دیتے ہیں۔ یہ ایک اہم پیش رفت ہے کیونکہ GPT-4 جیسے تجارتی ماڈلز کے اندرونی کام کاج یا ان کے عین مطابق تربیتی ڈیٹاسیٹس تک رسائی بیرونی تفتیش کاروں کے لیے عام طور پر ناممکن ہوتی ہے۔

یہ سمجھنا کہ یہ ماڈلز کیسے کام کرتے ہیں، مطالعہ کی اہمیت کو سمجھنے کی کلید ہے۔ اپنے مرکز میں، LLMs ناقابل یقین حد تک نفیس پیشین گوئی کے انجن ہیں۔ انہیں متن اور کوڈ کی واقعی بڑی مقدار پر تربیت دی جاتی ہے، جس سے وہ الفاظ، فقروں اور تصورات کے درمیان پیچیدہ شماریاتی تعلقات سیکھتے ہیں۔ یہ سیکھنے کا عمل انہیں مربوط متن تیار کرنے، زبانوں کا ترجمہ کرنے، مختلف قسم کے تخلیقی مواد لکھنے، اور معلوماتی انداز میں سوالات کے جوابات دینے کے قابل بناتا ہے۔ اگرچہ مقصد یہ ہے کہ ماڈل معلومات کو لفظ بہ لفظ ذخیرہ کرنے کے بجائے نمونوں کو عام کرے، تربیتی ڈیٹا کا سراسر پیمانہ کچھ حد تک یادداشت کو تقریباً ناگزیر بنا دیتا ہے۔ اسے ایک ایسے طالب علم کی طرح سمجھیں جو لاتعداد نصابی کتب کا مطالعہ کرتا ہے؛ اگرچہ ان کا مقصد تصورات کو سمجھنا ہے، وہ نادانستہ طور پر مخصوص جملے یا تعریفیں یاد کر سکتے ہیں، خاص طور پر مخصوص۔ پچھلے مشاہدات نے پہلے ہی دکھایا ہے کہ امیج جنریشن ماڈلز ان فلموں سے پہچانے جانے والے عناصر کو دوبارہ پیش کرتے ہیں جن پر انہیں تربیت دی گئی تھی، اور لینگویج ماڈلز ایسا متن تیار کرتے ہیں جو خبروں کے مضامین جیسے ذرائع سے حیرت انگیز طور پر ملتا جلتا ہے، یا براہ راست نقل کیا گیا ہے۔ یہ رجحان سرقہ اور AI سے تیار کردہ مواد کی حقیقی اصلیت کے بارے میں سنگین خدشات کو جنم دیتا ہے۔

محققین کی طرف سے تجویز کردہ طریقہ کار ہوشیار اور انکشافی دونوں ہے۔ یہ اس بات پر مرکوز ہے جسے وہ ‘ہائی سرپرائزل’ (high-surprisal) الفاظ کہتے ہیں، ان کی شناخت اور استعمال پر۔ یہ وہ الفاظ ہیں جو کسی جملے یا اقتباس کے مخصوص سیاق و سباق میں شماریاتی طور پر غیر معمولی یا غیر متوقع معلوم ہوتے ہیں۔ اس جملے پر غور کریں: “قدیم ملاح سیکسٹنٹ (sextant) کی مدھم روشنی سے رہنمائی حاصل کرتا تھا۔” لفظ ‘sextant’ کو ہائی سرپرائزل سمجھا جا سکتا ہے کیونکہ، متن کے عام مجموعے میں، ‘ستارے’، ‘چاند’، یا ‘قطب نما’ جیسے الفاظ اس سیاق و سباق میں شماریاتی طور پر زیادہ ممکنہ ہو سکتے ہیں۔ محققین نے یہ قیاس کیا کہ اگر کسی ماڈل نے تربیت کے دوران کسی مخصوص متن کے اقتباس کو واقعی یاد کر لیا ہے، تو وہ ان منفرد، ہائی سرپرائزل الفاظ کی پیشین گوئی کرنے میں غیر معمولی طور پر اچھا ہو گا اگر انہیں اقتباس سے ہٹا دیا جائے۔

اس مفروضے کو جانچنے کے لیے، تحقیقی ٹیم نے منظم طریقے سے OpenAI کے کئی فلیگ شپ ماڈلز کی جانچ کی، جن میں طاقتور GPT-4 اور اس کا پیشرو، GPT-3.5 شامل ہیں۔ انہوں نے معروف ذرائع سے متن کے ٹکڑے لیے، جیسے مشہور افسانوی ناول اور The New York Times کے مضامین۔ اہم بات یہ ہے کہ انہوں نے ان ٹکڑوں سے شناخت شدہ ہائی سرپرائزل الفاظ کو چھپا دیا یا ہٹا دیا۔ پھر ماڈلز کو خالی جگہوں کو پُر کرنے کے لیے کہا گیا - بنیادی طور پر، گمشدہ، شماریاتی طور پر غیر امکانی الفاظ کا ‘اندازہ’ لگانے کے لیے۔ مطالعہ کی بنیادی منطق مجبور کرنے والی ہے: اگر کوئی ماڈل مستقل طور پر اور درست طریقے سے ان ہائی سرپرائزل الفاظ کی پیشین گوئی کرتا ہے، تو یہ مضبوطی سے تجویز کرتا ہے کہ ماڈل نے نہ صرف عمومی زبان کے نمونے سیکھے بلکہ درحقیقت اپنے تربیتی ڈیٹا سے اس عین متن کی ترتیب کی ایک مخصوص یادداشت برقرار رکھی۔ محض اتفاق یا عمومی زبان کی سمجھ سے مخصوص سیاق و سباق میں غیر معمولی الفاظ کے لیے اتنے درست اندازے پیدا ہونے کا امکان نہیں ہے۔

نتائج: AI آؤٹ پٹ میں کاپی رائٹ شدہ متن کی بازگشت

ان محتاط ٹیسٹوں سے حاصل کردہ نتائج کاپی رائٹ کی خلاف ورزی کے دعووں کی حمایت کرنے والے زبردست، اگرچہ ابتدائی، ثبوت فراہم کرتے ہیں۔ مطالعہ کے شائع شدہ نتائج کے مطابق، GPT-4، تحقیق کے وقت OpenAI کا سب سے جدید عوامی طور پر دستیاب ماڈل، نے مشہور افسانوی کتابوں کے لفظ بہ لفظ حصوں کو یاد کرنے کے اہم نشانات دکھائے۔ اس میں وہ متن شامل تھے جو BookMIA کے نام سے جانے والے ایک مخصوص ڈیٹاسیٹ کے اندر پائے گئے، جو کاپی رائٹ شدہ الیکٹرانک کتابوں سے نکالے گئے نمونوں پر مشتمل ہے - ایک ڈیٹاسیٹ جو اکثر ممکنہ طور پر خلاف ورزی کرنے والے تربیتی ذرائع کے بارے میں بحثوں میں ملوث ہوتا ہے۔ ماڈل صرف عمومی موضوعات یا اسلوب کو یاد نہیں کر رہا تھا؛ یہ ان منفرد، ہائی سرپرائزل الفاظ پر مشتمل متن کی ترتیب کو درست طریقے سے دوبارہ تشکیل دے رہا تھا، جو سادہ پیٹرن کی عمومیت سے زیادہ گہری سطح کی برقراری کی نشاندہی کرتا ہے۔

مزید برآں، تحقیقات سے یہ بات سامنے آئی کہ GPT-4 نے New York Times کے مضامین کے حصوں کو یاد کرنے کے ثبوت بھی دکھائے۔ تاہم، محققین نے نوٹ کیا کہ خبروں کے مضامین کے لیے ظاہری یادداشت کی شرح افسانوی کتابوں کے لیے مشاہدہ کی گئی شرح کے مقابلے میں نسبتاً کم تھی۔ یہ فرق ممکنہ طور پر مختلف عوامل سے منسوب کیا جا سکتا ہے، جیسے کہ اصل تربیتی ڈیٹاسیٹ کے اندر ان مختلف متن کی اقسام کی تعدد یا پیشکش، یا شاید اس میں تغیرات کہ ماڈل نے صحافتی بمقابلہ بیانیہ نثر پر کیسے کارروائی کی۔ عین شرح سے قطع نظر، یہ حقیقت کہ یادداشت مختلف قسم کے کاپی رائٹ شدہ مواد - ادبی کام اور صحافتی ٹکڑے دونوں - میں واقع ہوئی، اس دلیل کو مضبوط کرتی ہے کہ یہ رجحان کسی ایک صنف یا ذریعہ تک محدود نہیں ہے۔

یہ نتائج جاری قانونی اور اخلاقی بحثوں میں کافی وزن رکھتے ہیں۔ اگر GPT-4 جیسے ماڈلز واقعی مخصوص، کاپی رائٹ شدہ اقتباسات کو دوبارہ پیش کرنے کے قابل ہیں جن پر انہیں تربیت دی گئی تھی، تو یہ OpenAI کے منصفانہ استعمال کے دفاع کو پیچیدہ بنا دیتا ہے۔ منصفانہ استعمال اکثر ان استعمالات کی حمایت کرتا ہے جو اصل کام کو تبدیل کرتے ہیں؛ لفظ بہ لفظ تولید، چاہے غیر ارادی یا امکانی ہو، تبدیلی سے ہٹ کر سادہ نقل کی طرف جھکتا ہے۔ یہ ثبوت ممکنہ طور پر کاپی رائٹ کے مقدمات میں مدعیوں کی طرف سے یہ دلیل دینے کے لیے استعمال کیا جا سکتا ہے کہ OpenAI کے تربیتی طریقوں کے نتیجے میں خلاف ورزی کرنے والے مشتق کاموں کی تخلیق ہوئی یا ماڈل کے آؤٹ پٹس کے ذریعے براہ راست خلاف ورزی میں سہولت فراہم کی۔ یہ تربیت کے لیے استعمال ہونے والے ڈیٹا اور AI کے ذریعے تیار کردہ مخصوص آؤٹ پٹس کے درمیان ٹھوس ربط کو اجاگر کرتا ہے، جس سے ‘سیکھنے کے نمونوں’ کا تجریدی تصور ٹھوس تولید کے بہت قریب محسوس ہوتا ہے۔

AI کی ترقی میں اعتماد اور شفافیت کی ضرورت

Abhilasha Ravichander، University of Washington میں ڈاکٹریٹ کی طالبہ اور مطالعہ کے شریک مصنفین میں سے ایک، نے اپنی تحقیق کے وسیع مضمرات پر زور دیا۔ انہوں نے روشنی ڈالی کہ یہ نتائج ممکنہ طور پر ‘متنازعہ ڈیٹا’ پر اہم روشنی ڈالتے ہیں جو بہت سے عصری AI ماڈلز کی بنیاد بن سکتا ہے۔ یادداشت شدہ مواد کی شناخت کرنے کی صلاحیت OpenAI جیسی کمپنیوں کے استعمال کردہ بصورت دیگر غیر شفاف تربیتی ڈیٹاسیٹس میں ایک کھڑکی فراہم کرتی ہے، چاہے وہ کتنی ہی چھوٹی کیوں نہ ہو۔

Ravichander نے AI تحقیقی برادری اور عوام میں بڑھتے ہوئے جذبات کا اظہار کیا: ‘قابل اعتماد لارج لینگویج ماڈلز رکھنے کے لیے، ہمیں ایسے ماڈلز کی ضرورت ہے جن کی ہم سائنسی طور پر تحقیقات، آڈٹ اور جانچ کر سکیں۔’ یہ بیان AI صنعت کو درپیش ایک اہم چیلنج کو اجاگر کرتا ہے۔ جیسے جیسے یہ ماڈلز معاشرے کے مختلف پہلوؤں میں زیادہ مربوط ہوتے جا رہے ہیں - خبروں کے مضامین تیار کرنے اور کوڈ لکھنے سے لے کر طبی تشخیص اور مالیاتی تجزیہ میں مدد کرنے تک - اعتماد اور جوابدہی کی ضرورت اولین حیثیت اختیار کر لیتی ہے۔ صارفین، ریگولیٹرز، اور عوام کو یقین دہانی کی ضرورت ہے کہ یہ نظام منصفانہ، قابل اعتماد، اور اخلاقی طور پر کام کرتے ہیں۔ بہت سے موجودہ LLMs کی ‘بلیک باکس’ نوعیت، جہاں ان کے تخلیق کار بھی ان کے اندرونی کام کاج کی ہر باریکی یا مخصوص آؤٹ پٹس کی عین اصلیت کو پوری طرح سے نہیں سمجھ سکتے ہیں، اس اعتماد کے قیام میں رکاوٹ ہے۔

مطالعہ کا مجوزہ طریقہ کار کاپی رائٹ یادداشت کا پتہ لگانے کی تکنیک سے زیادہ کی نمائندگی کرتا ہے؛ یہ وسیع تر AI آڈٹنگ کے لیے ایک ممکنہ ٹول کے طور پر کام کرتا ہے۔ ماڈلز کی تحقیقات کرنے کی صلاحیت، یہاں تک کہ وہ بھی جن تک صرف APIs کے ذریعے رسائی حاصل کی جاتی ہے، آزادانہ تصدیق اور تجزیہ کی اجازت دیتی ہے۔ Ravichander نے مزید ‘پورے ایکو سسٹم میں زیادہ ڈیٹا شفافیت کی فوری ضرورت’ پر زور دیا۔ یہ جانے بغیر کہ یہ ماڈلز کس ڈیٹا پر تربیت یافتہ ہیں، ممکنہ تعصبات کا اندازہ لگانا، حفاظتی کمزوریوں کی نشاندہی کرنا، نقصان دہ یا غلط آؤٹ پٹس کے ماخذ کو سمجھنا، یا، جیسا کہ یہ مطالعہ اجاگر کرتا ہے، ممکنہ کاپی رائٹ کی خلاف ورزی کی حد کا تعین کرنا ناقابل یقین حد تک مشکل ہو جاتا ہے۔ شفافیت کا مطالبہ محض علمی نہیں ہے؛ یہ ایک ذمہ دار اور پائیدار AI مستقبل کی تعمیر کے لیے ایک بنیادی ضرورت ہے۔ اسمیں ملکیتی معلومات اور دانشورانہ املاک (بشمول خود ماڈلز) کے تحفظ اور عوامی جوابدہی اور حفاظت کو یقینی بنانے کے درمیان پیچیدہ تجارت شامل ہے۔ مضبوط آڈٹنگ ٹولز اور فریم ورک کی ترقی، ڈیٹا کے انکشاف کے لیے واضح معیارات کے ساتھ، تیزی سے اہم ہوتی جا رہی ہے کیونکہ AI اپنی تیز رفتار ترقی کو جاری رکھے ہوئے ہے۔

OpenAI کا موقف اور آگے کا غیر یقینی راستہ

تخلیق کاروں اور قانون سازوں کے بڑھتے ہوئے دباؤ کا سامنا کرتے ہوئے، OpenAI نے مسلسل ایک ایسے قانونی اور ریگولیٹری ماحول کی وکالت کی ہے جو AI ماڈلز کی تربیت کے لیے کاپی رائٹ شدہ مواد کے وسیع استعمال کی اجازت دیتا ہے۔ کمپنی کا موقف ہے کہ ایسی لچک جدت طرازی اور امریکہ کے لیے عالمی AI دوڑ میں مسابقتی برتری برقرار رکھنے کے لیے ضروری ہے۔ ان کی لابنگ کی کوششیں دنیا بھر کی حکومتوں کو موجودہ کاپی رائٹ قوانین، خاص طور پر ریاستہائے متحدہ میں ‘منصفانہ استعمال’ (fair use) کے تصور کی تشریح یا ضابطہ بندی کرنے پر آمادہ کرنے پر مرکوز رہی ہیں، اس انداز میں جو AI ڈویلپرز کے لیے سازگار ہو۔ ان کا دعویٰ ہے کہ متنوع ڈیٹاسیٹس پر ماڈلز کی تربیت، بشمول کاپی رائٹ شدہ کام، ایک تبدیلی لانے والا استعمال ہے جو طاقتور اور فائدہ مند AI سسٹمز بنانے کے لیے ضروری ہے۔

تاہم، بڑھتے ہوئے خدشات کو تسلیم کرتے ہوئے، OpenAI نے اس مسئلے کو حل کرنے کے لیے کچھ اقدامات بھی کیے ہیں، اگرچہ ایسے اقدامات جنہیں ناقدین اکثر ناکافی سمجھتے ہیں۔ کمپنی نے بعض پبلشرز اور مواد تخلیق کاروں کے ساتھ مواد لائسنسنگ معاہدے (content licensing agreements) کیے ہیں، جس سے ان کے مواد کو استعمال کرنے کی واضح اجازت حاصل ہوئی ہے۔ یہ سودے، اگرچہ اہم ہیں، اس ڈیٹا کا صرف ایک حصہ ہیں جو ممکنہ طور پر GPT-4 جیسے ماڈلز کو تربیت دینے کے لیے استعمال کیا گیا تھا۔ مزید برآں، OpenAI نے آپٹ آؤٹ میکانزم (opt-out mechanisms) نافذ کیے ہیں۔ یہ کاپی رائٹ ہولڈرز کو باضابطہ طور پر درخواست کرنے کی اجازت دیتے ہیں کہ ان کا مواد مستقبل کے AI تربیتی مقاصد کے لیے استعمال نہ کیا جائے۔ اگرچہ بظاہر تخلیق کاروں کے حقوق کا احترام کرنے کی طرف ایک قدم ہے، ان آپٹ آؤٹ سسٹمز کی تاثیر اور عملیت قابل بحث ہے۔ وہ انفرادی تخلیق کاروں پر یہ بوجھ ڈالتے ہیں کہ وہ یہ دریافت کریں کہ ان کا کام استعمال کیا جا سکتا ہے اور پھر آپٹ آؤٹ کرنے کے لیے OpenAI کے مخصوص طریقہ کار پر عمل کریں۔ مزید برآں، یہ میکانزم عام طور پر ان ماڈلز میں مواد کے استعمال کو حل نہیں کرتے ہیں جو پہلے ہی تربیت یافتہ ہو چکے ہیں۔

موجودہ صورتحال ایک بنیادی تناؤ کی عکاسی کرتی ہے: AI کمپنیوں کی جدت طرازی کے لیے معلومات کے وسیع ڈیجیٹل کائنات سے فائدہ اٹھانے کی خواہش بمقابلہ تخلیق کاروں کا اپنے اصل کاموں کو کنٹرول کرنے اور ان سے فائدہ اٹھانے کا حق۔ یادداشت کا مظاہرہ کرنے والا مطالعہ پیچیدگی کی ایک اور پرت کا اضافہ کرتا ہے، یہ تجویز کرتا ہے کہ ڈیٹا سے ‘سیکھنے’ اور ‘کاپی کرنے’ کے درمیان کی لکیر دھندلی ہے اور شاید ماڈل ڈویلپرز کے پہلے تسلیم کیے جانے سے زیادہ کثرت سے عبور کی جاتی ہے۔ آگے کا راستہ غیر یقینی ہے۔ اس میں AI تربیتی ڈیٹا کو خاص طور پر حل کرنے والی نئی قانون سازی، اس نئے تناظر میں موجودہ کاپی رائٹ قانون کی تشریح کرنے والے تاریخی عدالتی فیصلے، صنعت گیر بہترین طریقوں اور لائسنسنگ فریم ورک کی ترقی، یا بہتر ڈیٹا پروویننس ٹریکنگ یا ماڈل یادداشت کو کم کرنے کی تکنیک جیسے تکنیکی حل شامل ہو سکتے ہیں۔ جو بات واضح نظر آتی ہے وہ یہ ہے کہ AI اور کاپی رائٹ پر بحث ختم ہونے سے بہت دور ہے؛ درحقیقت، یہ ابھی شروع ہو رہی ہے، جس کے مصنوعی ذہانت کے مستقبل اور تخلیقی معیشت دونوں کے لیے گہرے مضمرات ہیں۔ یادداشت سے متعلق نتائج ایک واضح یاد دہانی کے طور پر کام کرتے ہیں کہ ان طاقتور ٹولز کو ایندھن فراہم کرنے والے ڈیجیٹل ڈیٹا کی اصلیت، مالکان اور حقوق ہیں جنہیں نظر انداز نہیں کیا جا سکتا۔