ڈیپ سیک کی پیش رفت: کیا جیمنی کا کردار تھا؟

مصنوعی ذہانت (AI) کی دنیا میں ڈیپ سیک (DeepSeek) کے R1 استدلالی ماڈل کے بہتر ورژن کے اجراء کے بعد قیاس آرائیوں کا بازار گرم ہے۔ اس چینی AI لیب نے ایک ایسا ماڈل پیش کیا ہے جو ریاضی اور کوڈنگ کے معیارات میں متاثر کن صلاحیتوں کا مظاہرہ کرتا ہے۔ تاہم، اس ماڈل کی تربیت کے لیے استعمال کیے جانے والے ڈیٹا کی اصلیت ایک توجہ کا مرکز بن گئی ہے، اور کچھ AI محققین نے گوگل کے جیمنی (Gemini) AI خاندان سے ممکنہ تعلق کا اشارہ دیا ہے۔

ڈیپ سیک کا R1 ماڈل: ایک گہری نظر

ڈیپ سیک کا R1 استدلالی ماڈل ریاضی کے مسائل کو حل کرنے (mathematical problem-solving) اور کوڈنگ کے کاموں جیسے شعبوں میں اپنی کارکردگی کی وجہ سے توجہ حاصل کر رہا ہے۔ کمپنی کی جانب سے ماڈل کی تربیت میں استعمال ہونے والے مخصوص ڈیٹا ذرائع کو ظاہر کرنے سے گریز نے AI تحقیقی برادری میں قیاس آرائیوں کو ہوا دی ہے۔

جیمنی کے اثر و رسوخ کے الزامات

بحث کا مرکز اس امکان کے گرد گھومتا ہے کہ ڈیپ سیک نے اپنے ماڈل کو بہتر بنانے کے لیے گوگل کے جیمنی کے نتائج سے فائدہ اٹھایا۔ سیم پیچ (Sam Paech)، جو “جذباتی ذہانت” کی تشخیص میں مہارت رکھنے والے ایک AI ڈویلپر ہیں، نے ثبوت پیش کیے ہیں کہ ڈیپ سیک کا R1-0528 ماڈل گوگل کے جیمنی 2.5 پرو کی پسندیدہ زبان اور تاثرات کو ترجیح دیتا ہے۔ اگرچہ یہ مشاہدہ بذات خود قطعی ثبوت نہیں ہے، لیکن اس نے جاری بحث میں حصہ ڈالا ہے۔

بحث میں ایک اور پرت کا اضافہ کرتے ہوئے، “اسپیچ میپ” (SpeechMap) کے گمنام تخلیق کار، جو کہ آزادانہ تقریر پر توجہ مرکوز کرنے والا ایک AI تشخیصی ٹول ہے، نے نوٹ کیا کہ ڈیپ سیک ماڈل کے ذریعہ تیار کردہ “خیالات” – اندرونی استدلالی عمل جو یہ نتائج اخذ کرنے کے لیے استعمال کرتا ہے – جیمنی کے ٹریس پیٹرن سے ملتے جلتے ہیں۔ اس سے اس سوال کی شدت مزید بڑھ جاتی ہے کہ کیا ڈیپ سیک نے گوگل کے جیمنی خاندان سے ڈیٹا استعمال کیا ہے۔

پچھلے الزامات اور اوپن اے آئی کے خدشات

یہ پہلی بار نہیں ہے کہ ڈیپ سیک کو حریف AI ماڈلز سے ڈیٹا استعمال کرنے کے الزامات کا سامنا کرنا پڑا ہے۔ دسمبر میں، یہ دیکھا گیا کہ ڈیپ سیک کا V3 ماڈل اکثر خود کو چیٹ جی پی ٹی (ChatGPT) کے طور پر شناخت کرتا تھا، جو اوپن اے آئی (OpenAI) کا وسیع پیمانے پر استعمال ہونے والا AI چیٹ بوٹ ہے۔ اس سے یہ شبہات پیدا ہوئے کہ ماڈل کو چیٹ جی پی ٹی چیٹ لاگز پر تربیت دی گئی ہوگی۔

اس سازش میں اضافہ کرتے ہوئے، اوپن اے آئی نے مبینہ طور پر اس سال کے شروع میں ڈیپ سیک کو کشیدگی (distillation) کے استعمال سے جوڑنے والے شواہد دریافت کیے، یہ ایک ایسی تکنیک ہے جس میں بڑے، زیادہ طاقتور AI ماڈلز سے ڈیٹا نکال کر چھوٹے ماڈلز کو تربیت دی جاتی ہے۔ رپورٹس کے مطابق، مائیکروسافٹ (Microsoft)، جو اوپن اے آئی میں ایک اہم تعاون کار اور سرمایہ کار ہے، نے 2024 کے آخر میں اوپن اے آئی ڈویلپر اکاؤنٹس کے ذریعے ڈیٹا کے بڑے پیمانے پر انخلاء کا پتہ لگایا۔ اوپن اے آئی کا خیال ہے کہ یہ اکاؤنٹس ڈیپ سیک سے وابستہ ہیں۔

اگرچہ کشیدگی AI کی دنیا میں ایک عام عمل ہے، لیکن اوپن اے آئی کی سروس کی شرائط واضح طور پر صارفین کو کمپنی کے ماڈل کے نتائج کو حریف AI نظام بنانے کے لیے استعمال کرنے سے منع کرتی ہیں۔ اس سے اوپن اے آئی کی پالیسیوں کی ممکنہ خلاف ورزیوں کے بارے میں خدشات پیدا ہوتے ہیں۔

AI کی “آلودگی” کا چیلنج

یہ بات ذہن میں رکھنا ضروری ہے کہ AI ماڈلز، تربیت کے دوران، ملتی جلتی الفاظ اور فقروں پر جمع ہو سکتے ہیں۔ اس کی بنیادی وجہ یہ ہے کہ اوپن ویب (open web)، جو AI کمپنیوں کے لیے تربیتی ڈیٹا کا بنیادی ذریعہ ہے، تیزی سے AI کے تیار کردہ مواد سے سیر ہو رہا ہے۔ کانٹینٹ فارمز (Content farms) کلک بیٹ مضامین تیار کرنے کے لیے AI کا استعمال کرتے ہیں، اور بوٹس (bots) ریڈٹ (Reddit) اور ایکس (X) جیسے پلیٹ فارمز کو AI کے تیار کردہ پوسٹس سے بھر دیتے ہیں۔

ڈیٹا کے منظر نامے کی اس “آلودگی” کی وجہ سے تربیتی ڈیٹا سیٹس (training datasets) سے AI کے تیار کردہ کانٹینٹ کو مؤثر طریقے سے فلٹر کرنا مشکل ہو جاتا ہے۔ نتیجے کے طور پر، یہ جاننا مشکل ہو سکتا ہے کہ آیا کسی ماڈل کا آؤٹ پٹ واقعی کسی دوسرے ماڈل کے ڈیٹا سے اخذ کیا گیا ہے یا محض ویب پر AI کے تیار کردہ مواد کی ہر جگہ موجودگی کی عکاسی کرتا ہے۔

ماہرین کی رائے

قطعی طور پر اس لنک کو ثابت کرنے میں مشکلات کے باوجود، AI2 تحقیقی ادارے میں ایک محقق ناتھن لیمبرٹ (Nathan Lambert) جیسے AI ماہرین کا خیال ہے کہ گوگل کے جیمنی سے ڈیٹا پر ڈیپ سیک کی تربیت کا امکان معقول ہے۔ لیمبرٹ کا کہنا ہے کہ GPU دستیابی میں رکاوٹوں کا سامنا کرنے کے باوجود کافی مالی وسائل رکھنے والی ڈیپ سیک کو بہترین دستیاب API ماڈل کے ذریعہ تیار کردہ مصنوعی ڈیٹا (synthetic data) کا استعمال کرنا زیادہ موثر معلوم ہو سکتا ہے۔

AI کمپنیاں حفاظتی اقدامات کو بڑھاتی ہیں

کشیدگی اور غیر مجاز ڈیٹا کے استعمال کے بارے میں خدشات AI کمپنیوں کو اپنے حفاظتی اقدامات کو بڑھانے پر مجبور کر رہے ہیں۔ مثال کے طور پر، اوپن اے آئی اب تنظیموں کو کچھ جدید ماڈلز تک رسائی حاصل کرنے کے لیے شناختی تصدیق کا عمل مکمل کرنے کی ضرورت ہے۔ اس عمل کے لیے اوپن اے آئی کے API کے ذریعہ تعاون یافتہ کسی ملک کی جانب سے جاری کردہ حکومتی شناختی کارڈ کی ضرورت ہوتی ہے، جس میں چین شامل نہیں ہے۔

گوگل نے بھی کشیدگی کے امکان کو کم کرنے کے لیے اقدامات کیے ہیں۔ انہوں نے حال ہی میں اپنے AI اسٹوڈیو ڈویلپر پلیٹ فارم کے ذریعے دستیاب ماڈلز کے ذریعہ تیار کردہ ٹریسز (traces) کا “خلاصہ” کرنا شروع کر دیا ہے۔ اس سے جیمنی ٹریسز سے تفصیلی معلومات نکال کر حریف ماڈلز کو تربیت دینا زیادہ مشکل ہو جاتا ہے۔ اسی طرح، اینتھروپک (Anthropic) نے اپنے ماڈل کے ٹریسز کا خلاصہ کرنے کے منصوبوں کا اعلان کیا، اور اس کی وجہ اپنی “مسابقتی فوائد” کا تحفظ بتائی۔

AI منظر نامے کے لیے مضمرات

ڈیپ سیک کے گرد تنازعہ اور گوگل کے جیمنی کے ڈیٹا کے ممکنہ استعمال سے AI منظر نامے میں کئی اہم مسائل اجاگر ہوتے ہیں:

  • ڈیٹا اخلاقیات (Data ethics) اور ذمہ دار AI ترقی: جیسے جیسے AI ماڈلز تیزی سے نفیس ہوتے جاتے ہیں، ڈیٹا سورسنگ اور استعمال کے گرد اخلاقی تحفظات سب سے اہم ہو جاتے ہیں۔ AI کمپنیوں کو اس بات کو یقینی بنانے کی ضرورت ہے کہ وہ اخلاقی رہنما اصولوں پر عمل کر رہی ہیں اور دوسروں کے دانشورانہ املاک کے حقوق کا احترام کر رہی ہیں۔
  • AI کے تیار کردہ مواد کا اثر: ویب پر AI کے تیار کردہ مواد کے پھیلاؤ سے AI تربیت کے لیے ایک چیلنج پیدا ہوتا ہے۔ جیسے جیسے ڈیٹا تیزی سے “آلودہ” ہوتا جاتا ہے، AI ماڈلز کے معیار اور سالمیت کو یقینی بنانا زیادہ مشکل ہو جاتا ہے۔
  • شفافیت (Transparency) اور احتساب (Accountability) کی ضرورت: AI کمپنیوں کو اپنے ڈیٹا ذرائع اور تربیتی طریقوں کے بارے میں شفاف ہونا چاہیے۔ اس سے اعتماد پیدا کرنے میں مدد ملے گی اور اس بات کو یقینی بنایا جا سکے گا کہ AI کو ذمہ داری سے تیار اور استعمال کیا جائے۔
  • مضبوط حفاظتی اقدامات کی اہمیت: جیسے جیسے AI کی صنعت زیادہ مسابقتی ہوتی جاتی ہے، AI کمپنیوں کو اپنے ڈیٹا اور ماڈلز تک غیر مجاز رسائی کو روکنے کے لیے مضبوط حفاظتی اقدامات نافذ کرنے کی ضرورت ہے۔

AI ترقی کا مستقبل

ڈیپ سیک کا تنازعہ AI کی صنعت کو درپیش پیچیدہ اخلاقی اور تکنیکی چیلنجوں کی یاد دہانی کراتا ہے۔ جیسے جیسے AI ارتقاء پذیر ہے، یہ ضروری ہے کہ AI کمپنیاں، محققین اور پالیسی ساز مل کر کام کریں تاکہ اس بات کو یقینی بنایا جا سکے کہ AI کو اس طرح تیار اور استعمال کیا جائے جو معاشرے کے لیے فائدہ مند ہو۔ اس میں شفافیت، احتساب اور اخلاقی ڈیٹا کے طریقوں کو فروغ دینا شامل ہے۔

جاری بحث: ڈیپ سیک کے خلاف الزامات ڈیٹا کی رازداری، سلامتی اور اخلاقی AI ترقی کے بارے میں بڑھتے ہوئے خدشات کو واضح کرتے ہیں۔ ڈیٹا سورسنگ میں شفافیت کی کمی اور جائز ڈیٹا اکٹھا کرنے اور ڈیٹا کی غیر مجاز اسکریپنگ کے مابین تیزی سے دھندلی ہوتی لکیریں AI کمیونٹی کے اندر واضح قواعد و ضوابط اور ذمہ دارانہ طریقوں کا مطالبہ کرتی ہیں۔ جیسے جیسے ٹکنالوجی ترقی کر رہی ہے، صنعت کو دانشورانہ املاک کے حقوق، “AI آلودگی” کے خطرے اور غیر ارادی نتائج کے امکان جیسے مسائل سے نمٹنا چاہیے۔

AI تربیتی ڈیٹا کی اخلاقیات: ڈیپ سیک کے گرد تنازعہ اخلاقی تحفظات کو بھی اجاگر کرتا ہے جو AI ماڈلز کے لیے تربیتی ڈیٹا اکٹھا کرتے وقت عمل میں آتے ہیں۔ انٹرنیٹ سے اسکریپ کیے گئے وسیع ڈیٹا سیٹس پر بڑھتے ہوئے انحصار کے ساتھ، سوالات جیسے کہ ڈیٹا کا مالک کون ہے، رضامندی کیسے حاصل کی جاتی ہے (یا نظرانداز کی جاتی ہے)، اور کیا ڈیٹا کو منصفانہ اور ذمہ داری سے استعمال کیا جاتا ہے زیادہ ضروری ہوتے جا رہے ہیں۔ AI کمیونٹی کو ڈیٹا سورسنگ کے لیے واضح رہنما خطوط وضع کرنے چاہئیں جو کاپی رائٹ قوانین کا احترام کریں، ذاتی معلومات کی حفاظت کریں اور تعصب کو کم کریں۔

AI غلبے کی دوڑ: ڈیپ سیک کے خلاف الزامات کو ریاست ہائے متحدہ امریکہ اور چین کے مابین AI غلبے کی شدید دوڑ کی عکاسی کے طور پر بھی سمجھا جا سکتا ہے۔ دونوں ممالک AI تحقیق اور ترقی میں اربوں ڈالر ڈال رہے ہیں، اور پیش رفت حاصل کرنے کا دباؤ مسابقت کو ہوا دے رہا ہے اور ممکنہ طور پر کسریں نکال رہا ہے۔ اگر ڈیپ سیک واقعی اوپن اے آئی یا گوگل کا ڈیٹا اجازت کے بغیر استعمال کر رہا ہے، تو اسے جارحانہ حربوں اور دانشورانہ املاک کی چوری کی ایک مثال کے طور پر تعبیر کیا جا سکتا ہے جس نے طویل عرصے سے امریکہ چین کے تعلقات کو دوچار کر رکھا ہے۔

AI ماحولیاتی نظام کے لیے وسیع تر مضمرات: اگرچہ توجہ فی الحال ڈیپ سیک پر ہے، لیکن اس کیس کے پورے AI ماحولیاتی نظام کے لیے وسیع تر مضمرات ہو سکتے ہیں۔ اگر یہ ثابت ہو جاتا ہے کہ ڈیپ سیک نے ChatGPT یا جیمنی سے غیر قانونی طور پر ڈیٹا استعمال کیا ہے، تو یہ دوسری کمپنیوں کو اپنے ڈیٹا سورسنگ کے طریقوں کا سختی سے آڈٹ کرنے پر مجبور کر سکتا ہے، جس سے ممکنہ طور پر ترقی کی رفتار سست ہو جائے گی اور اخراجات بڑھ جائیں گے۔ اس کے نتیجے میں ڈیٹا جمع کرنے اور استعمال کے ارد گرد سخت قواعد و ضوابط بھی ہو سکتے ہیں، نہ صرف امریکہ اور چین میں، بلکہ عالمی سطح پر۔

مصنوعی طور پر تیار کردہ ڈیٹا کا اثر: مصنوعی ڈیٹا کا ظہور، جسے لیمبرٹ نے ماڈلز کو تربیت دینے کے لیے ایک قابل عمل متبادل کے طور پر تجویز کیا ہے، AI ترقی کے مستقبل کے بارے میں بنیادی سوالات اٹھاتا ہے۔ اگرچہ مصنوعی ڈیٹا سیٹس حقیقی دنیا کے डेटा سے متعلق کچھ اخلاقی اور कॉपीराइट خدشات کو دور کرتے ہیں، لیکن مصنوعی डेटा پر تربیت یافتہ ماڈلز کی کارکردگی اور مضبوطی اکثر اصل डेटा پر تربیت یافتہ افراد سے मेल نہیں کھاتی। AI کمیونٹی کو جدید مصنوعی डेटा سیٹس تیار کرنے के लिए नवीन दृष्टिकोण खोजने की ज़रूरत है جو صنعت की ज़रूरतیں पूरी करें बिना सटीकता और विश्वसनीयता से समझौता किए।

ماڈل سمریزیشن (Model Summarization) ڈیٹا گورننس کی ایک شکل: گوگل اور اینتھروپک کے حالیہ فیصلے کہ وہ اپنے ماڈلز کے ذریعہ تیار کردہ ٹریسز کا “خلاصہ” کرنا начинают اس بات کی نشاندہی करता है कि AI صنعت میں ڈیٹا گورننس کی بڑھتی हुई اہمیت ہے۔ ماڈلز کے فیصلہ سازی کے عمل کے اندر تفصیلی معلومات کو غیر स्पष्ट करके, कंपनियां दूसरों के लिए اپنی ٹیکنالوجی کو الٹا انجینئر کرنا زیادہ مشکل بنا रही हैं। یہ طریقہ تجارتی رازوں کی حفاظت کرنے اور اخلاقی डेटा سورسنگ کے طریقوں کو برقرار رکھنے میں مدد کر सकता ہے، لیکن اس سے AI სისტემों میں شفافیت اور وضاحت کے بارے میں بھی سوالات اٹھتے ہیں۔

جدت طرازی को नैतिक اور قانونی تحفظات کے ساتھ متوازن کرنا: ڈیپ سیک تنازعہ اس بات پر زور देता है कि AI جدت को حوصلہ افزائی کرنے اور دانشورانہ املاک کے حقوق کے تحفظ اور اخلاقی اصولوں پر عمل درآمد کو یقینی بنانے के बीच ایک محتاط توازن قائم کرنے کی ضرورت ہے۔ جیسےजैसे AI माڈلز तेजी से परिष्कृत और जटिल होते जा ਰਹے ਹਨ, صنعت को दरपेश اخلاقی اور قانونی چیلنج مزید شدت اختیار کرتے جائیں گے۔ ان خدشات کے درمیان صحیح توازن تلاش کرنا AI کی ذمہ دار اور پائیدار ترقی کو فروغ देनेکے लिए اہم ہوگا۔