ڈیٹا لیکس کی ایک لہر کمزوریوں کو بے نقاب کرتی ہے۔
اوپن سورس لارج لینگویج ماڈلز (LLMs) جیسے DeepSeek اور Ollama کا تیزی سے اپنایا جانا ایک دو دھاری تلوار بن گیا ہے۔ جب کہ کاروبار ان طاقتور ٹولز کو کارکردگی بڑھانے کے لیے استعمال کر رہے ہیں، وہی اوپن سورس نوعیت جو ان کی ترقی کو ہوا دیتی ہے، ڈیٹا سیکیورٹی کے خطرات میں متوازی اضافے کا باعث بن رہی ہے۔ NSFOCUS Xingyun Lab کی مرتب کردہ ایک حالیہ رپورٹ ایک سنگین تصویر پیش کرتی ہے: صرف 2025 کے پہلے دو مہینوں میں، دنیا نے LLMs سے براہ راست منسلک ڈیٹا کی پانچ اہم خلاف ورزیوں کا مشاہدہ کیا۔ ان واقعات کے نتیجے میں حساس معلومات کے وسیع ذخیرے سامنے آئے، جن میں خفیہ چیٹ ہسٹریز اور API کیز سے لے کر صارف کے اہم اسناد تک شامل ہیں۔ یہ واقعات ایک ویک اپ کال ہیں، جو جدید ترین AI ٹیکنالوجی کی سطح کے نیچے چھپی ہوئی اکثر نظر انداز کی جانے والی سیکیورٹی کمزوریوں کو اجاگر کرتے ہیں۔ یہ تحقیق ان پانچ واقعات کا جائزہ لے گی، حملے کے طریقوں کو الگ کرے گی، انہیں قائم کردہ MITRE ATT&CK فریم ورک سے منسلک کرے گی، اور ان سیکیورٹی بلائنڈ اسپاٹس کو بے نقاب کرے گی جن سے تنظیموں کو فوری طور پر نمٹنا چاہیے۔
واقعہ 1: DeepSeek کا غلط کنفیگرڈ ڈیٹا بیس - نجی گفتگو میں ایک جھلک
ٹائم لائن: 29 جنوری 2025
لیک ہونے کا پیمانہ: لاکھوں لائنوں کا لاگ ڈیٹا، بشمول حساس چیٹ ہسٹریز اور ایکسیس کیز۔
واقعات کا کھلنا:
Wiz میں سیکیورٹی ریسرچ ٹیم نے اس دریافت کا آغاز کیا۔ انہوں نے پبلک انٹرنیٹ پر قابل رسائی ایک بے نقاب ClickHouse سروس کی نشاندہی کی۔ مزید تفتیش سے تصدیق ہوئی کہ یہ سروس چینی AI اسٹارٹ اپ DeepSeek کی تھی۔ ClickHouse، جو تجزیاتی پروسیسنگ میں بڑے ڈیٹا سیٹس کو موثر طریقے سے ہینڈل کرنے کے لیے ڈیزائن کیا گیا ہے، بدقسمتی سے DeepSeek کے اندرونی ڈیٹا کا گیٹ وے بن گیا۔ محققین نے DeepSeek کے لاگ اسٹریم کی تقریباً دس لاکھ لائنوں تک رسائی حاصل کی، جس سے حساس معلومات کا ایک خزانہ سامنے آیا، جس میں تاریخی چیٹ لاگز اور اہم ایکسیس کیز شامل ہیں۔
Wiz نے فوری طور پر DeepSeek کو کمزوری سے آگاہ کیا، جس کی وجہ سے فوری کارروائی ہوئی اور بے نقاب ClickHouse سروس کو محفوظ طریقے سے ٹھکانے لگایا گیا۔
حملے کا تجزیہ:
بنیادی مسئلہ ClickHouse کی غیر مجاز رسائی کے لیے کمزوری میں تھا۔ ClickHouse، ایک اوپن سورس کالم اورینٹڈ ڈیٹا بیس مینجمنٹ سسٹم، بڑے ڈیٹا سیٹس کے ریئل ٹائم استفسار اور تجزیہ میں مہارت رکھتا ہے، جسے اکثر لاگ اور صارف کے رویے کے تجزیہ کے لیے استعمال کیا جاتا ہے۔ تاہم، جب مناسب رسائی کنٹرول کے بغیر تعینات کیا جاتا ہے، تو اس کا بے نقاب API انٹرفیس کسی کو بھی SQL جیسے کمانڈز پر عمل کرنے کی اجازت دیتا ہے۔
Wiz سیکیورٹی ٹیم کے نقطہ نظر میں DeepSeek کے انٹرنیٹ کا سامنا کرنے والے سب ڈومینز کا ایک طریقہ کار اسکین شامل تھا۔ ابتدائی طور پر معیاری پورٹس 80 اور 443 پر توجہ مرکوز کرتے ہوئے، انہوں نے عام ویب وسائل جیسے چیٹ بوٹ انٹرفیس اور API دستاویزات پائے۔ اپنی تلاش کو وسیع کرنے کے لیے، انہوں نے کم عام پورٹس جیسے 8123 اور 9000 تک توسیع کی، بالآخر متعدد سب ڈومینز پر بے نقاب خدمات کا پتہ لگایا۔
6 جنوری 2025 سے شروع ہونے والے سمجھوتہ شدہ لاگ ڈیٹا میں حساس معلومات کا ایک خزانہ موجود تھا: کال لاگز، اندرونی DeepSeek API اینڈ پوائنٹس کے لیے ٹیکسٹ لاگز، تفصیلی چیٹ ہسٹریز، API کیز، بیک اینڈ سسٹم کی تفصیلات، اور آپریشنل میٹا ڈیٹا۔
VERIZON واقعہ کی درجہ بندی: متفرق غلطیاں
MITRE ATT&CK فریم ورک میپنگ:
- T1590.002 (وکٹم نیٹ ورک کی معلومات جمع کریں - ڈومین نام کی ریزولوشن): حملہ آوروں نے ممکنہ طور پر سب ڈومین کی گنتی کرنے کے لیے بنیادی ڈومین نام کا استعمال کیا۔
- T1046 (ویب سروس ڈسکوری): حملہ آوروں نے ٹارگٹ ڈومین سے وابستہ کھلی بندرگاہوں اور خدمات کی نشاندہی کی۔
- T1106 (مقامی انٹرفیس): حملہ آوروں نے ڈیٹا بیس کے ساتھ بات چیت کرنے کے لیے ClickHouse API کا فائدہ اٹھایا۔
- T1567 (ویب سروس کے ذریعے ڈیٹا ایکسفلٹریشن): حملہ آوروں نے ڈیٹا چوری کرنے کے لیے ClickHouse API کا استعمال کیا۔
واقعہ 2: DeepSeek کا سپلائی چین حملہ - کوڈ میں ایک ٹروجن ہارس
ٹائم لائن: 3 فروری 2025
لیک ہونے کا پیمانہ: صارف کے اسناد اور ماحولیاتی متغیرات۔
واقعات کا کھلنا:
یہ حملہ 19 جنوری 2025 کو شروع ہوا، جب ایک بدنیتی پر مبنی صارف، جسے “bvk” کے نام سے شناخت کیا گیا، نے “deepseek” اور “deepseekai” نامی دو بدنیتی پر مبنی Python پیکیجز کو مشہور PyPI (Python Package Index) ریپوزٹری پر اپ لوڈ کیا۔
Positive Technologies Expert Security Center (PT ESC) میں تھریٹ انٹیلی جنس ٹیم نے اسی دن اس مشکوک سرگرمی کا پتہ لگایا۔ ان کے تجزیے نے پیکیجز کی بدنیتی پر مبنی نوعیت کی تصدیق کی، اور انہوں نے فوری طور پر PyPI ایڈمنسٹریٹرز کو مطلع کیا۔
PyPI ایڈمنسٹریٹرز نے تیزی سے بدنیتی پر مبنی پیکیجز کو ہٹا دیا اور PT ESC کو مطلع کیا۔ فوری ردعمل کے باوجود، اعداد و شمار سے پتہ چلتا ہے کہ میلویئر کو مختلف چینلز کے ذریعے 17 ممالک میں 200 سے زیادہ بار ڈاؤن لوڈ کیا گیا تھا۔ بدنیتی پر مبنی پیکیجز کو بعد میں الگ تھلگ کر دیا گیا۔
حملے کا تجزیہ:
“bvk” کے ذریعے اپ لوڈ کیے گئے بدنیتی پر مبنی پیکیجز نے دو بنیادی مقاصد پر توجہ مرکوز کی: معلومات جمع کرنا اور ماحولیاتی متغیرات کو چرانا۔ چوری شدہ ڈیٹا میں حساس معلومات شامل تھیں جیسے ڈیٹا بیس کے اسناد، API کیز، اور S3 آبجیکٹ اسٹوریج کے لیے رسائی کے اسناد۔ بدنیتی پر مبنی پے لوڈ اس وقت متحرک ہوا جب کسی صارف نے کمانڈ لائن سے DeepSeek یا Deepseekai کو چلایا۔
حملہ آور نے چوری شدہ ڈیٹا وصول کرنے کے لیے PipeDream کو کمانڈ اینڈ کنٹرول سرور کے طور پر استعمال کیا۔ یہ واقعہ کئی معاون عوامل کو اجاگر کرتا ہے:
- انحصار کنفیوژن حملہ: حملہ آوروں نے ایک تنظیم کے نجی پیکیجز اور ایک ہی نام والے عوامی پیکیجز کے درمیان ترجیحی فرق کا فائدہ اٹھایا۔
- پیکیج نام کی جعل سازی: بدنیتی پر مبنی پیکیجز نے صارفین کو دھوکہ دینے کے لیے ایک معروف AI کمپنی DeepSeek کے برانڈ نام کی نقل کی۔
- PyPI رجسٹریشن کی کمزوری: PyPI رجسٹریشن کے عمل میں ڈویلپر کی شناخت اور پیکیج نام کی قانونی حیثیت کی موثر تصدیق کا فقدان تھا۔
- ڈویلپر سیکیورٹی آگاہی: ڈویلپرز نے غلطی سے اسی نام کے بدنیتی پر مبنی پیکیجز انسٹال کیے ہوں گے۔
VERIZON واقعہ کی درجہ بندی: سوشل انجینئرنگ
MITRE ATT&CK فریم ورک میپنگ:
- T1593.003 (اوپن ویب سائٹس/ڈومینز تلاش کریں - عوامی طور پر دستیاب انحصار ریپوزٹری تلاش کریں): حملہ آوروں نے PyPI پر معلومات تلاش کیں۔
- T1195.002 (سپلائی چین سمجھوتہ - سمجھوتہ سافٹ ویئر سپلائی چین): حملہ آوروں نے Python انحصار کے طور پر بھیس بدل کر میلویئر کا استعمال کیا اور اسے PyPI پر اپ لوڈ کیا۔
- T1059.006 (کمانڈ اور اسکرپٹنگ انٹرپریٹر - Python): حملہ آوروں نے پیکیج میں بدنیتی پر مبنی کوڈ لگایا، جس نے عمل میں آنے پر حساس ڈیٹا لیک کیا۔
- T1041 (C2 چینل پر ایکسفلٹریشن): حملہ آوروں نے PipeDream C2 چینل کے ذریعے حساس معلومات کو نکالا۔
واقعہ 3: LLM ہائی جیکنگ - DeepSeek کو وسائل کی چوری کے لیے نشانہ بنایا گیا۔
ٹائم لائن: 7 فروری 2025
لیک ہونے کا پیمانہ: تقریباً 2 بلین ماڈل ٹوکن غیر قانونی طور پر استعمال ہوئے۔
واقعات کا کھلنا:
Sysdig تھریٹ ریسرچ ٹیم نے ابتدائی طور پر مئی 2024 میں LLMs کو نشانہ بنانے والے ایک نئے حملے کا پتہ لگایا، جسے “LLM jacking” یا “LLM hijacking” کا نام دیا گیا۔
ستمبر 2024 تک، Sysdig نے ان حملوں کی بڑھتی ہوئی تعدد اور پھیلاؤ کی اطلاع دی، جس میں DeepSeek تیزی سے ایک ہدف بن رہا تھا۔
26 دسمبر 2024 کو، DeepSeek نے ایک جدید ماڈل، DeepSeek-V3 جاری کیا۔ اس کے فوراً بعد، Sysdig ٹیم نے پایا کہ DeepSeek-V3 کو Hugging Face پر میزبانی کیے گئے OpenAI ریورس پراکسی (ORP) پروجیکٹ میں لاگو کیا گیا تھا۔
20 جنوری 2025 کو، DeepSeek نے DeepSeek-R1 نامی ایک انفرنس ماڈل جاری کیا۔ اگلے ہی دن، DeepSeek-R1 کو سپورٹ کرنے والا ایک ORP پروجیکٹ نمودار ہوا، اور حملہ آوروں نے اس کا استحصال کرنا شروع کر دیا، متعدد ORPs کو DeepSeek API کیز سے آباد کیا۔
Sysdig کی تحقیق سے پتہ چلتا ہے کہ ORPs کے ذریعے غیر قانونی طور پر استعمال ہونے والے بڑے ماڈل ٹوکنز کی کل تعداد 2 بلین سے تجاوز کر گئی ہے۔
حملے کا تجزیہ:
LLM ہائی جیکنگ میں حملہ آور کلاؤڈ ہوسٹڈ LLM سروسز کو نشانہ بنانے کے لیے چوری شدہ کلاؤڈ اسناد کا استحصال کرتے ہیں۔ حملہ آور ایک OAI (OpenAI) ریورس پراکسی اور چوری شدہ اسناد کا فائدہ اٹھاتے ہیں تاکہ بنیادی طور پر متاثرہ شخص کی سبسکرائب شدہ LLM سروسز تک رسائی فروخت کی جا سکے۔ اس کے نتیجے میں متاثرہ شخص کے لیے کلاؤڈ سروس کے اہم اخراجات ہوتے ہیں۔
OAI ریورس پراکسی متعدد LLM اکاؤنٹس تک رسائی کے لیے ایک مرکزی انتظامی نقطہ کے طور پر کام کرتی ہے، بنیادی اسناد اور وسائل کے پول کو چھپاتی ہے۔ حملہ آور DeepSeek جیسے مہنگے LLMs کو ان کی ادائیگی کیے بغیر استعمال کر سکتے ہیں، درخواستوں کو ریورس پراکسی کے ذریعے بھیج سکتے ہیں، وسائل استعمال کر سکتے ہیں، اور جائز سروس چارجز کو نظرانداز کر سکتے ہیں۔ پراکسی میکانزم حملہ آور کی شناخت کو چھپاتا ہے، جس سے وہ کلاؤڈ وسائل کاپتہ لگائے بغیر غلط استعمال کر سکتے ہیں۔
جب کہ OAI ریورس پراکسی LLM ہائی جیکنگ کے لیے ایک ضروری جزو ہے، اہم عنصر مختلف LLM سروسز کے لیے اسناد اور کیز کی چوری ہے۔ حملہ آور اکثر ان اسناد کو چرانے کے لیے روایتی ویب سروس کی کمزوریوں اور کنفیگریشن کی غلطیوں (جیسے Laravel فریم ورک میں CVE-2021-3129 کمزوری) کا فائدہ اٹھاتے ہیں۔ ایک بار حاصل ہونے کے بعد، یہ اسناد Amazon Bedrock، Google Cloud Vertex AI، اور دیگر جیسی کلاؤڈ بیسڈ LLM سروسز تک رسائی فراہم کرتی ہیں۔
Sysdig کی تحقیق سے پتہ چلتا ہے کہ حملہ آور گھنٹوں کے اندر متاثرین کے استعمال کے اخراجات کو تیزی سے دسیوں ہزار ڈالر تک بڑھا سکتے ہیں، اور کچھ معاملات میں، $100,000 فی دن تک۔ حملہ آوروں کی حوصلہ افزائی ڈیٹا کے حصول سے آگے بڑھتی ہے۔ وہ رسائی کے حقوق بیچ کر بھی منافع کماتے ہیں۔
VERIZON واقعہ کی درجہ بندی: بنیادی ویب ایپلیکیشن حملے
MITRE ATT&CK فریم ورک میپنگ:
- T1593 (اوپن ویب سائٹس/ڈومینز تلاش کریں): حملہ آوروں نے بے نقاب خدمات پر معلومات جمع کرنے کے لیے OSINT (اوپن سورس انٹیلی جنس) طریقوں کا استعمال کیا۔
- T1133 (بیرونی ریموٹ سروسز): حملہ آوروں نے بے نقاب خدمات میں کمزوریوں کی نشاندہی کی۔
- T1586.003 (سمجھوتہ اکاؤنٹس - کلاؤڈ اکاؤنٹس): حملہ آوروں نے LLM سروس یا کلاؤڈ سروس کے اسناد چرانے کے لیے کمزوریوں کا فائدہ اٹھایا۔
- T1588.002 (صلاحیتیں حاصل کریں - ٹول): حملہ آوروں نے ایک اوپن سورس OAI ریورس پراکسی ٹول تعینات کیا۔
- T1090.002 (پراکسی - بیرونی پراکسی): حملہ آوروں نے متعدد LLM اکاؤنٹس تک رسائی کا انتظام کرنے کے لیے OAI ریورس پراکسی سافٹ ویئر کا استعمال کیا۔
- T1496 (وسائل ہائی جیکنگ): حملہ آوروں نے LLM وسائل کو ہائی جیک کرنے کے لیے LLM انجیکشن حملہ شروع کیا۔
واقعہ 4: OmniGPT ڈیٹا کی خلاف ورزی - صارف کا ڈیٹا ڈارک ویب پر فروخت ہوا۔
ٹائم لائن: 12 فروری 2025
لیک ہونے کا پیمانہ: 30,000 سے زیادہ صارفین کی ذاتی معلومات، بشمول ای میلز، فون نمبرز، API کیز، انکرپشن کیز، اسناد، اور بلنگ کی معلومات۔
واقعات کا کھلنا:
12 فروری 2025 کو، “SyntheticEmotions” نامی ایک صارف نے BreachForums پر پوسٹ کیا، جس میں دعویٰ کیا گیا کہ اس نے OmniGPT پلیٹ فارم سے حساس ڈیٹا چوری کیا ہے اور اسے فروخت کے لیے پیش کیا ہے۔ مبینہ طور پر لیک ہونے والے ڈیٹا میں 30,000 سے زیادہ OmniGPT صارفین کے ای میلز، فون نمبرز، API کیز، انکرپشن کیز، اسناد، اور بلنگ کی معلومات شامل تھیں، ساتھ ہی چیٹ بوٹس کے ساتھ ان کی 34 ملین سے زیادہ لائنوں کی گفتگو بھی شامل تھی۔ مزید برآں، پلیٹ فارم پر اپ لوڈ کی گئی فائلوں کے لنکس سے سمجھوتہ کیا گیا، جن میں سے کچھ میں واؤچرز اور بلنگ ڈیٹا جیسی حساس معلومات تھیں۔
حملے کا تجزیہ:
جب کہ حملے کے عین مطابق ویکٹر کا انکشاف نہیں کیا گیا ہے، لیک ہونے والے ڈیٹا کی قسم اور دائرہ کار کئی امکانات تجویز کرتے ہیں: SQL انجیکشن، API کا غلط استعمال، یا سوشل انجینئرنگ حملوں نے حملہ آور کو بیک اینڈ ڈیٹا بیس تک رسائی فراہم کی ہو گی۔ یہ بھی ممکن ہے کہ OmniGPT پلیٹ فارم میں غلط کنفیگریشنز یا کمزوریاں تھیں جنہوں نے حملہ آور کو تصدیق کو نظرانداز کرنے اور صارف کی معلومات پر مشتمل ڈیٹا بیس تک براہ راست رسائی حاصل کرنے کی اجازت دی۔
ثانوی لیک میں شامل “Messages.txt” فائل میں API کیز، ڈیٹا بیس کے اسناد، اور ادائیگی کارڈ کی معلومات تھیں، جو ممکنہ طور پر دوسرے سسٹمز میں مزید دخل اندازی یا ڈیٹا میں چھیڑ چھاڑ کے قابل بناتی ہیں۔ پلیٹ فارم صارفین کے ذریعے اپ لوڈ کیے گئے کچھ دستاویزات میں حساس کاروباری راز اور پروجیکٹ ڈیٹا موجود تھا، اگر غلط استعمال کیا گیا تو کاروباری کارروائیوں کے لیے خطرہ لاحق ہو سکتا ہے۔ یہ واقعہ AI اور بڑے ڈیٹا سیکٹرز میں ڈیٹا سیکیورٹی اور رازداری کے تحفظ کو بڑھانے کی ضرورت کی ایک سخت یاد دہانی کا کام کرتا ہے۔ صارفین کو ان پلیٹ فارمز کا استعمال کرتے وقت انتہائی احتیاط برتنی چاہیے، اور تنظیموں کو ڈیٹا کے استعمال کی سخت پالیسیاں قائم کرنی چاہئیں، حساس ڈیٹا کے لیے انکرپشن، ڈیٹا کو کم سے کم کرنا، اور گمنام کرنا جیسے اقدامات کو نافذ کرنا چاہیے۔ ایسا کرنے میں ناکامی اہم قانونی، شہرت، اور معاشی نتائج کا باعث بن سکتی ہے۔
VERIZON واقعہ کی درجہ بندی: متفرق غلطیاں
MITRE ATT&CK فریم ورک میپنگ:
- T1071.001 (ایپلیکیشن لیئر پروٹوکول - ویب پروٹوکول): حملہ آوروں نے OmniGPT کے ویب انٹرفیس کے ذریعے لیک ہونے والی صارف کی معلومات اور حساس ڈیٹا تک رسائی حاصل کی ہو گی۔
- T1071.002 (ایپلیکیشن لیئر پروٹوکول - ایپلیکیشن پروگرامنگ انٹرفیس): لیک ہونے والی API کیز اور ڈیٹا بیس کے اسناد حملہ آوروں کو پلیٹ فارم کے API کے ذریعے سسٹم تک رسائی حاصل کرنے اور غیر مجاز کارروائیاں کرنے کی اجازت دے سکتے ہیں۔
- T1071.002 (ایپلیکیشن لیئر پروٹوکول - سروس ایگزیکیوشن): حملہ آور سسٹم سروسز یا ڈیمنز کا غلط استعمال کر کے کمانڈز یا پروگرام چلا سکتے ہیں۔
- T1020.003 (خودکار ایکسفلٹریشن - فائل ٹرانسفر): لیک ہونے والے فائل لنکس اور صارف کے اپ لوڈ کردہ حساس فائلیں حملہ آوروں کے لیے ڈاؤن لوڈ کرنے، مزید حساس ڈیٹا حاصل کرنے کے لیے اہداف ہو سکتی ہیں۔
- T1083 (فائل اور ڈائرکٹری ڈسکوری): حملہ آور مزید اہم کاروباری معلومات حاصل کرنے کے لیے لیک ہونے والی معلومات کا استعمال کر سکتے ہیں۔
واقعہ 5: DeepSeek اسناد کامن کرال میں لیک ہو گئیں - ہارڈ کوڈنگ کے خطرات
ٹائم لائن: 28 فروری 2025
لیک ہونے کا پیمانہ: تقریباً 11,908 درست DeepSeek API کیز، اسناد، اور تصدیقی ٹوکن۔
واقعات کا کھلنا:
Truffle سیکیورٹی ٹیم نے کامن کرال میں دسمبر 2024 سے 400 TB ڈیٹا کو اسکین کرنے کے لیے اوپن سورس ٹول TruffleHog کا استعمال کیا، جو ایک کرالر ڈیٹا بیس ہے جس میں 47.5 ملین میزبانوں سے 2.67 بلین ویب صفحات شامل ہیں۔ اسکین سے ایک حیران کن نتیجہ سامنے آیا: تقریباً 11,908 درست DeepSeek API کیز، اسناد، اور تصدیقی ٹوکنز کو براہ راست متعدد ویب صفحات میں ہارڈ کوڈ کیا گیا تھا۔
اس تحقیق میں میل چیمپ API کیز کے لیک ہونے کو بھی اجاگر کیا گیا، جس میں جاوا اسکرپٹ کوڈ میں تقریباً 1,500 کیز ہارڈ کوڈ کی گئی تھیں۔ میل چیمپ API کیز کو اکثر فشنگ اور ڈیٹا چوری کے حملوں کے لیے استعمال کیا جاتا ہے۔
حملے کا تجزیہ:
کامن کرال، ایک غیر منافع بخش ویب کرالر ڈیٹا بیس، باقاعدگی سے انٹرنیٹ صفحات سے ڈیٹا کیپچر اور شائع کرتا ہے۔ یہ اس ڈیٹا کو WARC (ویب آرکائیو) فائلوں میں اسٹور کرتا ہے، اصل HTML، جاوا اسکرپٹ کوڈ، اور سرور کے جوابات کو محفوظ رکھتا ہے۔ یہ ڈیٹا سیٹ اکثر AI ماڈلز کو تربیت دینے کے لیے استعمال ہوتے ہیں۔ Truffle کی تحقیق ایک اہم مسئلے کو بے نقاب کرتی ہے: سیکیورٹی کمزوریوں پر مشتمل کارپورا پر ماڈلز کو تربیت دینے سے ماڈلز ان کمزوریوں کو وراثت میں لے سکتے ہیں۔ یہاں تک کہ اگر DeepSeek جیسے LLMs تربیت اور تعیناتی کے دوران اضافی حفاظتی اقدامات کرتے ہیں، تربیتی ڈیٹا میں ہارڈ کوڈڈ کمزوریوں کی وسیع پیمانے پر موجودگی ماڈلز کے لیے اس طرح کے “غیر محفوظ” طریقوں کو معمول بنا سکتی ہے۔
ہارڈ کوڈنگ، ایک عام لیکن غیر محفوظ کوڈنگ پریکٹس، ایک وسیع مسئلہ ہے۔ جب کہ بنیادی وجہ سادہ ہے، خطرات شدید ہیں: ڈیٹا کی خلاف ورزیاں، سروس میں رکاوٹیں، سپلائی چین حملے، اور، LLMs کے عروج کے ساتھ، ایک نیا خطرہ - LLM ہائی جیکنگ۔ جیسا کہ پہلے زیر بحث آیا، LLM ہائی جیکنگ میں حملہ آور کلاؤڈ ہوسٹڈ LLM سروسز کا استحصال کرنے کے لیے چوری شدہ اسناد کا استعمال کرتے ہیں، جس کے نتیجے میں متاثرین کو کافی مالی نقصان ہوتا ہے۔
VERIZON واقعہ کی درجہ بندی: متفرق غلطیاں
MITRE ATT&CK فریم ورک میپنگ:
- T1596.005 (اوپن ٹیکنیکل ڈیٹا بیس تلاش کریں - اسکین ڈیٹا بیس): حملہ آوروں نے پبلک کرالر ڈیٹا بیس سے معلومات اکٹھی کیں۔
- T1588.002 (صلاحیتیں حاصل کریں - ٹول): حملہ آوروں نے ایک حساس معلومات کی دریافت کا ٹول تعینات کیا۔
- T1586.003 (سمجھوتہ اکاؤنٹس - کلاؤڈ اکاؤنٹس): حملہ آوروں نے عوامی ڈیٹا بیس میں حساس اسناد تلاش کرنے کے لیے حساس معلومات کی دریافت کے ٹولز کا استعمال کیا۔
- T1090.002 (پراکسی - بیرونی پراکسی): حملہ آوروں نے متعدد LLM اکاؤنٹس تک رسائی کا انتظام کرنے کے لیے OAI ریورس پراکسی سافٹ ویئر کا استعمال کیا۔
- T1496 (وسائل ہائی جیکنگ): حملہ آوروں نے LLM وسائل کو ہائی جیک کرنے کے لیے LLM انجیکشن حملہ شروع کیا۔
LLM ڈیٹا لیکج کو روکنا: ایک کثیر جہتی نقطہ نظر
تجزیہ کیے گئے واقعات LLM سے متعلق ڈیٹا کی خلاف ورزیوں سے بچانے کے لیے مضبوط حفاظتی اقدامات کی فوری ضرورت کو اجاگر کرتے ہیں۔ یہاں متعلقہ واقعات کے زمرے میں روک تھام کی حکمت عملیوں کی ایک خرابی ہے:
سپلائی چین کو مضبوط بنانا:
واقعہ II (بدنیتی پر مبنی انحصار پیکیج حملہ) اور واقعہ V (عوامی ڈیٹا کی خلاف ورزی) پر لاگو:
انحصار پیکیجز کی بھروسہ مند تصدیق:
- غیر دستخط شدہ یا مشکوک طور پر حاصل کردہ انحصار پیکیجز کو روکنے کے لیے PyPI/Sonatype Nexus Firewall جیسے ٹولز کا استعمال کریں۔
- ترقیاتی ماحول میں عوامی ذخیروں سے براہ راست انحصار حاصل کرنے سے منع کریں۔ کارپوریٹ پرائیویٹ ریپوزٹری پراکسیز (مثال کے طور پر، Artifactory) کے استعمال کو لازمی قرار دیں۔
سپلائی چین تھریٹ مانیٹرنگ:
- انحصار کی کمزوریوں کو خود بخود اسکین کرنے اور زیادہ خطرے والے اجزاء کے تعارف کو روکنے کے لیے Dependabot/Snyk جیسے ٹولز کو ضم کریں۔
- اس بات کو یقینی بنانے کے لیے اوپن سورس پیکیجز کے کوڈ دستخط کی تصدیق کریں کہ ہیش ویلیو سرکاری سے ملتی ہے۔
ڈیٹا سورس کی صفائی:
- تربیتی ڈیٹا جمع کرنے کے دوران، عوامی ڈیٹا سیٹس (جیسے کامن کرال) سے حساس معلومات کو ریگولر ایکسپریشنز اور AI پر مبنی ریڈیکشن ٹولز کا استعمال کرتے ہوئے ڈبل تصدیق کے لیے فلٹر کریں۔
کم سے کم استحقاق اور رسائی کنٹرول کا نفاذ:
واقعہ I (ڈیٹا بیس کنفیگریشن ایرر) اور واقعہ IV (تھرڈ پارٹی ٹول ڈیٹا کی خلاف ورزی) پر لاگو:
- ڈیٹا بیس (جیسے ClickHouse) کے لیے بطور ڈیفالٹ دو طرفہ TLS تصدیق کو فعال کریں اور عوامی نیٹ ورکس پر انتظامی بندرگاہوں کی نمائش کو روکیں۔
- عارضی اسناد کو متحرک طور پر تقسیم کرنے کے لیے Vault/Boundary جیسے حل استعمال کریں، طویل مدتی جامد کلیدی برقرار رکھنے سے گریز کریں۔
- کم سے کم استحقاق کے اصول پر عمل کریں، صارف کی رسائی کو صرف ضروری وسائل تک محدود کریں RBAC (رول بیسڈ ایکسیس کنٹرول) کے ذریعے۔
- تھرڈ پارٹی ٹولز (جیسے OmniGPT) پر API کالز کے لیے IP وائٹ لسٹنگ اور ریٹ لمیٹنگ کو نافذ کریں۔
حساس ڈیٹا کے مکمل لائف سائیکل تحفظ کو یقینی بنانا:
واقعہ III (LLM ہائی جیکنگ) پر لاگو:
- ڈیٹا ریڈیکشن اور انکرپشن: صارف کے ان پٹ اور آؤٹ پٹ ڈیٹا کے لیے فیلڈ لیول انکرپشن (مثال کے طور پر، AES-GCM) کو نافذ کریں۔ لاگز میں حساس فیلڈز کو ماسک کریں۔
- LLMs کے انٹرایکٹو مواد کے لیے ریئل ٹائم ریڈیکشن کو فعال کریں (مثال کے طور پر، کریڈٹ کارڈ نمبرز اور فون نمبرز کو پلیس ہولڈرز سے تبدیل کرنا)۔
یہ روک تھام کے اقدامات، مسلسل سیکیورٹی مانیٹرنگ اور واقعہ کے ردعمل کی منصوبہ بندی کے ساتھ مل کر، LLMs کے بڑھتے ہوئے استعمال سے وابستہ خطرات کو کم کرنے کے لیے ضروری ہیں۔ LLM سیکیورٹی کا “پوشیدہ میدان جنگ” اس تیزی سے ابھرتی ہوئی تکنیکی منظر نامے میں حساس ڈیٹا کی حفاظت کے لیے مسلسل چوکسی اور ایک فعال نقطہ نظر کا مطالبہ کرتا ہے۔