उल्लंघनांची लाट असुरक्षितता उघड करते
डीपसीक (DeepSeek) आणि ओलामा (Ollama) सारख्या ओपन-सोर्स लार्ज लँग्वेज मॉडेल्सचा (LLMs) झपाट्याने स्वीकार दुधारी तलवार बनला आहे. व्यवसाय कार्यक्षमतेला चालना देण्यासाठी या शक्तिशाली साधनांचा लाभ घेत आहेत, परंतु ज्या खुल्यापणामुळे त्यांची वाढ होते, तोच डेटा सुरक्षिततेच्या जोखमींमध्ये समांतर वाढ करत आहे. NSFOCUS झिंग्युन लॅबने संकलित केलेला अलीकडील अहवाल एक गंभीर चित्र रंगवतो: 2025 च्या पहिल्या दोन महिन्यांत, जगाने LLMs शी थेट जोडलेल्या पाच महत्त्वपूर्ण डेटा उल्लंघनांची नोंद केली. या घटनांमुळे संवेदनशील माहितीचा मोठा साठा उघडकीस आला, ज्यामध्ये गोपनीय चॅट इतिहास आणि API की (Keys) पासून ते गंभीर वापरकर्ता क्रेडेन्शियल्स (credentials) यांचा समावेश आहे. या घटना एक इशारा आहे, अत्याधुनिक AI तंत्रज्ञानाच्या पृष्ठभागाखाली लपलेल्या अनेकदा दुर्लक्षित केलेल्या सुरक्षा असुरक्षांवर प्रकाश टाकतात. हे परीक्षण या पाच घटनांचे विश्लेषण करेल, हल्ल्याच्या पद्धतींचे विश्लेषण करेल, त्यांना स्थापित MITRE ATT&CK फ्रेमवर्कमध्ये मॅप करेल आणि संस्थांनी त्वरित संबोधित करणे आवश्यक असलेल्या सुरक्षा त्रुटी उघड करेल.
घटना 1: डीपसीकचे चुकीचे कॉन्फिगर केलेले डेटाबेस – खाजगी संभाषणांमध्ये एक खिडकी
वेळ: 29 जानेवारी, 2025
लीकेजची व्याप्ती: लाखो लॉग डेटा, ज्यात संवेदनशील चॅट इतिहास आणि ऍक्सेस की समाविष्ट आहेत.
घटना उलगडणे:
विज (Wiz) येथील सुरक्षा संशोधन कार्यसंघाने या शोधाची सुरुवात केली. त्यांनी सार्वजनिक इंटरनेटवर प्रवेशयोग्य असलेले एक उघड झालेले क्लिकहाउस (ClickHouse) सेवा ओळखली. पुढील तपासात पुष्टी झाली की ही सेवा चीनी AI स्टार्टअप, डीपसीकची आहे. क्लिकहाउस, विश्लेषणात्मक प्रक्रियेमध्ये मोठ्या डेटासेटचे कार्यक्षम हाताळणीसाठी डिझाइन केलेले, दुर्दैवाने डीपसीकच्या अंतर्गत डेटासाठी एक प्रवेशद्वार बनले. संशोधकांनी डीपसीकच्या लॉग प्रवाहाच्या अंदाजे एक दशलक्ष ओळींमध्ये प्रवेश केला, ज्यामुळे संवेदनशील माहितीचा खजिना उघड झाला, ज्यामध्ये ऐतिहासिक चॅट लॉग आणि महत्त्वपूर्ण ऍक्सेस की समाविष्ट आहेत.
विजने त्वरित डीपसीकला असुरक्षिततेबद्दल सतर्क केले, ज्यामुळे त्वरित कारवाई झाली आणि उघड झालेल्या क्लिकहाउस सेवेची सुरक्षित विल्हेवाट लावण्यात आली.
हल्ल्याचे विश्लेषण:
मुख्य समस्या क्लिकहाउसच्या अनधिकृत प्रवेशाच्या असुरक्षिततेमध्ये होती. क्लिकहाउस, एक ओपन-सोर्स स्तंभ-देणारं डेटाबेस व्यवस्थापन प्रणाली, रिअल-टाइम क्वेरी आणि मोठ्या डेटासेटच्या विश्लेषणात उत्कृष्ट आहे, जे अनेकदा लॉग आणि वापरकर्त्याच्या वर्तनाचे विश्लेषण करण्यासाठी वापरले जाते. तथापि, योग्य प्रवेश नियंत्रणाशिवाय तैनात केल्यावर, त्याचे उघड API इंटरफेस कोणालाही SQL-सारख्या कमांड्स कार्यान्वित करण्याची परवानगी देते.
विज सुरक्षा कार्यसंघाच्या दृष्टिकोनामध्ये डीपसीकच्या इंटरनेट-फेसिंग सबडोमेनच्या पद्धतशीर स्कॅनचा समावेश होता. सुरुवातीला 80 आणि 443 या मानक पोर्टवर लक्ष केंद्रित करून, त्यांना चॅटबॉट इंटरफेस आणि API दस्तऐवजीकरण यासारखी सामान्य वेब संसाधने आढळली. त्यांचा शोध विस्तृत करण्यासाठी, त्यांनी 8123 आणि 9000 सारख्या कमी सामान्य पोर्टपर्यंत विस्तार केला, शेवटी अनेक सबडोमेनवर उघड झालेल्या सेवा उघडकीस आल्या.
6 जानेवारी, 2025 पासूनच्या तडजोड केलेल्या लॉग डेटामध्ये संवेदनशील माहितीचा समावेश होता: कॉल लॉग, अंतर्गत डीपसीक API एंडपॉइंटसाठी मजकूर लॉग, तपशीलवार चॅट इतिहास, API की, बॅकएंड सिस्टम तपशील आणि ऑपरेशनल मेटाडेटा.
VERIZON इव्हेंट वर्गीकरण: संकीर्ण त्रुटी (Miscellaneous Errors)
MITRE ATT&CK फ्रेमवर्क मॅपिंग:
- T1590.002 (Collect Victim Network Information - Domain Name Resolution): हल्लेखोरांनी सबडोमेन गणना करण्यासाठी प्राथमिक डोमेन नावाचा वापर केला.
- T1046 (Web Service Discovery): हल्लेखोरांनी लक्ष्य डोमेनशी संबंधित खुले पोर्ट आणि सेवा ओळखल्या.
- T1106 (Native Interface): हल्लेखोरांनी डेटाबेसशी संवाद साधण्यासाठी क्लिकहाउस API चा लाभ घेतला.
- T1567 (Data Exfiltration via Web Service): हल्लेखोरांनी डेटा चोरण्यासाठी क्लिकहाउस API चा वापर केला.
घटना 2: डीपसीकचा सप्लाय चेन अटॅक – कोडमधील ट्रोजन हॉर्स
वेळ: 3 फेब्रुवारी, 2025
लीकेजची व्याप्ती: वापरकर्ता क्रेडेन्शियल्स आणि पर्यावरण व्हेरिएबल्स.
घटना उलगडणे:
हल्ला 19 जानेवारी, 2025 रोजी सुरू झाला, जेव्हा “bvk” म्हणून ओळखल्या जाणार्या एका दुर्भावनापूर्ण वापरकर्त्याने “deepseek” आणि “deepseekai” नावाची दोन दुर्भावनापूर्ण पायथन पॅकेजेस लोकप्रिय PyPI (Python Package Index) रेपॉजिटरीवर अपलोड केली.
पॉझिटिव्ह टेक्नॉलॉजीज एक्सपर्ट सिक्युरिटी सेंटर (PT ESC) मधील थ्रेट इंटेलिजेंस टीमने त्याच दिवशी ही संशयास्पद क्रियाकलाप शोधला. त्यांच्या विश्लेषणाने पॅकेजच्या दुर्भावनापूर्ण स्वरूपाची पुष्टी केली आणि त्यांनी त्वरित PyPI प्रशासकांना सूचित केले.
PyPI प्रशासकांनी त्वरित दुर्भावनापूर्ण पॅकेजेस काढून टाकले आणि PT ESC ला कळवले. त्वरित प्रतिसाद असूनही, आकडेवारीवरून असे दिसून आले की मालवेअर विविध चॅनेलद्वारे 17 देशांमध्ये 200 पेक्षा जास्त वेळा डाउनलोड केले गेले होते. दुर्भावनापूर्ण पॅकेजेस नंतर वेगळे केले गेले.
हल्ल्याचे विश्लेषण:
“bvk” द्वारे अपलोड केलेल्या दुर्भावनापूर्ण पॅकेजेसने दोन प्राथमिक उद्दिष्टांवर लक्ष केंद्रित केले: माहिती गोळा करणे आणि पर्यावरण व्हेरिएबल्स चोरणे. चोरी केलेल्या डेटामध्ये संवेदनशील माहिती समाविष्ट होती जसे की डेटाबेस क्रेडेन्शियल्स, API की आणि S3 ऑब्जेक्ट स्टोरेजसाठी ऍक्सेस क्रेडेन्शियल्स. जेव्हा वापरकर्त्याने कमांड लाइनमधून डीपसीक किंवा डीपसीकाई कार्यान्वित केले तेव्हा दुर्भावनापूर्ण पेलोड ट्रिगर झाला.
हल्लेखोराने चोरी केलेला डेटा प्राप्त करण्यासाठी पाईपड्रीम (PipeDream) चा कमांड-अँड-कंट्रोल (C2) सर्वर म्हणून वापर केला. ही घटना अनेक कारणांमुळे झाली:
- डिपेंडन्सी कन्फ्यूजन अटॅक (Dependency Confusion Attack): हल्लेखोरांनी संस्थेच्या खाजगी पॅकेजेस आणि समान नावाच्या सार्वजनिक पॅकेजेस मधील प्राधान्य फरकाचा फायदा घेतला.
- पॅकेज नेम इम्पर्सोनेशन (Package Name Impersonation): दुर्भावनापूर्ण पॅकेजेसने वापरकर्त्यांना फसवण्यासाठी डीपसीक, एका सुप्रसिद्ध AI कंपनीच्या ब्रँड नावाची नक्कल केली.
- PyPI नोंदणी कमकुवतपणा: PyPI नोंदणी प्रक्रियेमध्ये विकसकाची ओळख आणि पॅकेज नावाची वैधता प्रभावीपणे पडताळण्यात आली नाही.
- विकसक सुरक्षा जागरूकता: विकासकांनी चुकून समान नावाचे दुर्भावनापूर्ण पॅकेज स्थापित केले असावे.
VERIZON इव्हेंट वर्गीकरण: सोशल इंजिनिअरिंग (Social Engineering)
MITRE ATT&CK फ्रेमवर्क मॅपिंग:
- T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository): हल्लेखोरांनी PyPI वर माहिती शोधली.
- T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain): हल्लेखोरांनी पायथन अवलंबित्वाच्या रूपात मालवेअरचा वापर केला आणि ते PyPI वर अपलोड केले.
- T1059.006 (Command and Scripting Interpreter - Python): हल्लेखोरांनी पॅकेजमध्ये दुर्भावनापूर्ण कोड लावला, जो कार्यान्वित झाल्यावर संवेदनशील डेटा लीक करतो.
- T1041 (Exfiltration Over C2 Channel): हल्लेखोरांनी पाईपड्रीम C2 चॅनेलद्वारे संवेदनशील माहिती बाहेर काढली.
घटना 3: LLM अपहरण – डीपसीकला रिसोर्स चोरीसाठी लक्ष्य केले
वेळ: 7 फेब्रुवारी, 2025
लीकेजची व्याप्ती: अंदाजे 2 अब्ज मॉडेल टोकन बेकायदेशीरपणे वापरले गेले.
घटना उलगडणे:
सिसडिग (Sysdig) थ्रेट रिसर्च टीमने सुरुवातीला मे 2024 मध्ये LLMs ला लक्ष्य करणारा एक नवीन हल्ला शोधला, ज्याला “LLM जॅकिंग” किंवा “LLM अपहरण” असे नाव देण्यात आले.
सप्टेंबर 2024 पर्यंत, सिसडिगने या हल्ल्यांची वाढती वारंवारता आणि व्यापकता नोंदवली, ज्यामध्ये डीपसीक अधिकाधिक लक्ष्य बनत आहे.
26 डिसेंबर, 2024 रोजी, डीपसीकने डीपसीक-V3 नावाचे प्रगत मॉडेल जारी केले. त्यानंतर लगेचच, सिसडिग टीमला आढळले की डीपसीक-V3 हगिंग फेस (Hugging Face) वर होस्ट केलेल्या ओपनएआय रिव्हर्स प्रॉक्सी (ORP) प्रोजेक्टमध्ये लागू केले गेले आहे.
20 जानेवारी, 2025 रोजी, डीपसीकने डीपसीक-R1 नावाचे अनुमान मॉडेल जारी केले. दुसर्याच दिवशी, डीपसीक-R1 ला समर्थन देणारा एक ORP प्रोजेक्ट दिसला आणि हल्लेखोरांनी त्याचे शोषण करण्यास सुरुवात केली, अनेक ORPs डीपसीक API की सह पॉप्युलेट केले.
सिसडिगच्या संशोधनातून असे दिसून आले आहे की ORPs द्वारे बेकायदेशीरपणे वापरल्या जाणार्या मोठ्या मॉडेल टोकनची एकूण संख्या 2 अब्जपेक्षा जास्त झाली आहे.
हल्ल्याचे विश्लेषण:
LLM अपहरणामध्ये हल्लेखोर चोरी केलेल्या क्लाउड क्रेडेन्शियल्सचा वापर करून क्लाउड-होस्टेड LLM सेवांना लक्ष्य करतात. हल्लेखोर OAI (OpenAI) रिव्हर्स प्रॉक्सी आणि चोरी केलेल्या क्रेडेन्शियल्सचा वापर करून पीडित व्यक्तीच्या सबस्क्राइब केलेल्या LLM सेवांमध्ये प्रवेश विकतात. याचा परिणाम म्हणून पीडित व्यक्तीला क्लाउड सेवेचा मोठा खर्च येतो.
OAI रिव्हर्स प्रॉक्सी अनेक LLM खात्यांमध्ये प्रवेशासाठी एक मध्यवर्ती व्यवस्थापन बिंदू म्हणून कार्य करते, अंतर्निहित क्रेडेन्शियल्स आणि संसाधन पूल लपवते. हल्लेखोर डीपसीकसारखे महागडे LLM त्यांच्यासाठी पैसे न देता वापरू शकतात, रिव्हर्स प्रॉक्सीद्वारे विनंत्या निर्देशित करू शकतात, संसाधने वापरू शकतात आणि कायदेशीर सेवा शुल्क टाळू शकतात. प्रॉक्सी यंत्रणा हल्लेखोराची ओळख लपवते, ज्यामुळे त्यांना क्लाउड संसाधनांचा गैरवापर करता येतो.
OAI रिव्हर्स प्रॉक्सी LLM अपहरणासाठी आवश्यक घटक असताना, विविध LLM सेवांसाठी क्रेडेन्शियल्स आणि की ची चोरी करणे हा महत्त्वाचा घटक आहे. हल्लेखोर अनेकदा या क्रेडेन्शियल्स चोरण्यासाठी पारंपारिक वेब सेवा असुरक्षा आणि कॉन्फिगरेशन त्रुटी (जसे की Laravel फ्रेमवर्कमधील CVE-2021-3129 असुरक्षा) वापरतात. एकदा प्राप्त झाल्यावर, हे क्रेडेन्शियल्स ऍमेझॉन बेडरॉक (Amazon Bedrock), गुगल क्लाउड व्हर्टेक्स एआय (Google Cloud Vertex AI) आणि इतरांसारख्या क्लाउड-आधारित LLM सेवांमध्ये प्रवेश देतात.
सिसडिगच्या संशोधनातून असे दिसून आले आहे की हल्लेखोर काही तासांत पीडितांचा वापर खर्च हजारो डॉलर्सपर्यंत आणि काही प्रकरणांमध्ये, दररोज $100,000 पर्यंत वाढवू शकतात. हल्लेखोरांची प्रेरणा केवळ डेटा मिळवण्यापलीकडे आहे; ते प्रवेश अधिकार विकून नफा देखील मिळवतात.
VERIZON इव्हेंट वर्गीकरण: मूलभूत वेब ऍप्लिकेशन हल्ले (Basic Web Application Attacks)
MITRE ATT&CK फ्रेमवर्क मॅपिंग:
- T1593 (Search Open Websites/Domains): हल्लेखोरांनी OSINT (Open-Source Intelligence) पद्धती वापरून उघड झालेल्या सेवांवरील माहिती गोळा केली.
- T1133 (External Remote Services): हल्लेखोरांनी उघड झालेल्या सेवांमधील असुरक्षा ओळखल्या.
- T1586.003 (Compromise Accounts - Cloud Accounts): हल्लेखोरांनी LLM सेवा किंवा क्लाउड सेवा क्रेडेन्शियल्स चोरण्यासाठी असुरक्षांचा फायदा घेतला.
- T1588.002 (Obtain Capabilities - Tool): हल्लेखोरांनी ओपन-सोर्स OAI रिव्हर्स प्रॉक्सी साधन तैनात केले.
- T1090.002 (Proxy - External Proxy): हल्लेखोरांनी अनेक LLM खात्यांमध्ये प्रवेश व्यवस्थापित करण्यासाठी OAI रिव्हर्स प्रॉक्सी सॉफ्टवेअरचा वापर केला.
- T1496 (Resource Hijacking): हल्लेखोरांनी LLM संसाधनांचे अपहरण करण्यासाठी LLM इंजेक्शन हल्ला सुरू केला.
घटना 4: ओमनीजीपीटी डेटा उल्लंघन – वापरकर्ता डेटा डार्क वेबवर विकला गेला
वेळ: 12 फेब्रुवारी, 2025
लीकेजची व्याप्ती: 30,000 पेक्षा जास्त वापरकर्त्यांची वैयक्तिक माहिती, ज्यात ईमेल, फोन नंबर, API की, एनक्रिप्शन की, क्रेडेन्शियल्स आणि बिलिंग माहिती समाविष्ट आहे.
घटना उलगडणे:
12 फेब्रुवारी, 2025 रोजी, “सिंथेटिकइमोशन्स” नावाच्या वापरकर्त्याने ब्रीचफोरमवर (BreachForums) पोस्ट केले, ओमनीजीपीटी (OmniGPT) प्लॅटफॉर्मवरून संवेदनशील डेटा चोरल्याचा आणि तो विक्रीसाठी ऑफर केल्याचा दावा केला. लीक झालेल्या डेटामध्ये 30,000 पेक्षा जास्त ओमनीजीपीटी वापरकर्त्यांचे ईमेल, फोन नंबर, API की, एनक्रिप्शन की, क्रेडेन्शियल्स आणि बिलिंग माहिती, तसेच चॅटबॉट्ससोबतच्या त्यांच्या 34 दशलक्ष ओळींच्या संभाषणांचा समावेश आहे. याव्यतिरिक्त, प्लॅटफॉर्मवर अपलोड केलेल्या फाइल्सच्या लिंक्सशी तडजोड केली गेली, ज्यामध्ये काही संवेदनशील माहिती जसे की व्हाउचर्स आणि बिलिंग डेटा समाविष्ट आहे.
हल्ल्याचे विश्लेषण:
हल्ल्याचा नेमका मार्ग उघड केला नसला तरी, लीक झालेल्या डेटाचा प्रकार आणि व्याप्ती अनेक शक्यता दर्शवतात: SQL इंजेक्शन, API गैरवापर किंवा सोशल इंजिनीअरिंग हल्ल्यांमुळे हल्लेखोराला बॅकएंड डेटाबेसमध्ये प्रवेश मिळाला असावा. हे देखील शक्य आहे की ओमनीजीपीटी प्लॅटफॉर्ममध्ये चुकीची कॉन्फिगरेशन किंवा असुरक्षा होत्या ज्यामुळे हल्लेखोराला प्रमाणीकरण बायपास करून वापरकर्ता माहिती असलेल्या डेटाबेसमध्ये थेट प्रवेश मिळाला.
दुसऱ्या लीकमध्ये सामील असलेल्या “Messages.txt” फाइलमध्ये API की, डेटाबेस क्रेडेन्शियल्स आणि पेमेंट कार्ड माहिती होती, ज्यामुळे इतर सिस्टममध्ये घुसखोरी किंवा डेटा फेरफार करणे शक्य झाले. प्लॅटफॉर्म वापरकर्त्यांनी अपलोड केलेल्या काही कागदपत्रांमध्ये संवेदनशील व्यवसाय रहस्ये आणि प्रकल्प डेटा होता, ज्यामुळे गैरवापर झाल्यास व्यवसायाच्या कामकाजाला धोका निर्माण झाला. ही घटना AI आणि बिग डेटा क्षेत्रांमध्ये वर्धित डेटा सुरक्षा आणि गोपनीयता संरक्षणाची गरज अधोरेखित करते. वापरकर्त्यांनी हे प्लॅटफॉर्म वापरताना अत्यंत सावधगिरी बाळगली पाहिजे आणि संस्थांनी कठोर डेटा वापर धोरणे स्थापित करणे आवश्यक आहे, जसे की एनक्रिप्शन, डेटा कमी करणे आणि संवेदनशील डेटासाठी अनामिकीकरण यासारख्या उपाययोजना लागू करणे. असे करण्यात अयशस्वी झाल्यास महत्त्वपूर्ण कायदेशीर, प्रतिष्ठा आणि आर्थिक परिणाम होऊ शकतात.
VERIZON इव्हेंट वर्गीकरण: संकीर्ण त्रुटी
MITRE ATT&CK फ्रेमवर्क मॅपिंग:
- T1071.001 (Application Layer Protocol - Web Protocols): हल्लेखोरांनी ओमनीजीपीटीच्या वेब इंटरफेसद्वारे लीक झालेली वापरकर्ता माहिती आणि संवेदनशील डेटामध्ये प्रवेश केला असावा.
- T1071.002 (Application Layer Protocol - Application Programming Interfaces): लीक झालेल्या API की आणि डेटाबेस क्रेडेन्शियल्समुळे हल्लेखोरांना प्लॅटफॉर्मच्या API द्वारे सिस्टममध्ये प्रवेश मिळू शकतो आणि अनधिकृत क्रिया करू शकतात.
- T1071.002 (Application Layer Protocol - Service Execution): हल्लेखोर सिस्टम सेवा किंवा डेमॉनचा गैरवापर करून कमांड्स किंवा प्रोग्राम कार्यान्वित करू शकतात.
- T1020.003 (Automated Exfiltration - File Transfer): लीक झालेल्या फाइल लिंक्स आणि वापरकर्त्याने अपलोड केलेल्या संवेदनशील फाइल्स हल्लेखोरांसाठी डाउनलोड करण्याचे लक्ष्य असू शकतात, ज्यामुळे पुढील हल्ल्यांसाठी अधिक संवेदनशील डेटा मिळू शकतो.
- T1083 (File and Directory Discovery): हल्लेखोर लीक झालेल्या माहितीचा वापर करून व्यवसायाची महत्त्वाची माहिती मिळवू शकतात.
घटना 5: कॉमन क्रॉलमध्ये डीपसीक क्रेडेन्शियल्स लीक झाले – हार्ड-कोडिंगचे धोके
वेळ: 28 फेब्रुवारी, 2025
लीकेजची व्याप्ती: अंदाजे 11,908 वैध डीपसीक API की, क्रेडेन्शियल्स आणि प्रमाणीकरण टोकन.
घटना उलगडणे:
ट्रफल (Truffle) सुरक्षा कार्यसंघाने कॉमन क्रॉल (Common Crawl) मधील डिसेंबर 2024 च्या 400 TB डेटाचे स्कॅन करण्यासाठी ओपन-सोर्स साधन ट्रफलहॉग (TruffleHog) वापरले, जे 47.5 दशलक्ष होस्टवरील 2.67 अब्ज वेब पृष्ठांचा समावेश असलेला क्रॉलर डेटाबेस आहे. स्कॅनमध्ये एक धक्कादायक निष्कर्ष समोर आला: अंदाजे 11,908 वैध डीपसीक API की, क्रेडेन्शियल्स आणि प्रमाणीकरण टोकन थेट अनेक वेब पृष्ठांमध्ये हार्ड-कोड केलेले होते.
अभ्यासात मेलचिंप (Mailchimp) API की च्या लीकवरही प्रकाश टाकण्यात आला, ज्यामध्ये जावास्क्रिप्ट कोडमध्ये सुमारे 1,500 की हार्ड-कोड केलेल्या आढळल्या. मेलचिंप API की चा वापर अनेकदा फिशिंग आणि डेटा चोरी हल्ल्यांसाठी केला जातो.
हल्ल्याचे विश्लेषण:
कॉमन क्रॉल, एक ना-नफा वेब क्रॉलर डेटाबेस, नियमितपणे इंटरनेट पृष्ठांवरील डेटा कॅप्चर करतो आणि प्रकाशित करतो. तो हा डेटा WARC (Web ARChive) फाइल्समध्ये संग्रहित करतो, मूळ HTML, जावास्क्रिप्ट कोड आणि सर्व्हर प्रतिसाद जतन करतो. हे डेटासेट अनेकदा AI मॉडेल्सना प्रशिक्षित करण्यासाठी वापरले जातात. ट्रफलचे संशोधन एक गंभीर समस्या उघड करते: सुरक्षा असुरक्षा असलेल्या कॉर्पोरावर मॉडेल्सना प्रशिक्षण दिल्यास मॉडेल त्या असुरक्षांचा वारसा घेऊ शकतात. जरी डीपसीकसारखे LLMs प्रशिक्षण आणि उपयोजनादरम्यान अतिरिक्त सुरक्षा उपाय वापरत असले तरी, प्रशिक्षण डेटामध्ये हार्ड-कोड केलेल्या असुरक्षांची व्यापक उपस्थिती मॉडेल्ससाठी अशा “असुरक्षित” पद्धतींना सामान्य करू शकते.
हार्ड-कोडिंग, एक सामान्य पण असुरक्षित कोडिंग पद्धत, एक व्यापक समस्या आहे. मूळ कारण सोपे असले तरी, धोके गंभीर आहेत: डेटा उल्लंघन, सेवा व्यत्यय, पुरवठा साखळी हल्ले आणि LLMs च्या वाढीसह, एक नवीन धोका – LLM अपहरण. आधी चर्चा केल्याप्रमाणे, LLM अपहरणामध्ये हल्लेखोर चोरी केलेल्या क्रेडेन्शियल्सचा वापर करून क्लाउड-होस्टेड LLM सेवांचे शोषण करतात, ज्यामुळे पीडितांचे मोठे आर्थिक नुकसान होते.
VERIZON इव्हेंट वर्गीकरण: संकीर्ण त्रुटी
MITRE ATT&CK फ्रेमवर्क मॅपिंग:
- T1596.005 (Search Open Technical Database - Scan Databases): हल्लेखोरांनी सार्वजनिक क्रॉलर डेटाबेसमधून माहिती गोळा केली.
- T1588.002 (Obtain Capabilities - Tool): हल्लेखोरांनी संवेदनशील माहिती शोध साधन तैनात केले.
- T1586.003 (Compromise Accounts - Cloud Accounts): हल्लेखोरांनी सार्वजनिक डेटाबेसमध्ये संवेदनशील क्रेडेन्शियल्स शोधण्यासाठी संवेदनशील माहिती शोध साधनांचा वापर केला.
- T1090.002 (Proxy - External Proxy): हल्लेखोरांनी अनेक LLM खात्यांमध्ये प्रवेश व्यवस्थापित करण्यासाठी OAI रिव्हर्स प्रॉक्सी सॉफ्टवेअरचा वापर केला.
- T1496 (Resource Hijacking): हल्लेखोरांनी LLM संसाधनांचे अपहरण करण्यासाठी LLM इंजेक्शन हल्ला सुरू केला.
LLM डेटा गळती रोखणे: एक बहुआयामी दृष्टीकोन
विश्लेषण केलेल्या घटना LLM-संबंधित डेटा उल्लंघनांपासून संरक्षण करण्यासाठी मजबूत सुरक्षा उपायांची तातडीची गरज अधोरेखित करतात. प्रतिबंधात्मक धोरणांचे वर्गीकरण येथे आहे, संबंधित घटनांनुसार:
पुरवठा साखळी मजबूत करणे:
घटना II (दुर्भावनापूर्ण अवलंबित पॅकेज हल्ला) आणि घटना V (सार्वजनिक डेटा उल्लंघन) साठी लागू:
अवलंबित पॅकेजेसची विश्वसनीय पडताळणी:
- PyPI/Sonatype Nexus Firewall सारखी साधने वापरा, स्वाक्षरी नसलेली किंवा संशयास्पद स्रोतांकडून आलेली अवलंबित पॅकेजेस थांबवण्यासाठी.
- विकास वातावरणात सार्वजनिक रेपॉजिटरीजमधून थेट अवलंबित्वा आणण्यास मनाई करा. कॉर्पोरेट खाजगी रेपॉजिटरी प्रॉक्सी (उदा., आर्टिफॅक्टरी) वापरणे अनिवार्य करा.
पुरवठा साखळी धोक्याचे निरीक्षण:
- अवलंबित्वातील असुरक्षा स्वयंचलितपणे स्कॅन करण्यासाठी आणि उच्च-जोखमीच्या घटकांचा परिचय रोखण्यासाठी Dependabot/Snyk सारखी साधने समाकलित करा.
- ओपन-सोर्स पॅकेजची कोड स्वाक्षरी सत्यापित करा, हॅश मूल्य अधिकृत मूल्याशी जुळते याची खात्री करा.
डेटा स्रोत साफ करणे:
- प्रशिक्षण डेटा संकलनादरम्यान, नियमित अभिव्यक्ती आणि AI-आधारित रेडॅक्शन साधनांचा वापर करून सार्वजनिक डेटासेट (जसे कॉमन क्रॉल) मधून संवेदनशील माहिती फिल्टर करा.
कमीत कमी विशेषाधिकार आणि प्रवेश नियंत्रण लागू करणे:
घटना I (डेटाबेस कॉन्फिगरेशन त्रुटी) आणि घटना IV (तृतीय-पक्ष साधन डेटा उल्लंघन) साठी लागू:
- डेटाबेस (जसे क्लिकहाउस) साठी डीफॉल्टनुसार बायडायरेक्शनल TLS प्रमाणीकरण सक्षम करा आणि सार्वजनिक नेटवर्कवर व्यवस्थापन पोर्ट उघड करणे टाळा.
- Vault/Boundary सारख्या उपायांचा वापर करा, तात्पुरती क्रेडेन्शियल्स डायनॅमिकपणे वितरित करण्यासाठी, दीर्घकालीन स्थिर की धारणा टाळा.
- कमीत कमी विशेषाधिकाराच्या तत्त्वाचे पालन करा, RBAC (Role-Based Access Control) द्वारे वापरकर्त्याचा प्रवेश केवळ आवश्यक संसाधनांपर्यंत मर्यादित करा.
- तृतीय-पक्ष साधनांसाठी (जसे ओमनीजीपीटी) API कॉलसाठी IP व्हाइटलिस्टिंग आणि दर मर्यादा लागू करा.
संवेदनशील डेटाचे पूर्ण-जीवनचक्र संरक्षण सुनिश्चित करणे:
घटना III (LLM अपहरण) साठी लागू:
- डेटा रेडॅक्शन आणि एनक्रिप्शन: वापरकर्ता इनपुट आणि आउटपुट डेटासाठी फील्ड-लेव्हल एनक्रिप्शन (उदा., AES-GCM) लागू करा. लॉगमध्ये संवेदनशील फील्ड मास्क करा.
- LLMs च्या परस्परसंवादी सामग्रीसाठी रिअल-टाइम रेडॅक्शन सक्षम करा (उदा., क्रेडिट कार्ड नंबर आणि फोन नंबर प्लेसहोलडरसह बदलणे).
हे प्रतिबंधात्मक उपाय, सतत सुरक्षा देखरेख आणि घटना प्रतिसाद नियोजनासह एकत्रितपणे, LLMs च्या वाढत्या वापराशी संबंधित धोके कमी करण्यासाठी आवश्यक आहेत. LLM सुरक्षिततेचे “अदृश्य रणांगण” सतत सतर्कता आणि या वेगाने विकसित होणाऱ्या तांत्रिक लँडस्केपमध्ये संवेदनशील डेटाचे संरक्षण करण्यासाठी सक्रिय दृष्टिकोन आवश्यक आहे.