उल्लंघनों की लहर कमजोरियों को उजागर करती है
DeepSeek और Ollama जैसे ओपन-सोर्स लार्ज लैंग्वेज मॉडल्स (LLMs) को तेजी से अपनाना एक दोधारी तलवार बन गया है। जबकि व्यवसाय इन शक्तिशाली उपकरणों का उपयोग दक्षता बढ़ाने के लिए कर रहे हैं, वही खुलापन जो उनके विकास को बढ़ावा देता है, डेटा सुरक्षा जोखिमों में समानांतर वृद्धि पैदा कर रहा है। NSFOCUS Xingyun Lab द्वारा संकलित एक हालिया रिपोर्ट एक कठोर तस्वीर पेश करती है: 2025 के पहले दो महीनों में, दुनिया ने LLMs से सीधे जुड़े पांच महत्वपूर्ण डेटा उल्लंघनों को देखा। इन घटनाओं के परिणामस्वरूप संवेदनशील जानकारी के विशाल भंडार का खुलासा हुआ, जिसमें गोपनीय चैट इतिहास और API कुंजी से लेकर महत्वपूर्ण उपयोगकर्ता क्रेडेंशियल तक शामिल हैं। ये घटनाएं एक चेतावनी हैं, जो अत्याधुनिक AI तकनीक की सतह के नीचे छिपी अक्सर अनदेखी की जाने वाली सुरक्षा कमजोरियों को उजागर करती हैं। यह अन्वेषण इन पांच घटनाओं का विश्लेषण करेगा, हमले के तरीकों का विश्लेषण करेगा, उन्हें स्थापित MITRE ATT&CK ढांचे में मैप करेगा, और उन सुरक्षा अंध बिंदुओं को उजागर करेगा जिन्हें संगठनों को तत्काल संबोधित करना चाहिए।
घटना 1: DeepSeek का गलत कॉन्फ़िगर किया गया डेटाबेस - निजी बातचीत में एक खिड़की
समयरेखा: 29 जनवरी, 2025
लीकेज का पैमाना: लाखों लाइनों का लॉग डेटा, जिसमें संवेदनशील चैट इतिहास और एक्सेस कुंजी शामिल हैं।
घटनाओं को उजागर करना:
Wiz में सुरक्षा अनुसंधान टीम ने इस खोज की शुरुआत की। उन्होंने सार्वजनिक इंटरनेट पर सुलभ एक उजागर ClickHouse सेवा की पहचान की। आगे की जांच ने पुष्टि की कि यह सेवा चीनी AI स्टार्टअप, DeepSeek की थी। ClickHouse, विश्लेषणात्मक प्रसंस्करण में बड़े डेटासेट के कुशल संचालन के लिए डिज़ाइन किया गया, दुर्भाग्य से DeepSeek के आंतरिक डेटा का प्रवेश द्वार बन गया। शोधकर्ताओं ने DeepSeek के लॉग स्ट्रीम की लगभग दस लाख लाइनों तक पहुंच बनाई, जिसमें संवेदनशील जानकारी का खजाना सामने आया, जिसमें ऐतिहासिक चैट लॉग और महत्वपूर्ण एक्सेस कुंजी शामिल हैं।
Wiz ने तुरंत DeepSeek को भेद्यता के प्रति सचेत किया, जिससे तत्काल कार्रवाई हुई और उजागर ClickHouse सेवा का सुरक्षित निपटान हुआ।
हमले का विश्लेषण:
मुख्य मुद्दा ClickHouse की अनधिकृत पहुंच के प्रति भेद्यता में निहित था। ClickHouse, एक ओपन-सोर्स कॉलम-ओरिएंटेड डेटाबेस प्रबंधन प्रणाली, वास्तविक समय क्वेरी और बड़े डेटासेट के विश्लेषण में उत्कृष्टता प्राप्त करता है, जिसका उपयोग अक्सर लॉग और उपयोगकर्ता व्यवहार विश्लेषण के लिए किया जाता है। हालाँकि, जब उचित एक्सेस नियंत्रण के बिना तैनात किया जाता है, तो इसका उजागर API इंटरफ़ेस किसी को भी SQL-जैसे कमांड निष्पादित करने की अनुमति देता है।
Wiz सुरक्षा टीम के दृष्टिकोण में DeepSeek के इंटरनेट-फेसिंग सबडोमेन का एक व्यवस्थित स्कैन शामिल था। शुरू में मानक पोर्ट 80 और 443 पर ध्यान केंद्रित करते हुए, उन्होंने चैटबॉट इंटरफेस और API दस्तावेज़ीकरण जैसे विशिष्ट वेब संसाधन पाए। अपनी खोज को व्यापक बनाने के लिए, उन्होंने 8123 और 9000 जैसे कम सामान्य पोर्ट तक विस्तार किया, अंततः कई सबडोमेन पर उजागर सेवाओं का पता लगाया।
6 जनवरी, 2025 से शुरू हुए समझौता किए गए लॉग डेटा में संवेदनशील जानकारी का खजाना था: कॉल लॉग, आंतरिक DeepSeek API एंडपॉइंट के लिए टेक्स्ट लॉग, विस्तृत चैट इतिहास, API कुंजी, बैकएंड सिस्टम विवरण और परिचालन मेटाडेटा।
VERIZON इवेंट वर्गीकरण: विविध त्रुटियाँ
MITRE ATT&CK फ्रेमवर्क मैपिंग:
- T1590.002 (पीड़ित नेटवर्क जानकारी एकत्र करें - डोमेन नाम रिज़ॉल्यूशन): हमलावरों ने सबडोमेन गणना करने के लिए प्राथमिक डोमेन नाम का उपयोग किया।
- T1046 (वेब सेवा खोज): हमलावरों ने लक्ष्य डोमेन से जुड़े खुले पोर्ट और सेवाओं की पहचान की।
- T1106 (नेटिव इंटरफ़ेस): हमलावरों ने डेटाबेस के साथ बातचीत करने के लिए ClickHouse API का लाभ उठाया।
- T1567 (वेब सेवा के माध्यम से डेटा एक्सफ़िल्ट्रेशन): हमलावरों ने डेटा चोरी करने के लिए ClickHouse API का उपयोग किया।
घटना 2: DeepSeek का आपूर्ति श्रृंखला हमला - कोड में एक ट्रोजन हॉर्स
समयरेखा: 3 फरवरी, 2025
लीकेज का पैमाना: उपयोगकर्ता क्रेडेंशियल और पर्यावरण चर।
घटनाओं को उजागर करना:
हमला 19 जनवरी, 2025 को शुरू हुआ, जब ‘bvk’ के रूप में पहचाने गए एक दुर्भावनापूर्ण उपयोगकर्ता ने लोकप्रिय PyPI (Python Package Index) रिपॉजिटरी में ‘deepseek’ और ‘deepseekai’ नामक दो दुर्भावनापूर्ण Python पैकेज अपलोड किए।
Positive Technologies Expert Security Center (PT ESC) में खतरे की खुफिया टीम ने उसी दिन इस संदिग्ध गतिविधि का पता लगाया। उनके विश्लेषण ने पैकेजों की दुर्भावनापूर्ण प्रकृति की पुष्टि की, और उन्होंने तुरंत PyPI प्रशासकों को सूचित किया।
PyPI प्रशासकों ने तुरंत दुर्भावनापूर्ण पैकेजों को हटा दिया और PT ESC को सूचित किया। त्वरित प्रतिक्रिया के बावजूद, आंकड़ों से पता चला कि मैलवेयर विभिन्न चैनलों के माध्यम से 17 देशों में 200 से अधिक बार डाउनलोड किया गया था। दुर्भावनापूर्ण पैकेजों को बाद में अलग कर दिया गया।
हमले का विश्लेषण:
‘bvk’ द्वारा अपलोड किए गए दुर्भावनापूर्ण पैकेज दो प्राथमिक उद्देश्यों पर केंद्रित थे: सूचना एकत्र करना और पर्यावरण चर चोरी करना। चोरी किए गए डेटा में संवेदनशील जानकारी शामिल थी जैसे डेटाबेस क्रेडेंशियल, API कुंजी और S3 ऑब्जेक्ट स्टोरेज के लिए एक्सेस क्रेडेंशियल। दुर्भावनापूर्ण पेलोड तब ट्रिगर हुआ जब किसी उपयोगकर्ता ने कमांड लाइन से DeepSeek या Deepseekai को निष्पादित किया।
हमलावर ने चोरी किए गए डेटा को प्राप्त करने के लिए PipeDream को कमांड-एंड-कंट्रोल सर्वर के रूप में उपयोग किया। घटना कई योगदान कारकों पर प्रकाश डालती है:
- निर्भरता भ्रम हमला: हमलावरों ने एक संगठन के निजी पैकेजों और समान नाम वाले सार्वजनिक पैकेजों के बीच प्राथमिकता अंतर का फायदा उठाया।
- पैकेज नाम प्रतिरूपण: दुर्भावनापूर्ण पैकेजों ने उपयोगकर्ताओं को धोखा देने के लिए एक प्रसिद्ध AI कंपनी, DeepSeek के ब्रांड नाम की नकल की।
- PyPI पंजीकरण कमजोरी: PyPI पंजीकरण प्रक्रिया में डेवलपर पहचान और पैकेज नाम वैधता का प्रभावी सत्यापन नहीं था।
- डेवलपर सुरक्षा जागरूकता: डेवलपर्स ने गलती से समान नाम वाले दुर्भावनापूर्ण पैकेज स्थापित किए होंगे।
VERIZON इवेंट वर्गीकरण: सोशल इंजीनियरिंग
MITRE ATT&CK फ्रेमवर्क मैपिंग:
- T1593.003 (ओपन वेबसाइट/डोमेन खोजें - सार्वजनिक रूप से उपलब्ध निर्भरता रिपॉजिटरी खोजें): हमलावरों ने PyPI पर जानकारी खोजी।
- T1195.002 (आपूर्ति श्रृंखला समझौता - सॉफ्टवेयर आपूर्ति श्रृंखला से समझौता): हमलावरों ने Python निर्भरता के रूप में प्रच्छन्न मैलवेयर का उपयोग किया और इसे PyPI पर अपलोड किया।
- T1059.006 (कमांड और स्क्रिप्टिंग इंटरप्रेटर - Python): हमलावरों ने पैकेज में दुर्भावनापूर्ण कोड डाला, जो निष्पादन पर, संवेदनशील डेटा लीक करता था।
- T1041 (C2 चैनल पर एक्सफ़िल्ट्रेशन): हमलावरों ने PipeDream C2 चैनल के माध्यम से संवेदनशील जानकारी को बाहर निकाला।
घटना 3: LLM अपहरण - संसाधन चोरी के लिए DeepSeek को लक्षित किया गया
समयरेखा: 7 फरवरी, 2025
लीकेज का पैमाना: लगभग 2 बिलियन मॉडल टोकन अवैध रूप से उपयोग किए गए।
घटनाओं को उजागर करना:
Sysdig खतरे की अनुसंधान टीम ने शुरू में मई 2024 में LLMs को लक्षित करने वाले एक उपन्यास हमले की खोज की, जिसे ‘LLM जैकिंग’ या ‘LLM अपहरण’ करार दिया गया।
सितंबर 2024 तक, Sysdig ने इन हमलों की बढ़ती आवृत्ति और व्यापकता की सूचना दी, जिसमें DeepSeek तेजी से एक लक्ष्य बन रहा था।
26 दिसंबर, 2024 को, DeepSeek ने DeepSeek-V3 नामक एक उन्नत मॉडल जारी किया। इसके तुरंत बाद, Sysdig टीम ने पाया कि DeepSeek-V3 को Hugging Face पर होस्ट किए गए एक OpenAI रिवर्स प्रॉक्सी (ORP) प्रोजेक्ट में लागू किया गया था।
20 जनवरी, 2025 को, DeepSeek ने DeepSeek-R1 नामक एक अनुमान मॉडल जारी किया। अगले ही दिन, DeepSeek-R1 का समर्थन करने वाला एक ORP प्रोजेक्ट दिखाई दिया, और हमलावरों ने इसका फायदा उठाना शुरू कर दिया, कई ORPs को DeepSeek API कुंजी के साथ पॉप्युलेट किया।
Sysdig के शोध से संकेत मिला कि ORPs के माध्यम से अवैध रूप से उपयोग किए गए बड़े मॉडल टोकन की कुल संख्या 2 बिलियन से अधिक हो गई है।
हमले का विश्लेषण:
LLM अपहरण में हमलावर क्लाउड-होस्टेड LLM सेवाओं को लक्षित करने के लिए चोरी किए गए क्लाउड क्रेडेंशियल का शोषण करते हैं। हमलावर अनिवार्य रूप से पीड़ित की सदस्यता वाली LLM सेवाओं तक पहुंच बेचने के लिए एक OAI (OpenAI) रिवर्स प्रॉक्सी और चोरी किए गए क्रेडेंशियल का लाभ उठाते हैं। इसके परिणामस्वरूप पीड़ित के लिए महत्वपूर्ण क्लाउड सेवा लागत होती है।
OAI रिवर्स प्रॉक्सी कई LLM खातों तक पहुंच के लिए एक केंद्रीय प्रबंधन बिंदु के रूप में कार्य करता है, अंतर्निहित क्रेडेंशियल और संसाधन पूल को छिपाता है। हमलावर DeepSeek जैसे महंगे LLMs का उपयोग उनके लिए भुगतान किए बिना कर सकते हैं, रिवर्स प्रॉक्सी के माध्यम से अनुरोधों को निर्देशित कर सकते हैं, संसाधनों का उपभोग कर सकते हैं और वैध सेवा शुल्क को बायपास कर सकते हैं। प्रॉक्सी तंत्र हमलावर की पहचान छुपाता है, जिससे वे क्लाउड संसाधनों का दुरुपयोग बिना पता लगाए कर सकते हैं।
जबकि OAI रिवर्स प्रॉक्सी LLM अपहरण के लिए एक आवश्यक घटक है, महत्वपूर्ण तत्व विभिन्न LLM सेवाओं के लिए क्रेडेंशियल और कुंजी की चोरी है। हमलावर अक्सर इन क्रेडेंशियल को चोरी करने के लिए पारंपरिक वेब सेवा कमजोरियों और कॉन्फ़िगरेशन त्रुटियों (जैसे Laravel ढांचे में CVE-2021-3129 भेद्यता) का फायदा उठाते हैं। एक बार प्राप्त होने के बाद, ये क्रेडेंशियल Amazon Bedrock, Google Cloud Vertex AI और अन्य जैसी क्लाउड-आधारित LLM सेवाओं तक पहुंच प्रदान करते हैं।
Sysdig के शोध से पता चला कि हमलावर घंटों के भीतर पीड़ितों की खपत लागत को दसियों हजार डॉलर तक और कुछ मामलों में, प्रति दिन $100,000 तक बढ़ा सकते हैं। हमलावरों की प्रेरणा डेटा अधिग्रहण से परे फैली हुई है; वे एक्सेस अधिकार बेचकर भी लाभ कमाते हैं।
VERIZON इवेंट वर्गीकरण: बेसिक वेब एप्लीकेशन अटैक
MITRE ATT&CK फ्रेमवर्क मैपिंग:
- T1593 (ओपन वेबसाइट/डोमेन खोजें): हमलावरों ने OSINT (ओपन-सोर्स इंटेलिजेंस) विधियों का उपयोग करके उजागर सेवाओं पर जानकारी एकत्र की।
- T1133 (बाहरी रिमोट सेवाएं): हमलावरों ने उजागर सेवाओं में कमजोरियों की पहचान की।
- T1586.003 (खातों से समझौता - क्लाउड खाते): हमलावरों ने LLM सेवा या क्लाउड सेवा क्रेडेंशियल चोरी करने के लिए कमजोरियों का फायदा उठाया।
- T1588.002 (क्षमताएं प्राप्त करें - उपकरण): हमलावरों ने एक ओपन-सोर्स OAI रिवर्स प्रॉक्सी टूल तैनात किया।
- T1090.002 (प्रॉक्सी - बाहरी प्रॉक्सी): हमलावरों ने कई LLM खातों तक पहुंच प्रबंधित करने के लिए OAI रिवर्स प्रॉक्सी सॉफ़्टवेयर का उपयोग किया।
- T1496 (संसाधन अपहरण): हमलावरों ने LLM संसाधनों को हाईजैक करने के लिए एक LLM इंजेक्शन हमला शुरू किया।
घटना 4: OmniGPT डेटा उल्लंघन - डार्क वेब पर बेचा गया उपयोगकर्ता डेटा
समयरेखा: 12 फरवरी, 2025
लीकेज का पैमाना: 30,000 से अधिक उपयोगकर्ताओं की व्यक्तिगत जानकारी, जिसमें ईमेल, फोन नंबर, API कुंजी, एन्क्रिप्शन कुंजी, क्रेडेंशियल और बिलिंग जानकारी शामिल है।
घटनाओं को उजागर करना:
12 फरवरी, 2025 को, ‘SyntheticEmotions’ नामक एक उपयोगकर्ता ने BreachForums पर पोस्ट किया, जिसमें दावा किया गया कि उसने OmniGPT प्लेटफॉर्म से संवेदनशील डेटा चुराया है और इसे बिक्री के लिए पेश किया है। लीक हुए डेटा में कथित तौर पर 30,000 से अधिक OmniGPT उपयोगकर्ताओं के ईमेल, फोन नंबर, API कुंजी, एन्क्रिप्शन कुंजी, क्रेडेंशियल और बिलिंग जानकारी शामिल थी, साथ ही चैटबॉट्स के साथ उनकी बातचीत की 34 मिलियन से अधिक लाइनें भी शामिल थीं। इसके अतिरिक्त, प्लेटफ़ॉर्म पर अपलोड की गई फ़ाइलों के लिंक से समझौता किया गया था, जिनमें से कुछ में वाउचर और बिलिंग डेटा जैसी संवेदनशील जानकारी थी।
हमले का विश्लेषण:
जबकि सटीक हमले वेक्टर का खुलासा नहीं किया गया है, लीक हुए डेटा के प्रकार और दायरे से कई संभावनाएं पता चलती हैं: SQL इंजेक्शन, API दुरुपयोग, या सोशल इंजीनियरिंग हमलों ने हमलावर को बैकएंड डेटाबेस तक पहुंच प्रदान की होगी। यह भी संभव है कि OmniGPT प्लेटफ़ॉर्म में गलत कॉन्फ़िगरेशन या कमजोरियां थीं जिन्होंने हमलावर को प्रमाणीकरण को बायपास करने और उपयोगकर्ता जानकारी वाले डेटाबेस तक सीधे पहुंचने की अनुमति दी।
एक द्वितीयक रिसाव में शामिल ‘Messages.txt’ फ़ाइल में API कुंजी, डेटाबेस क्रेडेंशियल और भुगतान कार्ड की जानकारी थी, जो संभावित रूप से अन्य प्रणालियों में घुसपैठ या डेटा छेड़छाड़ को सक्षम करती है। प्लेटफ़ॉर्म उपयोगकर्ताओं द्वारा अपलोड किए गए कुछ दस्तावेज़ों में संवेदनशील व्यावसायिक रहस्य और परियोजना डेटा शामिल थे, जो दुरुपयोग होने पर व्यावसायिक संचालन के लिए जोखिम पैदा करते हैं। यह घटना AI और बड़े डेटा क्षेत्रों में बढ़ी हुई डेटा सुरक्षा और गोपनीयता सुरक्षा की आवश्यकता की एक कठोर अनुस्मारक के रूप में कार्य करती है। उपयोगकर्ताओं को इन प्लेटफार्मों का उपयोग करते समय अत्यधिक सावधानी बरतनी चाहिए, और संगठनों को सख्त डेटा उपयोग नीतियां स्थापित करनी चाहिए, संवेदनशील डेटा के लिए एन्क्रिप्शन, डेटा न्यूनीकरण और गुमनामी जैसे उपायों को लागू करना चाहिए। ऐसा करने में विफलता के परिणामस्वरूप महत्वपूर्ण कानूनी, प्रतिष्ठित और आर्थिक परिणाम हो सकते हैं।
VERIZON इवेंट वर्गीकरण: विविध त्रुटियाँ
MITRE ATT&CK फ्रेमवर्क मैपिंग:
- T1071.001 (एप्लिकेशन लेयर प्रोटोकॉल - वेब प्रोटोकॉल): हमलावरों ने OmniGPT के वेब इंटरफ़ेस के माध्यम से लीक हुई उपयोगकर्ता जानकारी और संवेदनशील डेटा तक पहुंच बनाई होगी।
- T1071.002 (एप्लिकेशन लेयर प्रोटोकॉल - एप्लिकेशन प्रोग्रामिंग इंटरफेस): लीक हुई API कुंजी और डेटाबेस क्रेडेंशियल हमलावरों को प्लेटफ़ॉर्म के API के माध्यम से सिस्टम तक पहुंचने और अनधिकृत कार्रवाई करने की अनुमति दे सकते हैं।
- T1071.002 (एप्लिकेशन लेयर प्रोटोकॉल - सेवा निष्पादन): हमलावर कमांड या प्रोग्राम निष्पादित करने के लिए सिस्टम सेवाओं या डेमॉन का दुरुपयोग कर सकते हैं।
- T1020.003 (स्वचालित एक्सफ़िल्ट्रेशन - फ़ाइल स्थानांतरण): लीक हुई फ़ाइल लिंक और उपयोगकर्ता द्वारा अपलोड की गई संवेदनशील फ़ाइलें हमलावरों के लिए डाउनलोड करने, बाद के हमलों के लिए अधिक संवेदनशील डेटा प्राप्त करने के लक्ष्य हो सकती हैं।
- T1083 (फ़ाइल और निर्देशिका खोज): हमलावर लीक हुई जानकारी का उपयोग करके प्रमुख व्यावसायिक जानकारी प्राप्त कर सकते हैं।
घटना 5: Common Crawl में लीक हुए DeepSeek क्रेडेंशियल - हार्ड-कोडिंग के खतरे
समयरेखा: 28 फरवरी, 2025
लीकेज का पैमाना: लगभग 11,908 वैध DeepSeek API कुंजी, क्रेडेंशियल और प्रमाणीकरण टोकन।
घटनाओं को उजागर करना:
Truffle सुरक्षा टीम ने Common Crawl से दिसंबर 2024 के 400 TB डेटा को स्कैन करने के लिए ओपन-सोर्स टूल TruffleHog का उपयोग किया, जो 47.5 मिलियन होस्ट से 2.67 बिलियन वेब पेजों को शामिल करने वाला एक क्रॉलर डेटाबेस है। स्कैन ने एक चौंकाने वाला निष्कर्ष निकाला: लगभग 11,908 वैध DeepSeek API कुंजी, क्रेडेंशियल और प्रमाणीकरण टोकन सीधे कई वेब पेजों में हार्ड-कोड किए गए थे।
अध्ययन ने Mailchimp API कुंजी के रिसाव पर भी प्रकाश डाला, जिसमें लगभग 1,500 कुंजियाँ JavaScript कोड में हार्ड-कोड की गई थीं। Mailchimp API कुंजी का उपयोग अक्सर फ़िशिंग और डेटा चोरी के हमलों के लिए किया जाता है।
हमले का विश्लेषण:
Common Crawl, एक गैर-लाभकारी वेब क्रॉलर डेटाबेस, नियमित रूप से इंटरनेट पेजों से डेटा कैप्चर और प्रकाशित करता है। यह इस डेटा को WARC (Web ARChive) फ़ाइलों में संग्रहीत करता है, मूल HTML, JavaScript कोड और सर्वर प्रतिक्रियाओं को संरक्षित करता है। इन डेटासेट का उपयोग अक्सर AI मॉडल को प्रशिक्षित करने के लिए किया जाता है। Truffle का शोध एक महत्वपूर्ण मुद्दे को उजागर करता है: सुरक्षा कमजोरियों वाले कॉर्पोरा पर प्रशिक्षण मॉडल उन कमजोरियों को विरासत में प्राप्त करने वाले मॉडल का कारण बन सकते हैं। भले ही DeepSeek जैसे LLMs प्रशिक्षण और परिनियोजन के दौरान अतिरिक्त सुरक्षा उपायों को नियोजित करते हैं, प्रशिक्षण डेटा में हार्ड-कोडित कमजोरियों की व्यापक उपस्थिति मॉडल के लिए ऐसी ‘असुरक्षित’ प्रथाओं को सामान्य कर सकती है।
हार्ड-कोडिंग, एक सामान्य लेकिन असुरक्षित कोडिंग अभ्यास, एक व्यापक समस्या है। जबकि मूल कारण सरल है, जोखिम गंभीर हैं: डेटा उल्लंघन, सेवा व्यवधान, आपूर्ति श्रृंखला हमले, और, LLMs के उदय के साथ, एक नया खतरा - LLM अपहरण। जैसा कि पहले चर्चा की गई है, LLM अपहरण में हमलावर क्लाउड-होस्टेड LLM सेवाओं का शोषण करने के लिए चोरी किए गए क्रेडेंशियल का उपयोग करते हैं, जिसके परिणामस्वरूप पीड़ितों के लिए पर्याप्त वित्तीय नुकसान होता है।
VERIZON इवेंट वर्गीकरण: विविध त्रुटियाँ
MITRE ATT&CK फ्रेमवर्क मैपिंग:
- T1596.005 (ओपन टेक्निकल डेटाबेस खोजें - स्कैन डेटाबेस): हमलावरों ने सार्वजनिक क्रॉलर डेटाबेस से जानकारी एकत्र की।
- T1588.002 (क्षमताएं प्राप्त करें - उपकरण): हमलावरों ने एक संवेदनशील जानकारी खोज उपकरण तैनात किया।
- T1586.003 (खातों से समझौता - क्लाउड खाते): हमलावरों ने सार्वजनिक डेटाबेस में संवेदनशील क्रेडेंशियल खोजने के लिए संवेदनशील जानकारी खोज उपकरणों का उपयोग किया।
- T1090.002 (प्रॉक्सी - बाहरी प्रॉक्सी): हमलावरों ने कई LLM खातों तक पहुंच प्रबंधित करने के लिए OAI रिवर्स प्रॉक्सी सॉफ़्टवेयर का उपयोग किया।
- T1496 (संसाधन अपहरण): हमलावरों ने LLM संसाधनों को हाईजैक करने के लिए एक LLM इंजेक्शन हमला शुरू किया।
LLM डेटा रिसाव को रोकना: एक बहुआयामी दृष्टिकोण
विश्लेषण की गई घटनाएं LLM-संबंधित डेटा उल्लंघनों से बचाने के लिए मजबूत सुरक्षा उपायों की तत्काल आवश्यकता पर प्रकाश डालती हैं। यहां प्रासंगिक घटनाओं द्वारा वर्गीकृत निवारक रणनीतियों का विवरण दिया गया है:
आपूर्ति श्रृंखला को मजबूत करना:
घटना II (दुर्भावनापूर्ण निर्भरता पैकेज हमला) और घटना V (सार्वजनिक डेटा उल्लंघन) पर लागू:
निर्भरता पैकेजों का विश्वसनीय सत्यापन:
- अहस्ताक्षरित या संदिग्ध रूप से स्रोतित निर्भरता पैकेजों को रोकने के लिए PyPI/Sonatype Nexus Firewall जैसे उपकरणों को नियोजित करें।
- विकास वातावरण में सार्वजनिक रिपॉजिटरी से सीधे निर्भरता लाने पर रोक लगाएं। कॉर्पोरेट निजी रिपॉजिटरी प्रॉक्सी (जैसे, Artifactory) के उपयोग को अनिवार्य करें।
आपूर्ति श्रृंखला खतरा निगरानी:
- निर्भरता कमजोरियों को स्वचालित रूप से स्कैन करने और उच्च जोखिम वाले घटकों की शुरूआत को रोकने के लिए Dependabot/Snyk जैसे उपकरणों को एकीकृत करें।
- यह सुनिश्चित करने के लिए ओपन-सोर्स पैकेजों के कोड हस्ताक्षर को सत्यापित करें कि हैश मान आधिकारिक से मेल खाता है।
डेटा स्रोत सफाई:
- प्रशिक्षण डेटा संग्रह के दौरान, दोहरे सत्यापन के लिए नियमित अभिव्यक्ति और AI-आधारित रिडेक्शन टूल का उपयोग करके सार्वजनिक डेटासेट (जैसे Common Crawl) से संवेदनशील जानकारी फ़िल्टर करें।
कम से कम विशेषाधिकार और पहुंच नियंत्रण लागू करना:
घटना I (डेटाबेस कॉन्फ़िगरेशन त्रुटि) और घटना IV (तृतीय-पक्ष उपकरण डेटा उल्लंघन) पर लागू:
- डेटाबेस (जैसे ClickHouse) के लिए डिफ़ॉल्ट रूप से द्विदिश TLS प्रमाणीकरण सक्षम करें और सार्वजनिक नेटवर्क पर प्रबंधन पोर्ट के प्रदर्शन को रोकें।
- लंबे समय तक स्थिर कुंजी प्रतिधारण से बचते हुए, अस्थायी क्रेडेंशियल को गतिशील रूप से वितरित करने के लिए Vault/Boundary जैसे समाधानों का उपयोग करें।
- कम से कम विशेषाधिकार के सिद्धांत का पालन करें, RBAC (भूमिका-आधारित पहुंच नियंत्रण) के माध्यम से उपयोगकर्ता पहुंच को केवल आवश्यक संसाधनों तक सीमित करें।
- तृतीय-पक्ष टूल (जैसे OmniGPT) के लिए API कॉल के लिए IP श्वेतसूची और दर सीमित करना लागू करें।
संवेदनशील डेटा की पूर्ण-जीवनचक्र सुरक्षा सुनिश्चित करना:
घटना III (LLM अपहरण) पर लागू:
- डेटा रिडेक्शन और एन्क्रिप्शन: उपयोगकर्ता इनपुट और आउटपुट डेटा के लिए फ़ील्ड-स्तरीय एन्क्रिप्शन (जैसे, AES-GCM) लागू करें। लॉग में संवेदनशील फ़ील्ड को मास्क करें।
- LLMs की इंटरैक्टिव सामग्री के लिए रीयल-टाइम रिडेक्शन सक्षम करें (उदाहरण के लिए, क्रेडिट कार्ड नंबर और फोन नंबर को प्लेसहोल्डर से बदलना)।
ये निवारक उपाय, निरंतर सुरक्षा निगरानी और घटना प्रतिक्रिया योजना के साथ मिलकर, LLMs के बढ़ते उपयोग से जुड़े जोखिमों को कम करने के लिए आवश्यक हैं। LLM सुरक्षा का ‘अदृश्य युद्धक्षेत्र’ इस तेजी से विकसित हो रहे तकनीकी परिदृश्य में संवेदनशील डेटा की सुरक्षा के लिए निरंतर सतर्कता और एक सक्रिय दृष्टिकोण की मांग करता है।