ఓపెన్-సోర్స్ LLMల యుగంలో డేటా కోసం నీడ యుద్ధం

ఉల్లంఘనల తరంగం హానిని బహిర్గతం చేస్తుంది

డీప్‌సీక్ మరియు ఓల్లామా వంటి ఓపెన్ సోర్స్ లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) యొక్క వేగవంతమైన స్వీకరణ రెండు వైపులా పదునున్న కత్తిగా మారింది. వ్యాపారాలు సామర్థ్యాన్ని పెంచడానికి ఈ శక్తివంతమైన సాధనాలను ఉపయోగిస్తున్నప్పటికీ, వాటి పెరుగుదలకు కారణమయ్యే బహిరంగత సమాంతరంగా డేటా భద్రత ప్రమాదాలను సృష్టిస్తోంది. NSFOCUS జింగ్యున్ ల్యాబ్ సంకలనం చేసిన ఇటీవలి నివేదిక ఒక కఠినమైన చిత్రాన్ని చిత్రీకరిస్తుంది: 2025 మొదటి రెండు నెలల్లో, ప్రపంచం LLMలకు నేరుగా లింక్ చేయబడిన ఐదు ముఖ్యమైన డేటా ఉల్లంఘనలను చూసింది. ఈ సంఘటనలు రహస్య చాట్ హిస్టరీలు మరియు API కీలు నుండి క్లిష్టమైన వినియోగదారు ఆధారాల వరకు విస్తారమైన సున్నితమైన సమాచారాన్ని బహిర్గతం చేశాయి. ఈ సంఘటనలు మేల్కొలుపు పిలుపు, అత్యాధునిక AI సాంకేతిక పరిజ్ఞానం యొక్క ఉపరితలం క్రింద దాగి ఉన్న తరచుగా విస్మరించబడిన భద్రతా బలహీనతలను హైలైట్ చేస్తాయి. ఈ అన్వేషణ ఈ ఐదు సంఘటనలను విడదీస్తుంది, దాడి పద్ధతులను విడదీస్తుంది, వాటిని స్థాపించబడిన MITRE ATT&CK ఫ్రేమ్‌వర్క్‌కు మ్యాపింగ్ చేస్తుంది మరియు సంస్థలు అత్యవసరంగా పరిష్కరించాల్సిన భద్రతా బ్లైండ్ స్పాట్‌లను బహిర్గతం చేస్తుంది.

సంఘటన 1: డీప్‌సీక్ యొక్క తప్పుగా కాన్ఫిగర్ చేయబడిన డేటాబేస్ - ప్రైవేట్ సంభాషణలలోకి ఒక విండో

కాలక్రమం: జనవరి 29, 2025

లీకేజ్ స్కేల్: మిలియన్ల కొద్దీ లైన్ల లాగ్ డేటా, సున్నితమైన చాట్ హిస్టరీలు మరియు యాక్సెస్ కీలతో సహా.

ఈవెంట్‌లను విప్పుతోంది:

విజ్ వద్ద భద్రతా పరిశోధన బృందం ఈ ఆవిష్కరణను ప్రారంభించింది. వారు పబ్లిక్ ఇంటర్నెట్‌లో యాక్సెస్ చేయగల బహిర్గతమైన క్లిక్‌హౌస్ సేవను గుర్తించారు. తదుపరి పరిశోధన ఈ సేవ చైనీస్ AI స్టార్టప్, డీప్‌సీక్‌కు చెందినదని నిర్ధారించింది. క్లిక్‌హౌస్, విశ్లేషణాత్మక ప్రాసెసింగ్‌లో పెద్ద డేటాసెట్‌లను సమర్థవంతంగా నిర్వహించడానికి రూపొందించబడింది, దురదృష్టవశాత్తు డీప్‌సీక్ యొక్క అంతర్గత డేటాకు గేట్‌వేగా మారింది. పరిశోధకులు డీప్‌సీక్ యొక్క లాగ్ స్ట్రీమ్‌లో సుమారు ఒక మిలియన్ లైన్‌లను యాక్సెస్ చేశారు, చారిత్రక చాట్ లాగ్‌లు మరియు కీలకమైన యాక్సెస్ కీలతో సహా సున్నితమైన సమాచారం యొక్క నిధిని వెల్లడించారు.

విజ్ వెంటనే డీప్‌సీక్‌ను హాని గురించి హెచ్చరించాడు, ఇది తక్షణ చర్యకు మరియు బహిర్గతమైన క్లిక్‌హౌస్ సేవను సురక్షితంగా పారవేయడానికి దారితీసింది.

దాడిని విడదీయడం:

కోర్ సమస్య క్లిక్‌హౌస్ యొక్క అనధికార యాక్సెస్‌కు గురయ్యే అవకాశం ఉంది. క్లిక్‌హౌస్, ఓపెన్ సోర్స్ కాలమ్-ఓరియెంటెడ్ డేటాబేస్ మేనేజ్‌మెంట్ సిస్టమ్, లాగ్ మరియు యూజర్ బిహేవియర్ అనాలిసిస్ కోసం తరచుగా ఉపయోగించే భారీ డేటాసెట్‌ల యొక్క నిజ-సమయ ప్రశ్న మరియు విశ్లేషణలో சிறந்து விளங்குகிறது. అయితే, సరైన యాక్సెస్ నియంత్రణలు లేకుండా అమలు చేసినప్పుడు, దాని బహిర్గతమైన API ఇంటర్‌ఫేస్ ఎవరినైనా SQL వంటి ఆదేశాలను అమలు చేయడానికి అనుమతిస్తుంది.

విజ్ భద్రతా బృందం యొక్క విధానం డీప్‌సీక్ యొక్క ఇంటర్నెట్-ఫేసింగ్ సబ్‌డొమైన్‌ల యొక్క క్రమబద్ధమైన స్కాన్‌ను కలిగి ఉంది. ప్రారంభంలో ప్రామాణిక పోర్ట్‌లు 80 మరియు 443పై దృష్టి సారించి, వారు చాట్‌బాట్ ఇంటర్‌ఫేస్‌లు మరియు API డాక్యుమెంటేషన్ వంటి సాధారణ వెబ్ వనరులను కనుగొన్నారు. వారి శోధనను విస్తృతం చేయడానికి, వారు 8123 మరియు 9000 వంటి తక్కువ సాధారణ పోర్ట్‌లకు విస్తరించారు, చివరికి బహుళ సబ్‌డొమైన్‌లలో బహిర్గతమైన సేవలను వెలికితీశారు.

జనవరి 6, 2025 నాటి రాజీపడిన లాగ్ డేటాలో కాల్ లాగ్‌లు, అంతర్గత డీప్‌సీక్ API ఎండ్‌పాయింట్‌ల కోసం టెక్స్ట్ లాగ్‌లు, వివరణాత్మక చాట్ హిస్టరీలు, API కీలు, బ్యాకెండ్ సిస్టమ్ వివరాలు మరియు కార్యాచరణ మెటాడేటాతో సహా అనేక సున్నితమైన సమాచారం ఉంది.

వెరిజోన్ ఈవెంట్ వర్గీకరణ: ఇతర లోపాలు

MITRE ATT&CK ఫ్రేమ్‌వర్క్ మ్యాపింగ్:

  • T1590.002 (బాధిత నెట్‌వర్క్ సమాచారాన్ని సేకరించండి - డొమైన్ పేరు రిజల్యూషన్): దాడి చేసినవారు సబ్‌డొమైన్ గణనను నిర్వహించడానికి ప్రాథమిక డొమైన్ పేరును ఉపయోగించి ఉండవచ్చు.
  • T1046 (వెబ్ సర్వీస్ డిస్కవరీ): దాడి చేసినవారు లక్ష్య డొమైన్‌తో అనుబంధించబడిన ఓపెన్ పోర్ట్‌లు మరియు సేవలను గుర్తించారు.
  • T1106 (నేటివ్ ఇంటర్‌ఫేస్): దాడి చేసినవారు డేటాబేస్‌తో పరస్పర చర్య చేయడానికి క్లిక్‌హౌస్ APIని ఉపయోగించారు.
  • T1567 (వెబ్ సర్వీస్ ద్వారా డేటా ఎక్స్‌ఫిల్ట్రేషన్): దాడి చేసినవారు డేటాను దొంగిలించడానికి క్లిక్‌హౌస్ APIని ఉపయోగించారు.

సంఘటన 2: డీప్‌సీక్ యొక్క సరఫరా గొలుసు దాడి - కోడ్‌లో ఒక ట్రోజన్ హార్స్

కాలక్రమం: ఫిబ్రవరి 3, 2025

లీకేజ్ స్కేల్: వినియోగదారు ఆధారాలు మరియు పర్యావరణ వేరియబుల్స్.

ఈవెంట్‌లను విప్పుతోంది:

దాడి జనవరి 19, 2025న ప్రారంభమైంది, “bvk”గా గుర్తించబడిన హానికరమైన వినియోగదారు, “deepseek” మరియు “deepseekai” అనే రెండు హానికరమైన పైథాన్ ప్యాకేజీలను ప్రముఖ PyPI (పైథాన్ ప్యాకేజీ ఇండెక్స్) రిపోజిటరీకి అప్‌లోడ్ చేసినప్పుడు.

పాజిటివ్ టెక్నాలజీస్ ఎక్స్‌పర్ట్ సెక్యూరిటీ సెంటర్ (PT ESC)లోని థ్రెట్ ఇంటెలిజెన్స్ బృందం అదే రోజున ఈ అనుమానాస్పద కార్యాచరణను గుర్తించింది. వారి విశ్లేషణ ప్యాకేజీల యొక్క హానికరమైన స్వభావాన్ని ధృవీకరించింది మరియు వారు వెంటనే PyPI నిర్వాహకులకు తెలియజేశారు.

PyPI నిర్వాహకులు హానికరమైన ప్యాకేజీలను త్వరగా తీసివేసి, PT ESCకి సమాచారం అందించారు. శీఘ్ర ప్రతిస్పందన ఉన్నప్పటికీ, గణాంకాలు వివిధ ఛానెల్‌ల ద్వారా 17 దేశాలలో 200 సార్లకు పైగా మాల్వేర్ డౌన్‌లోడ్ చేయబడిందని వెల్లడించాయి. హానికరమైన ప్యాకేజీలు తదనంతరం వేరుచేయబడ్డాయి.

దాడిని విడదీయడం:

“bvk” ద్వారా అప్‌లోడ్ చేయబడిన హానికరమైన ప్యాకేజీలు రెండు ప్రాథమిక లక్ష్యాలపై దృష్టి సారించాయి: సమాచార సేకరణ మరియు పర్యావరణ వేరియబుల్స్ దొంగిలించడం. దొంగిలించబడిన డేటాలో డేటాబేస్ ఆధారాలు, API కీలు మరియు S3 ఆబ్జెక్ట్ నిల్వ కోసం యాక్సెస్ ఆధారాలు వంటి సున్నితమైన సమాచారం ఉంది. వినియోగదారు కమాండ్ లైన్ నుండి డీప్‌సీక్ లేదా డీప్‌సీకైని అమలు చేసినప్పుడల్లా హానికరమైన పేలోడ్ ప్రేరేపించబడుతుంది.

దాడి చేసినవారు దొంగిలించిన డేటాను స్వీకరించడానికి పైప్‌డ్రీమ్‌ను కమాండ్-అండ్-కంట్రోల్ సర్వర్‌గా ఉపయోగించారు. ఈ సంఘటన అనేక దోహదపడే అంశాలను హైలైట్ చేస్తుంది:

  • డిపెండెన్సీ కన్ఫ్యూజన్ అటాక్: దాడి చేసినవారు సంస్థ యొక్క ప్రైవేట్ ప్యాకేజీలు మరియు అదే పేరుతో పబ్లిక్ ప్యాకేజీల మధ్య ప్రాధాన్యత వ్యత్యాసాన్ని ఉపయోగించుకున్నారు.
  • ప్యాకేజీ పేరును పోలి ఉండటం: హానికరమైన ప్యాకేజీలు వినియోగదారులను మోసం చేయడానికి ప్రసిద్ధ AI కంపెనీ అయిన డీప్‌సీక్ యొక్క బ్రాండ్ పేరును అనుకరించాయి.
  • PyPI రిజిస్ట్రేషన్ బలహీనత: PyPI రిజిస్ట్రేషన్ ప్రక్రియలో డెవలపర్ గుర్తింపు మరియు ప్యాకేజీ పేరు చట్టబద్ధత యొక్క సమర్థవంతమైన ధృవీకరణ లేదు.
  • డెవలపర్ భద్రతా అవగాహన: డెవలపర్‌లు పొరపాటున అదే పేరుతో ఉన్న హానికరమైన ప్యాకేజీలను ఇన్‌స్టాల్ చేసి ఉండవచ్చు.

వెరిజోన్ ఈవెంట్ వర్గీకరణ: సోషల్ ఇంజనీరింగ్

MITRE ATT&CK ఫ్రేమ్‌వర్క్ మ్యాపింగ్:

  • T1593.003 (ఓపెన్ వెబ్‌సైట్‌లు/డొమైన్‌లను శోధించండి - పబ్లిక్‌గా అందుబాటులో ఉన్న డిపెండెన్సీ రిపోజిటరీని శోధించండి): దాడి చేసినవారు PyPIలో సమాచారాన్ని శోధించారు.
  • T1195.002 (సరఫరా గొలుసు రాజీ - సాఫ్ట్‌వేర్ సరఫరా గొలుసు రాజీ): దాడి చేసినవారు పైథాన్ డిపెండెన్సీలుగా మారువేషంలో ఉన్న మాల్వేర్‌ను ఉపయోగించారు మరియు దానిని PyPIకి అప్‌లోడ్ చేశారు.
  • T1059.006 (కమాండ్ మరియు స్క్రిప్టింగ్ ఇంటర్‌ప్రెటర్ - పైథాన్): దాడి చేసినవారు ప్యాకేజీలో హానికరమైన కోడ్‌ను అమర్చారు, ఇది అమలు చేసినప్పుడు, సున్నితమైన డేటాను లీక్ చేసింది.
  • T1041 (C2 ఛానెల్ ద్వారా ఎక్స్‌ఫిల్ట్రేషన్): దాడి చేసినవారు పైప్‌డ్రీమ్ C2 ఛానెల్ ద్వారా సున్నితమైన సమాచారాన్ని ఎక్స్‌ఫిల్ట్రేట్ చేశారు.

సంఘటన 3: LLM హైజాకింగ్ - వనరుల దొంగతనం కోసం డీప్‌సీక్ లక్ష్యంగా ఉంది

కాలక్రమం: ఫిబ్రవరి 7, 2025

లీకేజ్ స్కేల్: సుమారు 2 బిలియన్ మోడల్ టోకెన్‌లు చట్టవిరుద్ధంగా ఉపయోగించబడ్డాయి.

ఈవెంట్‌లను విప్పుతోంది:

సిస్‌డిగ్ థ్రెట్ రీసెర్చ్ టీమ్ మొదట్లో మే 2024లో LLMలను లక్ష్యంగా చేసుకుని “LLM జాకింగ్” లేదా “LLM హైజాకింగ్” అని పిలువబడే ఒక నవల దాడిని కనుగొంది.

సెప్టెంబర్ 2024 నాటికి, సిస్‌డిగ్ ఈ దాడుల యొక్క పెరుగుతున్న ఫ్రీక్వెన్సీ మరియు ప్రాబల్యాన్ని నివేదించింది, డీప్‌సీక్ ఎక్కువగా లక్ష్యంగా మారింది.

డిసెంబర్ 26, 2024న, డీప్‌సీక్ డీప్‌సీక్-V3 అనే అధునాతన మోడల్‌ను విడుదల చేసింది. కొద్దికాలం తర్వాత, సిస్‌డిగ్ బృందం డీప్‌సీక్-V3 హగ్గింగ్ ఫేస్‌లో హోస్ట్ చేయబడిన ఓపెన్‌ఏఐ రివర్స్ ప్రాక్సీ (ORP) ప్రాజెక్ట్‌లో అమలు చేయబడిందని కనుగొంది.

జనవరి 20, 2025న, డీప్‌సీక్ డీప్‌సీక్-R1 అనే అనుమితి నమూనాను విడుదల చేసింది. మరుసటి రోజు, డీప్‌సీక్-R1కి మద్దతు ఇచ్చే ORP ప్రాజెక్ట్ కనిపించింది మరియు దాడి చేసినవారు దానిని దోపిడీ చేయడం ప్రారంభించారు, బహుళ ORPలను డీప్‌సీక్ API కీలతో నింపారు.

సిస్‌డిగ్ యొక్క పరిశోధన ORPల ద్వారా చట్టవిరుద్ధంగా ఉపయోగించిన పెద్ద మోడల్ టోకెన్‌ల మొత్తం సంఖ్య 2 బిలియన్లను మించిపోయిందని సూచించింది.

దాడిని విడదీయడం:

LLM హైజాకింగ్‌లో క్లౌడ్-హోస్ట్ చేసిన LLM సేవలను లక్ష్యంగా చేసుకోవడానికి దొంగిలించబడిన క్లౌడ్ ఆధారాలను ఉపయోగించుకునే దాడి చేసేవారు ఉంటారు. దాడి చేసినవారు OAI (ఓపెన్‌ఏఐ) రివర్స్ ప్రాక్సీ మరియు దొంగిలించబడిన ఆధారాలను ఉపయోగించి బాధితుడి సభ్యత్వం పొందిన LLM సేవలకు యాక్సెస్‌ను విక్రయిస్తారు. దీని ఫలితంగా బాధితుడికి గణనీయమైన క్లౌడ్ సర్వీస్ ఖర్చులు వస్తాయి.

OAI రివర్స్ ప్రాక్సీ బహుళ LLM ఖాతాలకు యాక్సెస్ కోసం సెంట్రల్ మేనేజ్‌మెంట్ పాయింట్‌గా పనిచేస్తుంది, అంతర్లీన ఆధారాలు మరియు వనరుల పూల్‌లను మాస్క్ చేస్తుంది. దాడి చేసినవారు డీప్‌సీక్ వంటి ఖరీదైన LLMలను వాటికి చెల్లించకుండా ఉపయోగించవచ్చు, రివర్స్ ప్రాక్సీ ద్వారా అభ్యర్థనలను మళ్లించవచ్చు, వనరులను వినియోగించవచ్చు మరియు చట్టబద్ధమైన సేవా ఛార్జీలను దాటవేయవచ్చు. ప్రాక్సీ మెకానిజం దాడి చేసినవారి గుర్తింపును దాచిపెడుతుంది, వారు క్లౌడ్ వనరులను గుర్తించకుండా దుర్వినియోగం చేయడానికి అనుమతిస్తుంది.

LLM హైజాకింగ్‌కు OAI రివర్స్ ప్రాక్సీ అవసరమైన భాగం అయితే, కీలకమైన అంశం వివిధ LLM సేవల కోసం ఆధారాలు మరియు కీలను దొంగిలించడం. దాడి చేసినవారు తరచుగా సాంప్రదాయ వెబ్ సర్వీస్ హాని మరియు కాన్ఫిగరేషన్ లోపాలను (లారావెల్ ఫ్రేమ్‌వర్క్‌లోని CVE-2021-3129 హాని వంటివి) ఉపయోగించి ఈ ఆధారాలను దొంగిలిస్తారు. పొందిన తర్వాత, ఈ ఆధారాలు అమెజాన్ బెడ్‌రాక్, గూగుల్ క్లౌడ్ వెర్టెక్స్ AI మరియు ఇతరులు వంటి క్లౌడ్-ఆధారిత LLM సేవలకు యాక్సెస్‌ను మంజూరు చేస్తాయి.

సిస్‌డిగ్ యొక్క పరిశోధన దాడి చేసినవారు బాధితుల వినియోగ ఖర్చులను గంటల్లో పదివేల డాలర్లకు మరియు కొన్ని సందర్భాల్లో రోజుకు $100,000 వరకు వేగంగా పెంచగలరని వెల్లడించింది. దాడి చేసినవారి ప్రేరణ డేటా సేకరణకు మించి విస్తరించింది; వారు యాక్సెస్ హక్కులను విక్రయించడం ద్వారా కూడా లాభం పొందుతారు.

వెరిజోన్ ఈవెంట్ వర్గీకరణ: బేసిక్ వెబ్ అప్లికేషన్ దాడులు

MITRE ATT&CK ఫ్రేమ్‌వర్క్ మ్యాపింగ్:

  • T1593 (ఓపెన్ వెబ్‌సైట్‌లు/డొమైన్‌లను శోధించండి): దాడి చేసినవారు OSINT (ఓపెన్-సోర్స్ ఇంటెలిజెన్స్) పద్ధతులను ఉపయోగించి బహిర్గతమైన సేవలపై సమాచారాన్ని సేకరించారు.
  • T1133 (బాహ్య రిమోట్ సేవలు): దాడి చేసినవారు బహిర్గతమైన సేవల్లోని హానిని గుర్తించారు.
  • T1586.003 (ఖాతాల రాజీ - క్లౌడ్ ఖాతాలు): దాడి చేసినవారు LLM సేవ లేదా క్లౌడ్ సర్వీస్ ఆధారాలను దొంగిలించడానికి హానిని ఉపయోగించుకున్నారు.
  • T1588.002 (సామర్థ్యాలను పొందండి - సాధనం): దాడి చేసినవారు ఓపెన్ సోర్స్ OAI రివర్స్ ప్రాక్సీ సాధనాన్ని అమలు చేశారు.
  • T1090.002 (ప్రాక్సీ - బాహ్య ప్రాక్సీ): దాడి చేసినవారు బహుళ LLM ఖాతాలకు యాక్సెస్‌ను నిర్వహించడానికి OAI రివర్స్ ప్రాక్సీ సాఫ్ట్‌వేర్‌ను ఉపయోగించారు.
  • T1496 (వనరుల హైజాకింగ్): దాడి చేసినవారు LLM వనరులను హైజాక్ చేయడానికి LLM ఇంజెక్షన్ దాడిని ప్రారంభించారు.

సంఘటన 4: ఓమ్నిజిపిటి డేటా ఉల్లంఘన - వినియోగదారు డేటా డార్క్ వెబ్‌లో విక్రయించబడింది

కాలక్రమం: ఫిబ్రవరి 12, 2025

లీకేజ్ స్కేల్: ఇమెయిల్‌లు, ఫోన్ నంబర్‌లు, API కీలు, ఎన్‌క్రిప్షన్ కీలు, ఆధారాలు మరియు బిల్లింగ్ సమాచారంతో సహా 30,000 మందికి పైగా వినియోగదారుల వ్యక్తిగత సమాచారం.

ఈవెంట్‌లను విప్పుతోంది:

ఫిబ్రవరి 12, 2025న, “సింథటిక్ ఎమోషన్స్” అనే వినియోగదారు బ్రీచ్‌ఫోరమ్‌లలో పోస్ట్ చేసారు, ఓమ్నిజిపిటి ప్లాట్‌ఫారమ్ నుండి సున్నితమైన డేటాను దొంగిలించినట్లు మరియు దానిని అమ్మకానికి అందిస్తున్నట్లు పేర్కొన్నారు. లీక్ అయిన డేటాలో 30,000 మందికి పైగా ఓమ్నిజిపిటి వినియోగదారుల ఇమెయిల్‌లు, ఫోన్ నంబర్‌లు, API కీలు, ఎన్‌క్రిప్షన్ కీలు, ఆధారాలు మరియు బిల్లింగ్ సమాచారంతో పాటు చాట్‌బాట్‌లతో వారి సంభాషణల యొక్క 34 మిలియన్ లైన్‌లకు పైగా ఉన్నాయి. అదనంగా, ప్లాట్‌ఫారమ్‌కు అప్‌లోడ్ చేయబడిన ఫైల్‌లకు లింక్‌లు రాజీపడ్డాయి, కొన్ని వోచర్‌లు మరియు బిల్లింగ్ డేటా వంటి సున్నితమైన సమాచారాన్ని కలిగి ఉన్నాయి.

దాడిని విడదీయడం:

ఖచ్చితమైన దాడి వెక్టర్ వెల్లడించబడనప్పటికీ, లీక్ అయిన డేటా యొక్క రకం మరియు పరిధి అనేక అవకాశాలను సూచిస్తున్నాయి: SQL ఇంజెక్షన్, API దుర్వినియోగం లేదా సోషల్ ఇంజనీరింగ్ దాడులు దాడి చేసినవారికి బ్యాకెండ్ డేటాబేస్‌కు యాక్సెస్‌ను మంజూరు చేసి ఉండవచ్చు. ఓమ్నిజిపిటి ప్లాట్‌ఫారమ్‌లో తప్పు కాన్ఫిగరేషన్‌లు లేదా హాని ఉండటం కూడా సాధ్యమే, ఇది దాడి చేసినవారిని ధృవీకరణను దాటవేయడానికి మరియు వినియోగదారు సమాచారాన్ని కలిగి ఉన్న డేటాబేస్‌ను నేరుగా యాక్సెస్ చేయడానికి అనుమతించింది.

ద్వితీయ లీక్‌లో పాల్గొన్న “Messages.txt” ఫైల్‌లో API కీలు, డేటాబేస్ ఆధారాలు మరియు చెల్లింపు కార్డ్ సమాచారం ఉన్నాయి, ఇది ఇతర సిస్టమ్‌లలోకి మరింత చొరబాటుకు లేదా డేటా ట్యాంపరింగ్‌కు దారితీస్తుంది. ప్లాట్‌ఫారమ్ వినియోగదారులు అప్‌లోడ్ చేసిన కొన్ని పత్రాలలో సున్నితమైన వ్యాపార రహస్యాలు మరియు ప్రాజెక్ట్ డేటా ఉన్నాయి, దుర్వినియోగం చేస్తే వ్యాపార కార్యకలాపాలకు ప్రమాదం ఉంది. AI మరియు బిగ్ డేటా రంగాలలో మెరుగైన డేటా భద్రత మరియు గోప్యతా రక్షణ యొక్క అవసరాన్ని ఈ సంఘటన గుర్తుచేస్తుంది. వినియోగదారులు ఈ ప్లాట్‌ఫారమ్‌లను ఉపయోగించేటప్పుడు చాలా జాగ్రత్తగా ఉండాలి మరియు సంస్థలు కఠినమైన డేటా వినియోగ విధానాలను ఏర్పాటు చేయాలి, ఎన్‌క్రిప్షన్, డేటా కనిష్టీకరణ మరియు సున్నితమైన డేటా కోసం అనామకీకరణ వంటి చర్యలను అమలు చేయాలి. అలా చేయడంలో విఫలమైతే గణనీయమైన చట్టపరమైన, ప్రతిష్టాత్మకమైన మరియు ఆర్థిక పరిణామాలకు దారితీయవచ్చు.

వెరిజోన్ ఈవెంట్ వర్గీకరణ: ఇతర లోపాలు

MITRE ATT&CK ఫ్రేమ్‌వర్క్ మ్యాపింగ్:

  • T1071.001 (అప్లికేషన్ లేయర్ ప్రోటోకాల్ - వెబ్ ప్రోటోకాల్‌లు): దాడి చేసినవారు ఓమ్నిజిపిటి యొక్క వెబ్ ఇంటర్‌ఫేస్ ద్వారా లీక్ అయిన వినియోగదారు సమాచారం మరియు సున్నితమైన డేటాను యాక్సెస్ చేసి ఉండవచ్చు.
  • T1071.002 (అప్లికేషన్ లేయర్ ప్రోటోకాల్ - అప్లికేషన్ ప్రోగ్రామింగ్ ఇంటర్‌ఫేస్‌లు): లీక్ అయిన API కీలు మరియు డేటాబేస్ ఆధారాలు దాడి చేసినవారిని ప్లాట్‌ఫారమ్ యొక్క API ద్వారా సిస్టమ్‌ను యాక్సెస్ చేయడానికి మరియు అనధికార చర్యలను నిర్వహించడానికి అనుమతించగలవు.
  • T1071.002 (అప్లికేషన్ లేయర్ ప్రోటోకాల్ - సర్వీస్ ఎగ్జిక్యూషన్): దాడి చేసినవారు ఆదేశాలు లేదా ప్రోగ్రామ్‌లను అమలు చేయడానికి సిస్టమ్ సేవలు లేదా డెమోన్‌లను దుర్వినియోగం చేసి ఉండవచ్చు.
  • T1020.003 (ఆటోమేటెడ్ ఎక్స్‌ఫిల్ట్రేషన్ - ఫైల్ బదిలీ): లీక్ అయిన ఫైల్ లింక్‌లు మరియు వినియోగదారు అప్‌లోడ్ చేసిన సున్నితమైన ఫైల్‌లు దాడి చేసినవారు డౌన్‌లోడ్ చేయడానికి లక్ష్యాలు కావచ్చు, తదుపరి దాడుల కోసం మరింత సున్నితమైన డేటాను పొందవచ్చు.
  • T1083 (ఫైల్ మరియు డైరెక్టరీ డిస్కవరీ): దాడి చేసినవారు కీలకమైన వ్యాపార సమాచారాన్ని మరింతగా పొందడానికి లీక్ అయిన సమాచారాన్ని ఉపయోగించవచ్చు.

సంఘటన5: కామన్ క్రాల్‌లో డీప్‌సీక్ ఆధారాలు లీక్ అయ్యాయి - హార్డ్-కోడింగ్ యొక్క ప్రమాదాలు

కాలక్రమం: ఫిబ్రవరి 28, 2025

లీకేజ్ స్కేల్: సుమారు 11,908 చెల్లుబాటు అయ్యే డీప్‌సీక్ API కీలు, ఆధారాలు మరియు ధృవీకరణ టోకెన్‌లు.

ఈవెంట్‌లను విప్పుతోంది:

ట్రఫుల్ సెక్యూరిటీ టీమ్ ఓపెన్ సోర్స్ టూల్ ట్రఫుల్‌హాగ్‌ని ఉపయోగించి డిసెంబర్ 2024 నుండి కామన్ క్రాల్‌లో 400 TB డేటాను స్కాన్ చేసింది, ఇది 47.5 మిలియన్ హోస్ట్‌ల నుండి 2.67 బిలియన్ వెబ్ పేజీలను కలిగి ఉన్న క్రాలర్ డేటాబేస్. స్కాన్ ఒక ఆశ్చర్యకరమైన విషయాన్ని వెల్లడించింది: సుమారు 11,908 చెల్లుబాటు అయ్యే డీప్‌సీక్ API కీలు, ఆధారాలు మరియు ధృవీకరణ టోకెన్‌లు నేరుగా అనేక వెబ్ పేజీలలో హార్డ్-కోడ్ చేయబడ్డాయి.

ఈ అధ్యయనం మెయిల్‌చింప్ API కీలు లీక్ కావడాన్ని కూడా హైలైట్ చేసింది, జావాస్క్రిప్ట్ కోడ్‌లో సుమారు 1,500 కీలు హార్డ్-కోడ్ చేయబడ్డాయి. మెయిల్‌చింప్ API కీలు తరచుగా ఫిషింగ్ మరియు డేటా దొంగతనం దాడుల కోసం ఉపయోగించబడతాయి.

దాడిని విడదీయడం:

కామన్ క్రాల్, లాభాపేక్షలేని వెబ్ క్రాలర్ డేటాబేస్, క్రమం తప్పకుండా ఇంటర్నెట్ పేజీల నుండి డేటాను సంగ్రహిస్తుంది మరియు ప్రచురిస్తుంది. ఇది ఈ డేటాను WARC (వెబ్ ఆర్కైవ్) ఫైల్‌లలో నిల్వ చేస్తుంది, అసలు HTML, జావాస్క్రిప్ట్ కోడ్ మరియు సర్వర్ ప్రతిస్పందనలను సంరక్షిస్తుంది. ఈ డేటాసెట్‌లు తరచుగా AI మోడళ్లకు శిక్షణ ఇవ్వడానికి ఉపయోగించబడతాయి. ట్రఫుల్ యొక్క పరిశోధన ఒక క్లిష్టమైన సమస్యను బహిర్గతం చేస్తుంది: భద్రతా హాని కలిగిన కార్పోరాపై మోడళ్లకు శిక్షణ ఇవ్వడం వల్ల ఆ హానిని వారసత్వంగా పొందే మోడళ్లకు దారితీయవచ్చు. డీప్‌సీక్ వంటి LLMలు శిక్షణ మరియు విస్తరణ సమయంలో అదనపు భద్రతా చర్యలను ఉపయోగించినప్పటికీ, శిక్షణ డేటాలో హార్డ్-కోడెడ్ హాని యొక్క విస్తృత ఉనికి అటువంటి “అసురక్షిత” పద్ధతులను మోడళ్ల కోసం సాధారణీకరించగలదు.

హార్డ్-కోడింగ్, సాధారణమైన కానీ అసురక్షిత కోడింగ్ అభ్యాసం, సర్వవ్యాప్త సమస్య. మూల కారణం సరళమైనది అయినప్పటికీ, ప్రమాదాలు తీవ్రంగా ఉంటాయి: డేటా ఉల్లంఘనలు, సేవా అంతరాయాలు, సరఫరా గొలుసు దాడులు మరియు LLMల పెరుగుదలతో, ఒక కొత్త ముప్పు - LLM హైజాకింగ్. ఇంతకు ముందు చర్చించినట్లుగా, LLM హైజాకింగ్‌లో క్లౌడ్-హోస్ట్ చేసిన LLM సేవలను దోపిడీ చేయడానికి దొంగిలించబడిన ఆధారాలను ఉపయోగించే దాడి చేసేవారు ఉంటారు, దీని ఫలితంగా బాధితులకు గణనీయమైన ఆర్థిక నష్టాలు వస్తాయి.

వెరిజోన్ ఈవెంట్ వర్గీకరణ: ఇతర లోపాలు

MITRE ATT&CK ఫ్రేమ్‌వర్క్ మ్యాపింగ్:

  • T1596.005 (ఓపెన్ టెక్నికల్ డేటాబేస్‌ను శోధించండి - స్కాన్ డేటాబేస్‌లు): దాడి చేసినవారు పబ్లిక్ క్రాలర్ డేటాబేస్ నుండి సమాచారాన్ని సేకరించారు.
  • T1588.002 (సామర్థ్యాలను పొందండి - సాధనం): దాడి చేసినవారు సున్నితమైన సమాచార ఆవిష్కరణ సాధనాన్ని అమలు చేశారు.
  • T1586.003 (ఖాతాల రాజీ - క్లౌడ్ ఖాతాలు): దాడి చేసినవారు పబ్లిక్ డేటాబేస్‌లలో సున్నితమైన ఆధారాలను కనుగొనడానికి సున్నితమైన సమాచార ఆవిష్కరణ సాధనాలను ఉపయోగించారు.
  • T1090.002 (ప్రాక్సీ - బాహ్య ప్రాక్సీ): దాడి చేసినవారు బహుళ LLM ఖాతాలకు యాక్సెస్‌ను నిర్వహించడానికి OAI రివర్స్ ప్రాక్సీ సాఫ్ట్‌వేర్‌ను ఉపయోగించారు.
  • T1496 (వనరుల హైజాకింగ్): దాడి చేసినవారు LLM వనరులను హైజాక్ చేయడానికి LLM ఇంజెక్షన్ దాడిని ప్రారంభించారు.

LLM డేటా లీకేజీని నిరోధించడం: బహుముఖ విధానం

LLM-సంబంధిత డేటా ఉల్లంఘనల నుండి రక్షించడానికి బలమైన భద్రతా చర్యల యొక్క అత్యవసర అవసరాన్ని విశ్లేషించిన సంఘటనలు హైలైట్ చేస్తాయి. సంబంధిత సంఘటనల ద్వారా వర్గీకరించబడిన నివారణ వ్యూహాల యొక్క విభజన ఇక్కడ ఉంది:

సరఫరా గొలుసును బలోపేతం చేయడం:

సంఘటన II (హానికరమైన డిపెండెన్సీ ప్యాకేజీ దాడి) మరియు సంఘటన V (పబ్లిక్ డేటా ఉల్లంఘన)కి వర్తిస్తుంది:

  1. డిపెండెన్సీ ప్యాకేజీల యొక్క విశ్వసనీయ ధృవీకరణ:

    • సంతకం చేయని లేదా అనుమానాస్పదంగా సోర్స్ చేయబడిన డిపెండెన్సీ ప్యాకేజీలను అడ్డగించడానికి PyPI/Sonatype Nexus Firewall వంటి సాధనాలను ఉపయోగించండి.
    • అభివృద్ధి పరిసరాలలో పబ్లిక్ రిపోజిటరీల నుండి నేరుగా డిపెండెన్సీలను పొందడాన్ని నిషేధించండి. కార్పొరేట్ ప్రైవేట్ రిపోజిటరీ ప్రాక్సీల (ఉదా., ఆర్టిఫ్యాక్టరీ) వినియోగాన్ని తప్పనిసరి చేయండి.
  2. సరఫరా గొలుసు ముప్పు పర్యవేక్షణ:

    • డిపెండెన్సీ హాని కోసం స్వయంచాలకంగా స్కాన్ చేయడానికి మరియు అధిక-ప్రమాద భాగాల పరిచయాన్ని నిరోధించడానికి Dependabot/Snyk వంటి సాధనాలను సమగ్రపరచండి.
    • హాష్ విలువ అధికారిక దానితో సరిపోలుతుందని నిర్ధారించడానికి ఓపెన్ సోర్స్ ప్యాకేజీల యొక్క కోడ్ సంతకాన్ని ధృవీకరించండి.
  3. డేటా సోర్స్ క్లీనింగ్:

    • శిక్షణ డేటా సేకరణ సమయంలో, రెగ్యులర్ ఎక్స్‌ప్రెషన్‌లు మరియు AI-ఆధారిత రిడాక్షన్ టూల్స్‌ని ఉపయోగించి పబ్లిక్ డేటాసెట్‌ల (కామన్ క్రాల్ వంటివి) నుండి సున్నితమైన సమాచారాన్ని ఫిల్టర్ చేయండి.

కనీస హక్కు మరియు యాక్సెస్ నియంత్రణను అమలు చేయడం:

సంఘటన I (డేటాబేస్ కాన్ఫిగరేషన్ లోపం) మరియు సంఘటన IV (థర్డ్-పార్టీ టూల్ డేటా ఉల్లంఘన)కి వర్తిస్తుంది:

  • డేటాబేస్‌ల (క్లిక్‌హౌస్ వంటివి) కోసం డిఫాల్ట్‌గా ద్వి-దిశాత్మక TLS ధృవీకరణను ప్రారంభించండి మరియు పబ్లిక్ నెట్‌వర్క్‌లలో మేనేజ్‌మెంట్ పోర్ట్‌ల బహిర్గతం నిరోధించండి.
  • దీర్ఘకాలిక స్టాటిక్ కీ నిలుపుదలని నివారించడం ద్వారా తాత్కాలిక ఆధారాలను డైనమిక్‌గా పంపిణీ చేయడానికి Vault/Boundary వంటి పరిష్కారాలను ఉపయోగించండి.
  • RBAC (రోల్-బేస్డ్ యాక్సెస్ కంట్రోల్) ద్వారా అవసరమైన వనరులకు మాత్రమే వినియోగదారు యాక్సెస్‌ను పరిమితం చేస్తూ, కనీస హక్కు సూత్రానికి కట్టుబడి ఉండండి.
  • థర్డ్-పార్టీ టూల్స్ (ఓమ్నిజిపిటి వంటివి) కోసం API కాల్‌ల కోసం IP వైట్‌లిస్టింగ్ మరియు రేట్ పరిమితిని అమలు చేయండి.

సున్నితమైన డేటా యొక్క పూర్తి-జీవితచక్ర రక్షణను నిర్ధారించడం:

సంఘటన III (LLM హైజాకింగ్)కి వర్తిస్తుంది:

  • డేటా రిడాక్షన్ మరియు ఎన్‌క్రిప్షన్: వినియోగదారు ఇన్‌పుట్ మరియు అవుట్‌పుట్ డేటా కోసం ఫీల్డ్-స్థాయి ఎన్‌క్రిప్షన్ (ఉదా., AES-GCM)ని అమలు చేయండి. లాగ్‌లలో సున్నితమైన ఫీల్డ్‌లను మాస్క్ చేయండి.
  • LLMల యొక్క ఇంటరాక్టివ్ కంటెంట్ కోసం నిజ-సమయ రిడాక్షన్‌ను ప్రారంభించండి (ఉదా., క్రెడిట్ కార్డ్ నంబర్‌లు మరియు ఫోన్ నంబర్‌లను ప్లేస్‌హోల్డర్‌లతో భర్తీ చేయడం).

ఈ నివారణ చర్యలు, నిరంతర భద్రతా పర్యవేక్షణ మరియు సంఘటన ప్రతిస్పందన ప్రణాళికతో కలిపి, LLMల యొక్క పెరుగుతున్న వినియోగంతో అనుబంధించబడిన ప్రమాదాలను తగ్గించడానికి అవసరం. LLM భద్రత యొక్క “అదృశ్య యుద్ధభూమి” ఈ వేగంగా అభివృద్ధి చెందుతున్న సాంకేతిక పరిజ్ఞానంలో సున్నితమైన డేటాను కాపాడటానికి నిరంతర అప్రమత్తత మరియు చురుకైన విధానాన్ని కోరుతుంది.