மீறல்களின் அலை பாதிப்புகளை வெளிப்படுத்துகிறது
DeepSeek மற்றும் Ollama போன்ற ஓப்பன் சோர்ஸ் பெரிய மொழி மாதிரிகளின் (LLMs) விரைவான தத்தெடுப்பு ஒரு இருமுனை வாளாக மாறியுள்ளது. வணிகங்கள் இந்த சக்திவாய்ந்த கருவிகளைத் திறனை அதிகரிக்கப் பயன்படுத்தினாலும், அவற்றின் வளர்ச்சிக்கு உதவும் வெளிப்படைத்தன்மை, தரவுப் பாதுகாப்பு அபாயங்களில் இணையான எழுச்சியை உருவாக்குகிறது. NSFOCUS Xingyun Lab ஆல் தொகுக்கப்பட்ட சமீபத்திய அறிக்கை ஒரு தெளிவான படத்தை வரைகிறது: 2025 ஆம் ஆண்டின் முதல் இரண்டு மாதங்களில், LLM களுடன் நேரடியாக இணைக்கப்பட்ட ஐந்து குறிப்பிடத்தக்க தரவு மீறல்களை உலகம் கண்டது. இந்தச் சம்பவங்கள் ரகசிய உரையாடல் வரலாறுகள் மற்றும் API விசைகள் முதல் முக்கியமான பயனர் சான்றுகள் வரை பரந்த அளவிலான முக்கியமான தகவல்களை வெளிப்படுத்தின. இந்த நிகழ்வுகள் ஒரு எச்சரிக்கை அழைப்பாகும், அதிநவீன AI தொழில்நுட்பத்தின் மேற்பரப்பின் கீழ் மறைந்திருக்கும் பெரும்பாலும் கவனிக்கப்படாத பாதுகாப்பு பாதிப்புகளை எடுத்துக்காட்டுகிறது. இந்த ஆய்வு இந்த ஐந்து சம்பவங்களையும் பிரித்து, தாக்குதல் முறைகளை ஆராய்ந்து, நிறுவப்பட்ட MITRE ATT&CK கட்டமைப்போடு அவற்றை மேப்பிங் செய்து, நிறுவனங்கள் அவசரமாக தீர்க்க வேண்டிய பாதுகாப்பு குருட்டுப் புள்ளிகளை வெளிப்படுத்துகிறது.
சம்பவம் 1: DeepSeek’இன் தவறாக கட்டமைக்கப்பட்ட தரவுத்தளம் - தனிப்பட்ட உரையாடல்களுக்கான ஒரு சாளரம்
காலவரிசை: ஜனவரி 29, 2025
கசிவின் அளவு: மில்லியன் கணக்கான வரிசை பதிவு தரவு, உணர்திறன் வாய்ந்த அரட்டை வரலாறுகள் மற்றும் அணுகல் விசைகள் உட்பட.
நிகழ்வுகளை வெளிப்படுத்துதல்:
Wiz இல் உள்ள பாதுகாப்பு ஆராய்ச்சி குழு இந்த கண்டுபிடிப்பைத் தொடங்கியது. பொது இணையத்தில் அணுகக்கூடிய ஒரு வெளிப்படுத்தப்பட்ட ClickHouse சேவையை அவர்கள் அடையாளம் கண்டனர். இந்த சேவை சீன AI ஸ்டார்ட்அப் ஆன DeepSeek க்கு சொந்தமானது என்பதை மேலதிக விசாரணை உறுதிப்படுத்தியது. பகுப்பாய்வு செயலாக்கத்தில் பெரிய தரவுத்தொகுப்புகளை திறமையாகக் கையாளுவதற்காக வடிவமைக்கப்பட்ட ClickHouse, துரதிர்ஷ்டவசமாக DeepSeek’இன் உள் தரவுகளுக்கான நுழைவாயிலாக மாறியது. ஆராய்ச்சியாளர்கள் DeepSeek’இன் பதிவு ஸ்ட்ரீமின் தோராயமாக ஒரு மில்லியன் வரிகளை அணுகினர், இது வரலாற்று அரட்டை பதிவுகள் மற்றும் முக்கியமான அணுகல் விசைகள் உள்ளிட்ட முக்கியமான தகவல்களின் புதையலை வெளிப்படுத்தியது.
Wiz உடனடியாக DeepSeek க்கு பாதிப்பு குறித்து எச்சரித்தது, இது உடனடி நடவடிக்கை மற்றும் வெளிப்படுத்தப்பட்ட ClickHouse சேவையை பாதுகாப்பாக அகற்றுவதற்கு வழிவகுத்தது.
தாக்குதலைப் பிரித்தல்:
அங்கீகரிக்கப்படாத அணுகலுக்கு ClickHouse இன் பாதிப்பில் முக்கிய சிக்கல் இருந்தது. ClickHouse, ஒரு ஓப்பன் சோர்ஸ் நெடுவரிசை சார்ந்த தரவுத்தள மேலாண்மை அமைப்பு, நிகழ்நேர வினவல் மற்றும் பெரிய தரவுத்தொகுப்புகளின் பகுப்பாய்வில் சிறந்து விளங்குகிறது, இது பெரும்பாலும் பதிவு மற்றும் பயனர் நடத்தை பகுப்பாய்விற்கு பயன்படுத்தப்படுகிறது. இருப்பினும், சரியான அணுகல் கட்டுப்பாடுகள் இல்லாமல் பயன்படுத்தப்படும்போது, அதன் வெளிப்படுத்தப்பட்ட API இடைமுகம் எவரையும் SQL போன்ற கட்டளைகளை இயக்க அனுமதிக்கிறது.
Wiz பாதுகாப்பு குழுவின் அணுகுமுறை DeepSeek’இன் இணையத்தை எதிர்கொள்ளும் துணை டொமைன்களின் முறையான ஸ்கேன் செய்வதை உள்ளடக்கியது. ஆரம்பத்தில் நிலையான போர்ட்கள் 80 மற்றும் 443 இல் கவனம் செலுத்தி, அவர்கள் சாட்போட் இடைமுகங்கள் மற்றும் API ஆவணங்கள் போன்ற வழக்கமான வலை வளங்களைக் கண்டறிந்தனர். அவர்களின் தேடலை விரிவுபடுத்த, அவர்கள் 8123 மற்றும் 9000 போன்ற குறைவான பொதுவான போர்ட்களுக்கு விரிவுபடுத்தினர், இறுதியில் பல துணை டொமைன்களில் வெளிப்படுத்தப்பட்ட சேவைகளை வெளிப்படுத்தினர்.
ஜனவரி 6, 2025 தேதியிட்ட சமரசம் செய்யப்பட்ட பதிவு தரவு, அழைப்பு பதிவுகள், உள் DeepSeek API எண்ட்பாயிண்ட்களுக்கான உரை பதிவுகள், விரிவான அரட்டை வரலாறுகள், API விசைகள், பின்தள அமைப்பு விவரங்கள் மற்றும் செயல்பாட்டு மெட்டாடேட்டா உள்ளிட்ட ஏராளமான முக்கியமான தகவல்களைக் கொண்டிருந்தது.
VERIZON நிகழ்வு வகைப்பாடு: இதர பிழைகள்
MITRE ATT&CK கட்டமைப்பு மேப்பிங்:
- T1590.002 (பாதிக்கப்பட்ட நெட்வொர்க் தகவலை சேகரிக்கவும் - டொமைன் பெயர் ரிசல்யூஷன்): தாக்குதல் நடத்தியவர்கள் துணை டொமைன் கணக்கெடுப்பைச் செய்ய முதன்மை டொமைன் பெயரைப் பயன்படுத்தியிருக்கலாம்.
- T1046 (வலை சேவை கண்டுபிடிப்பு): தாக்குதல் நடத்தியவர்கள் இலக்கு டொமைனுடன் தொடர்புடைய திறந்த போர்ட்கள் மற்றும் சேவைகளை அடையாளம் கண்டனர்.
- T1106 (நேட்டிவ் இடைமுகம்): தாக்குதல் நடத்தியவர்கள் தரவுத்தளத்துடன் தொடர்பு கொள்ள ClickHouse API ஐப் பயன்படுத்தினர்.
- T1567 (வலை சேவை வழியாக தரவு வெளியேற்றம்): தாக்குதல் நடத்தியவர்கள் தரவைத் திருட ClickHouse API ஐப் பயன்படுத்தினர்.
சம்பவம் 2: DeepSeek’இன் விநியோகச் சங்கிலி தாக்குதல் - குறியீட்டில் ஒரு ட்ரோஜன் ஹார்ஸ்
காலவரிசை: பிப்ரவரி 3, 2025
கசிவின் அளவு: பயனர் சான்றுகள் மற்றும் சூழல் மாறிகள்.
நிகழ்வுகளை வெளிப்படுத்துதல்:
ஜனவரி 19, 2025 அன்று தாக்குதல் தொடங்கியது, “bvk” என அடையாளம் காணப்பட்ட ஒரு தீங்கிழைக்கும் பயனர், பிரபலமான PyPI (பைதான் தொகுப்பு குறியீடு) களஞ்சியத்தில் “deepseek” மற்றும் “deepseekai” என்ற இரண்டு தீங்கிழைக்கும் பைதான் தொகுப்புகளை பதிவேற்றினார்.
பாசிட்டிவ் டெக்னாலஜிஸ் எக்ஸ்பெர்ட் செக்யூரிட்டி சென்டரில் (PT ESC) உள்ள அச்சுறுத்தல் புலனாய்வு குழு இந்த சந்தேகத்திற்கிடமான செயல்பாட்டை அதே நாளில் கண்டறிந்தது. அவர்களின் பகுப்பாய்வு தொகுப்புகளின் தீங்கிழைக்கும் தன்மையை உறுதிப்படுத்தியது, மேலும் அவர்கள் உடனடியாக PyPI நிர்வாகிகளுக்கு அறிவித்தனர்.
PyPI நிர்வாகிகள் தீங்கிழைக்கும் தொகுப்புகளை உடனடியாக அகற்றி PT ESC க்கு தகவல் தெரிவித்தனர். விரைவான பதிலளிப்பு இருந்தபோதிலும், புள்ளிவிவரங்கள் தீம்பொருள் பல்வேறு சேனல்கள் மூலம் 17 நாடுகளில் 200 க்கும் மேற்பட்ட முறை பதிவிறக்கம் செய்யப்பட்டதைக் காட்டின. தீங்கிழைக்கும் தொகுப்புகள் பின்னர் தனிமைப்படுத்தப்பட்டன.
தாக்குதலைப் பிரித்தல்:
“bvk” ஆல் பதிவேற்றப்பட்ட தீங்கிழைக்கும் தொகுப்புகள் இரண்டு முதன்மை நோக்கங்களில் கவனம் செலுத்தின: தகவல் சேகரிப்பு மற்றும் சூழல் மாறிகளைத் திருடுதல். திருடப்பட்ட தரவுகளில் தரவுத்தள சான்றுகள், API விசைகள் மற்றும் S3 ஆப்ஜெக்ட் ஸ்டோரேஜுக்கான அணுகல் சான்றுகள் போன்ற முக்கியமான தகவல்கள் அடங்கும். ஒரு பயனர் கட்டளை வரியில் இருந்து DeepSeek அல்லது Deepseekai ஐ இயக்கும் போதெல்லாம் தீங்கிழைக்கும் பேலோட் தூண்டப்பட்டது.
தாக்குதல் நடத்தியவர் திருடப்பட்ட தரவைப் பெற PipeDream ஐ ஒரு கட்டளை மற்றும் கட்டுப்பாட்டு சேவையகமாகப் பயன்படுத்தினார். இந்த சம்பவம் பல பங்களிப்பு காரணிகளை எடுத்துக்காட்டுகிறது:
- சார்பு குழப்ப தாக்குதல்: தாக்குதல் நடத்தியவர்கள் ஒரு நிறுவனத்தின் தனிப்பட்ட தொகுப்புகள் மற்றும் அதே பெயரைக் கொண்ட பொது தொகுப்புகளுக்கு இடையிலான முன்னுரிமை வேறுபாட்டைப் பயன்படுத்தினர்.
- தொகுப்பு பெயர் ஆள்மாறாட்டம்: தீங்கிழைக்கும் தொகுப்புகள் பயனர்களை ஏமாற்றுவதற்காக நன்கு அறியப்பட்ட AI நிறுவனமான DeepSeek இன் பிராண்ட் பெயரைப் பின்பற்றின.
- PyPI பதிவு பலவீனம்: PyPI பதிவு செயல்பாட்டில் டெவலப்பர் அடையாளம் மற்றும் தொகுப்பு பெயர் சட்டபூர்வமான தன்மையை சரிபார்க்கும் பயனுள்ள சரிபார்ப்பு இல்லை.
- டெவலப்பர் பாதுகாப்பு விழிப்புணர்வு: டெவலப்பர்கள் இதே போன்ற பெயரிடப்பட்ட தீங்கிழைக்கும் தொகுப்புகளை தவறுதலாக நிறுவியிருக்கலாம்.
VERIZON நிகழ்வு வகைப்பாடு: சமூக பொறியியல்
MITRE ATT&CK கட்டமைப்பு மேப்பிங்:
- T1593.003 (திறந்த வலைத்தளங்கள்/டொமைன்களைத் தேடுங்கள் - பொதுவில் கிடைக்கும் சார்பு களஞ்சியத்தைத் தேடுங்கள்): தாக்குதல் நடத்தியவர்கள் PyPI இல் தகவல்களைத் தேடினர்.
- T1195.002 (விநியோகச் சங்கிலி சமரசம் - மென்பொருள் விநியோகச் சங்கிலியை சமரசம் செய்தல்): தாக்குதல் நடத்தியவர்கள் பைதான் சார்புகளாக மாறுவேடமிட்டு தீம்பொருளைப் பயன்படுத்தி PyPI இல் பதிவேற்றினர்.
- T1059.006 (கட்டளை மற்றும் ஸ்கிரிப்டிங் இன்டர்ப்ரெட்டர் - பைதான்): தாக்குதல் நடத்தியவர்கள் தொகுப்பில் தீங்கிழைக்கும் குறியீட்டைப் பொருத்தினர், இது செயல்படுத்தப்பட்டவுடன், முக்கியமான தரவை கசியவிட்டது.
- T1041 (C2 சேனல் வழியாக வெளியேற்றம்): தாக்குதல் நடத்தியவர்கள் PipeDream C2 சேனல் வழியாக முக்கியமான தகவல்களை வெளியேற்றினர்.
சம்பவம் 3: LLM கடத்தல் - வள திருட்டுக்காக DeepSeek குறிவைக்கப்பட்டது
காலவரிசை: பிப்ரவரி 7, 2025
கசிவின் அளவு: தோராயமாக 2 பில்லியன் மாதிரி டோக்கன்கள் சட்டவிரோதமாக பயன்படுத்தப்பட்டன.
நிகழ்வுகளை வெளிப்படுத்துதல்:
Sysdig அச்சுறுத்தல் ஆராய்ச்சிக் குழு ஆரம்பத்தில் மே 2024 இல் LLMகளை குறிவைக்கும் “LLM ஜாக்கிங்” அல்லது “LLM கடத்தல்” என்று அழைக்கப்படும் ஒரு புதிய தாக்குதலைக் கண்டுபிடித்தது.
செப்டம்பர் 2024 வாக்கில், Sysdig இந்த தாக்குதல்களின் அதிர்வெண் மற்றும் பரவல் அதிகரித்து வருவதாக அறிவித்தது, DeepSeek பெருகிய முறையில் இலக்காக மாறியது.
டிசம்பர் 26, 2024 அன்று, DeepSeek DeepSeek-V3 என்ற மேம்பட்ட மாதிரியை வெளியிட்டது. சிறிது நேரத்திற்குப் பிறகு, Sysdig குழு DeepSeek-V3 ஆனது Hugging Face இல் ஹோஸ்ட் செய்யப்பட்ட OpenAI ரிவர்ஸ் ப்ராக்ஸி (ORP) திட்டத்தில் செயல்படுத்தப்பட்டிருப்பதைக் கண்டறிந்தது.
ஜனவரி 20, 2025 அன்று, DeepSeek DeepSeek-R1 என்ற அனுமான மாதிரியை வெளியிட்டது. அடுத்த நாளே, DeepSeek-R1 ஐ ஆதரிக்கும் ஒரு ORP திட்டம் தோன்றியது, மேலும் தாக்குதல் நடத்தியவர்கள் அதைப் பயன்படுத்தத் தொடங்கினர், பல ORP களில் DeepSeek API விசைகளை நிரப்பினர்.
Sysdig இன் ஆராய்ச்சி, ORP கள் மூலம் சட்டவிரோதமாக பயன்படுத்தப்படும் பெரிய மாதிரி டோக்கன்களின் மொத்த எண்ணிக்கை 2 பில்லியனைத் தாண்டியுள்ளது என்பதைக் குறிக்கிறது.
தாக்குதலைப் பிரித்தல்:
LLM கடத்தல் என்பது கிளவுட்-ஹோஸ்ட் செய்யப்பட்ட LLM சேவைகளை குறிவைக்க திருடப்பட்ட கிளவுட் சான்றுகளைப் பயன்படுத்தும் தாக்குதல் நடத்துபவர்களை உள்ளடக்கியது. தாக்குதல் நடத்தியவர்கள் ஒரு OAI (OpenAI) ரிவர்ஸ் ப்ராக்ஸி மற்றும் திருடப்பட்ட சான்றுகளைப் பயன்படுத்தி பாதிக்கப்பட்டவரின் சந்தா செலுத்திய LLM சேவைகளுக்கான அணுகலை விற்கின்றனர். இது பாதிக்கப்பட்டவருக்கு குறிப்பிடத்தக்க கிளவுட் சேவை செலவுகளை ஏற்படுத்துகிறது.
OAI ரிவர்ஸ் ப்ராக்ஸி பல LLM கணக்குகளுக்கான அணுகலுக்கான ஒரு மைய மேலாண்மை புள்ளியாக செயல்படுகிறது, அடிப்படை சான்றுகள் மற்றும் வளக் குளங்களை மறைக்கிறது. தாக்குதல் நடத்தியவர்கள் DeepSeek போன்ற விலையுயர்ந்த LLMகளை பணம் செலுத்தாமல் பயன்படுத்தலாம், ரிவர்ஸ் ப்ராக்ஸி மூலம் கோரிக்கைகளை வழிநடத்தலாம், வளங்களை உட்கொள்ளலாம் மற்றும் முறையான சேவை கட்டணங்களைத் தவிர்க்கலாம். ப்ராக்ஸி பொறிமுறையானது தாக்குதல் நடத்துபவரின் அடையாளத்தை மறைக்கிறது, அவர்கள் கிளவுட் வளங்களை கண்டறியப்படாமல் தவறாகப் பயன்படுத்த அனுமதிக்கிறது.
OAI ரிவர்ஸ் ப்ராக்ஸி LLM கடத்தலுக்கு அவசியமான அங்கமாக இருந்தாலும், பல்வேறு LLM சேவைகளுக்கான சான்றுகள் மற்றும் விசைகளைத் திருடுவதே முக்கியமான உறுப்பு ஆகும். தாக்குதல் நடத்தியவர்கள் பெரும்பாலும் பாரம்பரிய வலை சேவை பாதிப்புகள் மற்றும் உள்ளமைவு பிழைகள் (லாராவெல் கட்டமைப்பில் உள்ள CVE-2021-3129 பாதிப்பு போன்றவை) இந்த சான்றுகளைத் திருட பயன்படுத்துகின்றனர். பெறப்பட்டவுடன், இந்த சான்றுகள் Amazon Bedrock, Google Cloud Vertex AI மற்றும் பிற கிளவுட் அடிப்படையிலான LLM சேவைகளுக்கான அணுகலை வழங்குகின்றன.
Sysdig இன் ஆராய்ச்சி, தாக்குதல் நடத்தியவர்கள் பாதிக்கப்பட்டவர்களின் நுகர்வு செலவுகளை சில மணி நேரங்களுக்குள் பல்லாயிரக்கணக்கான டாலர்களாகவும், சில சந்தர்ப்பங்களில், ஒரு நாளைக்கு $100,000 வரையிலும் விரைவாக உயர்த்த முடியும் என்பதைக் காட்டுகிறது. தாக்குதல் நடத்தியவர்களின் நோக்கம் தரவு கையகப்படுத்தலுக்கு அப்பாற்பட்டது; அவர்கள் அணுகல் உரிமைகளை விற்பதன் மூலமும் லாபம் ஈட்டுகிறார்கள்.
VERIZON நிகழ்வு வகைப்பாடு: அடிப்படை வலை பயன்பாட்டு தாக்குதல்கள்
MITRE ATT&CK கட்டமைப்பு மேப்பிங்:
- T1593 (திறந்த வலைத்தளங்கள்/டொமைன்களைத் தேடுங்கள்): தாக்குதல் நடத்தியவர்கள் OSINT (ஓப்பன் சோர்ஸ் இன்டலிஜென்ஸ்) முறைகளைப் பயன்படுத்தி வெளிப்படுத்தப்பட்ட சேவைகள் பற்றிய தகவல்களைச் சேகரித்தனர்.
- T1133 (வெளிப்புற தொலைநிலை சேவைகள்): தாக்குதல் நடத்தியவர்கள் வெளிப்படுத்தப்பட்ட சேவைகளில் உள்ள பாதிப்புகளை அடையாளம் கண்டனர்.
- T1586.003 (கணக்குகளை சமரசம் செய்தல் - கிளவுட் கணக்குகள்): தாக்குதல் நடத்தியவர்கள் LLM சேவை அல்லது கிளவுட் சேவை சான்றுகளைத் திருட பாதிப்புகளைப் பயன்படுத்தினர்.
- T1588.002 (திறன்களைப் பெறுதல் - கருவி): தாக்குதல் நடத்தியவர்கள் ஒரு ஓப்பன் சோர்ஸ் OAI ரிவர்ஸ் ப்ராக்ஸி கருவியை பயன்படுத்தினர்.
- T1090.002 (ப்ராக்ஸி - வெளிப்புற ப்ராக்ஸி): தாக்குதல் நடத்தியவர்கள் பல LLM கணக்குகளுக்கான அணுகலை நிர்வகிக்க OAI ரிவர்ஸ் ப்ராக்ஸி மென்பொருளைப் பயன்படுத்தினர்.
- T1496 (வள கடத்தல்): தாக்குதல் நடத்தியவர்கள் LLM வளங்களைக் கடத்த LLM ஊசி தாக்குதலைத் தொடங்கினர்.
சம்பவம் 4: OmniGPT தரவு மீறல் - பயனர் தரவு டார்க் வெப்பில் விற்கப்பட்டது
காலவரிசை: பிப்ரவரி 12, 2025
கசிவின் அளவு: மின்னஞ்சல்கள், தொலைபேசி எண்கள், API விசைகள், என்க்ரிப்ஷன் விசைகள், சான்றுகள் மற்றும் பில்லிங் தகவல் உள்ளிட்ட 30,000 க்கும் மேற்பட்ட பயனர்களின் தனிப்பட்ட தகவல்கள்.
நிகழ்வுகளை வெளிப்படுத்துதல்:
பிப்ரவரி 12, 2025 அன்று, “SyntheticEmotions” என்ற பயனர் BreachForums இல், OmniGPT தளத்திலிருந்து முக்கியமான தரவைத் திருடியதாகவும், அதை விற்பனைக்கு வழங்குவதாகவும் கூறி பதிவிட்டார். கசிந்த தரவுகளில் 30,000 க்கும் மேற்பட்ட OmniGPT பயனர்களின் மின்னஞ்சல்கள், தொலைபேசி எண்கள், API விசைகள், என்க்ரிப்ஷன் விசைகள், சான்றுகள் மற்றும் பில்லிங் தகவல்கள், சாட்போட்களுடனான அவர்களின் 34 மில்லியனுக்கும் அதிகமான உரையாடல்கள் ஆகியவை அடங்கும். கூடுதலாக, தளத்தில் பதிவேற்றப்பட்ட கோப்புகளுக்கான இணைப்புகள் சமரசம் செய்யப்பட்டன, அவற்றில் சில வவுச்சர்கள் மற்றும் பில்லிங் தரவு போன்ற முக்கியமான தகவல்களைக் கொண்டிருந்தன.
தாக்குதலைப் பிரித்தல்:
துல்லியமான தாக்குதல் வெக்டர் வெளியிடப்படாமல் இருந்தாலும், கசிந்த தரவின் வகை மற்றும் நோக்கம் பல சாத்தியக்கூறுகளை பரிந்துரைக்கின்றன: SQL ஊசி, API துஷ்பிரயோகம் அல்லது சமூக பொறியியல் தாக்குதல்கள் தாக்குதல் நடத்தியவருக்கு பின்தள தரவுத்தளத்திற்கான அணுகலை வழங்கியிருக்கலாம். OmniGPT தளத்தில் தவறான உள்ளமைவுகள் அல்லது பாதிப்புகள் இருந்திருக்கலாம், இது தாக்குதல் நடத்தியவரை அங்கீகாரத்தைத் தவிர்த்து, பயனர் தகவல்களைக் கொண்ட தரவுத்தளத்தை நேரடியாக அணுக அனுமதித்தது.
இரண்டாம் நிலை கசிவில் சம்பந்தப்பட்ட “Messages.txt” கோப்பில் API விசைகள், தரவுத்தள சான்றுகள் மற்றும் பணம் செலுத்தும் அட்டை தகவல் ஆகியவை இருந்தன, இது மற்ற அமைப்புகளில் மேலும் ஊடுருவலுக்கு அல்லது தரவு சேதத்திற்கு வழிவகுக்கும். தள பயனர்களால் பதிவேற்றப்பட்ட சில ஆவணங்களில் முக்கியமான வணிக ரகசியங்கள் மற்றும் திட்ட தரவு ஆகியவை இருந்தன, அவை தவறாகப் பயன்படுத்தப்பட்டால் வணிக செயல்பாடுகளுக்கு ஆபத்தை விளைவிக்கும். AI மற்றும் பெரிய தரவுத் துறைகளில் மேம்பட்ட தரவு பாதுகாப்பு மற்றும் தனியுரிமை பாதுகாப்பின் அவசியத்தை இந்த சம்பவம் ஒரு கடுமையான நினைவூட்டலாக செயல்படுகிறது. பயனர்கள் இந்த தளங்களைப் பயன்படுத்தும் போது மிகுந்த எச்சரிக்கையுடன் இருக்க வேண்டும், மேலும் நிறுவனங்கள் கடுமையான தரவு பயன்பாட்டுக் கொள்கைகளை நிறுவ வேண்டும், என்க்ரிப்ஷன், தரவு குறைத்தல் மற்றும் முக்கியமான தரவுகளுக்கான அநாமதேயமாக்கல் போன்ற நடவடிக்கைகளை செயல்படுத்த வேண்டும். அவ்வாறு செய்யத் தவறினால் குறிப்பிடத்தக்க சட்ட, நற்பெயர் மற்றும் பொருளாதார விளைவுகளுக்கு வழிவகுக்கும்.
VERIZON நிகழ்வு வகைப்பாடு: இதர பிழைகள்
MITRE ATT&CK கட்டமைப்பு மேப்பிங்:
- T1071.001 (பயன்பாட்டு அடுக்கு நெறிமுறை - வலை நெறிமுறைகள்): தாக்குதல் நடத்தியவர்கள் OmniGPT இன் வலை இடைமுகம் மூலம் கசிந்த பயனர் தகவல் மற்றும் முக்கியமான தரவை அணுகியிருக்கலாம்.
- T1071.002 (பயன்பாட்டு அடுக்கு நெறிமுறை - பயன்பாட்டு நிரலாக்க இடைமுகங்கள்): கசிந்த API விசைகள் மற்றும் தரவுத்தள சான்றுகள் தாக்குதல் நடத்தியவர்களை தளத்தின் API மூலம் கணினியை அணுகவும் அங்கீகரிக்கப்படாத செயல்களைச் செய்யவும் அனுமதிக்கலாம்.
- T1071.002 (பயன்பாட்டு அடுக்கு நெறிமுறை - சேவை செயல்படுத்தல்): தாக்குதல் நடத்தியவர்கள் கட்டளைகள் அல்லது நிரல்களை இயக்க கணினி சேவைகள் அல்லது டீமன்களை துஷ்பிரயோகம் செய்யலாம்.
- T1020.003 (தானியங்கி வெளியேற்றம் - கோப்பு பரிமாற்றம்): கசிந்த கோப்பு இணைப்புகள் மற்றும் பயனரால் பதிவேற்றப்பட்ட முக்கியமான கோப்புகள் தாக்குதல் நடத்தியவர்கள் பதிவிறக்கம் செய்வதற்கான இலக்குகளாக இருக்கலாம், மேலும் தாக்குதல்களுக்கு மேலும் முக்கியமான தரவைப் பெறலாம்.
- T1083 (கோப்பு மற்றும் அடைவு கண்டுபிடிப்பு): தாக்குதல் நடத்தியவர்கள் முக்கிய வணிக தகவல்களைப் பெற கசிந்த தகவலைப் பயன்படுத்தலாம்.
சம்பவம் 5: Common Crawl இல் DeepSeek சான்றுகள் கசிந்தன - ஹார்ட்-கோடிங்கின் ஆபத்துகள்
காலவரிசை: பிப்ரவரி 28, 2025
கசிவின் அளவு: தோராயமாக 11,908 செல்லுபடியாகும் DeepSeek API விசைகள், சான்றுகள் மற்றும் அங்கீகார டோக்கன்கள்.
நிகழ்வுகளை வெளிப்படுத்துதல்:
Truffle பாதுகாப்பு குழு, டிசம்பர் 2024 முதல் 400 TB தரவை Common Crawl இல் ஸ்கேன் செய்ய ஓப்பன் சோர்ஸ் கருவியான TruffleHog ஐப் பயன்படுத்தியது, இது 47.5 மில்லியன் ஹோஸ்ட்களிலிருந்து 2.67 பில்லியன் வலைப்பக்கங்களை உள்ளடக்கிய ஒரு கிராலர் தரவுத்தளமாகும். ஸ்கேன் ஒரு அதிர்ச்சியூட்டும் கண்டுபிடிப்பை வெளிப்படுத்தியது: தோராயமாக 11,908 செல்லுபடியாகும் DeepSeek API விசைகள், சான்றுகள் மற்றும் அங்கீகார டோக்கன்கள் நேரடியாக ஏராளமான வலைப்பக்கங்களில் ஹார்ட்-கோட் செய்யப்பட்டன.
இந்த ஆய்வு Mailchimp API விசைகளின் கசிவையும் எடுத்துக்காட்டுகிறது, சுமார் 1,500 விசைகள் ஜாவாஸ்கிரிப்ட் குறியீட்டில் ஹார்ட்-கோட் செய்யப்பட்டுள்ளன. Mailchimp API விசைகள் பெரும்பாலும் ஃபிஷிங் மற்றும் தரவு திருட்டு தாக்குதல்களுக்கு பயன்படுத்தப்படுகின்றன.
தாக்குதலைப் பிரித்தல்:
Common Crawl, ஒரு இலாப நோக்கற்ற வலை கிராலர் தரவுத்தளம், இணைய பக்கங்களிலிருந்து தரவை தொடர்ந்து கைப்பற்றி வெளியிடுகிறது. இது இந்த தரவை WARC (Web ARChive) கோப்புகளில் சேமிக்கிறது, அசல் HTML, ஜாவாஸ்கிரிப்ட் குறியீடு மற்றும் சர்வர் பதில்களைப் பாதுகாக்கிறது. இந்த தரவுத்தொகுப்புகள் அடிக்கடி AI மாதிரிகளுக்கு பயிற்சி அளிக்கப் பயன்படுகின்றன. Truffle இன் ஆராய்ச்சி ஒரு முக்கியமான சிக்கலை வெளிப்படுத்துகிறது: பாதுகாப்பு பாதிப்புகளைக் கொண்ட கோர்போராவில் மாதிரிகளுக்கு பயிற்சி அளிப்பது அந்த பாதிப்புகளை மரபுரிமையாகப் பெறும் மாதிரிகளுக்கு வழிவகுக்கும். DeepSeek போன்ற LLMகள் பயிற்சி மற்றும் வரிசைப்படுத்தலின் போது கூடுதல் பாதுகாப்பு நடவடிக்கைகளைப் பயன்படுத்தினாலும், பயிற்சி தரவுகளில் ஹார்ட்-கோட் செய்யப்பட்ட பாதிப்புகள் பரவலாக இருப்பது அத்தகைய “பாதுகாப்பற்ற” நடைமுறைகளை மாதிரிகளுக்கு இயல்பாக்கலாம்.
ஹார்ட்-கோடிங், ஒரு பொதுவான ஆனால் பாதுகாப்பற்ற குறியீட்டு நடைமுறை, ஒரு பரவலான பிரச்சனை. மூல காரணம் எளிமையானது என்றாலும், அபாயங்கள் கடுமையானவை: தரவு மீறல்கள், சேவை இடையூறுகள், விநியோகச் சங்கிலி தாக்குதல்கள் மற்றும் LLMகளின் எழுச்சியுடன், ஒரு புதிய அச்சுறுத்தல் - LLM கடத்தல். முன்னர் விவாதிக்கப்பட்டபடி, LLM கடத்தல் என்பது கிளவுட்-ஹோஸ்ட் செய்யப்பட்ட LLM சேவைகளைப் பயன்படுத்த திருடப்பட்ட சான்றுகளைப் பயன்படுத்தும் தாக்குதல் நடத்துபவர்களை உள்ளடக்கியது, இதன் விளைவாக பாதிக்கப்பட்டவர்களுக்கு கணிசமான நிதி இழப்புகள் ஏற்படுகின்றன.
VERIZON நிகழ்வு வகைப்பாடு: இதர பிழைகள்
MITRE ATT&CK கட்டமைப்பு மேப்பிங்:
- T1596.005 (திறந்த தொழில்நுட்ப தரவுத்தளத்தைத் தேடுங்கள் - ஸ்கேன் தரவுத்தளங்கள்): தாக்குதல் நடத்தியவர்கள் பொது கிராலர் தரவுத்தளத்திலிருந்து தகவல்களைச் சேகரித்தனர்.
- T1588.002 (திறன்களைப் பெறுதல் - கருவி): தாக்குதல் நடத்தியவர்கள் ஒரு முக்கியமான தகவல் கண்டுபிடிப்பு கருவியை பயன்படுத்தினர்.
- T1586.003 (கணக்குகளை சமரசம் செய்தல் - கிளவுட் கணக்குகள்): தாக்குதல் நடத்தியவர்கள் பொது தரவுத்தளங்களில் முக்கியமான சான்றுகளைக் கண்டறிய முக்கியமான தகவல் கண்டுபிடிப்பு கருவிகளைப் பயன்படுத்தினர்.
- T1090.002 (ப்ராக்ஸி - வெளிப்புற ப்ராக்ஸி): தாக்குதல் நடத்தியவர்கள் பல LLM கணக்குகளுக்கான அணுகலை நிர்வகிக்க OAI ரிவர்ஸ் ப்ராக்ஸி மென்பொருளைப் பயன்படுத்தினர்.
- T1496 (வள கடத்தல்): தாக்குதல் நடத்தியவர்கள் LLM வளங்களைக் கடத்த LLM ஊசி தாக்குதலைத் தொடங்கினர்.
LLM தரவு கசிவைத் தடுத்தல்: ஒரு பன்முக அணுகுமுறை
பகுப்பாய்வு செய்யப்பட்ட சம்பவங்கள் LLM தொடர்பான தரவு மீறல்களுக்கு எதிராக பாதுகாக்க வலுவான பாதுகாப்பு நடவடிக்கைகளின் அவசர தேவையை எடுத்துக்காட்டுகின்றன. தொடர்புடைய சம்பவங்களின் அடிப்படையில் வகைப்படுத்தப்பட்ட தடுப்பு உத்திகளின் முறிவு இங்கே:
விநியோகச் சங்கிலியை வலுப்படுத்துதல்:
சம்பவம் II (தீங்கிழைக்கும் சார்பு தொகுப்பு தாக்குதல்) மற்றும் சம்பவம் V (பொது தரவு மீறல்) ஆகியவற்றிற்கு பொருந்தும்:
சார்பு தொகுப்புகளின் நம்பகமான சரிபார்ப்பு:
- கையொப்பமிடப்படாத அல்லது சந்தேகத்திற்கிடமான மூல சார்பு தொகுப்புகளை இடைமறிக்க PyPI/Sonatype Nexus Firewall போன்ற கருவிகளைப் பயன்படுத்தவும்.
- மேம்பாட்டு சூழல்களில் பொது களஞ்சியங்களிலிருந்து நேரடியாக சார்புகளைப் பெறுவதைத் தடைசெய்க. கார்ப்பரேட் தனிப்பட்ட களஞ்சிய ப்ராக்ஸிகளை (எ.கா., Artifactory) பயன்படுத்துவதை கட்டாயமாக்குங்கள்.
விநியோகச் சங்கிலி அச்சுறுத்தல் கண்காணிப்பு:
- சார்பு பாதிப்புகளை தானாகவே ஸ்கேன் செய்யவும், அதிக ஆபத்துள்ள கூறுகளை அறிமுகப்படுத்துவதைத் தடுக்கவும் Dependabot/Snyk போன்ற கருவிகளை ஒருங்கிணைக்கவும்.
- ஹாஷ் மதிப்பு அதிகாரப்பூர்வமானவற்றுடன் பொருந்துவதை உறுதிசெய்ய ஓப்பன் சோர்ஸ் தொகுப்புகளின் குறியீடு கையொப்பத்தை சரிபார்க்கவும்.
தரவு மூலத்தை சுத்தம் செய்தல்:
- பயிற்சி தரவு சேகரிப்பின் போது, வழக்கமான வெளிப்பாடுகள் மற்றும் AI அடிப்படையிலான மறுசீரமைப்பு கருவிகளைப் பயன்படுத்தி பொது தரவுத்தொகுப்புகளிலிருந்து (Common Crawl போன்றவை) முக்கியமான தகவல்களை வடிகட்டவும்.
குறைந்தபட்ச சலுகை மற்றும் அணுகல் கட்டுப்பாட்டை செயல்படுத்துதல்:
சம்பவம் I (தரவுத்தள உள்ளமைவு பிழை) மற்றும் சம்பவம் IV (மூன்றாம் தரப்பு கருவி தரவு மீறல்) ஆகியவற்றிற்கு பொருந்தும்:
- தரவுத்தளங்களுக்கு (ClickHouse போன்றவை) இயல்பாக இருதரப்பு TLS அங்கீகாரத்தை இயக்கவும் மற்றும் பொது நெட்வொர்க்குகளில் மேலாண்மை போர்ட்களை வெளிப்படுத்துவதைத் தடுக்கவும்.
- நீண்ட கால நிலையான விசை தக்கவைப்பைத் தவிர்த்து, தற்காலிக சான்றுகளை மாறும் வகையில் விநியோகிக்க Vault/Boundary போன்ற தீர்வுகளைப் பயன்படுத்தவும்.
- RBAC (பங்கு அடிப்படையிலான அணுகல் கட்டுப்பாடு) மூலம் பயனரின் அணுகலை தேவையான வளங்களுக்கு மட்டுமே கட்டுப்படுத்தி, குறைந்தபட்ச சலுகை கொள்கையை கடைபிடிக்கவும்.
- மூன்றாம் தரப்பு கருவிகளுக்கான (OmniGPT போன்றவை) API அழைப்புகளுக்கு IP வைட்லிஸ்டிங் மற்றும் ரேட் லிமிட்டிங் ஆகியவற்றை செயல்படுத்தவும்.
உணர்திறன் தரவின் முழு வாழ்க்கைச் சுழற்சி பாதுகாப்பை உறுதி செய்தல்:
சம்பவம் III (LLM கடத்தல்) க்கு பொருந்தும்:
- தரவு மறுசீரமைப்பு மற்றும் என்க்ரிப்ஷன்: பயனர் உள்ளீடு மற்றும் வெளியீடு தரவுகளுக்கு புல-நிலை என்க்ரிப்ஷனை (எ.கா., AES-GCM) செயல்படுத்தவும். பதிவுகளில் முக்கியமான புலங்களை மறைக்கவும்.
- LLMகளின் ஊடாடும் உள்ளடக்கத்திற்கான நிகழ்நேர மறுசீரமைப்பை இயக்கவும் (எ.கா., கிரெடிட் கார்டு எண்கள் மற்றும் தொலைபேசி எண்களை பிளேஸ்ஹோல்டர்களுடன் மாற்றுதல்).
இந்த தடுப்பு நடவடிக்கைகள், தொடர்ச்சியான பாதுகாப்பு கண்காணிப்பு மற்றும் சம்பவ பதில் திட்டமிடலுடன் இணைந்து, LLMகளின் வளர்ந்து வரும் பயன்பாட்டுடன் தொடர்புடைய அபாயங்களைக் குறைக்க அவசியம். LLM பாதுகாப்பின் “கண்ணுக்கு தெரியாத போர்க்களம்” இந்த வேகமாக வளர்ந்து வரும் தொழில்நுட்ப நிலப்பரப்பில் முக்கியமான தரவைப் பாதுகாக்க நிலையான விழிப்புணர்வையும் ஒரு செயலூக்கமான அணுகுமுறையையும் கோருகிறது.