ডেটা লঙ্ঘনের একটি ঢেউ দুর্বলতা প্রকাশ করে
DeepSeek এবং Ollama-এর মতো ওপেন-সোর্স লার্জ ল্যাঙ্গুয়েজ মডেল (LLM)-এর দ্রুত গ্রহণ একটি দ্বি-ধারী তলোয়ার হয়ে উঠেছে। ব্যবসাগুলি যখন দক্ষতা বাড়ানোর জন্য এই শক্তিশালী সরঞ্জামগুলিকে কাজে লাগাচ্ছে, তখন তাদের বিকাশের উন্মুক্ততা ডেটা সুরক্ষার ঝুঁকিগুলিকে বহুগুণ বাড়িয়ে তুলছে। NSFOCUS Xingyun Lab-এর একটি সাম্প্রতিক রিপোর্ট একটি ভয়াবহ চিত্র তুলে ধরেছে: ২০২৫ সালের প্রথম দুই মাসে, বিশ্ব LLM-গুলির সাথে সরাসরি যুক্ত পাঁচটি উল্লেখযোগ্য ডেটা লঙ্ঘনের সাক্ষী হয়েছে৷ এই ঘটনাগুলির ফলে গোপনীয় চ্যাট হিস্টরি এবং API কী থেকে শুরু করে গুরুত্বপূর্ণ ব্যবহারকারীর শংসাপত্র পর্যন্ত বিপুল পরিমাণ সংবেদনশীল তথ্য ফাঁস হয়েছে৷ এই ঘটনাগুলি একটি সতর্কবার্তা, যা অত্যাধুনিক AI প্রযুক্তির পৃষ্ঠের নীচে লুকিয়ে থাকা প্রায়শই উপেক্ষিত নিরাপত্তা দুর্বলতাগুলিকে তুলে ধরে। এই সমীক্ষায় পাঁচটি ঘটনা পুঙ্খানুপুঙ্খভাবে বিশ্লেষণ করা হবে, আক্রমণের পদ্ধতিগুলি ব্যবচ্ছেদ করা হবে, সেগুলিকে প্রতিষ্ঠিত MITRE ATT&CK কাঠামোর সাথে ম্যাপ করা হবে এবং সংস্থাগুলি যে নিরাপত্তা বিষয়ক অন্ধবিন্দু গুলির সম্মুখীন, যেগুলির অবিলম্বে সমাধান করা আবশ্যক, সে বিষয়ে আলোকপাত করা হবে।
ঘটনা ১: DeepSeek-এর ভুল কনফিগার করা ডেটাবেস - ব্যক্তিগত কথোপকথনের একটি জানালা
সময়রেখা: ২৯শে জানুয়ারী, ২০২৫
ফাঁসের পরিমাণ: কয়েক মিলিয়ন লাইনের লগ ডেটা, যার মধ্যে সংবেদনশীল চ্যাট হিস্টরি এবং অ্যাক্সেস কী রয়েছে।
ঘটনার বিবরণ:
Wiz-এর নিরাপত্তা গবেষণা দল এই আবিষ্কারের সূচনা করে। তারা পাবলিক ইন্টারনেটে অ্যাক্সেসযোগ্য একটি উন্মুক্ত ClickHouse পরিষেবা সনাক্ত করেছে। আরও তদন্তে নিশ্চিত হওয়া গেছে যে এই পরিষেবাটি চীনা AI স্টার্টআপ DeepSeek-এর। ClickHouse, বিশ্লেষণমূলক প্রক্রিয়াকরণে বড় ডেটাসেটগুলির দক্ষ পরিচালনার জন্য ডিজাইন করা হয়েছে, দুর্ভাগ্যবশত DeepSeek-এর অভ্যন্তরীণ ডেটার প্রবেশদ্বারে পরিণত হয়েছিল। গবেষকরা DeepSeek-এর লগ স্ট্রিমের প্রায় এক মিলিয়ন লাইন অ্যাক্সেস করেছেন, যেখানে ঐতিহাসিক চ্যাট লগ এবং গুরুত্বপূর্ণ অ্যাক্সেস কী সহ সংবেদনশীল তথ্যের ভান্ডার উন্মোচিত হয়েছে।
Wiz অবিলম্বে DeepSeek-কে দুর্বলতা সম্পর্কে সতর্ক করে, যার ফলে অবিলম্বে ব্যবস্থা নেওয়া হয় এবং উন্মুক্ত ClickHouse পরিষেবাটি সুরক্ষিত করা হয়।
আক্রমণের ব্যবচ্ছেদ:
মূল সমস্যাটি ছিল অননুমোদিত অ্যাক্সেসের ক্ষেত্রে ClickHouse-এর দুর্বলতা। ClickHouse, একটি ওপেন-সোর্স কলাম-ভিত্তিক ডেটাবেস ম্যানেজমেন্ট সিস্টেম, রিয়েল-টাইম কোয়েরি এবং বিশাল ডেটাসেটগুলির বিশ্লেষণে পারদর্শী, যা প্রায়শই লগ এবং ব্যবহারকারীর আচরণ বিশ্লেষণের জন্য ব্যবহৃত হয়। যাইহোক, যখন সঠিক অ্যাক্সেস নিয়ন্ত্রণ ছাড়াই স্থাপন করা হয়, তখন এর উন্মুক্ত API ইন্টারফেস যে কাউকে SQL-এর মতো কমান্ড চালানোর অনুমতি দেয়।
Wiz নিরাপত্তা দলের পদ্ধতিটি ছিল DeepSeek-এর ইন্টারনেট-মুখী সাবডোমেনগুলির একটি পদ্ধতিগত স্ক্যান। প্রাথমিকভাবে স্ট্যান্ডার্ড পোর্ট ৮০ এবং ৪৪৩-এ ফোকাস করে, তারা চ্যাটবট ইন্টারফেস এবং API ডকুমেন্টেশনের মতো সাধারণ ওয়েব সংস্থানগুলি খুঁজে পেয়েছিল। তাদের অনুসন্ধানকে আরও বিস্তৃত করতে, তারা ৮১২৩ এবং ৯০০০-এর মতো কম সাধারণ পোর্টগুলিতে প্রসারিত করে, শেষ পর্যন্ত একাধিক সাবডোমেনে উন্মুক্ত পরিষেবাগুলি উন্মোচন করে।
৬ই জানুয়ারী, ২০২৫ থেকে আপোস করা লগ ডেটাতে প্রচুর সংবেদনশীল তথ্য ছিল: কল লগ, অভ্যন্তরীণ DeepSeek API এন্ডপয়েন্টগুলির জন্য টেক্সট লগ, বিস্তারিত চ্যাট হিস্টরি, API কী, ব্যাকএন্ড সিস্টেমের বিবরণ এবং অপারেশনাল মেটাডেটা।
VERIZON ইভেন্ট শ্রেণীবিভাগ: Miscellaneous Errors
MITRE ATT&CK ফ্রেমওয়ার্ক ম্যাপিং:
- T1590.002 (Collect Victim Network Information - Domain Name Resolution): আক্রমণকারীরা সম্ভবত সাবডোমেন গণনার জন্য প্রাথমিক ডোমেন নাম ব্যবহার করেছিল।
- T1046 (Web Service Discovery): আক্রমণকারীরা টার্গেট ডোমেনের সাথে যুক্ত খোলা পোর্ট এবং পরিষেবাগুলি সনাক্ত করেছে।
- T1106 (Native Interface): আক্রমণকারীরা ডেটাবেসের সাথে ইন্টারঅ্যাক্ট করার জন্য ClickHouse API ব্যবহার করেছে।
- T1567 (Data Exfiltration via Web Service): আক্রমণকারীরা ডেটা চুরি করতে ClickHouse API ব্যবহার করেছে।
ঘটনা ২: DeepSeek-এর সাপ্লাই চেইন আক্রমণ - কোডের মধ্যে একটি ট্রোজান হর্স
সময়রেখা: ৩রা ফেব্রুয়ারি, ২০২৫
ফাঁসের পরিমাণ: ব্যবহারকারীর শংসাপত্র এবং এনভায়রনমেন্ট ভেরিয়েবল।
ঘটনার বিবরণ:
আক্রমণটি ১৯শে জানুয়ারী, ২০২৫-এ শুরু হয়েছিল, যখন ‘bvk’ হিসাবে চিহ্নিত একজন দূষিত ব্যবহারকারী জনপ্রিয় PyPI (Python Package Index) রিপোজিটরিতে ‘deepseek’ এবং ‘deepseekai’ নামে দুটি দূষিত Python প্যাকেজ আপলোড করে।
Positive Technologies Expert Security Center (PT ESC)-এর থ্রেট ইন্টেলিজেন্স টিম একই দিনে এই সন্দেহজনক কার্যকলাপ সনাক্ত করে। তাদের বিশ্লেষণে প্যাকেজগুলির দূষিত প্রকৃতি নিশ্চিত করা হয়েছে এবং তারা অবিলম্বে PyPI প্রশাসকদের অবহিত করেছে।
PyPI প্রশাসকরা দ্রুত দূষিত প্যাকেজগুলি সরিয়ে দেয় এবং PT ESC-কে জানায়। দ্রুত প্রতিক্রিয়া সত্ত্বেও, পরিসংখ্যান প্রকাশ করেছে যে ম্যালওয়্যারটি বিভিন্ন চ্যানেলের মাধ্যমে ১৭টি দেশে ২০০ বারের বেশি ডাউনলোড করা হয়েছে। দূষিত প্যাকেজগুলি পরবর্তীকালে বিচ্ছিন্ন করা হয়েছিল।
আক্রমণের ব্যবচ্ছেদ:
‘bvk’ দ্বারা আপলোড করা দূষিত প্যাকেজগুলি দুটি প্রাথমিক উদ্দেশ্যের উপর দৃষ্টি নিবদ্ধ করেছিল: তথ্য সংগ্রহ এবং এনভায়রনমেন্ট ভেরিয়েবল চুরি করা। চুরি করা ডেটার মধ্যে সংবেদনশীল তথ্য যেমন ডেটাবেস শংসাপত্র, API কী এবং S3 অবজেক্ট স্টোরেজের জন্য অ্যাক্সেস শংসাপত্র অন্তর্ভুক্ত ছিল। যখনই কোনও ব্যবহারকারী কমান্ড লাইন থেকে DeepSeek বা Deepseekai চালায় তখনই দূষিত পেলোড ট্রিগার হয়।
আক্রমণকারী চুরি করা ডেটা পাওয়ার জন্য একটি কমান্ড-এন্ড-কন্ট্রোল সার্ভার হিসাবে PipeDream ব্যবহার করেছিল। এই ঘটনাটি বেশ কয়েকটি অবদানকারী কারণকে তুলে ধরেছে:
- ডিপেন্ডেন্সি কনফিউশন অ্যাটাক: আক্রমণকারীরা একটি সংস্থার ব্যক্তিগত প্যাকেজ এবং একই নামের পাবলিক প্যাকেজগুলির মধ্যে অগ্রাধিকারের পার্থক্যকে কাজে লাগিয়েছে।
- প্যাকেজের নাম ছদ্মবেশ: দূষিত প্যাকেজগুলি ব্যবহারকারীদের প্রতারণা করার জন্য একটি সুপরিচিত AI সংস্থা DeepSeek-এর ব্র্যান্ডের নাম অনুকরণ করেছে।
- PyPI রেজিস্ট্রেশন দুর্বলতা: PyPI রেজিস্ট্রেশন প্রক্রিয়ায় ডেভেলপার পরিচয় এবং প্যাকেজের নামের বৈধতা যাচাইয়ের কার্যকর ব্যবস্থা ছিল না।
- ডেভেলপার নিরাপত্তা সচেতনতা: ডেভেলপাররা হয়তো ভুলবশত একই নামের দূষিত প্যাকেজ ইনস্টল করেছেন।
VERIZON ইভেন্ট শ্রেণীবিভাগ: Social Engineering
MITRE ATT&CK ফ্রেমওয়ার্ক ম্যাপিং:
- T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository): আক্রমণকারীরা PyPI-তে তথ্য অনুসন্ধান করেছে।
- T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain): আক্রমণকারীরা Python ডিপেন্ডেন্সি হিসাবে ছদ্মবেশী ম্যালওয়্যার ব্যবহার করেছে এবং এটি PyPI-তে আপলোড করেছে।
- T1059.006 (Command and Scripting Interpreter - Python): আক্রমণকারীরা প্যাকেজে দূষিত কোড স্থাপন করেছে, যা কার্যকর হওয়ার পরে সংবেদনশীল ডেটা ফাঁস করে।
- T1041 (Exfiltration Over C2 Channel): আক্রমণকারীরা PipeDream C2 চ্যানেলের মাধ্যমে সংবেদনশীল তথ্য ফাঁস করেছে।
ঘটনা ৩: LLM হাইজ্যাকিং - রিসোর্স চুরির জন্য DeepSeek-কে টার্গেট করা হয়েছে
সময়রেখা: ৭ই ফেব্রুয়ারি, ২০২৫
ফাঁসের পরিমাণ: প্রায় ২ বিলিয়ন মডেল টোকেন অবৈধভাবে ব্যবহৃত হয়েছে।
ঘটনার বিবরণ:
Sysdig থ্রেট রিসার্চ টিম প্রাথমিকভাবে মে ২০২৪-এ LLM-গুলিকে লক্ষ্য করে একটি অভিনব আক্রমণ আবিষ্কার করেছিল, যার নাম দেওয়া হয়েছিল ‘LLM জ্যাকিং’ বা ‘LLM হাইজ্যাকিং’।
সেপ্টেম্বর ২০২৪-এর মধ্যে, Sysdig এই আক্রমণগুলির ক্রমবর্ধমান ফ্রিকোয়েন্সি এবং প্রাদুর্ভাবের কথা জানায়, যেখানে DeepSeek ক্রমবর্ধমানভাবে লক্ষ্যবস্তুতে পরিণত হচ্ছিল।
২৬শে ডিসেম্বর, ২০২৪-এ, DeepSeek একটি উন্নত মডেল, DeepSeek-V3 প্রকাশ করে। এর পরেই, Sysdig টিম দেখেছে যে DeepSeek-V3 Hugging Face-এ হোস্ট করা একটি OpenAI রিভার্স প্রক্সি (ORP) প্রকল্পে প্রয়োগ করা হয়েছে।
২০শে জানুয়ারী, ২০২৫-এ, DeepSeek DeepSeek-R1 নামে একটি ইনফারেন্স মডেল প্রকাশ করে। ঠিক পরের দিন, DeepSeek-R1 সমর্থনকারী একটি ORP প্রকল্প আবির্ভূত হয় এবং আক্রমণকারীরা এটিকে কাজে লাগাতে শুরু করে, একাধিক ORP-তে DeepSeek API কীগুলি ব্যবহার করে।
Sysdig-এর গবেষণায় দেখা গেছে যে ORP-গুলির মাধ্যমে অবৈধভাবে ব্যবহৃত বৃহৎ মডেল টোকেনগুলির মোট সংখ্যা ২ বিলিয়ন ছাড়িয়ে গেছে।
আক্রমণের ব্যবচ্ছেদ:
LLM হাইজ্যাকিং-এর মধ্যে রয়েছে আক্রমণকারীরা ক্লাউড-হোস্টেড LLM পরিষেবাগুলিকে লক্ষ্য করার জন্য চুরি করা ক্লাউড শংসাপত্রগুলিকে কাজে লাগানো। আক্রমণকারীরা একটি OAI (OpenAI) রিভার্স প্রক্সি এবং চুরি করা শংসাপত্র ব্যবহার করে মূলত ভুক্তভোগীর সাবস্ক্রাইব করা LLM পরিষেবাগুলিতে অ্যাক্সেস বিক্রি করে। এর ফলে ভুক্তভোগীর জন্য উল্লেখযোগ্য ক্লাউড পরিষেবার খরচ হয়।
OAI রিভার্স প্রক্সি একাধিক LLM অ্যাকাউন্টে অ্যাক্সেসের জন্য একটি কেন্দ্রীয় ব্যবস্থাপনা পয়েন্ট হিসাবে কাজ করে, অন্তর্নিহিত শংসাপত্র এবং সংস্থান পুলগুলিকে মাস্ক করে। আক্রমণকারীরা DeepSeek-এর মতো ব্যয়বহুল LLM-গুলিকে অর্থ প্রদান না করেই ব্যবহার করতে পারে, রিভার্স প্রক্সির মাধ্যমে অনুরোধগুলিকে নির্দেশ করে, সংস্থানগুলি ব্যবহার করে এবং বৈধ পরিষেবা চার্জগুলিকে বাইপাস করে। প্রক্সি কৌশল আক্রমণকারীর পরিচয় গোপন করে, তাদের সনাক্তকরণ ছাড়াই ক্লাউড সংস্থানগুলির অপব্যবহার করার অনুমতি দেয়।
যদিও OAI রিভার্স প্রক্সি LLM হাইজ্যাকিংয়ের জন্য একটি প্রয়োজনীয় উপাদান, তবে গুরুত্বপূর্ণ উপাদান হল বিভিন্ন LLM পরিষেবার জন্য শংসাপত্র এবং কীগুলির চুরি। আক্রমণকারীরা প্রায়শই এই শংসাপত্রগুলি চুরি করার জন্য ঐতিহ্যগত ওয়েব পরিষেবার দুর্বলতা এবং কনফিগারেশন ত্রুটিগুলি (যেমন Laravel ফ্রেমওয়ার্কের CVE-2021-3129 দুর্বলতা) ব্যবহার করে। একবার প্রাপ্ত হলে, এই শংসাপত্রগুলি Amazon Bedrock, Google Cloud Vertex AI এবং অন্যান্য ক্লাউড-ভিত্তিক LLM পরিষেবাগুলিতে অ্যাক্সেস দেয়।
Sysdig-এর গবেষণায় দেখা গেছে যে আক্রমণকারীরা কয়েক ঘন্টার মধ্যে ভুক্তভোগীদের ব্যবহারের খরচ দ্রুত বাড়িয়ে কয়েক হাজার ডলার এবং কিছু ক্ষেত্রে প্রতিদিন ১০০,০০০ ডলার পর্যন্ত করতে পারে। আক্রমণকারীদের উদ্দেশ্য কেবল ডেটা অধিগ্রহণের মধ্যেই সীমাবদ্ধ নয়; তারা অ্যাক্সেসের অধিকার বিক্রি করেও লাভ করে।
VERIZON ইভেন্ট শ্রেণীবিভাগ: Basic Web Application Attacks
MITRE ATT&CK ফ্রেমওয়ার্ক ম্যাপিং:
- T1593 (Search Open Websites/Domains): আক্রমণকারীরা উন্মুক্ত পরিষেবাগুলিতে তথ্য সংগ্রহ করতে OSINT (ওপেন-সোর্স ইন্টেলিজেন্স) পদ্ধতি ব্যবহার করেছে।
- T1133 (External Remote Services): আক্রমণকারীরা উন্মুক্ত পরিষেবাগুলির দুর্বলতাগুলি সনাক্ত করেছে।
- T1586.003 (Compromise Accounts - Cloud Accounts): আক্রমণকারীরা LLM পরিষেবা বা ক্লাউড পরিষেবার শংসাপত্র চুরি করতে দুর্বলতাগুলিকে কাজে লাগিয়েছে।
- T1588.002 (Obtain Capabilities - Tool): আক্রমণকারীরা একটি ওপেন-সোর্স OAI রিভার্স প্রক্সি টুল স্থাপন করেছে।
- T1090.002 (Proxy - External Proxy): আক্রমণকারীরা একাধিক LLM অ্যাকাউন্টে অ্যাক্সেস পরিচালনা করতে OAI রিভার্স প্রক্সি সফ্টওয়্যার ব্যবহার করেছে।
- T1496 (Resource Hijacking): আক্রমণকারীরা LLM সংস্থান হাইজ্যাক করার জন্য একটি LLM ইনজেকশন আক্রমণ শুরু করেছে।
ঘটনা ৪: OmniGPT ডেটা লঙ্ঘন - ডার্ক ওয়েবে ব্যবহারকারীর ডেটা বিক্রি
সময়রেখা: ১২ই ফেব্রুয়ারি, ২০২৫
ফাঁসের পরিমাণ: ৩০,০০০-এর বেশি ব্যবহারকারীর ব্যক্তিগত তথ্য, যার মধ্যে ইমেল, ফোন নম্বর, API কী, এনক্রিপশন কী, শংসাপত্র এবং বিলিং তথ্য রয়েছে।
ঘটনার বিবরণ:
১২ই ফেব্রুয়ারি, ২০২৫-এ, ‘SyntheticEmotions’ নামে একজন ব্যবহারকারী BreachForums-এ পোস্ট করে দাবি করে যে তারা OmniGPT প্ল্যাটফর্ম থেকে সংবেদনশীল ডেটা চুরি করেছে এবং বিক্রির জন্য অফার করেছে। ফাঁস হওয়া ডেটাতে ৩০,০০০-এর বেশি OmniGPT ব্যবহারকারীর ইমেল, ফোন নম্বর, API কী, এনক্রিপশন কী, শংসাপত্র এবং বিলিং তথ্য এবং চ্যাটবটগুলির সাথে তাদের ৩৪ মিলিয়নেরও বেশি লাইনের কথোপকথন অন্তর্ভুক্ত ছিল। এছাড়াও, প্ল্যাটফর্মে আপলোড করা ফাইলগুলির লিঙ্কগুলি আপস করা হয়েছিল, যার মধ্যে কয়েকটিতে ভাউচার এবং বিলিং ডেটার মতো সংবেদনশীল তথ্য ছিল।
আক্রমণের ব্যবচ্ছেদ:
যদিও সুনির্দিষ্ট আক্রমণ ভেক্টরটি অপ্রকাশিত রয়েছে, ফাঁস হওয়া ডেটার ধরণ এবং সুযোগ বেশ কয়েকটি সম্ভাবনার পরামর্শ দেয়: SQL ইনজেকশন, API অপব্যবহার, বা সোশ্যাল ইঞ্জিনিয়ারিং আক্রমণগুলি আক্রমণকারীকে ব্যাকএন্ড ডেটাবেসে অ্যাক্সেস দিতে পারে। এটাও সম্ভব যে OmniGPT প্ল্যাটফর্মে ভুল কনফিগারেশন বা দুর্বলতা ছিল যা আক্রমণকারীকে প্রমাণীকরণ বাইপাস করতে এবং ব্যবহারকারীর তথ্য সম্বলিত ডেটাবেস সরাসরি অ্যাক্সেস করার অনুমতি দেয়।
একটি গৌণ ফাঁসে জড়িত ‘Messages.txt’ ফাইলে API কী, ডেটাবেস শংসাপত্র এবং পেমেন্ট কার্ডের তথ্য ছিল, যা সম্ভাব্যভাবে অন্যান্য সিস্টেমে আরও অনুপ্রবেশ বা ডেটা টেম্পারিং সক্ষম করে। প্ল্যাটফর্ম ব্যবহারকারীদের দ্বারা আপলোড করা কিছু নথিতে সংবেদনশীল ব্যবসায়িক গোপনীয়তা এবং প্রকল্পের ডেটা ছিল, যা অপব্যবহার করা হলে ব্যবসায়িক ক্রিয়াকলাপের জন্য ঝুঁকি তৈরি করে। এই ঘটনাটি AI এবং বড় ডেটা সেক্টরের মধ্যে উন্নত ডেটা সুরক্ষা এবং গোপনীয়তা সুরক্ষার প্রয়োজনীয়তার একটি কঠোর অনুস্মারক হিসাবে কাজ করে। ব্যবহারকারীদের এই প্ল্যাটফর্মগুলি ব্যবহার করার সময় চরম সতর্কতা অবলম্বন করা উচিত এবং সংস্থাগুলিকে অবশ্যই কঠোর ডেটা ব্যবহারের নীতি স্থাপন করতে হবে, সংবেদনশীল ডেটার জন্য এনক্রিপশন, ডেটা মিনিমাইজেশন এবং অ্যানোনিমিাইজেশনের মতো ব্যবস্থা প্রয়োগ করতে হবে। এটি করতে ব্যর্থ হলে উল্লেখযোগ্য আইনি, খ্যাতিগত এবং অর্থনৈতিক পরিণতি হতে পারে।
VERIZON ইভেন্ট শ্রেণীবিভাগ: Miscellaneous Errors
MITRE ATT&CK ফ্রেমওয়ার্ক ম্যাপিং:
- T1071.001 (Application Layer Protocol - Web Protocols): আক্রমণকারীরা OmniGPT-এর ওয়েব ইন্টারফেসের মাধ্যমে ফাঁস হওয়া ব্যবহারকারীর তথ্য এবং সংবেদনশীল ডেটা অ্যাক্সেস করতে পারে।
- T1071.002 (Application Layer Protocol - Application Programming Interfaces): ফাঁস হওয়া API কী এবং ডেটাবেস শংসাপত্রগুলি আক্রমণকারীদের প্ল্যাটফর্মের API-এর মাধ্যমে সিস্টেমে অ্যাক্সেস করতে এবং অননুমোদিত ক্রিয়া সম্পাদন করার অনুমতি দিতে পারে।
- T1071.002 (Application Layer Protocol - Service Execution): আক্রমণকারীরা কমান্ড বা প্রোগ্রাম চালানোর জন্য সিস্টেম পরিষেবা বা ডেমনগুলির অপব্যবহার করতে পারে।
- T1020.003 (Automated Exfiltration - File Transfer): ফাঁস হওয়া ফাইলের লিঙ্ক এবং ব্যবহারকারীর আপলোড করা সংবেদনশীল ফাইলগুলি আক্রমণকারীদের ডাউনলোড করার জন্য লক্ষ্য হতে পারে, পরবর্তী আক্রমণগুলির জন্য আরও সংবেদনশীল ডেটা প্রাপ্ত করতে।
- T1083 (File and Directory Discovery): আক্রমণকারীরা মূল ব্যবসায়ের তথ্য আরও পাওয়ার জন্য ফাঁস হওয়া তথ্য ব্যবহার করতে পারে।
ঘটনা ৫: Common Crawl-এ DeepSeek শংসাপত্র ফাঁস - হার্ড-কোডিংয়ের বিপদ
সময়রেখা: ২৮শে ফেব্রুয়ারি, ২০২৫
ফাঁসের পরিমাণ: প্রায় ১১,৯০৮টি বৈধ DeepSeek API কী, শংসাপত্র এবং প্রমাণীকরণ টোকেন।
ঘটনার বিবরণ:
Truffle নিরাপত্তা দল ওপেন-সোর্স টুল TruffleHog ব্যবহার করে Common Crawl থেকে ডিসেম্বর ২০২৪-এর ৪০০ TB ডেটা স্ক্যান করেছে, একটি ক্রলার ডেটাবেস যাতে ৪৭.৫ মিলিয়ন হোস্টের ২.৬৭ বিলিয়ন ওয়েব পৃষ্ঠা রয়েছে। স্ক্যানটি একটি চমকপ্রদ তথ্য প্রকাশ করেছে: প্রায় ১১,৯০৮টি বৈধ DeepSeek API কী, শংসাপত্র এবং প্রমাণীকরণ টোকেন সরাসরি অসংখ্য ওয়েব পৃষ্ঠায় হার্ড-কোড করা হয়েছিল।
গবেষণায় Mailchimp API কীগুলির ফাঁসও তুলে ধরা হয়েছে, যেখানে প্রায় ১,৫০০টি কী জাভাস্ক্রিপ্ট কোডে হার্ড-কোড করা পাওয়া গেছে। Mailchimp API কীগুলি প্রায়শই ফিশিং এবং ডেটা চুরি আক্রমণের জন্য ব্যবহার করা হয়।
আক্রমণের ব্যবচ্ছেদ:
Common Crawl, একটি অলাভজনক ওয়েব ক্রলার ডেটাবেস, নিয়মিতভাবে ইন্টারনেট পৃষ্ঠাগুলি থেকে ডেটা ক্যাপচার এবং প্রকাশ করে। এটি এই ডেটাগুলিকে WARC (Web ARChive) ফাইলগুলিতে সংরক্ষণ করে, মূল HTML, জাভাস্ক্রিপ্ট কোড এবং সার্ভার প্রতিক্রিয়াগুলি সংরক্ষণ করে। এই ডেটাসেটগুলি প্রায়শই AI মডেলগুলিকে প্রশিক্ষণ দিতে ব্যবহৃত হয়। Truffle-এর গবেষণা একটি জটিল সমস্যা প্রকাশ করে: নিরাপত্তা দুর্বলতা ধারণকারী কর্পোরায় মডেলগুলিকে প্রশিক্ষণ দিলে মডেলগুলি সেই দুর্বলতাগুলিকে উত্তরাধিকার সূত্রে পেতে পারে। এমনকী যদি DeepSeek-এর মতো LLMগুলি প্রশিক্ষণ এবং স্থাপনার সময় অতিরিক্ত নিরাপত্তা ব্যবস্থা নিযুক্ত করে, তবুও প্রশিক্ষণ ডেটাতে হার্ড-কোড করা দুর্বলতার ব্যাপক উপস্থিতি মডেলগুলির জন্য এই ধরনের ‘অনিরাপদ’ অনুশীলনগুলিকে স্বাভাবিক করতে পারে।
হার্ড-কোডিং, একটি সাধারণ কিন্তু অনিরাপদ কোডিং অনুশীলন, একটি ব্যাপক সমস্যা। যদিও মূল কারণটি সহজ, ঝুঁকিগুলি গুরুতর: ডেটা লঙ্ঘন, পরিষেবা বিঘ্নিত হওয়া, সাপ্লাই চেইন আক্রমণ এবং LLM-গুলির উত্থানের সাথে একটি নতুন হুমকি - LLM হাইজ্যাকিং। পূর্বে আলোচনা করা হয়েছে, LLM হাইজ্যাকিং-এর মধ্যে রয়েছে আক্রমণকারীরা ক্লাউড-হোস্টেড LLM পরিষেবাগুলিকে কাজে লাগানোর জন্য চুরি করা শংসাপত্র ব্যবহার করে, যার ফলে ভুক্তভোগীদের জন্য যথেষ্ট আর্থিক ক্ষতি হয়।
VERIZON ইভেন্ট শ্রেণীবিভাগ: Miscellaneous Errors
MITRE ATT&CK ফ্রেমওয়ার্ক ম্যাপিং:
- T1596.005 (Search Open Technical Database - Scan Databases): আক্রমণকারীরা পাবলিক ক্রলার ডেটাবেস থেকে তথ্য সংগ্রহ করেছে।
- T1588.002 (Obtain Capabilities - Tool): আক্রমণকারীরা একটি সংবেদনশীল তথ্য আবিষ্কার টুল স্থাপন করেছে।
- T1586.003 (Compromise Accounts - Cloud Accounts): আক্রমণকারীরা পাবলিক ডেটাবেসে সংবেদনশীল শংসাপত্র খুঁজে বের করার জন্য সংবেদনশীল তথ্য আবিষ্কার টুল ব্যবহার করেছে।
- T1090.002 (Proxy - External Proxy): আক্রমণকারীরা একাধিক LLM অ্যাকাউন্টে অ্যাক্সেস পরিচালনা করতে OAI রিভার্স প্রক্সি সফ্টওয়্যার ব্যবহার করেছে।
- T1496 (Resource Hijacking): আক্রমণকারীরা LLM সংস্থান হাইজ্যাক করার জন্য একটি LLM ইনজেকশন আক্রমণ শুরু করেছে।
LLM ডেটা লিকেজ প্রতিরোধ: একটি বহুমুখী পদ্ধতি
বিশ্লেষিত ঘটনাগুলি LLM-সম্পর্কিত ডেটা লঙ্ঘন থেকে রক্ষা করার জন্য শক্তিশালী নিরাপত্তা ব্যবস্থার জরুরি প্রয়োজনের উপর আলোকপাত করে। প্রতিরোধমূলক কৌশলগুলির একটি শ্রেণীবিন্যাস এখানে দেওয়া হল, যা প্রাসঙ্গিক ঘটনাগুলির দ্বারা শ্রেণীবদ্ধ করা হয়েছে:
সরবরাহ শৃঙ্খল শক্তিশালী করা:
ঘটনা ২ (ক্ষতিকারক নির্ভরতা প্যাকেজ আক্রমণ) এবং ঘটনা ৫ (পাবলিক ডেটা লঙ্ঘন) এর ক্ষেত্রে প্রযোজ্য:
নির্ভরতা প্যাকেজগুলির বিশ্বস্ত যাচাইকরণ:
- স্বাক্ষরবিহীন বা সন্দেহজনকভাবে উৎসযুক্ত নির্ভরতা প্যাকেজগুলিকে আটকাতে PyPI/Sonatype Nexus Firewall-এর মতো সরঞ্জামগুলি ব্যবহার করুন।
- উন্নয়ন পরিবেশে পাবলিক রিপোজিটরিগুলি থেকে সরাসরি নির্ভরতা আনার অনুমতি দেবেন না। কর্পোরেট প্রাইভেট রিপোজিটরি প্রক্সি (যেমন Artifactory) ব্যবহার বাধ্যতামূলক করুন।
সরবরাহ শৃঙ্খল হুমকি পর্যবেক্ষণ:
- নির্ভরতা দুর্বলতাগুলি স্বয়ংক্রিয়ভাবে স্ক্যান করতে এবং উচ্চ-ঝুঁকিপূর্ণ উপাদানগুলির প্রবর্তন আটকাতে Dependabot/Snyk-এর মতো সরঞ্জামগুলিকে সংহত করুন।
- ওপেন-সোর্স প্যাকেজগুলির কোড স্বাক্ষর যাচাই করুন যাতে হ্যাশ মানটি অফিসিয়ালের সাথে মেলে।
ডেটা উৎস পরিষ্কার করা:
- প্রশিক্ষণ ডেটা সংগ্রহের সময়, নিয়মিত এক্সপ্রেশন এবং AI-ভিত্তিক রিডাকশন সরঞ্জাম ব্যবহার করে পাবলিক ডেটাসেট (যেমন Common Crawl) থেকে সংবেদনশীল তথ্য ফিল্টার করুন।
ন্যূনতম বিশেষাধিকার এবং অ্যাক্সেস নিয়ন্ত্রণ বাস্তবায়ন:
ঘটনা ১ (ডেটাবেস কনফিগারেশন ত্রুটি) এবং ঘটনা ৪ (তৃতীয় পক্ষের সরঞ্জাম ডেটা লঙ্ঘন) এর ক্ষেত্রে প্রযোজ্য:
- ডেটাবেস (যেমন ClickHouse) এর জন্য ডিফল্টরূপে দ্বি-মুখী TLS প্রমাণীকরণ সক্ষম করুন এবং পাবলিক নেটওয়ার্কগুলিতে ম্যানেজমেন্ট পোর্টগুলির এক্সপোজার প্রতিরোধ করুন।
- দীর্ঘমেয়াদী স্ট্যাটিক কী ধরে রাখা এড়িয়ে, অস্থায়ী শংসাপত্রগুলি গতিশীলভাবে বিতরণ করতে Vault/Boundary-এর মতো সমাধানগুলি ব্যবহার করুন।
- ন্যূনতম বিশেষাধিকারের নীতি মেনে চলুন, RBAC (Role-Based Access Control) এর মাধ্যমে ব্যবহারকারীর অ্যাক্সেসকে শুধুমাত্র প্রয়োজনীয় সংস্থানগুলিতে সীমাবদ্ধ করুন।
- তৃতীয় পক্ষের সরঞ্জামগুলিতে (যেমন OmniGPT) API কলগুলির জন্য IP হোয়াইটলিস্টিং এবং রেট সীমিতকরণ প্রয়োগ করুন।
সংবেদনশীল ডেটার সম্পূর্ণ জীবনচক্র সুরক্ষা নিশ্চিত করা:
ঘটনা ৩ (LLM হাইজ্যাকিং) এর ক্ষেত্রে প্রযোজ্য:
- ডেটা রিডাকশন এবং এনক্রিপশন: ব্যবহারকারীর ইনপুট এবং আউটপুট ডেটার জন্য ফিল্ড-লেভেল এনক্রিপশন (যেমন AES-GCM) প্রয়োগ করুন। লগগুলিতে সংবেদনশীল ক্ষেত্রগুলি মাস্ক করুন।
- LLM-গুলির ইন্টারেক্টিভ সামগ্রীর জন্য রিয়েল-টাইম রিডাকশন সক্ষম করুন (যেমন ক্রেডিট কার্ড নম্বর এবং ফোন নম্বরগুলিকে প্লেসহোল্ডার দিয়ে প্রতিস্থাপন করা)।
এই প্রতিরোধমূলক ব্যবস্থাগুলি, ক্রমাগত নিরাপত্তা পর্যবেক্ষণ এবং ঘটনা প্রতিক্রিয়া পরিকল্পনার সাথে মিলিত, LLM-গুলির ক্রমবর্ধমান ব্যবহারের সাথে সম্পর্কিত ঝুঁকিগুলি প্রশমিত করার জন্য অপরিহার্য। LLM নিরাপত্তার ‘অদৃশ্য যুদ্ধক্ষেত্র’ এই দ্রুত বিকশিত প্রযুক্তিগত ল্যান্ডস্কেপে সংবেদনশীল ডেটা রক্ষার জন্য অবিরাম সতর্কতা এবং একটি সক্রিয় পদ্ধতির দাবি রাখে।