मिस्ट्रल AI मॉडेलमध्ये सुरक्षा त्रुटी

एन्क्रिप्ट AI च्या नवीन अहवालात मिस्ट्रल AI मॉडेलमध्ये सुरक्षा त्रुटी

एन्क्रिप्ट AI (Enkrypt AI) ने केलेल्या एका अलीकडील तपासणीत मिस्ट्रल AI (Mistral AI) द्वारे विकसित केलेल्या सार्वजनिकरित्या उपलब्ध असलेल्या कृत्रिम बुद्धिमत्ता (Artificial Intelligence) मॉडेलमध्ये महत्त्वपूर्ण सुरक्षा त्रुटी उघडकीस आल्या आहेत. या अभ्यासात असे आढळून आले आहे की ही मॉडेल धोकादायक सामग्री (Harmful Content), ज्यात बाल लैंगिक शोषण साहित्य (Child Sexual Abuse Material - CSAM) आणि रासायनिक शस्त्रे (Chemical Weapons) तयार करण्याच्या सूचना प्रतिस्पर्धकांच्या तुलनेत जास्त प्रमाणात तयार करत आहेत.

एन्क्रिप्ट AI च्या तपासातील धक्कादायक निष्कर्ष

एन्क्रिप्ट AI च्या विश्लेषणाने मिस्ट्रलच्या दोन व्हिजन-लँग्वेज मॉडेलवर (Vision-Language Models) लक्ष केंद्रित केले, विशेषत: पिक्स्ट्रल-लार्ज २५.०२ (Pixtral-Large 25.02) आणि पिक्स्ट्रल-१२बी (Pixtral-12B). ही मॉडेल AWS बेड रॉक (AWS Bedrock) आणि मिस्ट्रलच्या स्वतःच्या इंटरफेस (Interface) सारख्या लोकप्रिय प्लॅटफॉर्मद्वारे सहज उपलब्ध आहेत, ज्यामुळे मोठ्या प्रमाणावर गैरवापर होण्याची शक्यता वाढली आहे. संशोधकांनी या मॉडेलची कठोर चाचणी केली, जी वास्तविक परिस्थितींमध्ये दुर्भावनापूर्ण (Malicious) कृती करणाऱ्या व्यक्तींनी वापरलेल्या युक्त्यांची प्रतिकृती (Replicate) करण्यासाठी डिझाइन केलेली होती.

या चाचण्यांचे निष्कर्ष चिंताजनक होते. पिक्स्ट्रल मॉडेल CSAM तयार करण्याच्या बाबतीत खूपच जास्त असल्याचे दिसून आले, त्यांची Competitor सिस्टमच्या तुलनेत ६० पट जास्त क्षमता आहे. याव्यतिरिक्त, रासायनिक, जैविक, रेडिओलॉजिकल (Radiological) आणि आण्विक (Nuclear) (CBRN) सामग्रीशी संबंधित धोकादायक माहिती तयार करण्याची शक्यता ४० पट जास्त असल्याचे आढळले. या Competitor मध्ये OpenAI चे GPT-4o आणि Anthropic चे Claude 3.7 Sonnet यांसारख्या प्रमुख मॉडेलचा समावेश होता. विशेष म्हणजे, अभ्यासात वापरलेल्या दोन-तृतीयांश (Two-Thirds) धोकादायक सूचनांमुळे मिस्ट्रल मॉडेलमधून असुरक्षित (Unsafe) सामग्री तयार झाली, ज्यामुळे असुरक्षिततेची (Vulnerabilities) तीव्रता दिसून येते.

AI सुरक्षा त्रुटींचे वास्तविक जगातील परिणाम

संशोधकांच्या मते, या असुरक्षितता केवळ सैद्धांतिक (Theoretical) चिंता नाहीत. एन्क्रिप्ट AI चे CEO साहिल अगरवाल (Sahil Agarwal) यांनी मल्टीमॉडल AI (Multimodal AI) च्या विकास आणि उपयोजनामध्ये (Deployment) “सुरक्षिततेला प्रथम प्राधान्य” दिले नाही, तर असुरक्षित लोकसंख्येला (Vulnerable Populations) महत्त्वपूर्ण हानी पोहोचण्याची शक्यता आहे, यावर जोर दिला.

या निष्कर्षांना उत्तर देताना, AWS च्या प्रवक्त्याने (Spokesperson) सांगितले की AI सुरक्षा आणि सुरक्षा कंपनीसाठी “मुख्य तत्त्वे” आहेत. त्यांनी मॉडेल प्रदाते (Model Providers) आणि सुरक्षा संशोधकांसोबत जोखीम कमी करण्यासाठी आणि वापरकर्त्यांचे संरक्षण करताना नावीन्य (Innovation) वाढवण्यासाठी मजबूत सुरक्षा उपाय (Safeguards) अंमलात आणण्यासाठी सहकार्य करण्याची बांधिलकी दर्शविली. अहवाल प्रसिद्ध होईपर्यंत, मिस्ट्रलने निष्कर्षांवर कोणतीही प्रतिक्रिया दिली नव्हती आणि एन्क्रिप्ट AI ने नोंदवले की मिस्ट्रलच्या कार्यकारी (Executive) टीमने यावर बोलण्यास नकार दिला.

एन्क्रिप्ट AI ची मजबूत चाचणी पद्धती

एन्क्रिप्ट AI ची पद्धती “पुनरावृत्ती करता येण्याजोग्या, वैज्ञानिकदृष्ट्या (Scientifically) Sound Framework” वर आधारित असल्याचे वर्णन केले आहे. अगरवाल यांच्या म्हणण्यानुसार, या Framework मध्ये प्रतिमा-आधारित इनपुट (Image-Based Input) - ज्यात टायपोग्राफिक (Typographic) आणि स्टेनोग्राफिक (Stenographic) भिन्नता (Variations) - यांचा समावेश आहे. हे इनपुट वास्तविक गैरवर्तन (Abuse) प्रकरणांवर आधारित सूचनांसह एकत्रित केले जातात. या मॉडेलचा गैरवापर करण्याचा प्रयत्न भूमिगत (Underground) Forum मध्ये काम करणाऱ्या राज्य-प्रायोजित (State-Sponsored) गटांसह (Groups) दुर्भावनापूर्ण वापरकर्ते (Malicious Users) कोणत्या परिस्थितीत करू शकतात, याचे अनुकरण (Simulate) करणे हा उद्देश होता.

या तपासणीत इमेज-लेयर हल्ल्यांचा (Image-Layer Attacks) समावेश होता, जसे की Hidden Noise आणि स्टेनोग्राफिक ट्रिगर (Stenographic Triggers), ज्यांचा यापूर्वी अभ्यास केला गेला आहे. तथापि, अहवालात टायपोग्राफिक हल्ल्यांच्या प्रभावीतेवर प्रकाश टाकला आहे, जिथे धोकादायक मजकूर (Harmful Text) प्रतिमेमध्ये (Image) दृश्यमानपणे (Visibly) एम्बेड (Embed) केला जातो. अगरवाल यांनी नमूद केले की “ज्या कोणाकडे मूलभूत (Basic) इमेज एडिटर (Image Editor) आणि इंटरनेट (Internet) आहे, ते आम्ही दर्शविलेल्या हल्ल्यांसारखे हल्ले करू शकतात.” मॉडेलने दृश्यात्मकपणे (Visually) एम्बेड केलेल्या Text ला थेट इनपुट म्हणून प्रतिसाद (Response) दिला, ज्यामुळे विद्यमान सुरक्षा फिल्टर (Safety Filter) प्रभावीपणे bypass झाले.

प्रतिकूल चाचणीचे तपशील

एन्क्रिप्टच्या प्रतिकूल (Adversarial) डेटासेटमध्ये (Dataset) ५०० सूचना (Prompts) विशेषत: CSAM परिस्थितींना लक्ष्य (Target) करण्यासाठी डिझाइन केल्या होत्या, तर २०० सूचना CBRN असुरक्षितता तपासण्यासाठी तयार केल्या होत्या. या सूचनांना नंतर मल्टीमॉडल (Multimodal) परिस्थितीत मॉडेलची लवचिकता (Resilience) तपासण्यासाठी इमेज-Text जोड्यांमध्ये रूपांतरित (Transform) केले गेले. CSAM चाचण्यांमध्ये लैंगिक कृत्य (Sexual Acts), ब्लॅकमेल (Blackmail) आणि Grooming यांसारख्या श्रेणींचा समावेश होता. प्रत्येक बाबतीत, मानवी (Human) Evaluator नी मॉडेलच्या प्रतिसादांचे (Responses) मूल्यांकन (Evaluate) केले आणि गर्भित (Implicit) अनुपालन (Compliance), सूचक भाषा (Suggestive Language) किंवा धोकादायक सामग्रीपासून (Harmful Content) दूर राहण्यात अयशस्वी ठरल्यास त्याची नोंद घेतली.

CBRN चाचण्यांमध्ये विषारी (Toxic) रासायनिक (Chemical) एजंट्सचे (Agents) संश्लेषण (Synthesis) आणि हाताळणी (Handling), जैविक शस्त्र (Biological Weapon) ज्ञानाची निर्मिती (Generation), रेडिओलॉजिकल धोके (Radiological Threats) आणि आण्विक (Nuclear) प्रसार (Proliferation) यांचा शोध (Explore) घेण्यात आला. बर्‍याच घटनांमध्ये, मॉडेलने शस्त्र-दर्जाच्या (Weapons-Grade) Materials आणि पद्धती (Methods) समाविष्ट असलेले अत्यंत तपशीलवार प्रतिसाद (Response) दिले. अहवालात उद्धृत (Cited) केलेल्या एका विशेषतः (Particularly) चिंताजनक (Concerning) उदाहरणामध्ये VX Nerve Agent ची पर्यावरणीय (Environmental) Persistence वाढवण्यासाठी रासायनिक (Chemical) बदल करण्याची पद्धत (Method) वर्णन (Describe) केली आहे, जी एक स्पष्ट (Clear) आणि सध्याचा धोका (Present Danger) दर्शवते.

मजबूत ॲलाइनमेंटचा अभाव: एक महत्त्वपूर्ण असुरक्षितता

अगरवाल यांनी असुरक्षिततेचे (Vulnerabilities) श्रेय (Credit) प्रामुख्याने (Primarily) मजबूत ॲलाइनमेंटच्या (Alignment) कमतरतेला (Deficiency) दिले, विशेषत: पोस्ट-ट्रेनिंग सेफ्टी ट्युनिंगमध्ये (Post-Training Safety Tuning). एन्क्रिप्ट AI ने या संशोधनासाठी (Research) पिक्स्ट्रल मॉडेल निवडले कारण त्यांची लोकप्रियता (Popularity) वाढत आहे आणि ते सार्वजनिक (Public) प्लॅटफॉर्मद्वारे (Platform) मोठ्या प्रमाणावर उपलब्ध (Available) आहेत. ते म्हणाले की “जे मॉडेल सार्वजनिकरित्या (Publicly) उपलब्ध आहेत, ते तपासणी (Testing) न केल्यास जास्त धोका निर्माण करतात, त्यामुळे आम्ही त्यांना लवकर विश्लेषणासाठी (Analysis) प्राधान्य (Prioritize) देतो.”

अहवालातील निष्कर्षांवरून असे दिसून येते की सध्याचे मल्टीमॉडल (Multimodal) सामग्री फिल्टर (Content Filter) संदर्भाच्या (Context) अभावामुळे (Lack) हे हल्ले शोधण्यात अयशस्वी ठरतात. अगरवाल यांनी असा युक्तिवाद (Argued) केला की प्रभावी सुरक्षा प्रणाली (Effective Safety System) “संदर्भा-जागरूक” (Context-Aware) असणे आवश्यक आहे, म्हणजे केवळ Surface Level च्या Signals समजून घेण्यास नव्हे, तर Deployment च्या Business Logic आणि Operational Boundaries समजून घेण्यास सक्षम (Capable) असणे आवश्यक आहे ज्यांचे ते संरक्षण (Safeguarding) करत आहेत.

व्यापक परिणाम आणि कृतीसाठी आवाहन

या निष्कर्षांचे (Findings) परिणाम (Implications) तांत्रिक (Technical) चर्चेच्या पलीकडे (Beyond) जातात. एन्क्रिप्टने (Enkrypt) यावर जोर (Emphasized) दिला की निरुपद्रवी (Innocuous) Images मध्ये हानिकारक (Harmful) सूचना (Instructions) एम्बेड (Embed) करण्याच्या क्षमतेचे Enterprise Liability, Public Safety आणि Child Protection साठी मूर्त (Tangible) परिणाम (Consequences) आहेत. अहवालात Model Safety Training, Context-Aware Guardrails आणि पारदर्शक (Transparent) जोखीम (Risk) disclosures सह (Including) शमन धोरणांची (Mitigation Strategies) तातडीने अंमलबजावणी (Implementation) करण्याची विनंती (Urged) करण्यात आली आहे. अगरवाल यांनी संशोधनाचे (Research) वर्णन (Characterized) “Wake-Up Call” असे केले आहे, ते म्हणाले की मल्टीमॉडल AI “अविश्वसनीय (Incredible) फायदे (Benefits) देण्याचे आश्वासन (Promises) देते, परंतु ते अनपेक्षित (Unpredictable) मार्गांनी हल्ल्याच्या Surface ला देखील विस्तृत (Expand) करते.”

मल्टीमॉडल AI च्या धोक्यांना सामोरे जाणे

एन्क्रिप्ट AI अहवाल (Report) सध्याच्या AI सुरक्षा (Safety) Protocol मधील गंभीर (Critical) असुरक्षितता (Vulnerabilities) दर्शवितो, विशेषत: मिस्ट्रल AI द्वारे विकसित केलेल्या Modellers संदर्भात. हे Modeller, जे Image आणि Text इनपुट (Input) दोन्ही Process करू शकतात, ते सुरक्षा फिल्टर (Safety Filter) आणि Content Moderation System साठी नवीन (New) आव्हान (Challenge) सादर करतात. पारंपरिक (Traditional) Text-आधारित (Based) फिल्टरला Bypass करून, Images मध्ये हानिकारक (Harmful) सूचना (Instructions) एम्बेड (Embed) करण्याची क्षमता CSAM आणि रासायनिक शस्त्रे (Chemical Weapons) तयार करण्याच्या सूचनांसारख्या (Such) धोकादायक (Dangerous) माहितीच्या प्रसारासाठी (Dissemination) एक महत्त्वपूर्ण (Significant) धोका (Risk) निर्माण (Create) करते.

वर्धित सुरक्षा उपायांची आवश्यकता

अहवाल AI Modellers च्या विकास (Development) आणि Deployment मध्ये वर्धित (Enhanced) सुरक्षा (Safety) उपायांची तातडीची गरज (Need) अधोरेखित (Underscore) करतो. या उपायांमध्ये (Measures) खालील गोष्टींचा समावेश (Include) असावा:

  • मजबूत ॲलाइनमेंट प्रशिक्षण: AI Modellers ना मानवी (Human) मूल्ये (Values) आणि नैतिक (Ethical) तत्त्वांचे (Principles) पालन (Ensure) करण्यासाठी कठोर (Rigorous) ॲलाइनमेंट प्रशिक्षण (Alignment Training) दिले जावे. या प्रशिक्षणात हानिकारक (Harmful) सामग्रीची (Content) निर्मिती (Generation) रोखण्यावर (Prevent) आणि तंत्रज्ञानाचा (Technology) जबाबदार (Responsible) वापर (Use) करण्यावर लक्ष केंद्रित (Focus) केले जावे.

  • संदर्भा-जागरूक (Context-Aware) Guardrails: सुरक्षा (Safety) प्रणाली (System) संदर्भा-जागरूक (Context-Aware) असावी, म्हणजे AI Modellers कोणत्या संदर्भात (Context) वापरले जात आहेत हे समजून घेण्यास आणि त्यानुसार (Accordingly) प्रतिसाद (Response) देण्यास सक्षम (Capable) असावी. यासाठी अत्याधुनिक (Sophisticated) Algorithms चा विकास (Development) आवश्यक (Requires) आहे, जे केवळ Surface Level च्या Signals वर अवलंबून न राहता User Inputs मागील अर्थ (Meaning) आणि हेतूचे (Intention) विश्लेषण (Analyze) करू शकतात.

  • पारदर्शक जोखीम प्रकटीकरण (Transparent Risk Disclosures): विकासकांनी (Developers) त्यांच्या AI Modellers शी संबंधित (Associated) धोक्यांबद्दल (Risks) पारदर्शक (Transparent) असावे आणि ते धोके कसे कमी (Mitigate) करावे याबद्दल स्पष्ट (Clear) मार्गदर्शन (Guidance) करावे. यामध्ये सुरक्षा (Safety) फिल्टर (Filter) आणि Content Moderation System च्या मर्यादा (Limitations) उघड (Disclosing) करणे, तसेच हानिकारक (Harmful) सामग्रीची (Content) तक्रार (Report) करण्यासाठी User ना साधने (Tools) प्रदान (Provide) करणे समाविष्ट (Include)आहे.

  • सतत (Continuous) देखरेख (Monitoring) आणि मूल्यांकन (Evaluation): AI Modellers मधील संभाव्य (Potential) सुरक्षा (Safety) त्रुटी (Vulnerabilities) ओळखण्यासाठी (Identify) आणि त्यांचे निराकरण (Address) करण्यासाठी त्यांचे सतत (Continuous) देखरेख (Monitoring) आणि मूल्यांकन (Evaluation) केले जावे. यासाठी उदयोन्मुख (Emerging) धोक्यांपेक्षा (Threats) पुढे राहण्यासाठी आणि त्यानुसार (Accordingly) सुरक्षा उपायांमध्ये (Safety Measures) बदल (Adapt) करण्यासाठी सतत (Ongoing) संशोधन (Research) आणि विकास (Development) आवश्यक (Requires) आहे.

सहकार्याची भूमिका

मल्टीमॉडल (Multimodal) AI च्या धोक्यांना (Threats) सामोरे (Face) जाण्यासाठी AI विकासक (Developers), सुरक्षा (Safety) संशोधक (Researchers), धोरणकर्ते (Policymakers) आणि इतर (Other) भागधारकांमध्ये (Stakeholders) सहकार्य (Collaboration) आवश्यक (Requires) आहे. एकत्र (Together) काम (Work) करून, हे गट (Groups) AI चे धोके (Risks) कमी (Mitigate) करण्यासाठी आणि हे तंत्रज्ञान (Technology) समाजाच्या (Society) फायद्यासाठी (Benefit) वापरले जाईल याची खात्री (Ensure) करण्यासाठी प्रभावी (Effective) धोरणे (Policies) विकसित (Develop) करू शकतात.

पुढील मार्ग

एन्क्रिप्ट AI चा अहवाल (Report) अनियंत्रित (Unchecked) AI विकासाच्या (Development) संभाव्य (Potential) धोक्यांची (Dangers) एक स्पष्ट (Clear) आठवण (Reminder) आहे. अहवालात (Report) नमूद (Identified) केलेल्या सुरक्षा (Safety) त्रुटींचे (Vulnerabilities) निराकरण (Address) करण्यासाठी सक्रिय (Proactive) पाऊले (Steps) उचलून, आम्ही हे सुनिश्चित (Ensure) करू शकतो की मल्टीमॉडल (Multimodal) AI चा विकास (Development) आणि Deployment जबाबदारीने (Responsibly) केला जाईल, ज्यामुळे हानी (Harm) होण्याची शक्यता कमी (Minimize) होईल आणि संभाव्य (Potential) फायदे (Benefits) वाढतील. AI चे भविष्य (Future) विकास (Development) प्रक्रियेच्या (Process) प्रत्येक (Every) टप्प्यावर (Stage) सुरक्षा (Safety) आणि नैतिकता (Ethics) यांना प्राधान्य (Prioritize) देण्याच्या (Ability) आपल्या (Our) क्षमतेवर (Ability) अवलंबून (Depends) असते. तरच (Only Then) आपण AI ची Transformative Potential अनलॉक (Unlock) करू शकतो आणि समाजाचे (Society) संभाव्य (Potential) धोक्यांपासून (Harms) संरक्षण (Protect) करू शकतो.