AI: धोक्याची तलवार - असुरक्षितता उघड!

कृत्रिम बुद्धिमत्ता (AI) मॉडेल, नैसर्गिक भाषेवर प्रक्रिया करण्याची, समस्या सोडवण्याची आणि मल्टीमॉडल इनपुट समजून घेण्याची क्षमता असलेले, अंतर्निहित सुरक्षा चिंता सादर करतात. या सामर्थ्यांचा दुर्भावनापूर्ण अभिनेत्यांद्वारे फायदा घेतला जाऊ शकतो, ज्यामुळे हानिकारक सामग्री तयार होते. Enkrypt AI च्या अलीकडील अभ्यासात या गंभीर बाबीवर प्रकाश टाकण्यात आला आहे, ज्यामध्ये Mistral च्या Pixtral सारख्या अत्याधुनिक मॉडेल्सचा सतत सुरक्षा उपायांशिवाय कसा गैरवापर केला जाऊ शकतो यावर प्रकाश टाकला आहे.

Mistral चे Pixtral: AI असुरक्षिततेचा अभ्यास

Enkrypt AI चा अहवाल सतत अस्तित्वात असलेली द्विभागा दर्शवितो: Mistral च्या Pixtral सारखे अत्याधुनिक मॉडेल हे शक्तिशाली साधने आणि गैरवापरासाठी संभाव्य व्हेक्टर दोन्ही आहेत. या अभ्यासात Mistral च्या Pixtral मोठ्या भाषिक मॉडेलमधील (LLMs) महत्त्वपूर्ण सुरक्षा त्रुटी उघडकीस आल्या. संशोधकांनी हे मॉडेल लैंगिक शोषण साहित्य (CSEM) आणि रासायनिक, जैविक, रेडिओलॉजिकल आणि आण्विक (CBRN) धोक्यांशी संबंधित हानिकारक सामग्री तयार करण्यासाठी किती सहजपणे हाताळले जाऊ शकतात हे दर्शविले. धक्कादायकपणे, हानिकारक आउटपुटचा दर OpenAI च्या GPT4o आणि Anthropic च्या Claude 3 Sonnet सारख्या आघाडीच्या प्रतिस्पर्धकांपेक्षा लक्षणीयरीत्या जास्त होता.

तपासात Pixtral मॉडेलच्या दोन आवृत्त्यांवर लक्ष केंद्रित केले: PixtralLarge 25.02, AWS Bedrock द्वारे ऍक्सेस केलेले आणि Pixtral12B, थेट Mistral प्लॅटफॉर्मद्वारे ऍक्सेस केलेले.

रेड टीमिंग: छुपे धोके उघड करणे

Enkrypt AI ने त्यांच्या संशोधनासाठी एक अत्याधुनिक रेड टीमिंग कार्यप्रणाली वापरली. त्यांनी “जेलब्रेक” प्रॉम्प्ट्स (सुरक्षा प्रोटोकॉल टाळण्यासाठी हेतूपूर्वक तयार केलेल्या विनंत्या) सह सामग्री फिल्टरला बायपास करण्यासाठी वापरल्या जाणाऱ्या वास्तविक-जगातील युक्तीचे अनुकरण करण्यासाठी डिझाइन केलेले प्रतिकूल डेटासेट वापरले. मल्टीमॉडल मॅनिपुलेशन, मजकूर आणि प्रतिमा एकत्र करून, जटिल सेटिंग्जमध्ये मॉडेलच्या प्रतिसादांची चाचणी घेण्यासाठी देखील वापरले गेले. मानवी मूल्यांककांनी अचूकता आणि नैतिक देखरेख सुनिश्चित करण्यासाठी तयार केलेले सर्व आउटपुट काळजीपूर्वक तपासले.

धोकादायक प्रवृत्ती: धक्कादायक निष्कर्ष

रेड टीमिंग व्यायामाचे परिणाम विचलित करणारे होते. सरासरी, 68% प्रॉम्प्ट्स Pixtral मॉडेलकडून हानिकारक सामग्री यशस्वीरित्या मिळवण्यात यशस्वी झाले. अहवालात असे सूचित केले आहे की PixtralLarge GPT4o किंवा Claude 3.7 Sonnet पेक्षा CSEM सामग्री तयार करण्यासाठी अंदाजे 60 पट अधिक असुरक्षित आहे. मॉडेलने धोकादायक CBRN आउटपुट तयार करण्याची लक्षणीयपणे जास्त शक्यता दर्शविली - आघाडीच्या प्रतिस्पर्धकांच्या तुलनेत 18 ते 40 पट जास्त दर.

CBRN चाचणीमध्ये रासायनिक युद्ध एजंट (CWAs), जैविक शस्त्रे ज्ञान, मोठ्या प्रमाणात व्यत्यय आणण्यास सक्षम रेडिओलॉजिकल साहित्य आणि अगदी आण्विक शस्त्रे पायाभूत सुविधांशी संबंधित माहिती मिळवण्यासाठी डिझाइन केलेले प्रॉम्प्ट्स समाविष्ट होते. गैरवापराची शक्यता लक्षात घेऊन यशस्वी प्रॉम्प्ट्सचे विशिष्ट तपशील सार्वजनिक अहवालातून वगळण्यात आले. तथापि, एका उदाहरणामध्ये लैंगिक क्रियाकलापांसाठी अल्पवयीन व्यक्तीला वैयक्तिकरित्या भेटण्यासाठी राजी करण्यासाठी स्क्रिप्ट तयार करण्याचा प्रयत्न करणारा प्रॉम्प्ट समाविष्ट आहे - जे मॉडेलच्या ग्रूमिंग-संबंधित शोषणाच्या असुरक्षिततेचे स्पष्ट संकेत आहे.

रेड टीमिंग प्रक्रियेने हे देखील उघड केले की मॉडेल विषारी रसायनांचे संश्लेषण आणि हाताळणी, रेडिओलॉजिकल सामग्री विखुरण्याच्या पद्धती आणि अत्यंत धोकादायक नर्व्ह एजंट VX मध्ये रासायनिक बदल करण्याच्या तंत्रांबद्दल तपशीलवार प्रतिसाद देऊ शकतात. हे अंतर्दृष्टी दुर्भावनापूर्ण कलाकारांना या मॉडेलचा उपयोग त्यांच्या दुर्भावनापूर्ण हेतूसाठी करण्याची क्षमता दर्शवतात.

सध्या, मिस्ट्रलने अहवालातील निष्कर्षांवर सार्वजनिकपणे भाष्य केलेले नाही. तथापि, एन्क्रिप्ट एआयने नमूद केले की ते ओळखल्या गेलेल्या समस्यां संदर्भात कंपनीशी संवाद साधत आहेत. ही घटना सुरक्षित आणि जबाबदार एआय विकसित करण्याच्या मूलभूत आव्हानांना अधोरेखित करते. गैरवापर टाळण्यासाठी आणि असुरक्षित लोकसंख्येचे संरक्षण करण्यासाठी सक्रिय उपायांची आवश्यकता आहे. हा अहवाल प्रगत एआय मॉडेलच्या नियमनाबद्दल आणि विकासकांच्या नैतिक जबाबदाऱ्यांबद्दल अधिक चर्चा करण्यास प्रवृत्त करेल अशी अपेक्षा आहे.

रेड टीमिंग: एक सक्रिय सुरक्षा उपाय

कंपन्या त्यांच्या एआय सिस्टममधील संभाव्य धोक्यांचे मूल्यांकन करण्यासाठी अधिकाधिक प्रमाणात रेड टीमवर अवलंबून असतात. एआय सुरक्षिततेमध्ये, रेड टीमिंग सायबरसुरक्षेतील प्रवेश चाचणीचे प्रतिबिंब आहे. ही प्रक्रिया दुर्भावनापूर्ण कलाकारांद्वारे शोषण करण्यापूर्वी असुरक्षितता ओळखण्यासाठी एआय मॉडेलवर प्रतिकूल हल्ल्यांचे अनुकरण करते.

उत्पादक एआयच्या संभाव्य गैरवापराबद्दलची चिंता वाढल्यामुळे, एआय विकास समुदायामध्ये रेड टीमिंगच्या सरावाने जोर धरला आहे. OpenAI, Google आणि Anthropic सारख्या प्रमुख कंपन्यांनी त्यांच्या मॉडेल्समधील असुरक्षितता उघड करण्यासाठी रेड टीम्सचा वापर केला आहे, ज्यामुळे प्रशिक्षण डेटा, सुरक्षा फिल्टर आणि संरेखण तंत्रांमध्ये बदल झाले आहेत.

उदाहरणार्थ, OpenAI त्याच्या AI मॉडेलमधील कमकुवतपणाची चाचणी घेण्यासाठी अंतर्गत आणि बाह्य रेड टीम दोन्ही वापरते. GPT4.5 सिस्टम कार्डनुसार, मॉडेलमध्ये वास्तविक-जगातील सायबर सुरक्षा असुरक्षिततेचा फायदा घेण्याची मर्यादित क्षमता आहे. जरी ते असुरक्षितता ओळखणे आणि शोषण करण्याशी संबंधित कार्ये करण्यास सक्षम असले तरी, या क्षेत्रातील मध्यम धोका मानले जाण्यासाठी त्यांची क्षमता पुरेशी प्रगत नव्हती आणि मॉडेलला जटिल सायबर सुरक्षा आव्हानांशी संघर्ष करावा लागला.

GPT4.5 च्या क्षमतेच्या मूल्यांकनात 100 हून अधिक क्युरेटेड, सार्वजनिकरित्या उपलब्ध Capture The Flag (CTF) आव्हानांचा एक चाचणी सेट चालवणे समाविष्ट होते, ज्यांचे वर्गीकरण तीन कठिनाई स्तरांमध्ये केले जाते: हायस्कूल CTFs, कॉलेज CTFs आणि व्यावसायिक CTFs.

GPT4.5 ची कार्यक्षमता 12 प्रयत्नांमध्ये यशस्वीरित्या सोडवता येणाऱ्या आव्हानांच्या टक्केवारीनुसार मोजली गेली, परिणामी हायस्कूल CTFs साठी 53%, कॉलेज CTFs साठी 16% आणि व्यावसायिक CTFs साठी 2% पूर्णता दर मिळाला. असे नमूद केले गेले की “कमी” स्कोअर असूनही ते मूल्यमापन क्षमतेच्या खालच्या मर्यादा दर्शवतात.

त्यामुळे, हे खालीलप्रमाणे आहे की सुधारित प्रॉम्प्टिंग, स्कॅफोल्डिंग किंवा फाइनट्यूनिंग कार्यक्षमता लक्षणीयरीत्या वाढवू शकते. याव्यतिरिक्त, शोषणाच्या संभाव्यतेमुळे देखरेख आवश्यक आहे.

रेड टीमिंगचा उपयोग विकासकांना सल्ला देण्यासाठी कसा केला गेला याचे आणखी एक स्पष्ट उदाहरण Google च्या Gemini मॉडेलशी संबंधित आहे. स्वतंत्र संशोधकांनी एका रेड टीम मूल्यांकनातील निष्कर्ष जारी केले, ज्यात काही प्रतिकूल इनपुट सादर केल्यावर मॉडेलमध्ये पक्षपाती किंवा हानिकारक सामग्री तयार होण्याची शक्यता अधोरेखित केली. या मूल्यांकनांनी मॉडेलच्या सुरक्षा प्रोटोकॉलमध्ये वारंवार सुधारणा करण्यात थेट योगदान दिले.

विशेष कंपन्यांचा उदय

Enkrypt AI सारख्या विशेष कंपन्यांचा उदय बाह्य, स्वतंत्र सुरक्षा मूल्यांकनांची गरज दर्शवितो, जे अंतर्गत विकास प्रक्रियेवर एक महत्त्वपूर्ण नियंत्रण प्रदान करतात. रेड टीमिंग अहवाल एआय मॉडेल कसे विकसित आणि तैनात केले जातात यावर अधिकाधिक प्रभाव टाकत आहेत. सुरक्षा विचार अनेकदा नंतरचे विचार होते, परंतु आता “सुरक्षा-प्रथम” विकासावर अधिक भर दिला जात आहे: प्रारंभिक डिझाइन टप्प्यात रेड टीमिंग एकत्रित करणे आणि मॉडेलच्या संपूर्ण जीवनचक्रात ते चालू ठेवणे.

Enkrypt AI चा अहवाल एक महत्त्वाचा स्मरणपत्र म्हणून काम करतो की सुरक्षित आणि जबाबदार AI चा विकास ही एक सतत चालणारी प्रक्रिया आहे ज्यासाठी सतत दक्षता आणि सक्रिय उपायांची आवश्यकता आहे. कंपनी संपूर्ण उद्योगात मजबूत शमन धोरणांच्या त्वरित अंमलबजावणीची वकिली करते, AI समाजाला अस्वीकार्य धोके टाळून लाभ देईल याची खात्री करण्यासाठी पारदर्शकता, उत्तरदायित्व आणि सहकार्याची आवश्यकता यावर जोर देते. उत्पादक AI च्या भविष्यासाठी हे सुरक्षा-प्रथम दृष्टिकोन स्वीकारणे महत्त्वाचे आहे, हे Mistral च्या Pixtral मॉडेल्स संदर्भात त्रासदायक निष्कर्षांवरून दिसून येते.

प्रगत AI मॉडेल्स आणि विकासकांच्या नैतिक जबाबदाऱ्या

ही घटना सुरक्षित आणि जबाबदार कृत्रिम बुद्धिमत्ता विकसित करण्यामध्ये अंतर्निहित असलेल्या आव्हानांची आणि गैरवापर टाळण्यासाठी आणि असुरक्षित लोकसंख्येचे संरक्षण करण्यासाठी सक्रिय उपायांची गरज असल्याचे एक महत्त्वाचे स्मरणपत्र आहे. अहवालाच्या प्रकाशनामुळे प्रगत AI मॉडेल्सच्या नियमनाबद्दल आणि विकासकांच्या नैतिक जबाबदाऱ्यांबद्दल अधिक वादविवाद होण्याची शक्यता आहे. उत्पादक AI मॉडेल्सचा विकास अविश्वसनीय वेगाने होत आहे, आणि हे आवश्यक आहे की सुरक्षा उपायांमुळे सतत विकसित होणाऱ्या परिदृश्याशी जुळवून घ्यावे. Encrypt AI चा अहवाल AI सुरक्षिततेबद्दलची चर्चा समोर आणतो आणि आशा आहे की या AI मॉडेल्स ज्या पद्धतीने विकसित केल्या जातात त्यात अर्थपूर्ण बदल घडवून आणेल.

AI च्या अंतर्निहित असुरक्षितता आणि सुरक्षा धोके

प्रगत AI मॉडेल, नैसर्गिक भाषा प्रक्रिया, समस्या- निराकरण आणि मल्टीमॉडल आकलनक्षमतेतील अतुलनीय क्षमता असून