कृत्रिम बुद्धिमत्ता (artificial intelligence) डीपफेक प्रतिबंधक धोरणे
डीपफेक (deepfake) तंत्रज्ञान झपाट्याने विकसित होत आहे, ज्यामुळे सामाजिक विश्वास आणि माहितीच्या सुरक्षिततेला अभूतपूर्व धोका निर्माण झाला आहे. डीपफेकच्या प्रसाराला प्रतिबंध करण्याची क्षमता डीपफेक तंत्रज्ञानाच्या संपूर्ण आकलनावर अवलंबून असते. त्यामुळे, कृत्रिम बुद्धिमत्ता डीपफेक तंत्रज्ञान कसे रोखायचे यावर या लेखात चर्चा केली जाईल.
डीपफेकचे इंजिन: तांत्रिक विश्लेषण
डीपफेकच्या केंद्रस्थानी जनरेटिव्ह्ह (generative) मॉडेल (model) आहे, हे एक प्रकारचे कृत्रिम बुद्धिमत्ता आहे, जे मोठ्या डेटासेटमधून (dataset) शिकून वास्तववादी प्रतिमा, व्हिडिओ आणि ऑडिओ (audio) तयार करण्यास सक्षम आहे. अलीकडच्या वर्षांत, जनरेटिव्ह्ह ऍडव्हर्सरियल नेटवर्क (GAN) विकसित होऊन डिफ्युजन मॉडेल (diffusion model) बनले आहे, जे अधिक शक्तिशाली आहे. त्यामुळे, एक मजबूत प्रतिबंधक फ्रेमवर्क (framework) तयार करण्यासाठी या जनरेटिव्ह्ह इंजिनांचे तांत्रिक विश्लेषण करणे आवश्यक आहे.
प्रतिस्पर्धी खेळ: जनरेटिव्ह्ह ऍडव्हर्सरियल नेटवर्क (GAN)
GAN मध्ये दोन न्यूरल नेटवर्क (neural network) असतात: जनरेटर (generator) आणि डिस्क्रिमिनेटर (discriminator). जनरेटरचे कार्य वास्तविक जगातील डेटाचे (data) अनुकरण करणारा सिंथेटिक डेटा (synthetic data) तयार करणे आहे. हे यादृच्छिक इनपुटपासून (random input) सुरू होते आणि त्याला सुसंगत आउटपुटमध्ये (output) रूपांतरित करण्याचा प्रयत्न करते. दुसरीकडे, डिस्क्रिमिनेटर एक वर्गीकरणकर्ता (classifier) म्हणून कार्य करते, डेटा वास्तविक आहे की बनावट हे निर्धारित करण्यासाठी त्याचे मूल्यांकन करते.
प्रशिक्षण प्रक्रियेत दोन्ही नेटवर्क दरम्यान सतत अभिप्राय चक्र (feedback loop) समाविष्ट असतो. जनरेटर एक बनावट प्रतिमा तयार करते आणि ती डिस्क्रिमिनेटरला पाठवते. डिस्क्रिमिनेटरला प्रशिक्षण डेटासेटमधील (training dataset) वास्तविक प्रतिमा देखील मिळतात. त्यानंतर, डिस्क्रिमिनेटर प्रत्येक प्रतिमेची सत्यता भाकीत करते. जर डिस्क्रिमिनेटरने जनरेटरचे आउटपुट बनावट म्हणून योग्यरित्या ओळखले, तर ते अभिप्राय प्रदान करते. जनरेटर बॅकप्रोपेगेशनद्वारे (backpropagation) हा अभिप्राय त्याच्या अंतर्गत पॅरामीटर्समध्ये (parameters) समायोजित करण्यासाठी वापरते, जेणेकरून पुढील पुनरावृत्तीमध्ये अधिक आकर्षक प्रतिमा तयार करता येतील. त्याच वेळी, डिस्क्रिमिनेटर बनावट वस्तू शोधण्यासाठी त्याचे पॅरामीटर्स समायोजित करते. ही प्रतिस्पर्धी स्पर्धा सिस्टम (system) एका संतुलित बिंदूपर्यंत पोहोचत नाही तोपर्यंत सुरू राहते.
GAN ने सिंथेटिक मीडिया (synthetic media) प्रभावीपणे तयार करण्यास सक्षम असल्याचे सिद्ध केले आहे आणि अनेक प्रभावी डीपफेक मॉडेलसाठी आधार तयार केला आहे. डीप कॉन्व्होल्युशनल GAN (DCGAN) सारख्या आर्किटेक्चरने (architecture) पूलिंग लेयर्स (pooling layers) बदलून आणि बॅच नॉर्मलायझेशनचा (batch normalization) वापर करून स्थिरता सुधारली आहे. NVIDIA च्या StyleGAN आणि त्याचे उत्तराधिकारी StyleGAN2 आणि StyleGAN3 ने चेहऱ्याच्या निर्मितीमध्ये अभूतपूर्व फोटोवास्तविकता प्राप्त केली आहे. CycleGAN सारख्या इतर प्रकारांनी शैली हस्तांतरण कार्ये (style transfer tasks) साध्य केली आहेत आणि त्यामुळे Face App सारख्या ऍप्लिकेशन्समध्ये (applications) लोकांचे स्वरूप बदलण्यासाठी मोठ्या प्रमाणावर वापरले जातात.
GAN शक्तिशाली असले तरी, त्यांना प्रशिक्षित करणे कठीण आहे. जनरेटर आणि डिस्क्रिमिनेटरमधील नाजूक संतुलन सहजपणे बिघडू शकते, ज्यामुळे प्रशिक्षण अस्थिर होते. जनरेटर डिस्क्रिमिनेटरमधील कमकुवतपणा शोधतो आणि केवळ मर्यादित प्रकारचे आउटपुट (ज्याला ते डिस्क्रिमिनेटरला फसवू शकतात) तयार करून त्याचा फायदा घेतो, तेव्हा मोड कोसळतो. या आंतरिक समस्या आणि त्यांच्यामुळे तयार होणारे सूक्ष्म आर्टिफॅक्ट्स (artifacts) लवकर डीपफेक डिटेक्शन सिस्टमचे (detection system) मुख्य लक्ष्य बनले.
अराजकतेचे उलटीकरण: डिफ्युजन मॉडेल
जननक्षम कृत्रिम बुद्धिमत्तेतील नवीनतम तंत्रज्ञान डिफ्युजन मॉडेलकडे वळले आहे. डिफ्युजन मॉडेल हे GAN च्या प्रतिस्पर्धी स्पर्धेच्या तत्त्वांपेक्षा मूलभूतपणे वेगळ्या तत्त्वावर कार्य करतात. ते संभाव्य जनरेटिव्ह्ह मॉडेल आहेत, जे हळूहळू बिघडवण्याची प्रक्रिया उलटवून अत्यंत उच्च-गुणवत्तेचा आणि विविध डेटा तयार करू शकतात.
डिफ्युजन मॉडेलची यंत्रणा एक द्वि-चरण प्रक्रिया आहे:
फॉरवर्ड डिफ्युजन प्रक्रिया: या टप्प्यात ठराविक वेळेत (उदाहरणार्थ, T पायऱ्या) प्रतिमेमध्ये थोडा-थोडा गॉसियन आवाज (Gaussian noise) टाकला जातो. ही मार्कोव्ह चेन प्रक्रिया (Markov chain process) आहे, जेथे प्रत्येक पायरी मागील पायरीवर आधारित असते, हळूहळू प्रतिमेची गुणवत्ता कमी करते.
उलट नॉइजिंग प्रक्रिया: मॉडेलचा मुख्य भाग एक न्यूरल नेटवर्क (सामान्यत: U-Net आर्किटेक्चरचा वापर करून) आहे, ज्याला ही प्रक्रिया उलटण्यासाठी प्रशिक्षित केले जाते. हे फॉरवर्ड प्रक्रियेत प्रत्येक वेळी जोडला जाणारा आवाज शोधायला शिकते आणि तो वजा करते. प्रशिक्षणानंतर, मॉडेल यादृच्छिक नॉइज सॅम्पलपासून (noise sample) सुरू होऊन आणि हे शिकलेले "नॉइजिंग" फंक्शन (function) वारंवार लागू करून, मागे प्रक्रिया करू शकते.
ही वारंवार परिष्करण प्रक्रिया डिफ्युजन मॉडेलला सर्वोत्तम GAN पेक्षा अधिक चांगली फोटो-वास्तविकता आणि विविधतेची पातळी प्राप्त करण्यास सक्षम करते. त्यांची प्रशिक्षण प्रक्रिया देखील GAN च्या प्रशिक्षण प्रक्रियेपेक्षा अधिक स्थिर आहे, ज्यामुळे मोड कोसळणे टाळता येते आणि अधिक विश्वासार्ह आणि विविध आउटपुट मिळतात. या तांत्रिक प्रगतीमुळे डिफ्युजन मॉडेल आजच्या सर्वात महत्त्वाचे आणि शक्तिशाली जनरेटिव्ह्ह कृत्रिम बुद्धिमत्ता साधनांचा आधार बनले आहेत, ज्यात OpenAI चे DALL-E 2, Google चे Imagen आणि Stability AI चे Stable Diffusion यांसारख्या मॉडेलचा समावेश आहे. या मॉडेलच्या विस्तृत उपलब्धता आणि उत्कृष्ट आउटपुट गुणवत्तेमुळे डीपफेकचा धोका मोठ्या प्रमाणात वाढला आहे.
कार्यपद्धती
GAN असो वा डिफ्युजन मॉडेल, डीपफेक व्हिडिओ (video) तयार करण्यासाठी अंतर्निहित जनरेटिव्ह्ह इंजिन अनेक विशिष्ट तंत्रांचा वापर करतात. हे तंत्र इच्छित फसवणूक परिणाम साध्य करण्यासाठी लक्ष्य व्हिडिओच्या विविध पैलूंचे विश्लेषण करतात.
री-एनाक्टमेंट (Re-enactment): हे तंत्र स्त्रोत पात्राचे हावभाव, डोक्याची हालचाल आणि भाषणाशी संबंधित हालचाली व्हिडिओमधील लक्ष्य ऑब्जेक्टमध्ये हस्तांतरित करते. या प्रक्रियेत सामान्यत: तीन मुख्य पायऱ्या असतात: प्रथम, स्त्रोत आणि लक्ष्य व्हिडिओमधील चेहऱ्यावरील वैशिष्ट्ये ट्रॅक (track) करणे; दुसरे, सुसंगतता मेट्रिक (metric) वापरून ही वैशिष्ट्ये एका सामान्य 3D चेहऱ्याच्या मॉडेलमध्ये (model) ऍडजस्ट (adjust) करणे; तिसरे, हावभाव स्त्रोताकडून लक्ष्याकडे हस्तांतरित करणे.
लिप सिंक्रोनाइझेशन (Lip synchronization): लिप सिंक्रोनाइझेशन डीपफेक तंत्रज्ञान विशेषत: भाषणावर लक्ष केंद्रित करते आणि वास्तववादी तोंडाच्या हालचाली निर्माण करण्यासाठी ऑडिओ इनपुट वापरते. ऑडिओला डायनॅमिक (dynamic) तोंडाच्या आकारात आणि पोतमध्ये रूपांतरित केले जाते, जे लक्ष्य व्हिडिओशी जुळवून घेण्यासाठी वापरले जाते.
टेक्स्ट-आधारित संश्लेषण (Text-based synthesis): ही पद्धत मजकूर स्क्रिप्टनुसार व्हिडिओमध्ये सुधारणा करते. हे मजकूराचे विश्लेषण त्याच्या घटक ध्वन्यांमध्ये (ध्वनी युनिट्स) आणि व्हिज्युअल (speech sounds visual representation) मध्ये करते. मग ते स्त्रोत व्हिडिओमधील संबंधित क्रमांशी जुळवले जातात आणि नवीन मजकूर जुळण्यासाठी ओठांची हालचाल तयार करण्यासाठी 3D डोक्याच्या मॉडेलचे पॅरामीटर्स वापरले जातात.
GAN पासून डिफ्युजन मॉडेलपर्यंत तांत्रिक विकास केवळ एक क्रमिक सुधारणा नाही; हा एक मूलभूत बदल आहे, जो डीपफेक प्रतिबंधक धोरणात्मक परिदृश्य बदलतो. GAN शक्तिशाली असले तरी, प्रशिक्षण अस्थिरता आणि मोड कोसळणे यांसारख्या ज्ञात आर्किटेक्चरल (architectural) कमकुवतपणा आहेत, ज्यामुळे प्रतिमा वारंवारतेमध्ये अंदाज लावता येण्याजोगे आर्टिफॅक्ट्स तयार होतात. त्यामुळे, संपूर्ण डिटेक्शन (detection) साधने या GAN-विशिष्ट फिंगरप्रिंट्स (fingerprints) ओळखण्यासाठी तयार केली गेली आहेत. तथापि, डिफ्युजन मॉडेल प्रशिक्षित करणे अधिक सोपे आहे.
त्यामुळे, सध्याच्या डीपफेक डिटेक्शन इन्फ्रास्ट्रक्चरचा (infrastructure) मोठा भाग लवकरच कालबाह्य होणार आहे. अभ्यासातून असे दिसून आले आहे की GAN द्वारे व्युत्पन्न केलेल्या प्रतिमांवर प्रशिक्षित केलेले डिटेक्टर जेव्हा डिफ्युजन मॉडेलमधील सामग्रीवर लागू केले जातात, तेव्हा "कार्यक्षमतेत गंभीर घट" होते. विशेष म्हणजे, डिफ्युजन मॉडेल प्रतिमेवर प्रशिक्षित केलेले डिटेक्टर GAN द्वारे व्युत्पन्न केलेली सामग्री यशस्वीरित्या ओळखू शकतात, परंतु याउलट नाही, हे सूचित करते की डिफ्युजन मॉडेल अधिक जटिल आणि आव्हानात्मक बनावट वस्तूंचे प्रतिनिधित्व करतात.
याव्यतिरिक्त, या जनरेटिव्ह्ह मॉडेलच्या "ब्लॅक बॉक्स" (black box) स्वरूपामुळे प्रतिबंधक प्रयत्नांची गुंतागुंत वाढते. GAN आणि डिफ्युजन मॉडेल दोन्ही पर्यवेक्षण नसलेल्या किंवा अर्ध-पर्यवेक्षित पद्धतीने कार्य करतात, जे डेटासेटच्या आकडेवारीचे वितरण शिकतात, त्यांना स्पष्ट अर्थपूर्ण लेबलची आवश्यकता नसते. ते मानवी दृष्टिकोन शिकत नाहीत, तर ते डेटासेटमध्ये कोणते पिक्सेल नमुने शक्य आहेत, हे शिकतात. यामुळे मानवी हस्तक्षेपाशिवाय प्रतिबंध करणे कठीण होते.
जनरेटिव्ह्ह इंजिनांचे तुलनात्मक विश्लेषण
धोरणात्मक दृष्टीने GAN आणि डिफ्युजन मॉडेलमधील फरक समजून घेणे आवश्यक आहे. पूर्वीच्या तुलनेत नंतरच्या तांत्रिक वर्चस्वामुळे शोधण्याची कठीणता, फसवणूक होण्याची शक्यता आणि एकूणच धोक्याचे स्वरूप यावर गंभीर परिणाम होतो.
वैशिष्ट्य | जनरेटिव्ह्ह ऍडव्हर्सरियल नेटवर्क (GAN) | डिफ्युजन मॉडेल | धोरणात्मक महत्त्व |
---|---|---|---|
मुख्य यंत्रणा | जनरेटर आणि डिस्क्रिमिनेटर शून्य-बेरीज गेममध्ये (zero-sum game) स्पर्धा करतात. | न्यूरल नेटवर्क हळूहळू "आवाज" कमी करण्याची प्रक्रिया उलटायला शिकते. | डिफ्युजनची पुनरावृत्ती प्रक्रिया उच्च अचूकता आणि कमी त्रुटी निर्माण करते. |
प्रशिक्षण प्रक्रिया | अस्थिर म्हणून ओळखली जाते; "मोड कोसळणे" आणि हळू अभिसरण होण्याची शक्यता असते. | प्रशिक्षण प्रक्रिया स्थिर आणि अधिक विश्वासार्ह आहे, परंतु संगणकीयदृष्ट्या गहन आहे. | डिफ्युजन मॉडेल वापरून उच्च-गुणवत्तेचे परिणाम साध्य करण्याची मर्यादा कमी आहे. |
आउटपुट गुणवत्ता | उच्च-गुणवत्तेच्या प्रतिमा निर्माण करू शकते, परंतु सूक्ष्म त्रुटी असू शकतात. | सध्याच्या फोटोंची सत्यता आणि विविधतेची पातळी उच्च आहे. | बनावट वस्तू अधिक आकर्षक बनतात. |
शोधण्यायोग्यता | जुन्या डिटेक्शन पद्धती सामान्यत: GAN-विशिष्ट त्रुटी शोधण्यासाठी तयार केल्या जातात. | GAN-आधारित अनेक डिटेक्टरला (detector) अप्रचलित करते. प्रतिमांमध्ये त्रुटी कमी असतात आणि वास्तविक डेटा आकडेवारीशी अधिक जुळतात. | डीपफेक "शस्त्रास्त्र स्पर्धा" रीसेट (reset) झाली आहे. डिफ्युजन-विशिष्ट माहितीवर लक्ष केंद्रित करण्यासाठी डिटेक्शन संशोधनाची आवश्यकता आहे. |
प्रसिद्ध मॉडेल | StyleGAN, CycleGAN | DALL-E, Stable Diffusion, Imagen, Sora | आता, सर्वात शक्तिशाली आणि मोठ्या प्रमाणावर वापरली जाणारी साधने डिफ्युजनवर आधारित आहेत, ज्यामुळे धोका वाढतो. |
डिजिटल रोगप्रतिकार प्रणाली: डिटेक्शन पद्धतींचे तुलनात्मक विश्लेषण
सिंथेटिक मीडियाच्या वाढत्या धोक्याला तोंड देण्यासाठी, डिटेक्शन पद्धती विकसित झाल्या आहेत, ज्यामुळे एक नवीन "डिजिटल रोगप्रतिकार प्रणाली" तयार झाली आहे. या तंत्रज्ञानामध्ये डिजिटल त्रुटींचे विश्लेषण तसेच संभाव्य जैविक संकेतांचे परीक्षण करणाऱ्या नवीन पद्धतींचा समावेश आहे.
डिजिटल त्रुटींचे फॉरेन्सिक विश्लेषण (forensic analysis)
डीपफेक डिटेक्शनच्या सर्वात प्रस्थापित श्रेणीमध्ये डिजिटल त्रुटींचे फॉरेन्सिक विश्लेषण समाविष्ट आहे, म्हणजेच निर्मिती प्रक्रियेत मागे राहिलेल्या सूक्ष्म त्रुटी आणि विसंगती शोधणे.
दृश्य आणि रचनात्मक विसंगती: काही जनरेटिव्ह्ह मॉडेल मानवी रचनात्मक रचना आणि वास्तविक जगातील भौतिक वैशिष्ट्ये अचूकपणे कॉपी (copy) करण्यात अयशस्वी ठरतात. डिटेक्शन पद्धती मीडियामधील विशिष्ट विसंगतींचे विश्लेषण करून या त्रुटींचा फायदा घेतात. यात डोळ्यांची नैसर्गिक नसलेली उघडझाप, जास्त वेळा किंवा कमी वेळा डोळे मिचकावणे, तसेच जबड्याची विशिष्ट रचना यांचा समावेश असतो.
पिक्सेल आणि कॉम्प्रेशन विश्लेषण: ही तंत्रे प्रतिमा किंवा व्हिडिओची डिजिटल रचना तपासतात. एरर लेव्हल ॲनालिसिस (error level analysis) ही प्रतिमेतील वेगवेगळ्या कॉम्प्रेशन लेव्हलचे (compression level) क्षेत्र ओळखण्याची एक पद्धत आहे. छेडछाड केलेल्या भागांना पुन्हा सेव्ह (save) किंवा कॉम्प्रेश केले जाते, त्यामुळे ते प्रतिमेच्या मूळ भागांपेक्षा वेगळ्या त्रुटी दर्शवतात, ज्यामुळे बनावट वस्तू हायलाइट (highlight) होतात.
फ्रिक्वेन्सी डोमेन विश्लेषण: या पद्धती पिक्सेलचे थेट विश्लेषण करण्याऐवजी, प्रतिमांच्या फ्रिक्वेन्सी घटकांमध्ये असामान्य नमुने शोधण्यासाठी रूपांतरित करतात. GAN चे जनरेटर अप-सॅम्पलिंग आर्किटेक्चर (up-sampling architecture) वापरतात, त्यामुळे वारंवारतेच्या क्षेत्रात विशिष्ट त्रुटी निर्माण होतात, ज्यामुळे वास्तविक प्रतिमांमध्ये नसलेले आवर्ती नमुने तयार होतात.
जैविक सिग्नल ॲनालिसिस: डीपफेकचा "हृदय ठोका"
डीपफेक डिटेक्शनमधील एक नवीन आणि आशादायक क्षेत्र म्हणजे माध्यमात खऱ्या जैविक सिग्नलची उपस्थिती तपासणे. जरी जनरेटिव्ह्ह मॉडेल दृश्य स्वरूप कॉपी करण्यात अधिकाधिक चांगले असले, तरी ते जिवंत व्यक्तीच्या शारीरिक प्रक्रियांचे अनुकरण करू शकत नाहीत.
या क्षेत्रातील मुख्य तंत्रज्ञान म्हणजे रिमोट फोटोप्लेथिस्मोग्राफी (rPPG). हे तंत्रज्ञान त्वचेच्या रंगातील सूक्ष्म बदलांचे परीक्षण करण्यासाठी कॅमेऱ्याचा वापर करते. मानवी व्हिडिओमध्ये, यामुळे एक लहान पण स्थिर नाडी सिग्नल (pulse signal) तयार होतो. डीपफेकमध्ये, हा सिग्नल सामान्यतः अस्तित्वात नसतो, विकृत असतो किंवा विसंगत असतो.
डिटेक्शन पद्धतीत अनेक पायऱ्या असतात:
सिग्नल काढणे: व्हिडिओमधील चेहऱ्यावरील अनेक भागांमधून rPPG सिग्नल काढला जातो.
सिग्नल प्रक्रिया: मूळ सिग्नलमधील आवाज काढून टाकला जातो आणि नंतर त्याच्या वेळेनुसार विश्लेषण केले जाते.
वर्गीकरण: एक वर्गीकरणकर्ता (उदाहरणार्थ, CNN) प्रशिक्षित केला जातो, जो बनावट व्हिडिओमध्ये आढळणाऱ्या गोंगाटयुक्त, विसंगत किंवा अस्तित्वात नसलेल्या सिग्नलमधील लयबद्ध नमुन्यांमधील फरक ओळखतो.
नियंत्रित प्रयोगात्मक वातावरणात, या पद्धतीमुळे खूप जास्त अचूकता प्राप्त झाली आहे.
डिटेक्शन शस्त्रस्पर्धा: डिफ्युजन मॉडेल आणि प्रतिस्पर्धी हल्ल्यांची आव्हाने
डीपफेक डिटेक्शनचे क्षेत्र शस्त्रस्पर्धेने परिभाषित केले आहे. एकदा डिटेक्शन पद्धत विकसित झाली की, जनरेटिव्ह्ह मॉडेल त्यावर मात करण्यासाठी सतत विकसित होत असतात. डिफ्युजन मॉडेलचा उदय आणि प्रतिस्पर्धी हल्ल्यांचा वापर आधुनिक डिटेक्टरसाठी दोन महत्त्वपूर्ण आव्हाने आहेत.
सामान्यीकरण अयशस्वी: अनेक डिटेक्शन मॉडेलची एक मोठी कमकुवतता म्हणजे त्यांची सामान्यीकरण करण्यात अयशस्वीता. विशिष्ट जनरेटिव्ह्ह मॉडेल (उदाहरणार्थ, StyleGAN2) किंवा विशिष्ट डेटासेटवरील (dataset) बनावट वस्तू ओळखण्यासाठी प्रशिक्षित केलेले डिटेक्टर नवीन छेडछाड तंत्रांचा सामना करताना अयशस्वी ठरतात. डिफ्युजन मॉडेलमुळे ही समस्या अधिक गंभीर झाली आहे. त्यांच्या आउटपुटमध्ये कमी त्रुटी असल्यामुळे आणि सामग्री वास्तविक प्रतिमांच्या आकडेवारीशी अधिक जुळत असल्यामुळे, ते GAN साठी तयार केलेले डिटेक्टर प्रभावीपणे टाळू शकतात.
प्रतिस्पर्धी हल्ले: अत्यंत अचूक डिटेक्टरदेखील प्रतिस्पर्धी हल्ल्यांमुळे असुरक्षित असतात. अशा परिस्थितीत, हल्लेखोर डीपफेक प्रतिमेच्या पिक्सेलमध्ये (pixel) सूक्ष्म बदल करतात. हे बदल मानवांना दिसत नसले तरी, ते डिटेक्टर न्यूरल नेटवर्कमधील (neural network) कमकुवतपणाचा फायदा घेण्यासाठी डिझाइन केलेले आहेत, ज्यामुळे ते बनावट प्रतिमेला वास्तविक प्रतिमा म्हणून चुकीचे वर्गीकृत करतात.
याला प्रतिसाद म्हणून, संशोधन समुदाय वर्धित लवचिकतेसह पुढील पिढीचे डिटेक्टर विकसित करण्यावर लक्ष केंद्रित करत आहे. मुख्य धोरणांमध्ये हे समाविष्ट आहे:
प्रशिक्षण डेटा विविधता: प्रशिक्षण डेटासेटमध्ये GAN आणि डिफ्युजन मॉडेलमधील विविध बनावट वस्तू तसेच विविध प्रतिमा डोमेन समाविष्ट करून सामान्यीकरण क्षमता सुधारता येते.
प्रगत प्रशिक्षण धोरणे: नमुन्यांच्या वर्गीकरण अडचणीवर आधारित नमुन्यांचे वजन करून विषम डेटासेटवर मॉडेलला अधिक प्रभावीपणे प्रशिक्षित करण्यात मदत करण्यासाठी नवीन तंत्रे शोधली जात आहेत.
मजबूत आर्किटेक्चर: नवीन आर्किटेक्चर डिझाइन (design) केले जात आहेत. एक आशादायक दृष्टीकोन म्हणजे वेगळ्या उपसमुच्चयवर अनेक मॉडेल तयार करणे.
जनरेटिव्ह्ह तंत्रज्ञान आणि डिटेक्शन तंत्रज्ञान यांच्यातील सततची स्पर्धा दर्शवते की कोणतीही स्थिर संरक्षण पद्धत कालबाह्य होण्यास निश्चित आहे. जनरेटिव्ह्ह मॉडेल डोळ्यांची उघडझाप किंवा GAN त्रुटी यांसारखी चिन्हे दूर करण्यासाठी सतत विकसित होत असल्याने, डिटेक्टरला उच्च-वारंवारता विसंगती किंवा rPPG स्वाक्षऱ्यांसारख्या अधिक सूक्ष्म सिग्नलकडे वळणे आवश्यक आहे.
सर्वात टिकाऊ डिटेक्शन धोरणे कदाचित ती असतील, जी डिजिटल ॲनालॉग आणि भौतिक वास्तवातील मूलभूत फरकांचा फायदा घेतात. दृश्य त्रुटी अशा त्रुटी आहेत ज्या चांगल्या अल्गोरिदम आणि अधिक संगणकीय शक्तीचा वापर करून हळूहळू सुधारल्या जाऊ शकतात, परंतु कृत्रिम बुद्धिमत्तेसाठी जीवशास्त्र आणि भौतिकशास्त्र यांसारख्या नैसर्गिक गुणधर्मांचे मॉडेल तयार करणे अधिक कठीण आहे.
डिजिटल विश्वास स्थापित करणे: वॉटरमार्किंग (watermarking) आणि उत्पत्तीद्वारे सक्रिय प्रतिबंध
केवळ डिटेक्शन धोरणांच्या मर्यादा लक्षात घेता, डीपफेक धोक्यांना प्रतिबंध करण्यासाठी अधिक लवचिक आणि टिकाऊ दृष्टीकोन आवश्यक आहे. या तंत्रज्ञानाचा उद्देश निर्मितीच्या दिवसापासून डिजिटल मीडिया इकोसिस्टममध्ये विश्वास आणि जबाबदारी स्थापित करणे आहे. या दृष्टिकोन अंतर्गत बनावट वस्तू तयार झाल्यानंतर त्यांना ओळखण्याऐवजी कायदेशीर सामग्रीची सत्यता आणि उत्पत्ती सत्यापित करण्यावर लक्ष केंद्रित केले जाते. या क्षेत्रातील दोन प्रमुख तंत्रज्ञान म्हणजे फॉरेन्सिक डिजिटल वॉटरमार्किंग आणि ब्लॉकचेन-आधारित सामग्री उत्पत्ती.
फॉरेन्सिक डिजिटल वॉटरमार्किंग: अदृश्य स्वाक्षरी
फॉरेन्सिक डिजिटल वॉटरमार्किंग हे एक सक्रिय तंत्रज्ञान आहे, जे डिजिटल सामग्रीमध्ये (उदाहरणार्थ, प्रतिमा, व्हिडिओ किंवा कागदपत्रे) एक अद्वितीय आणि अदृश्य ओळखकर्ता एम्बेड (embed) करते. दृश्यमान वॉटरमार्कच्या (watermark) विपरीत (उदाहरणार्थ, प्रतिमेवर असलेला लोगो), फॉरेन्सिक वॉटरमार्क फाइलमधील डेटा मध्ये लपलेले असतात आणि ते अत्यंत मजबूत करण्यासाठी डिझाइन केलेले असतात. डिझाइन केलेले फॉरेन्सिक वॉटरमार्क सामान्य फाइल ऑपरेशनमध्ये टिकून राहू शकतात, ज्यात कॉम्प्रेशन, क्रॉपिंग (cropping), आकार बदलणे, रंग ऍडजस्टमेंट (adjustment) आणि स्क्रीनशॉट (screenshot) किंवा स्क्रीन-टू-कॅमेरा कॅप्चर (camera capture) यांचा समावेश आहे.
डीपफेक प्रतिबंधामध्ये, फॉरेन्सिक वॉटरमार्किंगमध्ये अनेक महत्त्वाची कार्ये आहेतः
उत्पत्तीचा मागोवा घेणे आणि जबाबदारी: तयारकर्ता, वापरकर्ता किंवा वितरण चॅनेल (distribution channel) ओळखणारी माहिती जोडून, जर दुर्भावनापूर्ण डीपफेक लीक (leak) झाले किंवा गैरवापर झाल्यास, त्याचे मूळ शोधण्यासाठी वॉटरमार्क वापरला जाऊ शकतो.
सत्यता पडताळणी: वॉटरमार्क अधिकृत सामग्रीसाठी सत्यतेची मोहर म्हणून काम करू शकतात. सरकारी संस्था, कंपन्या किंवा वृत्तसंस्था त्यांच्या कायदेशीर माध्यमांमध्ये एक अद्वितीय वॉटरमार्क एম্বে करू शकतात. हे अस्सल संप्रेषण सत्यापित करण्यास अनुमती देते आणि डीपफेक वापरून प्रतिरूपण (impersonation) करण्याच्या प्रयत्नांना शोधण्यात आणि अवरोधित (block) करण्यास मदत करते.
लाइफसायकल ट्रॅकिंग (lifecycle tracking): समर्थकांचे म्हणणे आहे की सामग्रीच्या लाइफसायकलच्या (lifecycle) विविध टप्प्यांवर वॉटरमार्क समाकलित केले जाऊ शकतात. उदाहरणार्थ, सोशल मीडियावर अपलोड (upload) करताना वॉटरमार्क एम्बेड केले जाऊ शकतात, ज्यामुळे छेडछाड केलेल्या सामग्रीचे रेकॉर्ड (record) तयार होतात.
डीपफेक फेरफार (manipulation) रोखण्यासाठी प्रगत वॉटरमार्किंग तंत्रज्ञान विकसित केले जात आहे. एका नवीन पद्धतीमध्ये एक न्यूरल नेटवर्क डिझाइन करणे समाविष्ट आहे, जे चेहऱ्याच्या प्रतिमेच्या ओळख वैशिष्ट्यांमध्ये थेट वॉटरमार्क एम्बेड करू शकते.
वॉटरमार्किंगमध्ये मोठी क्षमता असली तरी, काही महत्त्वपूर्ण आव्हाने आहेत. प्रथम, वॉटरमार्क अजिंक्य नाहीत. अभ्यासातून असे दिसून आले आहे की प्रतिस्पर्धी तंत्रे (विशेषत: डिफ्युजन मॉडेल वापरणारी) वापरून प्रतिमांचे पुनर्गठन केले जाऊ शकते, ज्यामुळे एम्बेडेड वॉटरमार्क प्रभावीपणे काढता येतात. दुसरे म्हणजे, वॉटरमार्किंगची प्रभावीता व्यापक स्वीकृतीवर अवलंबून असते.
ब्लॉकचेन आणि सामग्री उत्पत्ती: अपरिवर्तनीय खाते
पूरक सक्रिय धोरण म्हणजे ब्लॉकचेन तंत्रज्ञानाचा वापर करून सामग्रीची उत्पत्ती स्थापित करणे. हे विश्वसनीय, सत्यापित करण्यायोग्य आणि छेडछाड-प्रतिरोधक मीडिया फाइल स्त्रोत आणि जीवनचक्र इतिहास आहे. ही पद्धत ब्लॉकचेनच्या मुख्य गुणधर्मांचा उपयोग करते, म्हणजे त्याचे विकेंद्रीकरण आणि अपरिवर्तनीय स्वरूप.
ब्लॉकचेन-आधारित उत्पत्ती स्थापित करण्याच्या पद्धतीमध्ये सामान्यतः तीन पायऱ्या असतात:
सामग्री फिंगरप्रिंट: प्रथम, फाइल डेटावरून एक अद्वितीय एन्क्रिप्टेड हॅश (encrypted hash) तयार केला जातो. हा हॅश डिजिटल फिंगरप्रिंट म्हणून कार्य करतो.
ब्लॉकचेन रेकॉर्ड: हा अद्वितीय हॅश तसेच महत्त्वाची माहिती (उदाहरणार्थ, निर्मितीचा डिजिटल आयडेंटिटी, टाइमस्टॅम्प आणि इतर संबंधित तपशील) ब्लॉकचेन लेजरवर (ledger) व्यवहारा