مصنوعی ذہانت کے ذریعے تخلیق کی جانے والی گہری جعلی سازی کی روک تھام کے لیے حکمت عملی
گہری جعلی سازی کی ٹیکنالوجی میں تیزی سے ترقی کے باعث سماجی اعتماد اور معلومات کی حفاظت کو غیر معمولی خطرات لاحق ہو گئے ہیں۔ گہری جعلی سازی کے پھیلاؤ کو روکنے کی صلاحیت گہری جعلی سازی کی ٹیکنالوجی کی مکمل سمجھ پر منحصر ہے، اس لیے یہ مضمون مصنوعی ذہانت کے ذریعے جعلی سازی کو روکنے کے طریقوں کا جائزہ لے گا۔
گہری جعلی سازی کا انجن: تکنیکی تجزیہ
گہری جعلی سازی کا بنیادی مرکز تخلیقی ماڈل ہے، جو ایک قسم کی مصنوعی ذہانت ہے جو بہت بڑے ڈیٹا سیٹ سے سیکھنے اور حقیقت پسندانہ تصاویر، ویڈیو اور آڈیو تیار کرنے کی صلاحیت رکھتی ہے۔ حالیہ برسوں میں، جنریٹو ایڈورسریئل نیٹ ورکس (GAN) ترقی کر کے ڈفیوژن ماڈل بن گئے ہیں، جو پہلے سے زیادہ طاقتور ہیں۔ اس لیے، ایک مضبوط روک تھام کا فریم ورک بنانے کے لیے ان تخلیقی انجنوں کا تکنیکی تجزیہ کرنا ضروری ہے۔
مسابقتی حکمت عملی: جنریٹو ایڈورسریئل نیٹ ورک (GAN)
GAN دو نیورل نیٹ ورکس پر مشتمل ہوتا ہے: جنریٹر اور ڈسکریمنیٹر۔ جنریٹر کا کام حقیقی دنیا کے ڈیٹا کی نقل کرتے ہوئے مصنوعی ڈیٹا تیار کرنا ہے۔ یہ بے ترتیب ان پٹ (جسے عموماً پوشیدہ ویکٹر کہا جاتا ہے) سے شروع ہوتا ہے اور اسے مربوط آؤٹ پٹ میں تبدیل کرنے کی کوشش کرتا ہے۔ دوسری طرف، ڈسکریمنیٹر ایک درجہ بندی کنندہ کے طور پر کام کرتا ہے، جو ڈیٹا کا جائزہ لے کر یہ طے کرتا ہے کہ آیا یہ اصلی ہے (حقیقی ٹریننگ ڈیٹا سیٹ سے) یا جعلی ہے (جنریٹر کے ذریعے تیار کیا گیا ہے)۔
ٹریننگ کے عمل میں دونوں نیٹ ورکس کے درمیان مسلسل فیڈ بیک لوپ شامل ہوتا ہے، جو صفر سم گیم کی طرح ہوتا ہے۔ جنریٹر ایک جعلی تصویر بناتا ہے اور اسے ڈسکریمنیٹر کو بھیجتا ہے، جو ٹریننگ سیٹ سے اصلی تصویریں بھی وصول کرتا ہے۔ پھر، ڈسکریمنیٹر ہر تصویر کی اصلیت کی پیش گوئی کرتا ہے۔ اگر ڈسکریمنیٹر جنریٹر کی آؤٹ پٹ کو جعلی کے طور پر درست طور پر شناخت کرتا ہے، تو یہ فیڈ بیک فراہم کرتا ہے۔ جنریٹر اس فیڈ بیک کو ریورس پروپیگیشن کے ذریعے اپنے اندرونی پیرامیٹرز کو ایڈجسٹ کرنے کے لیے استعمال کرتا ہے تاکہ اگلی کوشش میں زیادہ قائل کرنے والی تصویر تیار کی جا سکے۔ اس کے ساتھ ہی، ڈسکریمنیٹر اپنے پیرامیٹرز کو ایڈجسٹ کرتا ہے تاکہ جعلی چیزوں کو بہتر طور پر تلاش کیا جا سکے۔ یہ مسابقتی دوڑ اس وقت تک جاری رہتی ہے جب تک کہ سسٹم ایک توازن نقطہ پر نہ پہنچ جائے، جسے بعض اوقات نیش ایکویلیبریم کہا جاتا ہے، جہاں جنریٹر کی آؤٹ پٹ اتنی حقیقت پسندانہ ہوتی ہے کہ ڈسکریمنیٹر مزید قابل اعتماد طریقے سے ان میں اور اصلی ڈیٹا میں فرق نہیں کر پاتا، اور تقریباً 50% کی درستگی کے ساتھ اندازہ لگاتا ہے۔
GAN نے مصنوعی میڈیا کو مؤثر طریقے سے تیار کرنے کی صلاحیت ثابت کی ہے اور بہت سے بااثر ڈیپ فیک ماڈلز کی بنیاد رکھی ہے۔ ڈیپ کنولوشنل GAN (DCGAN) جیسے فن تعمیرات پولنگ لیئرز کو تبدیل کر کے اور بیچ نارملائزیشن کا استعمال کر کے استحکام کو بہتر بنا کر اہم بہتری لاتے ہیں۔ NVIDIA کے StyleGAN اور اس کے جانشین StyleGAN2 اور StyleGAN3 نے چہرے کی تخلیق میں بے مثال فوٹو ریئلزم حاصل کیا ہے، خصوصیت سے متعلق خامیاں دور کر کے اور ماڈل آرکیٹیکچر کو آگے بڑھا کر۔ CycleGAN جیسی دیگر اقسام نے اسٹائل ٹرانسفر کے کاموں کو انجام دیا ہے اور اس لیے وسیع پیمانے پر Face App جیسی ایپلی کیشنز میں لوگوں کی ظاہری شکل کی عمر تبدیل کرنے کے لیے استعمال کی جاتی ہیں۔
GAN کی طاقت کے باوجود، یہ بات معروف ہے کہ GAN کو تربیت دینا مشکل ہے۔ جنریٹر اور ڈسکریمنیٹر کے درمیان نازک توازن آسانی سے ٹوٹ جاتا ہے، جس کے نتیجے میں تربیت غیر مستحکم ہو جاتی ہے، رفتار آہستہ ہو جاتی ہے، یا ایک اہم ناکامی کی صورت پیش آتی ہے جسے "موڈ کولیپس" کہا جاتا ہے۔ موڈ کولیپس اس وقت ہوتا ہے جب جنریٹر ڈسکریمنیٹر میں کمزوری تلاش کرتا ہے اور صرف محدود اقسام کی آؤٹ پٹ تیار کر کے اس سے فائدہ اٹھاتا ہے (یہ جانتا ہے کہ یہ ڈسکریمنیٹر کو دھوکہ دے سکتا ہے)، اس طرح ٹریننگ ڈیٹا کے حقیقی تنوع کو حاصل کرنے میں ناکام رہتا ہے۔ یہ موروثی چیلنجز اور ان سے پیدا ہونے والی باریک نقائص ابتدائی گہرے جعلی پتہ لگانے والے سسٹمز کا بنیادی ہدف بن گئے۔
افراتفری کا الٹنا: ڈفیوژن ماڈل
تخلیقی مصنوعی ذہانت میں، جدید ترین ٹیکنالوجی نے واضح طور پر ماڈلز کی ایک نئی قسم کی طرف رخ کیا ہے: ڈفیوژن ماڈل۔ ڈفیوژن ماڈل غیر متوازن تھرموڈینامکس کے تصور سے متاثر ہیں، اور GAN کی مسابقتی حکمت عملی کے اصولوں سے بالکل مختلف طریقے سے کام کرتے ہیں۔ یہ احتمالی تخلیقی ماڈل ہیں جو بتدریج خراب کرنے کے عمل کو الٹ کر غیر معمولی اعلیٰ معیار اور متنوع ڈیٹا تیار کر سکتے ہیں۔
ڈفیوژن ماڈل کا طریقہ کار ایک دو مرحلو عمل ہے:
فارورڈ ڈفیوژن عمل: اس مرحلے میں ایک خاص مدت کے دوران (مثال کے طور پر، T مراحل) منظم اور بتدریج تصویر میں تھوڑی مقدار میں گاوسی شور شامل کیا جاتا ہے۔ یہ ایک مارکوف چین کا عمل ہے، جہاں ہر قدم پچھلے قدم پر مشروط ہوتا ہے، جو بتدریج تصویر کے معیار کو کم کرتا ہے جب تک کہ آخری وقت کے مرحلے T پر، یہ مکمل طور پر غیر ساختہ شور سے ناقابل شناخت ہو جاتا ہے۔
ریورس ڈی نائزنگ عمل: ماڈل کی کلید ایک نیورل نیٹ ورک ہے (عموماً U-Net فن تعمیر کو اپنانا) جسے اس عمل کو الٹنے کے لیے تربیت دی جاتی ہے۔ یہ فارورڈ عمل میں ہر وقت کے مرحلے میں شامل کیے گئے شور کی پیش گوئی کرنا اور اسے گھٹانا سیکھتا ہے۔ تربیت کے بعد، ماڈل بے ترتیب شور کے نمونے سے شروع ہو کر اور اس سیکھے ہوئے "ڈی نائزنگ" فنکشن کا بار بار اطلاق کر کے وقت کے مراحل پر پیچھے کی طرف عمل کر سکتا ہے، افراتفری کو اصلی ڈیٹا کی تقسیم کے مربوط نمونے میں تبدیل کر سکتا ہے، اس طرح نئی اعلی Quaid کی تصاویر تیار کر سکتا ہے۔
یہ تکراری تطہیر کا عمل ڈفیوژن ماڈلز کو بہترین GAN سے بھی بہتر فوٹو ریئلزم اور تنوع کی سطح حاصل کرنے کے قابل بناتا ہے۔ ان کی ٹریننگ کا عمل بھی GAN کی ٹریننگ کے عمل سے کہیں زیادہ مستحکم ہے، جو موڈ کولیپس جیسے مسائل سے بچتا ہے اور زیادہ قابل اعتماد اور متنوع آؤٹ پٹ تیار کرتا ہے۔ یہ تکنیکی برتری ڈفیوژن ماڈلز کو آج کے سب سے نمایاں اور طاقتور تخلیقی مصنوعی ذہانت کے اوزار کی بنیاد بناتی ہے، جس میں OpenAI کا DALL-E 2، Google کا Imagen اور Stability AI کا Stable Diffusion جیسے ٹیکسٹ ٹو امیج ماڈلز، اور OpenAI کا Sora جیسے ٹیکسٹ ٹو ویڈیو ماڈلز شامل ہیں۔ ان ماڈلز کی وسیع دستیابی اور بہترین آؤٹ پٹ کے معیار نے گہرے جعلی خطرے کو بہت زیادہ بڑھا دیا ہے۔
آپریشن کا طریقہ
چاہے GAN ہو یا ڈفیوژن ماڈل، بنیادی تخلیقی انجن کو گہری جعلی ویڈیو بنانے کے لیے کئی مخصوص تکنیکوں کے ذریعے استعمال کیا جاتا ہے۔ یہ طریقے مطلوبہ دھوکہ دہی کے اثرات کو حاصل کرنے کے لیے ہدف ویڈیو کے مختلف پہلوؤں کو ہینڈل کرتے ہیں۔
ری اینیکٹمنٹ: یہ تکنیک سورس کردار کے چہرے کے تاثرات، سر کی حرکات اور تقریر سے متعلقہ حرکات کو ویڈیو میں ہدف آبجیکٹ میں منتقل کرتی ہے۔ اس عمل میں عموماً تین اہم مراحل شامل ہوتے ہیں: سب سے پہلے، سورس ویڈیو اور ہدف ویڈیو میں چہرے کی خصوصیات کو ٹریک کرنا؛ دوسرا، ان خصوصیات کو مطابقت کی پیمائش کا استعمال کرتے ہوئے ایک عام 3D چہرے کے ماڈل کے ساتھ ترتیب دینا؛ تیسرا، تاثرات کو سورس سے ہدف میں منتقل کرنا، پھر حقیقت پسندی اور مستقل مزاجی کو بڑھانے کے لیے بعد میں تطہیر کرنا۔
لپ سنکنگ: ہونٹوں کی مطابقت پذیری گہری جعلی تکنیک خاص طور پر تقریر کو ہینڈل کرنے کے لیے وقف ہے، جو بنیادی طور پر آڈیو ان پٹ کو حقیقت پسندانہ منہ کی حرکات پیدا کرنے کے لیے استعمال کرتی ہے۔ آڈیو کو متحرک منہ کی شکلوں اور بناوٹ میں تبدیل کیا جاتا ہے، پھر ہدف ویڈیو کے ساتھ احتیاط سے ملایا اور ملایا جاتا ہے، تاکہ یہ تاثر پیدا ہو کہ ہدف کردار ان پٹ آڈیو بول رہا ہے۔
متن پر مبنی ترکیب: یہ انتہائی نفیس طریقہ متن کے اسکرپٹ کی بنیاد پر ویڈیو میں ترمیم کرتا ہے۔ یہ متن کو اس کے اجزاء کے صوتیات (آواز کی اکائیاں) اور بصری صوتیات (تقریری آواز کی بصری نمائندگی) میں تجزیہ کر کے کام کرتا ہے۔ پھر انہیں سورس ویڈیو میں مناسب ترتیب کے ساتھ جوڑا جاتا ہے، اور 3D ہیڈ ماڈل کے پیرامیٹرز کو نئی عبارت سے ملانے کے لیے ہونٹوں کی حرکات کو بنانے اور ہموار کرنے کے لیے استعمال کیا جاتا ہے، جو کردار کو بظاہر کہی جانے والی بات کو لفظ بہ لفظ ایڈٹ کرنے کی اجازت دیتا ہے۔
GAN سے ڈفیوژن ماڈل تک تکنیکی ترقی صرف ایک بتدریج بہتری نہیں ہے۔ یہ بنیادی طور پر گہری جعلی روک تھام کی حکمت عملی کے منظر نامے کو تبدیل کرنے والا پیراڈائم شفٹ ہے۔ طاقتور ہونے کے باوجود GAN میں معروف تعمیراتی کمزوریاں موجود ہیں، جیسے کہ ٹریننگ میں عدم استحکام اور موڈ کولیپس، جو عموماً امیج فریکوئنسی ڈومین میں متوقع اور قابل شناخت نمونے پیدا کرتے ہیں۔ اس لیے، پتہ لگانے کے اوزار کی پوری نسل خاص طور پر ان GAN سے متعلقہ انگلیوں کے نشانات کو پہچاننے کے لیے بنائی گئی ہے۔ تاہم، ڈفیوژن ماڈل کو تربیت دینا زیادہ مستحکم ہے، اور یہ زیادہ متنوع، زیادہ حقیقت پسندانہ، اور شماریاتی طور پر اصلی تصویروں سے زیادہ مطابقت رکھنے والی آؤٹ پٹ تیار کرتے ہیں، اس لیے ان میں اپنے پیشروؤں کی بہت سی واضح خامیاں نہیں ہیں۔
اس لیے، موجودہ گہرے جعلی پتہ لگانے والے انفراسٹرکچر کا ایک بڑا حصہ تیزی سے متروک ہو رہا ہے۔ تحقیق سے پتہ چلتا ہے کہ GAN کے ذریعے تیار کردہ تصویروں پر تربیت یافتہ ڈٹیکٹرز جب ڈیph్యూژن ماڈل کے مواد پر لاگو ہوتے ہیں تو "سنگین کارکردگی میں کمی" واقع ہوتی ہے۔ قابل ذکر بات یہ ہے کہ ڈیph്യൂژن ماڈل تصویروں پر تربیت یافتہ ڈٹیکٹرز GAN کے ذریعے تیار کردہ مواد کو کامیابی سے پہچان سکتے ہیں، لیکن اس کے برعکس ایسا نہیں ہوتا، جو یہ بتاتا ہے کہ ڈیph്യൂژن ماڈل جعل سازی کی زیادہ پیچیدہ اور چیلنجنگ قسم کی نمائندگی करते ہیں۔ درحقیقت، اس نے مؤثر طریقے سے تکنیکی ہتھیاروں کی دوڑ کو دوبارہ ترتیب دے دیا ہے، جس میں ڈیph್ಯೂژن کے ذریعے تیار کردہ میڈیا کی منفرد اور زیادہ لطیف خصوصیات کو مدنظر رکھتے ہوئے دفاعی حکمت عملیوں کو دوبارہ ڈیزائن کرنے کی ضرورت ہے۔
مزید برآں، ان تخلیقی ماڈلز کی "بلیک باکس" نوعیت سورس روک تھام کی کوششوں کو مزید پیچیدہ بناتی ہے۔ GAN اور ڈیph്യൂژن ماڈل دونوں غیر نگرانی یا نیم نگرانی کے طریقے سے کام کرتے ہیں، جو ڈیٹا سیٹ کی شماریاتی تقسیم کی نقل کرنا سیکھتے ہیں، بغیر واضح معنوی لیبل کے۔ وہ اس طرح نہیں سیکھتے کہ "چہرہ کیا ہے" جس طرح انسان سمجھ سکتا ہے، بلکہ وہ اس طرح سیکھتے ہیں کہ "چہرے के डेटा सेट में कौन सा पिक्सेल पैटर्न संभव है”। اس سے رکاوٹوں کو براہ راست تخلیقی عمل میں پروگرام کرنا غیر معمولی طور پر مشکل ہو جاتا ਹੈ (उदाहरण के लिए, "हानिकारक छवियाँ न बनाएं”)۔ ماڈل صرف ایک ریاضیاتی فنکشن کو بہتر कर रहा है: या तो डिस्क्रीमಿನेटर को धोखा देना, या शोर प्रक्रिया को उलटना। اس ਦਾ مطلب ہے کہ روک تھام اندرونی طور پر بنیادی الگورتھم کو ریگولیٹ کرنے پر انحصار نہیں کر सकती। سب سے زیادہ قابل عمل مداخلت تخلیق से पहले (training data को नियंत्रित करके) या बनाने के बाद (पता लगाने, वॉटरमार्क और 출त्रत्व के माध्यम से) होनी चहिए, क्योंकि रचना स्वयं सार रूप में प्रत्यक्ष शासन के प्रति प्रतिरोधक है।
تخلیقی इंजन का तुलनात्मक विश्लेषण
GAN और डीph്യൂژن मॉडल के درمیان اسٹریٹجک अंतर को समझना किसी भी हितधारक (नीति निर्माताओं से लेकर कंपनी सुरक्षा अधिकारियों तक) के लिए महत्वपूर्ण है। पूर्व سے उत्तरार्ध तक तकनीकी वर्चस्व में बदलाव का पता लगाने की कठिनाई, धोखे की संभावना और समग्र खतरे की स्थिति पर गहरा प्रभाव पड़ता है।
सुविधा | जेनेरेटिव एडवर्सरीअलनेटवर्क (GAN) | डीph്യൂژن 모델 | सामरिक महत्व |
---|---|---|---|
मुख्य तंत्र | जनरेटर और डिस्क्रिमिनेटर शून्य-सम गेम में प्रतिस्पर्धा करते हैं। | न्यूरल नेटवर्क धीरे-धीरे "शोर " प्रक्रिया को उल्टा करना सीखता है। | डीph്യൂझन की तर्केरेशन प्रक्रिया उच्च सटीकता और कम संरचित त्रुटियों का उत्पादन करती है। |
प्रशिक्षण प्रक्रिया | अस्थिरता के लिए जानी जाती है; "मोड कोलैप्स " और धीमी अभिसरण प्रवण। | प्रशिक्षण प्रक्रिया स्थिर और विश्वसनीय है, लेकिन कम्प्यूटेशनल रूप से गहन है। | उच्च गुणवत्ता वाले परिणामों के साथ डीph്യൂझन মডেলिंग के प्रवेश की कम बाधा से खतरे का लोकतंत्रीकरण होता है। |
आउटपुट गुणवत्ता | उच्च गुणवत्ता वाली छवियां उत्पन्न कर सकता है, लेकिन इसमें सूक्ष्म कलाकृतियाँ हो सकती हैं। | वर्तमान में तस्वीर-सटीक यथार्थवाद और विविधता का उच्चतम स्तर; अक्सर वास्तविक तस्वीरों से अप्रभेद्य। | जालसाजी अधिक विश्वसनीय हो जाती हैं, जो "देखना मानना " हेरिस्टिक को नष्ट कर देती हैं और मानव पहचान को चुनौती देती हैं। |
पता लगाने की क्षमता | पुराने पता लगाने के तरीकों को अक्सर जीएएन-विशिष्ट कलाकृतियों (उदाहरण के लिए, आवृत्ति असंतुलन) को खोजने के लिए अनुकूलित किया जाता है। | जीएएन-आधारित कई डिटेक्टरों को अप्रचलित कर देता है। छवियों में कलाकृतियाँ कम होती हैं और यह वास्तविक डेटा आँकड़ों से अधिक निकटता से मेल खाती हैं। | डीपफेक "शस्त्रों की दौड़ " रीसेट हो गई है। पता लगाने के अनुसंधान एवं विकास को डीph്യൂझन-विशिष्ट सुरागों पर ध्यान केंद्रित करने के लिए शिफ्ट होना चाहिए। |
प्रमुख मॉडल | स्टाइलजीएएन, साइकिलजीएएन | डैल-ई, स्टेबल डीph്യൂझन, इमेजएएन, सोरा | अब, सबसे शक्तिशाली और व्यापक रूप से उपयोग किए जाने वाले उपकरण डीph്യൂझन पर आधारित हैं, जिससे खतरा तेज हो रहा है। |
डिजिटल प्रतिरक्षा प्रणाली: पता लगाने के तरीकों की तुलनात्मक विश्लेषण
सिंथेटिक मीडिया के प्रसार का सामना करने के लिए, पता लगाने के तरीकों का एक विविध क्षेत्र उभरा है, जिसने एक उभरती हुई "डिजिटल प्रतिरक्षा प्रणाली " बनाई है। इन तकनीकों में डिजिटल कलाकृतियों का फोरेंसिक विश्लेषण शामिल है, साथ ہی ساتھ संभावित जैविक संकेतों का पता लगाने के लिए नए दृष्टिकोण भी शामिल हैं। تاہم, इस प्रतिरक्षा प्रणाली की प्रभावीता को लगातार जेनरेटिव मॉडलों के तीव्र विकास और पता लगाने से बचने के उद्देश्य से प्रतिकूल हमलों द्वारा चुनौती दी जाती है। बनाना और पता लगाने के बीच निरंतर संघर्ष एक "रेड क्वीन" विरोधाभास है, जिसमें रक्षकों को यथास्थिति बनाए रखने के लिए लगातार नवप्रवर्तन करना चाहिए।
डिजिटल कलाकृतियों का फोरेंसिक विश्लेषण
सबसे स्थापित डीपफेक पहचान श्रेणी में डिजिटल कलाकृतियों का फोरेंसिक विश्लेषण शामिल है, जो बनाने की प्रक्रिया में छोड़ी गई सूक्ष्म दोषों और असंगतियों की जांच है। ये दोष और असंगतियाँ अक्सर पहचानना मुश्किल होते हैं और नग्न आंखों से नहीं देखे जा सकते हैं, लेकिन इन्हें विशेष एल्गोरिदम से पहचाना जा सकता है।
दृश्य और शारीरिक असंगतियाँ: कुछ प्रारंभिक और यहां तक कि वर्तमान जेनरेटिव मॉडल मानव शरीर रचना की जटिलताओं और वास्तविक दुनिया की भौतिक विशेषताओं को पूरी तरह से पुनः पेश करने के लिए संघर्ष करते हैं। पता लगाने के तरीके मीडिया में कुछ असामान्य घटनाओं का विश्लेषण करके इन दोषों का लाभ उठाते हैं। इसमें आंखों के झपकने के अप्राकृतिक पैटर्न शामिल हैं, जिनमें आंखों का अत्यधिक झपकना, आंखों का कम झपकना या बिल्कुल भी न झपटना (अक्सर प्रशिक्षण डेटा में बंद आंखों की छवियों की कमी के कारण), रोबोटिक یا غیرसंगत आंखों की गतिविधियां और प्रतिबंधित होंठ या मुंह का আকার भी शामिल है जिससे निचले दांत कभी नहीं दिखते। अन्य संकेतक हैं बोलते समय नथुनों में सूक्ष्म बदलावों की कमी, वातावरण से मेल न खाने वाली रोशनी और छाया में असंगतियाँ, और चश्मे या अन्य परावर्तक सतहों पर गलतियाँ या खोए हुए પ્રતિબિંब।
पिक्सेल और संपीड़न विश्लेषण: ये तकनीकें निचले स्तर पर चलती हैं, जो छवि या वीडियो की डिजिटल संरचना की जांच करती हैं। त्रुटि स्तर विश्लेषण (ELA) छवि में अलग-अलग संपीड़न स्तर वाले क्षेत्रों की पहचान करने का एक तरीका है। क्योंकि हेरफेर किए गए क्षेत्रों को अक्सर फिर से सहेजने या फिर से संपीड़ित करने के बाद, वे छवि के मूल भागों की तुलना में अलग त्रुटि स्तर दिखा सकते हैं, जिससे जालसाज़ी को उजागर किया जा सकता है। इससे निकटता से संबंधित एज और मिक्सिंग विश्लेषण синтетических तत्वों (उदाहरण के लिए, बदले हुए चेहरे) और वास्तविक पृष्ठभूमि के बीच की सीमाओं और कंट्रोवर्सी की बारकी से जांच करता है। इन क्षेत्रों में विसंगतियों के संकेतों के माध्यम से छेड़छाड़ को उजागर किया जा सकता है, जैसे कि असंगत पिक्सेलय, अप्राकृतिक स्पष्टता या धुंधलापन और रंग और बनावट में सूक्ष्म अंतर।
फ्रीक्वेंसी डोमेन تحليل: ये तरीके सीधे पिक्सेल का विश्लेषण करने के बजाय, अप्राकृतिक पैटर्न खोजने के लिए छवियों को उनके आवृत्ति घटकों में रूपांतरित करते हैं। क्योंकि GAN के जेनरेटर उन आर्किटेक्चर को अपनाते हैं जो अपर-सैंपलिंग करते हैं, इसलिए वे अक्सर विशेषता स्पेक्ट्रम आर्टिफैक्ट छोड़ जाते हैं, जिससे आवधिक पैटर्न बनते हैं जो वास्तविक छवियों में मौजूद नहीं होते हैं। हालांकि यह ज्यादातर GAN के लिए प्रभावी है, लेकिन यह विधि डी ph्यूژن मॉडल के लिए कम सफल होती है, जो अधिक प्राकृतिक आवृत्ति रेखा के साथ छवियों का उत्पादन करते हैं। हालांकि, कुछ अध्ययनों से पता चला है कि डी ph्यूژن मॉडल अभी भी वास्तविक छवियों की तुलना में उच्च आवृत्ति वाले विवरणों में पता लगाने योग्य बेमेल दिखा सकते हैं, जो पहचान के लिए एक संभावित मार्ग प्रदान करता है।
जैविक सिग्नल विश्लेषित: डीपफेक की "दिल की धड़कन "
डीपफेक पहचान के क्षेत्र में नवीनीकरण और अत्यधिक आशाजनक क्षेत्र में वास्तविक जैविक संकेत मौजूद ہیں۔ بنیادی شرط یہ ہے کہ अगरچہ генеретивная मॉडल बढ़ती हुई визуальной उपस्थिति को दोहराने में बेहतर हो रहे हैं, लेकिन वे जीवित लोगों के संभावित physiologique प्रक्रियाओं का अनुकरण नहीं कर सकते।
इस क्षेत्र में प्रमुख तकनीक रिमोट फोटोवॉलिमैत्री (rPPG) है। ये तकनीक त्वचा के रंग में छोटे आवधिक बदलावों का पता लगाने के लिए मानक कैमरों का उपयोग करती है, ये परिवर्तन उस समय होते हैं जब दिल रक्त को चेहरे की ऊपरी रक्त वाहिकाओं میں پمپ करता ہے۔ किसी व्यक्ति की वास्तविक वीडियो में, इससे एक सूक्ष्म और संगत पल्स सिग्नल उत्पन्न होता है। ڈیפیک فیک میں, ये सिग्नल अक्सर मौजूद نہیں ہوتے, विकृत हो जाते या असंगत होते हैं।
पहचानنے کے तरीकों میں कई مراحل शामिल ہیں:
सिग्नल निकासी: वीडियो میں شخص की चेहरे पर एकाधिक रुचि क्षेत्रों (ROI) से rPPG सिग्नल निकालें।
सिग्नल प्रसंस्करण: मूल सिग्नल में शोर को खत्म करें, फिर इसके समय-क्षेत्र और स्पेक्ट्रल डोमेन विशेषताओं کا विश्लेषण करने के लिए इसे обрабаты करें (आमतौर पर तेजी से फूरियर ट्रांसفرم (FFT) का उपयोग करके)। FFT सिग्नल की प्रबल تردد کو منکشف कर सकता है, जो हृदय गति کے अनुरूप होता है।
वर्गीकरण: वास्तविक दिल की धड़कन के जुराब ताल पैटर्न और नकली वीडियो में पाए जाने वाले शोरगुल, असंगत या गैर-मौजूद सिग्नल के बीच अंतर करने के लिए एक वर्गीकरण (जैसे, CNN) को प्रशिक्षित करें।
नियंत्रित प्रयोगात्मक वातावरण में, इस विधि ने पहचानની అత్యంత cao सटीकता प्राप्त कर ली है, कई अध्ययनों ने 99.22% तक की सटीकता की सूचना दी है। تاہم, اس طریقہ من एक ایک اہم زخم موجود ہے۔ अधिक उन्नत ڈیפیک فیک (विशेष रूप से री-इनक्टमेंट में शामिल) स्रोत वीडियो या "ड्राइव " ویڈیو سے शरीर क्रिया विज्ञान के संकेतों को **వారسا" کر سکتے ہیں۔ اس इसका मतलब है कि डीph्यूژن मॉडल पूरी तरह से सामान्य और संगत rPPG सिग्नल显示 कर सकता है। यह केवल स्रोत अभिनेता की हृदयगति होगी न कि अंतिम वीडियो में दर्शाए गए شخص کی۔ اس शोध نے डी phیوژن फیک में शारीरिक सिग्नल की कमी की सररલ धार को चुनौता दी है και पहचान की दहलीज बढ़ गई है। भविष्य के तरीकों को सिर्फ नाड़ी کی موجودگی ینچنے کے سے परे جانا हہوगा, बल्कि信号की शारीरिक स्थिरता और पहचान-विशिष्ट विशेषताओं को सत्यापित करना होगा।
पहचान हथियारों की दौड़: डीph్యూژن مدل и противی ہموارے کي ਚੁਣੌਤੀਆਂ
ڈیپफیک کے شناخت کے علاقے کو ایک سلیم ہتھیاروں کی تعداد کی تالیف کی जाती है। ایک بار جب ایک قابل اعتماد شناختکاری طریقہ विकसित ہو जाता है, तो जेनरेटिव मॉडल लगातार इसे काबू करने के लिए تطوير