เครื่องยนต์ของ Deepfake: การวิเคราะห์ทางเทคนิค
หัวใจสำคัญของ Deepfake อยู่ที่แบบจำลองการสร้าง (generative models) ซึ่งเป็นปัญญาประดิษฐ์ที่สามารถเรียนรู้และสร้างภาพ วิดีโอ และเสียงที่สมจริงจากชุดข้อมูลขนาดใหญ่ ในช่วงไม่กี่ปีที่ผ่านมา เครือข่ายประสาทเทียมแบบปฏิปักษ์ (GANs) ได้พัฒนาไปสู่แบบจำลองการแพร่กระจาย (diffusion models) ซึ่งมีความสามารถที่เพิ่มขึ้น ดังนั้นจึงจำเป็นต้องมีการวิเคราะห์ทางเทคนิคของเครื่องมือสร้างเหล่านี้เพื่อสร้างกรอบการป้องกันที่แข็งแกร่ง
เกมปฏิปักษ์: เครือข่ายประสาทเทียมแบบปฏิปักษ์ (GAN)
GAN ประกอบด้วยเครือข่ายประสาทเทียมสองเครือข่าย: ตัวสร้าง (generator) และตัวจำแนก (discriminator) งานของตัวสร้างคือการสร้างข้อมูลสังเคราะห์ที่เลียนแบบข้อมูลจริง เริ่มต้นจากการป้อนข้อมูลแบบสุ่ม (มักเรียกว่าเวกเตอร์แฝง) และพยายามแปลงเป็นเอาต์พุตที่สอดคล้องกัน ในทางกลับกัน ตัวจำแนกทำหน้าที่เป็นตัวจำแนกประเภท โดยประเมินข้อมูลเพื่อพิจารณาว่าเป็นของจริง (จากชุดข้อมูลการฝึกอบรมจริง) หรือของปลอม (สร้างโดยตัวสร้าง)
กระบวนการฝึกอบรมเกี่ยวข้องกับวงจรป้อนกลับอย่างต่อเนื่องระหว่างสองเครือข่าย คล้ายกับเกมผลรวมเป็นศูนย์ ตัวสร้างจะสร้างภาพปลอมและส่งไปยังตัวจำแนก ซึ่งจะได้รับภาพจริงจากชุดฝึกอบรมด้วย จากนั้นตัวจำแนกจะทำนายความถูกต้องของแต่ละภาพ หากตัวจำแนกจดจำเอาต์พุตของตัวสร้างว่าเป็นการปลอมได้อย่างถูกต้อง ตัวจำแนกจะให้ข้อเสนอแนะ ตัวสร้างจะใช้ข้อเสนอแนะนี้ผ่านการแพร่กระจายย้อนกลับ (backpropagation) เพื่อปรับพารามิเตอร์ภายใน เพื่อสร้างภาพที่น่าเชื่อถือยิ่งขึ้นในรอบถัดไป ในขณะเดียวกัน ตัวจำแนกจะปรับพารามิเตอร์ของตัวเองเพื่อให้ระบุของปลอมได้ดีขึ้น การแข่งขันที่เป็นปฏิปักษ์นี้ดำเนินต่อไปจนกว่าระบบจะถึงจุดสมดุล ซึ่งบางครั้งเรียกว่า Nash equilibrium ซึ่งเอาต์พุตของตัวสร้างนั้นสมจริงมากจนตัวจำแนกไม่สามารถแยกความแตกต่างได้อย่างน่าเชื่อถือจากข้อมูลจริงอีกต่อไป และเดาด้วยความแม่นยำประมาณ 50%
GAN ได้พิสูจน์แล้วว่ามีประสิทธิภาพในการสร้างสื่อสังเคราะห์ และได้วางรากฐานสำหรับแบบจำลอง Deepfake ที่มีอิทธิพลมากมาย สถาปัตยกรรมเช่น Deep Convolutional GAN (DCGAN) ได้แนะนำการปรับปรุงที่สำคัญโดยการแทนที่ชั้นพูลลิ่งและใช้ Batch Normalization เพื่อเพิ่มความเสถียร StyleGAN ของ NVIDIA และรุ่นต่อๆ มาคือ StyleGAN2 และ StyleGAN3 ได้สร้างความสมจริงของภาพถ่ายที่ไม่เคยมีมาก่อนในการสร้างใบหน้าโดยการแก้ไขสิ่งประดิษฐ์ของคุณสมบัติและพัฒนาสถาปัตยกรรมแบบจำลอง รูปแบบอื่นๆ เช่น CycleGAN ได้รับการใช้งานสำหรับการถ่ายโอนสไตล์และด้วยเหตุนี้จึงถูกนำมาใช้กันอย่างแพร่หลายในแอปพลิเคชันเช่น Face App เพื่อเปลี่ยนแปลงอายุของบุคคล
แม้ว่า GAN จะทรงพลัง แต่ก็เป็นที่ทราบกันดีว่า GAN นั้นยากต่อการฝึกอบรม ความสมดุลที่ละเอียดอ่อนระหว่างตัวสร้างและตัวจำแนกสามารถถูกรบกวนได้ง่าย นำไปสู่ความไม่เสถียรในการฝึกอบรม การบรรจบกันช้า หรือโหมดความล้มเหลวที่สำคัญที่เรียกว่า "mode collapse" Mode collapse เกิดขึ้นเมื่อตัวสร้างค้นพบจุดอ่อนในตัวจำแนกและใช้ประโยชน์จากจุดอ่อนนั้นโดยการสร้างเอาต์พุตที่จำกัดเพียงไม่กี่ประเภท (ซึ่งทราบว่าจะหลอกตัวจำแนกได้) ทำให้ไม่สามารถจับภาพความหลากหลายที่แท้จริงของข้อมูลการฝึกอบรมได้ ความท้าทายโดยธรรมชาติเหล่านี้พร้อมกับสิ่งประดิษฐ์ที่มักเกิดขึ้น ทำให้เป็นเป้าหมายหลักสำหรับระบบตรวจจับ Deepfake ในยุคแรกๆ
การพลิกกลับของความโกลาหล: แบบจำลองการแพร่กระจาย
เทคโนโลยีล่าสุดในด้านปัญญาประดิษฐ์เชิงสร้างสรรค์ได้เปลี่ยนไปใช้แบบจำลองคลาสใหม่อย่างเด็ดขาด: แบบจำลองการแพร่กระจาย (diffusion model) ได้รับแรงบันดาลใจจากแนวคิดของอุณหพลศาสตร์ที่ไม่สมดุล แบบจำลองการแพร่กระจายเป็นไปตามหลักการที่แตกต่างอย่างสิ้นเชิงจากการแข่งขันที่เป็นปฏิปักษ์ GAN พวกมันเป็นแบบจำลองเชิงสร้างสรรค์เชิงความน่าจะเป็น (probabilistic generative models) ที่สามารถสร้างข้อมูลคุณภาพสูงและหลากหลายเป็นพิเศษโดยการเรียนรู้ที่จะย้อนกลับกระบวนการที่ค่อยๆ เสียหาย
กลไกของแบบจำลองการแพร่กระจายคือกระบวนการสองเฟส:
กระบวนการแพร่กระจายไปข้างหน้า: ขั้นตอนนี้จะเพิ่มสัญญาณรบกวนแบบ Gaussian จำนวนเล็กน้อยอย่างเป็นระบบและค่อยเป็นค่อยไปลงในภาพในช่วงเวลาหนึ่ง (เช่น T ขั้นตอน) นี่คือกระบวนการลูกโซ่มาร์คอฟ (Markov chain process) ซึ่งแต่ละขั้นตอนมีเงื่อนไขในขั้นตอนก่อนหน้า ลดคุณภาพของภาพลงเรื่อยๆ จนกระทั่งในขั้นตอนสุดท้าย T จะไม่สามารถแยกแยะได้จากสัญญาณรบกวนที่ไม่เป็นโครงสร้างโดยสิ้นเชิง
กระบวนการลบสัญญาณรบกวนย้อนหลัง: หัวใจสำคัญของแบบจำลองคือเครือข่ายประสาทเทียม (มักใช้สถาปัตยกรรม U-Net) ที่ได้รับการฝึกฝนให้ย้อนกลับกระบวนการนี้ มันเรียนรู้ที่จะทำนายสัญญาณรบกวนที่เพิ่มเข้ามาในแต่ละขั้นตอนในกระบวนการไปข้างหน้าและลบออก หลังจากการฝึกอบรม แบบจำลองสามารถสร้างภาพใหม่คุณภาพสูงได้โดยการเริ่มต้นจากตัวอย่างสัญญาณรบกวนแบบสุ่มและใช้ฟังก์ชัน "ลบสัญญาณรบกวน" ที่เรียนรู้มานี้ซ้ำๆ ไปข้างหลังผ่านขั้นตอนเวลา เปลี่ยนความโกลาหลเป็นตัวอย่างที่สอดคล้องกันจากการกระจายข้อมูลดั้งเดิม
กระบวนการปรับแต่งซ้ำๆ นี้ช่วยให้แบบจำลองการแพร่กระจายสามารถบรรลุระดับของความสมจริงของภาพถ่ายและความหลากหลายที่ดีกว่า GAN ที่ดีที่สุดได้มาก กระบวนการฝึกอบรมของพวกเขายังมีเสถียรภาพมากกว่ากระบวนการของ GAN หลีกเลี่ยงปัญหาเช่นการยุบโหมด และสร้างเอาต์พุตที่น่าเชื่อถือและหลากหลายกว่า ข้อได้เปรียบทางเทคนิคนี้ทำให้แบบจำลองการแพร่กระจายเป็นรากฐานสำหรับเครื่องมือปัญญาประดิษฐ์เชิงสร้างสรรค์ที่โดดเด่นและทรงพลังที่สุดในปัจจุบัน รวมถึงแบบจำลองข้อความเป็นรูปภาพ เช่น DALL-E 2 ของ OpenAI, Imagen ของ Google และ Stable Diffusion ของ Stability AI ตลอดจนแบบจำลองข้อความเป็นวิดีโอ เช่น Sora ของ OpenAI ความพร้อมใช้งานในวงกว้างและคุณภาพเอาต์พุตที่โดดเด่นของแบบจำลองเหล่านี้ได้ยกระดับภัยคุกคาม Deepfake อย่างมาก
วิธีการทำงาน
ไม่ว่าจะเป็น GAN หรือแบบจำลองการแพร่กระจาย เครื่องมือสร้างพื้นฐานจะถูกนำไปใช้ผ่านเทคนิคเฉพาะหลายอย่างเพื่อสร้างวิดีโอ Deepfake วิธีการเหล่านี้จะจัดการกับแง่มุมต่างๆ ของวิดีโอเป้าหมายเพื่อให้ได้เอฟเฟกต์การหลอกลวงที่ต้องการ
Renactment (การแสดงใหม่): เทคนิคนี้จะถ่ายโอนการแสดงออกทางสีหน้า การเคลื่อนไหวของศีรษะ และการเคลื่อนไหวที่เกี่ยวข้องกับคำพูดของตัวละครต้นทางไปยังเป้าหมายในวิดีโอ กระบวนการนี้มักประกอบด้วยสามขั้นตอนหลัก: ขั้นแรก ติดตามคุณสมบัติใบหน้าในวิดีโอต้นทางและวิดีโอเป้าหมาย ขั้นที่สอง จัดคุณสมบัติเหล่านั้นให้สอดคล้องกับแบบจำลองใบหน้า 3 มิติทั่วไปโดยใช้เมตริกความสอดคล้อง และขั้นที่สาม ถ่ายโอนการแสดงออกจากต้นทางไปยังเป้าหมาย ตามด้วยการปรับแต่งเพิ่มเติมเพื่อเพิ่มความสมจริงและความสอดคล้อง
Lip Syncing (การซิงค์ริมฝีปาก): เทคนิค Deepfake การซิงค์ริมฝีปากมีความเชี่ยวชาญในการจัดการกับคำพูด โดยใช้หลักการป้อนข้อมูลเสียงเพื่อสร้างการเคลื่อนไหวของปากที่สมจริง เสียงจะถูกแปลงเป็นรูปร่างและพื้นผิวของปากแบบไดนามิก จากนั้นจะถูกจับคู่และผสมผสานอย่างระมัดระวังกับวิดีโอเป้าหมาย เพื่อสร้างภาพลวงตาว่าเป้าหมายกำลังพูดเสียงที่เป็นอินพุต
Text-Based Synthesis (การสังเคราะห์จากข้อความ): วิธีการที่มีความซับซ้อนสูงนี้จะแก้ไขวิดีโอตามสคริปต์ข้อความ มันทำงานโดยการวิเคราะห์ข้อความเป็นหน่วยเสียงที่ประกอบขึ้น (หน่วยเสียง) และ Visual Phoneme (การแสดงภาพของการออกเสียง) จากนั้นจับคู่สิ่งเหล่านั้นกับลำดับที่สอดคล้องกันในวิดีโอต้นทาง และใช้พารามิเตอร์จากแบบจำลองส่วนหัว 3 มิติเพื่อสร้างและลดความราบรื่นของการเคลื่อนไหวของริมฝีปากเพื่อให้ตรงกับข้อความใหม่ ทำให้สามารถแก้ไขสิ่งที่ตัวละครดูเหมือนกำลังพูดได้ทีละคำ
ความก้าวหน้าทางเทคโนโลยีจาก GAN ไปสู่แบบจำลองการแพร่กระจายไม่ได้เป็นการปรับปรุงแบบค่อยเป็นค่อยไป แต่เป็นการเปลี่ยนแปลงกระบวนทัศน์ที่เปลี่ยนแปลงภูมิทัศน์ของกลยุทธ์การป้องกัน Deepfake โดยพื้นฐาน GAN แม้ว่าจะมีประสิทธิภาพ แต่ก็มีจุดอ่อนทางสถาปัตยกรรมที่ทราบกันดี เช่น ความไม่เสถียรในการฝึกอบรมและการยุบโหมด ซึ่งมักนำไปสู่สิ่งประดิษฐ์ที่คาดการณ์ได้และตรวจจับได้ในโดเมนความถี่ของภาพ ดังนั้นเครื่องมือตรวจจับรุ่นทั้งหมดจึงถูกสร้างขึ้นโดยเฉพาะเพื่อระบุลายพิมพ์นิ้วมือเฉพาะของ GAN เหล่านี้ อย่างไรก็ตาม แบบจำลองการแพร่กระจายมีความเสถียรในการฝึกอบรมมากกว่า และสร้างเอาต์พุตที่หลากหลาย สมจริง และสอดคล้องกับสถิติข้อมูลจริงมากกว่า ดังนั้นจึงไม่มีข้อบกพร่องที่เห็นได้ชัดเจนจำนวนมากที่รุ่นก่อนมี
ดังนั้น ส่วนสำคัญของโครงสร้างพื้นฐานการตรวจจับ Deepfake ที่มีอยู่จึงล้าสมัยอย่างรวดเร็ว การศึกษาแสดงให้เห็นว่าตัวตรวจจับที่ได้รับการฝึกฝนจากภาพที่สร้างโดย GAN จะแสดง "การลดลงของประสิทธิภาพอย่างรุนแรง" เมื่อนำไปใช้กับเนื้อหาจากแบบจำลองการแพร่กระจาย เป็นที่น่าสังเกตว่าตัวตรวจจับที่ได้รับการฝึกฝนจากภาพแบบจำลองการแพร่กระจายสามารถระบุเนื้อหาที่สร้างโดย GAN ได้สำเร็จ แต่สิ่งกลับกันนั้นไม่ใช่ ซึ่งบ่งชี้ว่าแบบจำลองการแพร่กระจายเป็นตัวแทนของคลาสของของปลอมที่ซับซ้อนและท้าทายกว่า ในความเป็นจริง สิ่งนี้ได้รีเซ็ตการแข่งขันทางอาวุธทางเทคนิคอย่างมีประสิทธิภาพ โดยต้องมีการออกแบบกลยุทธ์การป้องกันใหม่เพื่อจัดการกับลักษณะเฉพาะและละเอียดอ่อนกว่าของสื่อที่สร้างโดยการแพร่กระจาย
นอกจากนี้ ธรรมชาติของ "กล่องดำ" ของแบบจำลองการสร้างเหล่านี้เพิ่มความซับซ้อนให้กับความพยายามในการป้องกันแหล่งที่มา ทั้ง GAN และแบบจำลองการแพร่กระจายทำงานในลักษณะที่ไม่ได้รับการดูแลหรือกึ่งได้รับการดูแล เรียนรู้ที่จะเลียนแบบการกระจายเชิงสถิติของชุดข้อมูลโดยไม่ต้องใช้ป้ายกำกับเชิงความหมายที่ชัดเจน พวกเขาไม่ได้เรียนรู้ว่า "อะไรคือใบหน้า" ในลักษณะที่มนุษย์เข้าใจได้ แต่เรียนรู้ว่า "รูปแบบพิกเซลใดที่เป็นไปได้ในชุดข้อมูลใบหน้า" สิ่งนี้ทำให้การเขียนโปรแกรมข้อจำกัดโดยตรงลงในกระบวนการสร้างเป็นเรื่องยากอย่างยิ่ง (เช่น "อย่าสร้างภาพที่เป็นอันตราย") แบบจำลองจะเพิ่มประสิทธิภาพฟังก์ชันทางคณิตศาสตร์เท่านั้น: ไม่ว่าจะหลอกตัวจำแนก หรือย้อนกลับกระบวนการรบกวน ซึ่งหมายความว่าการป้องกันไม่สามารถขึ้นอยู่กับการกำกับดูแลจากภายในอัลกอริทึมหลัก การแทรกแซงที่ใช้งานได้จริงมากที่สุดจะต้องเกิดขึ้นก่อนการสร้าง (โดยการควบคุมข้อมูลการฝึกอบรม) หรือหลังการสร้าง (ผ่านการตรวจจับ ลายน้ำ และแหล่งที่มา) เพราะการสร้างพฤติกรรมนั้นโดยเนื้อแท้ต่อต้านการกำกับดูแลโดยตรง
การวิเคราะห์เปรียบเทียบเครื่องมือสร้าง
การทำความเข้าใจความแตกต่างเชิงกลยุทธ์ระหว่าง GAN และแบบจำลองการแพร่กระจายเป็นสิ่งสำคัญสำหรับผู้มีส่วนได้ส่วนเสียใดๆ ตั้งแต่ผู้กำหนดนโยบายไปจนถึงเจ้าหน้าที่รักษาความปลอดภัยของบริษัท การเปลี่ยนแปลงความเป็นผู้นำทางเทคนิคจากอดีตสู่ปัจจุบันมีผลกระทบอย่างลึกซึ้งต่อความยากลำบากในการตรวจจับ ความน่าจะเป็นของการหลอกลวง และภูมิทัศน์ของภัยคุกคามโดยรวม
คุณสมบัติ | เครือข่ายปฏิปักษ์เชิงสร้างสรรค์ (GAN) | แบบจำลองการแพร่กระจาย | นัยสำคัญเชิงกลยุทธ์ |
---|---|---|---|
กลไกหลัก | ตัวสร้างและตัวจำแนกแข่งขันกันในเกมผลรวมเป็นศูนย์ | เครือข่ายประสาทเทียมเรียนรู้ที่จะย้อนกลับกระบวนการ "ส่งเสียงดัง" ค่อยๆ | กระบวนการปรับแต่งซ้ำๆ ของการแพร่กระจายส่งผลให้มีความแม่นยำสูงกว่าและมีข้อผิดพลาดเชิงโครงสร้างน้อยกว่า |
กระบวนการฝึกอบรม | มีชื่อเสียงในด้านความไม่เสถียร มีแนวโน้มที่จะ "การยุบโหมด" และการบรรจบกันช้า | เสถียรและเชื่อถือได้ แต่ใช้การคำนวณมาก | เกณฑ์การเข้าถึงสำหรับผลลัพธ์คุณภาพสูงจะลดลงด้วยแบบจำลองการแพร่กระจาย ทำให้ภัยคุกคามเป็นประชาธิปไตยมากขึ้น |
คุณภาพเอาต์พุต | สามารถสร้างภาพคุณภาพสูงได้ แต่สามารถมีสิ่งประดิษฐ์ที่ละเอียดอ่อนได้ | ระดับสูงสุดของความสมจริงของภาพถ่ายและความหลากหลายในปัจจุบัน มักจะไม่สามารถแยกแยะได้จากของจริง | ของปลอมมีความน่าเชื่อถือมากขึ้น บ่อนทำลายฮิวริสติก "การเห็นคือการเชื่อ" และท้าทายการตรวจจับของมนุษย์ |
ความสามารถในการตรวจจับ | วิธีการตรวจจับที่เก่ากว่ามักจะปรับให้เข้ากับการค้นหาสิ่งประดิษฐ์เฉพาะของ GAN (เช่น ความไม่สมดุลของความถี่) | ทำให้ตัวตรวจจับตาม GAN จำนวนมากล้าสมัย รูปภาพมีสิ่งประดิษฐ์น้อยกว่าและสอดคล้องกับสถิติข้อมูลจริงอย่างใกล้ชิด | "การแข่งขันทางอาวุธ" ของ Deepfake ได้ถูกรีเซ็ตแล้ว การวิจัยและพัฒนาการตรวจจับจะต้องเปลี่ยนไปมุ่งเน้นที่การแพร่กระจายข้อมูลจำเพาะ |
แบบจำลองที่โดดเด่น | StyleGAN, CycleGAN | DALL-E, Stable Diffusion, Imagen, Sora | เครื่องมือที่ทรงพลังและใช้กันอย่างแพร่หลายที่สุดในขณะนี้ใช้การแพร่กระจาย เร่งความเร็วของภัยคุกคาม |
ระบบภูมิคุ้มกันดิจิทัล: การวิเคราะห์เปรียบเทียบวิธีการตรวจจับ
เพื่อตอบสนองต่อการเพิ่มขึ้นของสื่อสังเคราะห์ หลายสาขาวิธีการตรวจจับได้เกิดขึ้น ก่อตัวเป็น "ระบบภูมิคุ้มกันดิจิทัล" ที่เพิ่งเริ่มต้น เทคนิคเหล่านี้ครอบคลุมตั้งแต่การวิเคราะห์ทางนิติวิทยาศาสตร์ของสิ่งประดิษฐ์ดิจิทัล ไปจนถึงวิธีการที่แปลกใหม่ในการตรวจจับสัญญาณทางชีวภาพแฝง อย่างไรก็ตาม ประสิทธิภาพของระบบภูมิคุ้มกันนี้ถูกท้าทายอย่างต่อเนื่องจากการวิวัฒนาการอย่างรวดเร็วของแบบจำลองการสร้าง และจากการโจมตีที่เป็นปฏิปักษ์ที่ออกแบบมาเพื่อหลีกเลี่ยงการตรวจจับ การต่อสู้ที่ดำเนินอยู่นี้ระหว่างการสร้างและการตรวจจับคือ Paradox "Red Queen" ที่ผู้พิทักษ์จะต้องคิดค้นสิ่งใหม่ๆ อย่างต่อเนื่องเพื่อรักษาสถานะที่เป็นอยู่
การวิเคราะห์ทางนิติวิทยาศาสตร์ของสิ่งประดิษฐ์ดิจิทัล
หมวดหมู่ที่มีการจัดตั้งมากที่สุดของการตรวจจับ Deepfake เกี่ยวข้องกับการวิเคราะห์ทางนิติวิทยาศาสตร์ของสิ่งประดิษฐ์ดิจิทัล ซึ่งเป็นข้อบกพร่องและความไม่สอดคล้องกันที่ละเอียดอ่อนที่หลงเหลืออยู่จากกระบวนการสร้าง ข้อบกพร่องและความไม่สอดคล้องกันเหล่านี้มักยากต่อการระบุและตรวจไม่พบด้วยตาเปล่า แต่สามารถระบุได้ด้วยอัลกอริทึมเฉพาะ
ความไม่สอดคล้องกันทางสายตาและตามโครงสร้าง: แบบจำลองการสร้างในยุคแรกๆ และแม้แต่บางแบบจำลองในปัจจุบัน ก็ประสบปัญหาในการจำลองความซับซ้อนของกายวิภาคของมนุษย์และความสมจริงทางกายภาพของโลกแห่งความเป็นจริงอย่างสมบูรณ์แบบ วิธีการตรวจจับใช้ประโยชน์จากข้อบกพร่องเหล่านี้โดยการวิเคราะห์ความผิดปกติเฉพาะในสื่อ ซึ่งรวมถึงรูปแบบการกะพริบตาที่ไม่เป็นธรรมชาติ ซึ่งเป็นการกะพริบตามากเกินไป กะพริบตาน้อยเกินไป หรือไม่กะพริบตาเลย (มักเป็นผลมาจากการขาดภาพดวงตาปิดในข้อมูลการฝึกอบรม) การเคลื่อนไหวของดวงตาที่เป็นหุ่นยนต์หรือไม่สอดคล้องกัน และริมฝีปากหรือรูปปากที่ถูกจำกัดซึ่งฟันล่างไม่เคยแสดงออกมา ตัวบ่งชี้อื่นๆ ได้แก่ การขาดการเปลี่ยนแปลงที่ละเอียดอ่อนในรูจมูกระหว่างการพูด ความไม่สอดคล้องกันของการส่องสว่างและเงาที่ไม่ตรงกับสภาพแวดล้อมโดยรอบ และข้อผิดพลาดหรือการสูญหายของการสะท้อนและการหักเหของกระจกแว่นตาหรือพื้นผิวสะท้อนแสงอื่นๆ
การวิเคราะห์พิกเซลและการบีบอัด: เทคนิคเหล่านี้ทำงานในระดับที่ต่ำกว่า โดยตรวจสอบโครงสร้างดิจิทัลของภาพหรือวิดีโอ Error Level Analysis (ELA) คือวิธีการระบุพื้นที่ในภาพที่มีระดับการบีบอัดที่แตกต่างกัน เนื่องจากพื้นที่ที่ถูกจัดการจะถูกบันทึกใหม่หรือบีบอัดใหม่ จึงอาจแสดงระดับข้อผิดพลาดที่แตกต่างจากส่วนเดิมของภาพ โดยเน้นที่ของปลอม ที่เกี่ยวข้องอย่างใกล้ชิดคือ Edge and Blending Analysis (การวิเคราะห์ขอบและการผสม) ซึ่งตรวจสอบขอบเขตและโครงร่างอย่างละเอียดระหว่างองค์ประกอบสังเคราะห์ (เช่น ใบหน้าที่สลับกัน) และภูมิหลังจริง พื้นที่เหล่านี้อาจเปิดเผยการจัดการผ่านสัญญาณ เช่น การแบ่งพิกเซลที่ไม่สอดคล้องกัน ความคมชัดหรือความเบลอที่ไม่เป็นธรรมชาติ และความแปรปรวนเล็กน้อยในสีและพื้นผิว
การวิเคราะห์โดเมนความถี่: แทนที่จะวิเคราะห์พิกเซลโดยตรง วิธีการเหล่านี้จะแปลงรูปภาพเป็นองค์ประกอบความถี่ เพื่อค้นหารูปแบบที่ไม่เป็นธรรมชาติ เนื่องจากตัวสร้างของ GAN เป็นสถาปัตยกรรมที่เพิ่มขนาด จึงมักจะทิ้งสิ่งประดิษฐ์สเปกตรัมคุณสมบัติไว้ ซึ่งสร้างรูปแบบเป็นระยะที่ไม่มีอยู่ในภาพจริง แม้ว่าวิธีนี้จะมีประสิทธิภาพสำหรับ GAN ส่วนใหญ่ แต่ก็มีอัตราความสำเร็จที่ต่ำกว่ากับแบบจำลองการแพร่กระจาย ซึ่งสร้างภาพที่มีโปรไฟล์ความถี่ที่เป็นธรรมชาติมากกว่า อย่างไรก็ตาม การศึกษาบางแห่งแสดงให้เห็นว่าแบบจำลองการแพร่กระจายยังคงสามารถแสดงความไม่ตรงกันที่ตรวจจับได้ในรายละเอียดความถี่สูง เมื่อเทียบกับภาพจริง ซึ่งเป็นช่องทางที่เป็นไปได้สำหรับการตรวจจับ
การวิเคราะห์สัญญาณทางชีวภาพ: "จังหวะการเต้นของหัวใจ" ของ Deepfake
พื้นที่ที่ใหม่กว่าและมีแนวโน้มในด้านการตรวจจับ Deepfake เกี่ยวข้องกับการวิเคราะห์การมีอยู่ของสัญญาณทางชีวภาพที่แท้จริงในสื่อ หลักการพื้นฐานคือ แม้ว่าแบบจำลองการสร้างจะเก่งขึ้นเรื่อยๆ ในการทำซ้ำลักษณะที่ปรากฏด้วยภาพ แต่ก็ไม่สามารถจำลองกระบวนการทางสรีรวิทยาที่แฝงเร้นของผู้มีชีวิตได้
เทคนิคหลักในสนามนี้คือ Remote Photoplethysmography (rPPG) เทคนิคนี้ใช้กล้องมาตรฐานเพื่อตรวจจับการเปลี่ยนแปลงเป็นระยะเล็กน้อยในสีผิว ซึ่งเกิดขึ้นเมื่อหัวใจสูบฉีดเลือดไปยังหลอดเลือดผิวเผินในใบหน้า ในวิดีโอจริงของบุคคล สิ่งนี้จะก่อให้เกิดสัญญาณการเต้นเป็นจังหวะที่อ่อนแอแต่สอดคล้องกัน ใน Deepfake สัญญาณนี้มักจะไม่อยู่ บิดเบือน หรือไม่สอดคล้องกัน
วิธีการตรวจจับประกอบด้วยหลายขั้นตอน:
การดึงสัญญาณ: สัญญาณ rPPG จะถูกดึงออกมาจากหลาย Region of Interest (ROI) บนใบหน้าของบุคคลในวิดีโอ
การประมวลผลสัญญาณ: สัญญาณดิบจะถูกล้างข้อมูลรบกวน จากนั้นจึงประมวลผล (มักใช้ Fast Fourier Transform (FFT)) เพื่อวิเคราะห์คุณสมบัติของโดเมนเวลาและความถี่ FFT สามารถเปิดเผยความถี่ที่โดดเด่นของสัญญาณ ซึ่งสอดคล้องกับอัตราการเต้นของหัวใจ
การจำแนกประเภท: ตัวจำแนกประเภท (เช่น CNN) ได้รับการฝึกฝนให้แยกแยะรูปแบบจังหวะที่สอดคล้องกันของการเต้นของหัวใจจริงจากสัญญาณที่มีเสียงดัง ไม่สอดคล้องกัน หรือไม่มีอยู่ในวิดีโอปลอม
วิธีการนี้ได้บรรลุความแม่นยำในการตรวจจับที่สูงมากในสภาพแวดล้อมการทดลองที่มีการควบคุม โดยการศึกษาบางแห่งรายงานความแม่นยำสูงถึง 99.22% อย่างไรก็ตาม วิธีนี้มีช่องโหว่ที่สำคัญ เทคนิค Deepfake ที่ซับซ้อนกว่า (โดยเฉพาะที่เกี่ยวข้องกับการแสดงใหม่) สามารถสืบทอดสัญญาณทางสรีรวิทยาจากวิดีโอต้นทางหรือวิดีโอ "ขับเคลื่อน" ซึ่งหมายความว่า Deepfake สามารถแสดงสัญญาณ rPPG ที่ปกติและสอดคล้องกันได้อย่างสมบูรณ์ มันจะเป็นจังหวะการเต้นของหัวใจของนักแสดงต้นทาง ไม่ใช่บุคคลที่แสดงในวิดีโอสุดท้าย การค้นพบนี้ท้าทายสมมติฐานที่ง่ายๆ ว่า Deepfake ขาดสัญญาณทางสรีรวิทยา และยกระดับเกณฑ์สำหรับการตรวจจับ วิธีการในอนาคตจะต้องก้าวข้ามการตรวจสอบการมีอยู่ของพัลส์ และตรวจสอบความสอดคล้องทางสรีรวิทยาและคุณสมบัติเฉพาะตามอัตลักษณ์ของสัญญาณ
การแข่งขันทางอาวุธตรวจจับ: ความท้าทายของแบบจำลองการแพร่กระจายและการโจมตีที่เป็นปฏิปักษ์
โดเมนของการตรวจจับ Deepfake ถูกกำหนดโดยการแข่งขันทางอาวุธที่ไม่หยุดยั้ง เมื่อมีการพัฒนาวิธีการตรวจจับที่เชื่อถือได้ แบบจำลองการสร้างก็จะพัฒนาไปอย่างต่อเนื่องเพื่อเอาชนะมัน การเพิ่มขึ้นล่าสุดของแบบจำลองการแพร่กระจายและการใช้การโจมตีที่เป็นปฏิปักษ์เป็นสองความท้าทายที่สำคัญที่สุดที่ตัวตรวจจับสมัยใหม่ต้องเผชิญ
ความล้มเหลวในการทั่วไป: จุดอ่อนที่สำคัญของแบบจำลองการตรวจจับจำนวนมากคือความสามารถในการทั่วไป ตัวตรวจจับที่ได้รับการฝึกฝนให้ระบุของปลอมจากแบบจำลองการสร้างเฉพาะ (เช่น StyleGAN2) หรือชุดข้อมูลเฉพาะ มักจะล้มเหลวเมื่อเผชิญกับเทคนิคการจัดการใหม่ๆ หรือโดเมนข้อมูลที่แตกต่างกัน แบบจำลองการแพร่กระจายทำให้ปัญหานี้รุนแรงขึ้นเป็นพิเศษ เนื่องจากเอาต์พุตของแบบจำลองมีการปลอมแปลงที่เห็นได้ชัดน้อยกว่า มีความหลากหลายมากขึ้น และสอดคล้องกับคุณสมบัติทางสถิติของภาพจริงมากขึ้น จึงสามารถหลีกเลี่ยงตัวตรวจจับที่ออกแบบมาสำหรับ GAN ได้อย่างมีประสิทธิภาพ เพื่อจัดการกับปัญหานี้ นักวิจัยกำลังพัฒนาชุดข้อมูลเปรียบเทียบใหม่ที่ยากขึ้น ซึ่งรวมถึง Deepfake การแพร่กระจายที่ล้ำสมัยที่สุด เพื่อขับเคลื่อนการสร้างตัวตรวจจับที่แข็งแกร่งและเป็นสากลมากขึ้น
การโจมตีที่เป็นปฏิปักษ์: แม้แต่ตัวตรวจจับที่มีความแม่นยำสูงก็ยังอ่อนไหวต่อการถูกบ่อนทำลายโดยตรงผ่านการโจมตีที่เป็นปฏิปักษ์ ในสถานการณ์นี้ ผู้โจมตีจะแทรกแซงพิกเซลของภาพ Deepfake อย่างละเอียดที่ไม่สามารถรับรู้ได้ การเปลี่ยนแปลงเหล่านี้มองไม่เห็นสำหรับมนุษย์ แต่ได้รับการออกแบบมาโดยเฉพาะเพื่อใช้ประโยชน์จากจุดอ่อนในเครือข่ายประสาทเทียมของตัวตรวจจับ ทำให้จำแนกภาพปลอมว่าเป็นภาพจริงอย่างผิดพลาด ภัยคุกคามนี้มีอยู่ทั้งในสภาพแวดล้อม "กล่องขาว" (ที่ผู้โจมตีมีความรู้ทั้งหมดเกี่ยวกับสถาปัตยกรรมของตัวตรวจจับ) และสภาพแวดล้อม "กล่องดำ" ที่สมจริงกว่า (ที่ผู้โจมตีสามารถสอบถามตัวตรวจจับและสังเกตเอาต์พุตเท่านั้น)
เพื่อตอบสนองต่อการชุมนุมวิจัยมุ่งเน้นไปที่การพัฒนาตัวตรวจจับรุ่นต่อไปที่มีความยืดหยุ่นที่เพิ่มขึ้น กลยุทธ์หลัก ได้แก่
ความหลากหลายของข้อมูลการฝึกอบรม: การเพิ่มชุดข้อมูลการฝึกอบรมเพื่อให้รวมถึงของปลอมที่หลากหลายจากทั้ง GAN และแบบจำลองการแพร่กระจายตลอดจนโดเมนภาพที่หลากหลาย ได้รับการพิสูจน์แล้วว่าช่วยเพิ่มความสามารถในการทั่วไป
กลยุทธ์การฝึกอบรมขั้นสูง: เทคนิคใหม่ๆ เช่น "Momentum Contrastive Learning" กำลังได้รับการสำรวจเพื่อช่วยให้แบบจำลองฝึกอบรมได้อย่างมีประสิทธิภาพมากขึ้นบนชุดข้อมูลที่ไม่สอดคล้องกันโดยการให้ความสำคัญกับตัวอย่างตามความยากในการจำแนกประเภท
สถาปัตยกรรมที่แข็งแกร่ง: สถาปัตยกรรมใหม่กำลังได้รับการออกแบบให้มีความทนทานต่อการโจมตีมากขึ้นโดยเนื้อแท้ วิธีการที่มีแนวโน้มประการหนึ่งคือการใช้ ensembles ที่ไม่ต่อเนื่อง ซึ่งมีการฝึกอบรมแบบจำลองหลายแบบในชุดย่อยที่แตกต่างกันและไม่ทับซ้อนกันของโดเมนความถี่ของภาพ สิ่งนี้บังคับให้ผู้โจมตีค้นหาการแทรกแซงที่สามารถหลอกแบบจำลองหลายแบบได้พร้อมกัน ซึ่งเป็นงานที่ยากกว่ามาก วิธีการแบบไฮบริดอื่นๆ ผสานรวมคุณสมบัติจากทั้งโดเมนเชิงพื้นที่และโดเมนความถี่ เพื่อสร้างแบบจำลองข้อมูลที่ครอบคลุมมากขึ้น
การไปๆ มาๆ อย่างต่อเนื่องระหว่างเทคนิคการสร้างและการตรวจจับแสดงให้เห็นว่าการป้องกันแบบคงที่ใดๆ นั้นถูกประณามให้ล้าสมัย เมื่อแบบจำลองการสร้างพัฒนาไปอย่างต่อเนื่องเพื่อขจัดสัญญาณต่างๆ เช่น ความผิดปกติของการกะพริบตาหรือสิ่งประดิษฐ์ของ GAN ตัวตรวจจับจะต้องเปลี่ยนไปใช้สัญญาณที่ละเอียดอ่อนกว่า เช่น ความไม่ตรงกันของความถี่สูงหรือลายเซ็น rPPG ในทางกลับกัน แบบจำลองการสร้างสามารถได้รับการฝึกฝนให้เลียนแบบสัญญาณเหล่านั้นได้ ดังที่เราได้เห็นในการสืบทอด rPPG จากวิดีโอต้นทาง วงจรนิรันดร์นี้บ่งชี้ว่ากลยุทธ์การป้องกันที่อาศัยเฉพาะการตรวจจับเชิงโต้ตอบกำลังแข่งขันในการแข่งขันทางอาวุธที่มีราคาแพงและอาจไม่สามารถชนะได้
กลยุทธ์การตรวจจับที่ยั่งยืนที่สุดอาจเป็นกลยุทธ์ที่พึ่งพาช่องว่างพื้นฐานระหว่างการจำลองดิจิทัลกับความเป็นจริงทางกายภาพ แม้ว่าสิ่งประดิษฐ์ด้วยภาพจะเป็นข้อบกพร่องในการ จำลอง ที่สามารถแพทช์ทีละขั้นตอนด้วยอัลกอริทึมที่ดีกว่าและพลังการคำนวณที่มากขึ้น แต่การสร้างคุณสมบัติที่เกิดขึ้นใหม่ของชีววิทยาและฟิสิกส์จากหลักการแรกเป็นเรื่องยากกว่ามากสำหรับ AI แบบจำลอง