GPT-4o ของ OpenAI ถูกตรวจสอบเรื่องใช้ข้อมูลเสียเงิน

การพัฒนาปัญญาประดิษฐ์ (AI) ที่ไม่หยุดยั้ง ซึ่งนำโดยยักษ์ใหญ่อย่าง OpenAI มักจะปะทะกับหลักการที่มีมายาวนานเกี่ยวกับทรัพย์สินทางปัญญาและความเป็นเจ้าของข้อมูล การปะทะกันนี้ได้จุดประกายความขัดแย้งขึ้นอีกครั้ง โดยมีข้อกล่าวหาใหม่ๆ เกิดขึ้นว่า GPT-4o ซึ่งเป็นโมเดลเรือธงใหม่ล่าสุดของ OpenAI อาจได้รับการฝึกโดยใช้เนื้อหาที่มีลิขสิทธิ์ซึ่งอยู่หลังเพย์วอลล์ (paywalls) โดยอาจไม่ได้รับการอนุญาตที่จำเป็น ข้อกล่าวหาเหล่านี้มาจากกลุ่มเฝ้าระวังที่จัดตั้งขึ้นใหม่ คือ AI Disclosures Project ซึ่งเพิ่มความซับซ้อนอีกชั้นหนึ่งให้กับการถกเถียงที่ซับซ้อนอยู่แล้วเกี่ยวกับแหล่งที่มาทางจริยธรรมของข้อมูลสำหรับการฝึกระบบ AI ที่ซับซ้อน

เสียงเห่าขององค์กรเฝ้าระวัง: ข้อกล่าวหาจาก AI Disclosures Project

AI Disclosures Project ซึ่งเปิดตัวในปี 2024 วางตำแหน่งตัวเองเป็นองค์กรไม่แสวงหาผลกำไรที่อุทิศตนเพื่อตรวจสอบแนวปฏิบัติที่มักจะคลุมเครือภายในอุตสาหกรรม AI ผู้ก่อตั้งประกอบด้วยบุคคลที่มีชื่อเสียง เช่น Tim O’Reilly ผู้ประกอบการด้านสื่อ ผู้ก่อตั้ง O’Reilly Media ซึ่งเป็นผู้จัดพิมพ์หนังสือทางเทคนิคที่โดดเด่น และ Ilan Strauss นักเศรษฐศาสตร์ ความเชื่อมโยงกับ O’Reilly Media นี้มีความเกี่ยวข้องเป็นพิเศษ เนื่องจากรายงานฉบับแรกของโครงการมุ่งเน้นไปที่การปรากฏตัวของเนื้อหาหนังสือที่ต้องเสียเงินของ O’Reilly ภายในชุดข้อมูลการฝึกของ GPT-4o

ข้อกล่าวหาหลักของการศึกษาของพวกเขานั้นท้าทาย: แม้ว่าจะไม่มีข้อตกลงการอนุญาตให้ใช้สิทธิ์ (licensing agreement) ที่ทราบกันระหว่าง OpenAI และ O’Reilly Media แต่โมเดล GPT-4o ก็แสดงให้เห็นถึงความคุ้นเคยในระดับสูงอย่างเห็นได้ชัดกับเนื้อหาที่ได้มาจากหนังสือที่มีลิขสิทธิ์ของ O’Reilly โดยตรง รายงานโต้แย้งว่าความคุ้นเคยนี้บ่งชี้อย่างยิ่งว่าเนื้อหาที่ต้องเสียเงินเหล่านี้ถูกรวมเข้าไว้ในคลังข้อมูลขนาดใหญ่ที่ใช้สร้างความสามารถของโมเดล การศึกษาเน้นย้ำถึงความแตกต่างอย่างมีนัยสำคัญเมื่อเทียบกับโมเดล OpenAI รุ่นเก่า โดยเฉพาะ GPT-3.5 Turbo ซึ่งบ่งบอกถึงการเปลี่ยนแปลงหรือการขยายตัวที่อาจเกิดขึ้นในแนวทางการได้มาซึ่งข้อมูลก่อนการพัฒนา GPT-4o

ผลกระทบนั้นมีนัยสำคัญ หากเนื้อหาที่เป็นกรรมสิทธิ์และต้องชำระเงินถูกนำไปใช้โดยโมเดล AI โดยไม่ได้รับอนุญาตหรือค่าตอบแทน จะทำให้เกิดคำถามพื้นฐานเกี่ยวกับกฎหมายลิขสิทธิ์ในยุคของ AI เชิงกำเนิด (generative AI) ผู้จัดพิมพ์และผู้เขียนต้องพึ่งพารูปแบบการสมัครสมาชิกหรือการซื้อ ซึ่งตั้งอยู่บนพื้นฐานของความพิเศษเฉพาะตัวของเนื้อหา การกล่าวหาว่ามีการใช้เนื้อหานี้เพื่อการฝึกอบรมอาจถูกมองว่าเป็นการบ่อนทำลายรูปแบบธุรกิจเหล่านี้ ซึ่งอาจลดคุณค่าของเนื้อหาที่ต้องใช้การลงทุนจำนวนมากในการสร้าง ข้อกล่าวหาเฉพาะนี้ก้าวข้ามการขูดข้อมูล (scraping) จากเว็บไซต์ที่เปิดเผยต่อสาธารณะ ไปสู่ขอบเขตของการเข้าถึงเนื้อหาที่มีไว้สำหรับลูกค้าที่ชำระเงินโดยเฉพาะ

การมองเข้าไปในกล่องดำ: การโจมตีแบบ Membership Inference Attack

เพื่อยืนยันข้อกล่าวหาของพวกเขา นักวิจัยที่ AI Disclosures Project ได้ใช้เทคนิคที่ซับซ้อนซึ่งเรียกว่า ‘membership inference attack’ โดยเฉพาะอย่างยิ่งการใช้วิธีที่พวกเขาเรียกว่า DE-COP แนวคิดหลักเบื้องหลังแนวทางนี้คือการทดสอบว่าโมเดล AI ได้ ‘จดจำ’ หรืออย่างน้อยก็พัฒนาความคุ้นเคยอย่างมากกับข้อความเฉพาะหรือไม่ โดยพื้นฐานแล้ว การโจมตีจะตรวจสอบโมเดลเพื่อดูว่าสามารถแยกแยะความแตกต่างระหว่างข้อความต้นฉบับ (ในกรณีนี้คือจากหนังสือ O’Reilly) กับเวอร์ชันที่ถอดความอย่างระมัดระวังของข้อความเดียวกันซึ่งสร้างโดย AI อื่นได้อย่างน่าเชื่อถือหรือไม่

ตรรกะพื้นฐานคือ หากโมเดลแสดงความสามารถที่สูงกว่าการสุ่มอย่างสม่ำเสมอในการระบุข้อความ ต้นฉบับ ที่มนุษย์เขียนเมื่อเทียบกับการถอดความที่ใกล้เคียงกัน แสดงว่าโมเดลเคยพบข้อความต้นฉบับนั้นมาก่อน ซึ่งน่าจะเกิดขึ้นในช่วงการฝึก เปรียบเสมือนการทดสอบว่ามีคนจำภาพถ่ายเฉพาะที่ไม่ค่อยมีคนรู้จักซึ่งพวกเขาอ้างว่าไม่เคยเห็นมาก่อนหรือไม่ การจดจำที่สอดคล้องกันบ่งบอกถึงการสัมผัสก่อนหน้านี้

ขนาดของการทดสอบของ AI Disclosures Project นั้นใหญ่มาก พวกเขาใช้ ข้อความตัดตอนย่อหน้าที่แตกต่างกัน 13,962 รายการ ซึ่งดึงมาจาก หนังสือ O’Reilly Media 34 เล่ม ข้อความตัดตอนเหล่านี้แสดงถึงเนื้อหาเฉพาะทางที่มีมูลค่าสูงซึ่งโดยทั่วไปจะพบได้หลังเพย์วอลล์ของผู้จัดพิมพ์ จากนั้นการศึกษาได้วัดประสิทธิภาพของทั้ง GPT-4o และรุ่นก่อนหน้า GPT-3.5 Turbo ในงานแยกแยะนี้

ผลลัพธ์ที่นำเสนอในรายงานนั้นน่าทึ่ง GPT-4o แสดงให้เห็นถึงความสามารถที่เพิ่มขึ้นอย่างมีนัยสำคัญในการจดจำเนื้อหา O’Reilly ที่ต้องเสียเงิน ประสิทธิภาพของมันถูกวัดปริมาณโดยใช้คะแนน AUROC (Area Under the Receiver Operating Characteristic curve) ซึ่งเป็นตัวชี้วัดทั่วไปสำหรับการประเมินประสิทธิภาพของตัวจำแนกประเภทไบนารี (binary classifiers) GPT-4o ได้คะแนน AUROC ที่ 82% ในทางตรงกันข้าม GPT-3.5 Turbo ได้คะแนนเพียง สูงกว่า 50% เล็กน้อย ซึ่งโดยพื้นฐานแล้วเทียบเท่ากับการเดาสุ่ม ซึ่งบ่งชี้ว่ามีการจดจำเนื้อหาที่ทดสอบเพียงเล็กน้อยหรือไม่มีเลย รายงานโต้แย้งว่าความแตกต่างที่ชัดเจนนี้ให้หลักฐานที่น่าเชื่อถือ แม้ว่าจะเป็นทางอ้อม ว่าเนื้อหาที่ต้องเสียเงินนั้นเป็นส่วนหนึ่งของข้อมูลการฝึกของ GPT-4o จริงๆ คะแนน 82% บ่งชี้ถึงสัญญาณที่แข็งแกร่ง ซึ่งเกินกว่าที่คาดไว้โดยบังเอิญหรือความรู้ทั่วไป

ข้อควรระวังที่จำเป็นและคำถามที่ยังไม่มีคำตอบ

แม้ว่าผลการวิจัยจะนำเสนอเรื่องราวที่น่าสนใจ แต่ผู้ร่วมเขียนการศึกษา รวมถึงนักวิจัย AI Sruly Rosenblat ก็ยอมรับถึงข้อจำกัดที่อาจเกิดขึ้นในวิธีการของพวกเขาและความซับซ้อนของการฝึก AI ข้อควรระวังที่สำคัญประการหนึ่งที่พวกเขายกขึ้นคือความเป็นไปได้ของ การนำเข้าข้อมูลทางอ้อม (indirect data ingestion) พวกเขาสังเกตว่า เป็นไปได้ที่ผู้ใช้ ChatGPT (อินเทอร์เฟซยอดนิยมของ OpenAI) อาจคัดลอกและวางข้อความตัดตอนจากหนังสือ O’Reilly ที่ต้องเสียเงินลงในอินเทอร์เฟซแชทโดยตรงเพื่อวัตถุประสงค์ต่างๆ เช่น การถามคำถามเกี่ยวกับข้อความหรือการขอสรุป หากสิ่งนี้เกิดขึ้นบ่อยครั้งเพียงพอ โมเดลอาจเรียนรู้เนื้อหาทางอ้อมผ่านการโต้ตอบของผู้ใช้ แทนที่จะผ่านการรวมโดยตรงในชุดข้อมูลการฝึกเริ่มต้น การแยกแยะการเปิดรับการฝึกโดยตรงออกจากการเรียนรู้ทางอ้อมผ่านพรอมต์ของผู้ใช้ยังคงเป็นความท้าทายที่สำคัญในการพิสูจน์หลักฐานทางดิจิทัลของ AI (AI forensics)

นอกจากนี้ ขอบเขตของการศึกษายังไม่ได้ขยายไปถึงโมเดลรุ่นล่าสุดหรือรุ่นเฉพาะทางของ OpenAI ที่อาจได้รับการพัฒนาหรือเปิดตัวพร้อมกันหรือหลังจากรอบการฝึกหลักของ GPT-4o โมเดลที่อาจรวมถึง GPT-4.5 (หากมีอยู่ภายใต้ชื่อหรือระดับความสามารถนั้น) และโมเดลที่เน้นการให้เหตุผล เช่น o3-mini และ o1 ไม่ได้ถูกนำมาทดสอบด้วย membership inference attacks แบบเดียวกัน ทำให้เกิดคำถามว่าแนวทางการจัดหาข้อมูลอาจมีการพัฒนาต่อไปหรือไม่ หรือโมเดลใหม่เหล่านี้แสดงรูปแบบความคุ้นเคยที่คล้ายคลึงกันกับเนื้อหาที่ต้องเสียเงินหรือไม่ วงจรการทำซ้ำอย่างรวดเร็วในการพัฒนา AI หมายความว่าการวิเคราะห์ภาพรวมใดๆ มีความเสี่ยงที่จะล้าสมัยเกือบจะในทันที

ข้อจำกัดเหล่านี้ไม่จำเป็นต้องทำให้ผลการวิจัยหลักของการศึกษานี้เป็นโมฆะ แต่เป็นการเพิ่มชั้นของความแตกต่างที่สำคัญ การพิสูจน์อย่างชัดเจนว่ามีอะไรอยู่ภายในข้อมูลขนาดเทราไบต์ที่ใช้ในการฝึกโมเดลพื้นฐาน (foundation model) นั้นเป็นเรื่องยากอย่างยิ่ง การโจมตีแบบ Membership inference attacks ให้หลักฐานเชิงความน่าจะเป็น ซึ่งบ่งชี้ถึงความเป็นไปได้มากกว่าที่จะให้ความแน่นอนอย่างสมบูรณ์ OpenAI เช่นเดียวกับห้องปฏิบัติการ AI อื่นๆ ปกป้ององค์ประกอบข้อมูลการฝึกอบรมอย่างใกล้ชิด โดยอ้างถึงข้อกังวลด้านกรรมสิทธิ์และความอ่อนไหวในการแข่งขัน

ความขัดแย้งที่กว้างขึ้น: การต่อสู้ด้านลิขสิทธิ์ในเวที AI

ข้อกล่าวหาที่หยิบยกโดย AI Disclosures Project ไม่ได้เกิดขึ้นในสุญญากาศ แต่เป็นตัวแทนของการปะทะกันครั้งล่าสุดในความขัดแย้งที่กว้างขวางและต่อเนื่องระหว่างนักพัฒนา AI และผู้สร้างสรรค์เกี่ยวกับการใช้เนื้อหาที่มีลิขสิทธิ์เพื่อวัตถุประสงค์ในการฝึกอบรม OpenAI พร้อมด้วยผู้เล่นที่โดดเด่นอื่นๆ เช่น Google, Meta และ Microsoft พบว่าตัวเองพัวพันกับการฟ้องร้องที่มีชื่อเสียงหลายคดี ความท้าทายทางกฎหมายเหล่านี้ ซึ่งนำโดยนักเขียน ศิลปิน องค์กรข่าว และผู้ถือสิทธิ์อื่นๆ โดยทั่วไปกล่าวหาว่ามีการละเมิดลิขสิทธิ์อย่างกว้างขวางอันเป็นผลมาจากการขูดข้อมูลและการนำเข้าข้อความและรูปภาพจำนวนมหาศาลจากอินเทอร์เน็ตโดยไม่ได้รับอนุญาตเพื่อฝึกโมเดล AI เชิงกำเนิด

การป้องกันหลักที่บริษัท AI มักใช้คือ หลักการใช้งานโดยชอบธรรม (fair use doctrine) (ในสหรัฐอเมริกา) หรือข้อยกเว้นที่คล้ายกันในเขตอำนาจศาลอื่น พวกเขาโต้แย้งว่าการใช้งานลิขสิทธิ์เพื่อการฝึกอบรมถือเป็นการใช้งานแบบ ‘เปลี่ยนแปลง’ (transformative use) – โมเดล AI ไม่ได้เพียงแค่ทำซ้ำงานต้นฉบับ แต่ใช้ข้อมูลเพื่อเรียนรู้รูปแบบ สไตล์ และข้อมูลเพื่อสร้างผลลัพธ์ใหม่ทั้งหมด ภายใต้การตีความนี้ กระบวนการฝึกอบรมเอง ซึ่งมีเป้าหมายเพื่อสร้างเครื่องมือใหม่ที่ทรงพลัง ควรได้รับอนุญาตโดยไม่จำเป็นต้องมีใบอนุญาตสำหรับข้อมูลทุกชิ้นที่นำเข้า

อย่างไรก็ตาม ผู้ถือสิทธิ์โต้แย้งมุมมองนี้อย่างรุนแรง พวกเขาโต้แย้งว่าขนาดของการคัดลอกที่เกี่ยวข้อง ลักษณะเชิงพาณิชย์ของผลิตภัณฑ์ AI ที่กำลังสร้างขึ้น และศักยภาพของผลลัพธ์ AI ที่จะแข่งขันโดยตรงและแทนที่งานต้นฉบับนั้น มีน้ำหนักอย่างมากต่อการค้นพบการใช้งานโดยชอบธรรม ข้อโต้แย้งคือบริษัท AI กำลังสร้างองค์กรที่มีมูลค่าหลายพันล้านดอลลาร์โดยอาศัยผลงานสร้างสรรค์โดยไม่ได้ชดเชยผู้สร้าง

ท่ามกลางฉากหลังของการฟ้องร้องนี้ OpenAI ได้พยายามลดความเสี่ยงบางประการในเชิงรุกโดยการทำ ข้อตกลงอนุญาตให้ใช้สิทธิ์ (licensing deals) กับผู้ให้บริการเนื้อหาต่างๆ มีการประกาศข้อตกลงกับผู้เผยแพร่ข่าวรายใหญ่ (เช่น Associated Press และ Axel Springer) แพลตฟอร์มโซเชียลมีเดีย (เช่น Reddit) และคลังสื่อสต็อก (เช่น Shutterstock) ข้อตกลงเหล่านี้ช่วยให้ OpenAI เข้าถึงชุดข้อมูลเฉพาะได้อย่างถูกต้องตามกฎหมายเพื่อแลกกับการชำระเงิน ซึ่งอาจลดการพึ่งพาข้อมูลที่ขูดมาจากเว็บที่อาจละเมิดลิขสิทธิ์ได้ มีรายงานว่าบริษัทยังได้ว่าจ้างนักข่าว โดยมอบหมายให้พวกเขาช่วยปรับปรุงและปรับปรุงคุณภาพและความน่าเชื่อถือของผลลัพธ์ของโมเดล ซึ่งบ่งชี้ถึงความตระหนักถึงความจำเป็นในการป้อนข้อมูลคุณภาพสูงที่อาจผ่านการคัดสรร

ผลกระทบระลอกคลื่น: ความกังวลต่อระบบนิเวศเนื้อหา

รายงานของ AI Disclosures Project ขยายความกังวลไปไกลกว่าผลกระทบทางกฎหมายในทันทีสำหรับ OpenAI โดยวางกรอบปัญหานี้ว่าเป็นภัยคุกคามเชิงระบบที่อาจส่งผลกระทบในทางลบต่อความสมบูรณ์และความหลากหลายของระบบนิเวศเนื้อหาดิจิทัลทั้งหมด การศึกษานี้ตั้งสมมติฐานถึงวงจรป้อนกลับที่อาจสร้างความเสียหาย: หากบริษัท AI สามารถใช้เนื้อหาคุณภาพสูงที่สร้างขึ้นอย่างมืออาชีพ (รวมถึงเนื้อหาที่ต้องเสียเงิน) ได้อย่างอิสระโดยไม่ต้องชดเชยผู้สร้าง ก็จะกัดกร่อนความอยู่รอดทางการเงินของการผลิตเนื้อหาดังกล่าวตั้งแต่แรก

การสร้างเนื้อหาอย่างมืออาชีพ ไม่ว่าจะเป็นการทำข่าวเชิงสืบสวน คู่มือทางเทคนิคเชิงลึก การเขียนนิยาย หรือการวิจัยทางวิชาการ มักต้องใช้เวลา ความเชี่ยวชาญ และการลงทุนทางการเงินจำนวนมาก เพย์วอลล์และรูปแบบการสมัครสมาชิกมักเป็นกลไกสำคัญในการให้ทุนสนับสนุนงานนี้ หากกระแสรายได้ที่สนับสนุนความพยายามเหล่านี้ลดลงเนื่องจากเนื้อหาถูกนำไปใช้อย่างมีประสิทธิภาพเพื่อฝึกระบบ AI ที่แข่งขันกันโดยไม่มีค่าตอบแทน แรงจูงใจในการสร้างเนื้อหาคุณภาพสูงและหลากหลายอาจลดลง สิ่งนี้อาจนำไปสู่สาธารณชนที่ได้รับข้อมูลน้อยลง การลดลงของทรัพยากรความรู้เฉพาะทาง และอาจเป็นอินเทอร์เน็ตที่ถูกครอบงำโดยเนื้อหาคุณภาพต่ำหรือเนื้อหาที่สร้างโดย AI ซึ่งขาดความเชี่ยวชาญและการตรวจสอบโดยมนุษย์

ดังนั้น AI Disclosures Project จึงสนับสนุนอย่างยิ่งให้มี ความโปร่งใสและความรับผิดชอบที่มากขึ้น จากบริษัท AI เกี่ยวกับแนวทางปฏิบัติด้านข้อมูลการฝึกอบรมของตน พวกเขาเรียกร้องให้มีการนำนโยบายที่เข้มแข็งและกรอบการกำกับดูแลที่เป็นไปได้มาใช้ เพื่อให้แน่ใจว่าผู้สร้างเนื้อหาจะได้รับการชดเชยอย่างเป็นธรรมเมื่องานของพวกเขามีส่วนช่วยในการพัฒนาโมเดล AI เชิงพาณิชย์ สิ่งนี้สะท้อนถึงเสียงเรียกร้องที่กว้างขึ้นจากกลุ่มผู้สร้างสรรค์ทั่วโลกที่แสวงหากลไก ไม่ว่าจะผ่านข้อตกลงอนุญาตให้ใช้สิทธิ์ ระบบค่าลิขสิทธิ์ หรือการเจรจาต่อรองร่วม เพื่อให้แน่ใจว่าพวกเขาจะได้รับส่วนแบ่งของมูลค่าที่เกิดจากระบบ AI ที่ฝึกฝนบนทรัพย์สินทางปัญญาของพวกเขา การถกเถียงมุ่งเน้นไปที่การหาสมดุลที่ยั่งยืนซึ่งนวัตกรรม AI สามารถเฟื่องฟูควบคู่ไปกับระบบนิเวศที่เฟื่องฟูสำหรับความคิดสร้างสรรค์และการสร้างความรู้ของมนุษย์ การแก้ไขข้อพิพาททางกฎหมายที่ดำเนินอยู่และศักยภาพสำหรับกฎหมายใหม่หรือมาตรฐานอุตสาหกรรมจะมีความสำคัญอย่างยิ่งในการกำหนดสมดุลในอนาคตนี้ คำถามเกี่ยวกับวิธีการติดตามที่มาของข้อมูลและระบุมูลค่าในโมเดล AI ขนาดใหญ่และซับซ้อนยังคงเป็นอุปสรรคทางเทคนิคและจริยธรรมที่สำคัญ