AI OpenAI แอบจำงานลิขสิทธิ์?

พายุที่กำลังก่อตัว: ลิขสิทธิ์ในยุค AI

โลกของปัญญาประดิษฐ์ โดยเฉพาะอย่างยิ่งแบบจำลองภาษาขนาดใหญ่ (large language models - LLMs) ที่ซับซ้อนซึ่งพัฒนาโดยบริษัทยักษ์ใหญ่ในอุตสาหกรรมอย่าง OpenAI กำลังเผชิญกับพายุทางกฎหมายและจริยธรรมที่ทวีความรุนแรงขึ้นเรื่อยๆ หัวใจสำคัญของพายุลูกนี้อยู่ที่คำถามพื้นฐาน: ข้อมูลใดที่ขับเคลื่อนเครื่องจักรทรงพลังเหล่านี้ และสิทธิ์ของผู้สร้างได้รับการเคารพในกระบวนการนี้หรือไม่? ข้อกล่าวหาต่างๆ กำลังเพิ่มมากขึ้น โดยชี้ให้เห็นว่าเนื้อหาที่มีลิขสิทธิ์จำนวนมหาศาล ทั้งนวนิยาย บทความ โค้ด และอื่นๆ อาจถูกนำไปใช้โดยโมเดลเหล่านี้ในระหว่างขั้นตอนการฝึกฝน โดยไม่ได้รับอนุญาตหรือค่าตอบแทนที่จำเป็น นี่ไม่ใช่แค่การถกเถียงทางวิชาการเท่านั้น แต่กำลังทวีความรุนแรงขึ้นอย่างรวดเร็วจนกลายเป็นคดีความที่มีเดิมพันสูง

OpenAI พบว่าตนเองเข้าไปพัวพันกับการต่อสู้ทางกฎหมายที่ริเริ่มโดยนักเขียน โปรแกรมเมอร์ และผู้ถือสิทธิ์ต่างๆ มากขึ้นเรื่อยๆ โจทก์เหล่านี้โต้แย้งว่าทรัพย์สินทางปัญญาของพวกเขาถูกนำไปใช้อย่างไม่เหมาะสมเพื่อสร้างโมเดล AI ที่กำลังเป็นข่าวและเปลี่ยนแปลงอุตสาหกรรมต่างๆ ข้อโต้แย้งของพวกเขาขึ้นอยู่กับการยืนยันว่ากฎหมายลิขสิทธิ์ในปัจจุบันไม่ได้อนุญาตอย่างชัดแจ้งให้ใช้ผลงานที่ได้รับการคุ้มครองทั้งหมดเป็นข้อมูลป้อนสำหรับการฝึกอบรมระบบ AI เชิงพาณิชย์ OpenAI ในการตอบสนอง ได้อ้างถึงหลักการ ‘fair use’ (การใช้งานโดยชอบธรรม) อย่างสม่ำเสมอ ซึ่งเป็นหลักการทางกฎหมายที่ซับซ้อนที่อนุญาตให้ใช้เนื้อหาที่มีลิขสิทธิ์ได้อย่างจำกัดโดยไม่ต้องขออนุญาตภายใต้สถานการณ์เฉพาะ อย่างไรก็ตาม การบังคับใช้หลักการ fair use กับขนาดและลักษณะที่ไม่เคยมีมาก่อนของการฝึกอบรม AI ยังคงเป็นพื้นที่สีเทาที่มีการโต้แย้งอย่างรุนแรง ซึ่งเป็นการปูทางไปสู่บรรทัดฐานทางกฎหมายที่สำคัญ ความตึงเครียดหลักอยู่ที่ว่าการแปลงผลงานที่มีลิขสิทธิ์ให้เป็นรูปแบบทางสถิติภายในโมเดลถือเป็น ‘การใช้งานที่เปลี่ยนแปลง’ (transformative use) ซึ่งเป็นองค์ประกอบสำคัญของ fair use หรือเป็นเพียงการทำซ้ำโดยไม่ได้รับอนุญาตในระดับมหาศาล ผลลัพธ์ของคดีความเหล่านี้อาจส่งผลกระทบอย่างลึกซึ้งต่อทิศทางในอนาคตของการพัฒนา AI ซึ่งอาจกำหนดข้อจำกัดหรือต้นทุนที่สำคัญให้กับผู้สร้างโมเดล

การมองเข้าไปในกล่องดำ: วิธีการใหม่ในการตรวจจับการท่องจำ

สิ่งที่เติมเชื้อไฟให้กับการถกเถียงอันร้อนแรงนี้คือการศึกษาล่าสุดที่ดำเนินการโดยทีมนักวิจัยที่ทำงานร่วมกันจากสถาบันที่มีชื่อเสียงหลายแห่ง รวมถึง University of Washington, University of Copenhagen และ Stanford University งานของพวกเขาได้นำเสนอเทคนิคใหม่ที่ออกแบบมาโดยเฉพาะเพื่อตรวจจับกรณีที่โมเดล AI แม้แต่โมเดลที่เข้าถึงได้ผ่าน application programming interfaces (APIs) ที่จำกัด เช่น ของ OpenAI ดูเหมือนจะ ‘ท่องจำ’ ส่วนเฉพาะของข้อมูลการฝึกอบรมของตนได้ นี่เป็นการค้นพบที่สำคัญเนื่องจากการเข้าถึงการทำงานภายในหรือชุดข้อมูลการฝึกอบรมที่แน่นอนของโมเดลเชิงพาณิชย์เช่น GPT-4 มักจะเป็นไปไม่ได้สำหรับผู้ตรวจสอบภายนอก

การทำความเข้าใจว่าโมเดลเหล่านี้ทำงานอย่างไรเป็นกุญแจสำคัญในการเข้าใจความสำคัญของการศึกษา โดยแก่นแท้แล้ว LLMs เป็นเครื่องมือคาดการณ์ที่ซับซ้อนอย่างเหลือเชื่อ พวกมันได้รับการฝึกฝนจากข้อความและโค้ดจำนวนมหาศาลอย่างแท้จริง เรียนรู้ความสัมพันธ์ทางสถิติที่ซับซ้อนระหว่างคำ วลี และแนวคิด กระบวนการเรียนรู้นี้ช่วยให้พวกเขาสามารถสร้างข้อความที่สอดคล้องกัน แปลภาษา เขียนเนื้อหาสร้างสรรค์ประเภทต่างๆ และตอบคำถามได้อย่างให้ข้อมูล แม้ว่าเป้าหมายคือให้โมเดลสรุปรูปแบบทั่วไปแทนที่จะเก็บข้อมูลตามตัวอักษร แต่ขนาดที่แท้จริงของข้อมูลการฝึกอบรมทำให้การท่องจำในระดับหนึ่งแทบจะหลีกเลี่ยงไม่ได้ ลองนึกภาพเหมือนนักเรียนที่อ่านตำรานับไม่ถ้วน แม้ว่าพวกเขาจะตั้งเป้าที่จะเข้าใจแนวคิด แต่พวกเขาก็อาจจำประโยคหรือคำจำกัดความเฉพาะโดยไม่ได้ตั้งใจ โดยเฉพาะอย่างยิ่งประโยคที่โดดเด่น การสังเกตก่อนหน้านี้ได้แสดงให้เห็นแล้วว่าโมเดลสร้างภาพสามารถสร้างองค์ประกอบที่จดจำได้จากภาพยนตร์ที่พวกเขาได้รับการฝึกฝน และโมเดลภาษาสามารถสร้างข้อความที่คล้ายคลึงอย่างน่าทึ่งกับ หรือคัดลอกโดยตรงจาก แหล่งที่มาเช่นบทความข่าว ปรากฏการณ์นี้ก่อให้เกิดความกังวลอย่างจริงจังเกี่ยวกับการลอกเลียนแบบและความคิดริเริ่มที่แท้จริงของเนื้อหาที่สร้างโดย AI

วิธีการที่เสนอโดยนักวิจัยนั้นทั้งชาญฉลาดและเปิดเผย มันมุ่งเน้นไปที่การระบุและใช้สิ่งที่พวกเขาเรียกว่า ‘high-surprisal’ words (คำที่มีความน่าประหลาดใจสูง) คำเหล่านี้คือคำที่ดูเหมือนผิดปกติทางสถิติหรือไม่คาดคิดภายในบริบทเฉพาะของประโยคหรือข้อความ พิจารณาวลี: ‘กะลาสีโบราณนำทางด้วยแสงริบหรี่ของ sextant‘ คำว่า ‘sextant’ อาจถือเป็นคำที่มีความน่าประหลาดใจสูง เพราะในคลังข้อความทั่วไป คำว่า ‘ดวงดาว’ ‘ดวงจันทร์’ หรือ ‘เข็มทิศ’ อาจมีความน่าจะเป็นทางสถิติมากกว่าในบริบทนั้น นักวิจัยตั้งสมมติฐานว่าหากโมเดลได้ท่องจำข้อความเฉพาะในระหว่างการฝึกอบรมจริงๆ มันจะสามารถคาดการณ์คำที่ไม่ซ้ำใครและมีความน่าประหลาดใจสูงเหล่านี้ได้อย่างยอดเยี่ยมหากคำเหล่านั้นถูกลบออกจากข้อความ

เพื่อทดสอบสมมติฐานนี้ ทีมนักวิจัยได้ตรวจสอบโมเดลเรือธงหลายตัวของ OpenAI อย่างเป็นระบบ รวมถึง GPT-4 ที่ทรงพลังและรุ่นก่อนหน้า GPT-3.5 พวกเขาได้นำตัวอย่างข้อความจากแหล่งที่รู้จักกันดี เช่น นวนิยายยอดนิยมและบทความจาก The New York Times สิ่งสำคัญคือ พวกเขาได้ปิดบังหรือลบคำที่มีความน่าประหลาดใจสูงที่ระบุไว้ออกจากตัวอย่างเหล่านี้ จากนั้นโมเดลจะถูกกระตุ้นให้เติมคำในช่องว่าง หรือโดยพื้นฐานแล้วคือ ‘เดา’ คำที่หายไปซึ่งไม่น่าจะเป็นไปได้ทางสถิติ ตรรกะหลักของการศึกษานั้นน่าสนใจ: หากโมเดลคาดการณ์คำที่มีความน่าประหลาดใจสูงเหล่านี้ได้อย่างสม่ำเสมอและแม่นยำ มันบ่งชี้อย่างชัดเจนว่าโมเดลไม่ได้เรียนรู้เพียงรูปแบบภาษาทั่วไปเท่านั้น แต่ยังเก็บความทรงจำเฉพาะของลำดับข้อความนั้นๆ จากข้อมูลการฝึกอบรมของมันด้วย โอกาสสุ่มหรือความเข้าใจภาษาทั่วไปเพียงอย่างเดียวไม่น่าจะให้การคาดเดาที่แม่นยำเช่นนี้สำหรับคำที่ไม่ธรรมดาในบริบทเฉพาะได้

ผลการค้นพบ: เสียงสะท้อนของข้อความที่มีลิขสิทธิ์ในผลลัพธ์ของ AI

ผลลัพธ์ที่ได้จากการทดสอบอย่างพิถีพิถันเหล่านี้ให้หลักฐานที่น่าเชื่อถือ แม้ว่าจะเป็นเบื้องต้น ซึ่งสนับสนุนข้อกล่าวหาเรื่องการละเมิดลิขสิทธิ์ ตามผลการวิจัยที่ตีพิมพ์ GPT-4 ซึ่งเป็นโมเดลที่เปิดเผยต่อสาธารณะที่ทันสมัยที่สุดของ OpenAI ในช่วงเวลาของการวิจัย แสดงสัญญาณที่สำคัญของการท่องจำส่วนต่างๆ ของหนังสือนวนิยายยอดนิยมตามตัวอักษร ซึ่งรวมถึงข้อความที่พบในชุดข้อมูลเฉพาะที่เรียกว่า BookMIA ซึ่งประกอบด้วยตัวอย่างที่ดึงมาจากหนังสืออิเล็กทรอนิกส์ที่มีลิขสิทธิ์ ซึ่งเป็นชุดข้อมูลที่มักเกี่ยวข้องกับการอภิปรายเกี่ยวกับแหล่งข้อมูลการฝึกอบรมที่อาจละเมิดลิขสิทธิ์ โมเดลไม่ได้เพียงแค่ระลึกถึงธีมหรือสไตล์ทั่วไปเท่านั้น แต่ยังสร้างลำดับข้อความที่มีคำที่ไม่ซ้ำใครและมีความน่าประหลาดใจสูงเหล่านั้นได้อย่างแม่นยำ ซึ่งบ่งชี้ถึงระดับการเก็บรักษาที่ลึกกว่าการสรุปรูปแบบทั่วไป

นอกจากนี้ การตรวจสอบยังเปิดเผยว่า GPT-4 ยังแสดงหลักฐานการท่องจำส่วนต่างๆ จาก บทความของ New York Times อีกด้วย อย่างไรก็ตาม นักวิจัยตั้งข้อสังเกตว่าอัตราการท่องจำที่ชัดเจนสำหรับบทความข่าวค่อนข้างต่ำกว่าที่สังเกตได้สำหรับหนังสือนวนิยาย ความแตกต่างนี้อาจเกิดจากปัจจัยต่างๆ เช่น ความถี่หรือการนำเสนอของประเภทข้อความที่แตกต่างกันเหล่านี้ภายในชุดข้อมูลการฝึกอบรมดั้งเดิม หรืออาจเป็นความแตกต่างในวิธีที่โมเดลประมวลผลร้อยแก้วเชิงข่าวสารกับร้อยแก้วเชิงบรรยาย ไม่ว่าอัตราที่แน่นอนจะเป็นเท่าใด ข้อเท็จจริงที่ว่าการท่องจำเกิดขึ้นในเนื้อหาที่มีลิขสิทธิ์ประเภทต่างๆ ทั้งงานวรรณกรรมและงานข่าวสาร ช่วยเสริมข้อโต้แย้งที่ว่าปรากฏการณ์นี้ไม่ได้จำกัดอยู่เพียงประเภทหรือแหล่งที่มาเดียว

ผลการค้นพบเหล่านี้มีน้ำหนักอย่างมากในการอภิปรายทางกฎหมายและจริยธรรมที่กำลังดำเนินอยู่ หากโมเดลเช่น GPT-4 สามารถคายข้อความเฉพาะที่มีลิขสิทธิ์ที่พวกเขาได้รับการฝึกฝนออกมาได้จริง มันจะทำให้การป้องกันด้วยหลักการ fair use ของ OpenAI ซับซ้อนขึ้น หลักการ fair use มักจะสนับสนุนการใช้งานที่เปลี่ยนแปลงงานต้นฉบับ การทำซ้ำตามตัวอักษร แม้ว่าจะไม่ได้ตั้งใจหรือเป็นไปตามความน่าจะเป็น ก็เอนเอียงออกจากการเปลี่ยนแปลงและเข้าใกล้การคัดลอกธรรมดามากขึ้น หลักฐานนี้อาจถูกนำมาใช้โดยโจทก์ในคดีลิขสิทธิ์เพื่อโต้แย้งว่าแนวทางการฝึกอบรมของ OpenAI ส่งผลให้เกิดการสร้างงานลอกเลียนแบบที่ละเมิดลิขสิทธิ์ หรืออำนวยความสะดวกในการละเมิดโดยตรงโดยผลลัพธ์ของโมเดล มันเน้นย้ำถึงความเชื่อมโยงที่จับต้องได้ระหว่างข้อมูลที่ใช้สำหรับการฝึกอบรมและผลลัพธ์เฉพาะที่สร้างโดย AI ทำให้แนวคิดนามธรรมของ ‘การเรียนรู้รูปแบบ’ รู้สึกใกล้เคียงกับการทำซ้ำที่เป็นรูปธรรมมากขึ้น

ความจำเป็นเร่งด่วนสำหรับความไว้วางใจและความโปร่งใสในการพัฒนา AI

Abhilasha Ravichander นักศึกษาปริญญาเอกที่ University of Washington และหนึ่งในผู้ร่วมเขียนการศึกษา ได้เน้นย้ำถึงนัยยะที่กว้างขึ้นของการวิจัยของพวกเขา เธอชี้ให้เห็นว่าผลการค้นพบเหล่านี้ให้ความกระจ่างที่สำคัญเกี่ยวกับ ‘ข้อมูลที่อาจเป็นที่ถกเถียง’ ซึ่งอาจเป็นรากฐานของโมเดล AI ร่วมสมัยจำนวนมาก ความสามารถในการระบุเนื้อหาที่ถูกท่องจำได้นั้นเปรียบเสมือนหน้าต่าง แม้จะเล็กน้อย ที่ส่องเข้าไปในชุดข้อมูลการฝึกอบรมที่ทึบแสงซึ่งใช้โดยบริษัทอย่าง OpenAI

Ravichander ได้แสดงความรู้สึกที่เพิ่มมากขึ้นในชุมชนวิจัย AI และในหมู่สาธารณชน: ‘เพื่อให้มีแบบจำลองภาษาขนาดใหญ่ที่น่าเชื่อถือ เราจำเป็นต้องมีโมเดลที่เราสามารถตรวจสอบ สอบทาน และตรวจสอบทางวิทยาศาสตร์ได้’ คำกล่าวนี้เน้นย้ำถึงความท้าทายที่สำคัญที่อุตสาหกรรม AI กำลังเผชิญอยู่ ในขณะที่โมเดลเหล่านี้ถูกรวมเข้ากับแง่มุมต่างๆ ของสังคมมากขึ้น ตั้งแต่การสร้างบทความข่าวและการเขียนโค้ด ไปจนถึงการช่วยวินิจฉัยทางการแพทย์และการวิเคราะห์ทางการเงิน ความต้องการความไว้วางใจและความรับผิดชอบจึงกลายเป็นสิ่งสำคัญยิ่ง ผู้ใช้ หน่วยงานกำกับดูแล และสาธารณชนต้องการความมั่นใจว่าระบบเหล่านี้ทำงานอย่างยุติธรรม เชื่อถือได้ และมีจริยธรรม ลักษณะ ‘กล่องดำ’ ของ LLMs ในปัจจุบันหลายตัว ซึ่งแม้แต่ผู้สร้างก็อาจไม่เข้าใจความแตกต่างทั้งหมดของการทำงานภายในหรือที่มาที่แม่นยำของผลลัพธ์เฉพาะอย่างถ่องแท้ ขัดขวางการสร้างความไว้วางใจนี้

วิธีการที่เสนอโดยการศึกษานี้เป็นมากกว่าเทคนิคในการตรวจจับการท่องจำลิขสิทธิ์ มันทำหน้าที่เป็นเครื่องมือที่เป็นไปได้สำหรับ การตรวจสอบ AI (AI auditing) ในวงกว้าง ความสามารถในการตรวจสอบโมเดล แม้แต่โมเดลที่เข้าถึงได้ผ่าน APIs เท่านั้น ช่วยให้สามารถตรวจสอบและวิเคราะห์ได้อย่างอิสระ Ravichander ยังเน้นย้ำถึง ‘ความต้องการความโปร่งใสของข้อมูลที่มากขึ้นในระบบนิเวศทั้งหมด’ อย่างเร่งด่วน หากไม่ทราบว่าโมเดลเหล่านี้ได้รับการฝึกฝนจากข้อมูลใด ก็เป็นเรื่องยากอย่างเหลือเชื่อที่จะประเมินอคติที่อาจเกิดขึ้น ระบุช่องโหว่ด้านความปลอดภัย ทำความเข้าใจแหล่งที่มาของผลลัพธ์ที่เป็นอันตรายหรือไม่ถูกต้อง หรือดังที่การศึกษานี้เน้นย้ำ คือการกำหนดขอบเขตของการละเมิดลิขสิทธิ์ที่อาจเกิดขึ้น การเรียกร้องความโปร่งใสไม่ใช่แค่เรื่องทางวิชาการเท่านั้น แต่เป็นข้อกำหนดพื้นฐานสำหรับการสร้างอนาคต AI ที่มีความรับผิดชอบและยั่งยืน สิ่งนี้เกี่ยวข้องกับการแลกเปลี่ยนที่ซับซ้อนระหว่างการปกป้องข้อมูลที่เป็นกรรมสิทธิ์และทรัพย์สินทางปัญญา (รวมถึงตัวโมเดลเอง) กับการรับรองความรับผิดชอบต่อสาธารณะและความปลอดภัย การพัฒนาเครื่องมือและกรอบการตรวจสอบที่แข็งแกร่ง ควบคู่ไปกับมาตรฐานที่ชัดเจนยิ่งขึ้นสำหรับการเปิดเผยข้อมูล กำลังมีความสำคัญมากขึ้นเรื่อยๆ ในขณะที่ AI ยังคงก้าวหน้าอย่างรวดเร็ว

จุดยืนของ OpenAI และเส้นทางข้างหน้าที่ยังไม่แน่นอน

เมื่อเผชิญกับแรงกดดันที่เพิ่มขึ้นจากผู้สร้างสรรค์และฝ่ายนิติบัญญัติ OpenAI ได้สนับสนุนสภาพแวดล้อมทางกฎหมายและกฎระเบียบที่อนุญาตให้ใช้เนื้อหาที่มีลิขสิทธิ์อย่างกว้างขวางเพื่อการฝึกอบรมโมเดล AI มาโดยตลอด บริษัทโต้แย้งว่าความยืดหยุ่นดังกล่าวมีความจำเป็นสำหรับนวัตกรรมและเพื่อให้สหรัฐอเมริกาสามารถรักษาความได้เปรียบในการแข่งขันในการแข่งขัน AI ระดับโลก ความพยายามในการล็อบบี้ของพวกเขามุ่งเน้นไปที่การโน้มน้าวรัฐบาลทั่วโลกให้ตีความหรือกำหนดกฎหมายลิขสิทธิ์ที่มีอยู่ โดยเฉพาะอย่างยิ่งแนวคิดเรื่อง ‘fair use’ ในสหรัฐอเมริกา ในลักษณะที่เป็นประโยชน์ต่อนักพัฒนา AI พวกเขาโต้แย้งว่าการฝึกอบรมโมเดลบนชุดข้อมูลที่หลากหลาย รวมถึงงานที่มีลิขสิทธิ์ เป็นการใช้งานที่เปลี่ยนแปลงซึ่งจำเป็นสำหรับการสร้างระบบ AI ที่ทรงพลังและเป็นประโยชน์

อย่างไรก็ตาม ด้วยตระหนักถึงความกังวลที่เพิ่มขึ้น OpenAI ก็ได้ดำเนินการบางอย่างเพื่อแก้ไขปัญหานี้ แม้ว่าจะเป็นมาตรการที่นักวิจารณ์มักมองว่าไม่เพียงพอก็ตาม บริษัทได้เข้าทำ ข้อตกลงอนุญาตให้ใช้เนื้อหา (content licensing agreements) กับผู้จัดพิมพ์และผู้สร้างเนื้อหาบางราย เพื่อให้ได้สิทธิ์อนุญาตอย่างชัดแจ้งในการใช้วัสดุของพวกเขา ข้อตกลงเหล่านี้ แม้จะมีความสำคัญ แต่ก็เป็นเพียงส่วนเล็กๆ ของข้อมูลที่น่าจะใช้ในการฝึกอบรมโมเดลอย่าง GPT-4 นอกจากนี้ OpenAI ยังได้นำ กลไกการเลือกไม่เข้าร่วม (opt-out mechanisms) มาใช้ สิ่งเหล่านี้ช่วยให้ผู้ถือลิขสิทธิ์สามารถร้องขออย่างเป็นทางการไม่ให้ใช้เนื้อหาของตนเพื่อวัตถุประสงค์ในการฝึกอบรม AI ใน อนาคต ได้ แม้จะดูเหมือนเป็นก้าวหนึ่งในการเคารพสิทธิ์ของผู้สร้าง แต่ประสิทธิภาพและการปฏิบัติจริงของระบบ opt-out เหล่านี้ยังเป็นที่ถกเถียง พวกมันผลักภาระให้ผู้สร้างแต่ละรายต้องค้นพบว่างานของตนอาจถูกนำไปใช้ จากนั้นจึงต้องดำเนินการตามขั้นตอนเฉพาะของ OpenAI เพื่อเลือกไม่เข้าร่วม ยิ่งไปกว่านั้น กลไกเหล่านี้โดยทั่วไปไม่ได้กล่าวถึงการใช้เนื้อหาในโมเดลที่ ได้รับการฝึกฝนแล้ว

สถานการณ์ปัจจุบันสะท้อนให้เห็นถึงความตึงเครียดพื้นฐาน: ความปรารถนาของบริษัท AI ที่จะใช้ประโยชน์จากจักรวาลข้อมูลดิจิทัลอันกว้างใหญ่เพื่อสร้างนวัตกรรม เทียบกับสิทธิ์ของผู้สร้างในการควบคุมและได้รับประโยชน์จากผลงานต้นฉบับของตน การศึกษาที่แสดงให้เห็นถึงการท่องจำได้เพิ่มความซับซ้อนอีกชั้นหนึ่ง โดยชี้ให้เห็นว่าเส้นแบ่งระหว่าง ‘การเรียนรู้จาก’ และ ‘การคัดลอก’ ข้อมูลนั้นพร่ามัวกว่าและอาจถูกข้ามบ่อยกว่าที่ผู้พัฒนาโมเดลยอมรับก่อนหน้านี้ เส้นทางข้างหน้ายังคงไม่แน่นอน อาจเกี่ยวข้องกับกฎหมายใหม่ที่กล่าวถึงข้อมูลการฝึกอบรม AI โดยเฉพาะ คำตัดสินของศาลที่เป็นบรรทัดฐานซึ่งตีความกฎหมายลิขสิทธิ์ที่มีอยู่ในบริบทใหม่นี้ การพัฒนาแนวปฏิบัติที่ดีที่สุดและกรอบการออกใบอนุญาตทั่วทั้งอุตสาหกรรม หรือโซลูชันทางเทคโนโลยี เช่น การติดตามที่มาของข้อมูลที่ดีขึ้น หรือเทคนิคในการลดการท่องจำของโมเดล สิ่งที่ดูเหมือนชัดเจนคือการถกเถียงเรื่อง AI และลิขสิทธิ์ยังห่างไกลจากจุดสิ้นสุด อันที่จริง มันอาจเพิ่งเริ่มต้นขึ้น พร้อมกับนัยยะสำคัญอย่างยิ่งต่อทั้งอนาคตของปัญญาประดิษฐ์และเศรษฐกิจสร้างสรรค์ ผลการค้นพบเกี่ยวกับการท่องจำทำหน้าที่เป็นเครื่องเตือนใจที่ชัดเจนว่าข้อมูลดิจิทัลที่ขับเคลื่อนเครื่องมืออันทรงพลังเหล่านี้มีที่มา เจ้าของ และสิทธิ์ที่ไม่สามารถเพิกเฉยได้