ในภูมิทัศน์ของการพัฒนา AI การเผชิญหน้าทางกฎหมายได้ปะทุขึ้นอีกครั้ง เมื่อกลุ่มองค์กรข่าวและสื่อชั้นนำได้ยื่นฟ้องคดีละเมิดลิขสิทธิ์และเครื่องหมายการค้าต่อบริษัทสตาร์ทอัพด้าน AI เชิงกำเนิดอย่าง Cohere คดีนี้ถูกยื่นต่อศาลแขวงสหรัฐฯ สำหรับเขตทางใต้ของนิวยอร์กในเดือนกุมภาพันธ์ 2025 โดยมีโจทก์มากกว่าสิบราย ซึ่งรวมถึงสิ่งพิมพ์ที่ได้รับการยอมรับอย่าง Forbes, The Guardian และ Los Angeles Times หัวใจของเรื่องนี้อยู่ที่การใช้เทคโนโลยี Retrieval-Augmented Generation (RAG) ของ Cohere ซึ่งโจทก์กล่าวหาว่าเกี่ยวข้องกับการใช้เนื้อหาที่มีลิขสิทธิ์ของพวกเขาโดยไม่ได้รับอนุญาต เพื่อสร้างฐานข้อมูลและสร้างผลลัพธ์
เทคโนโลยี RAG ภายใต้การตรวจสอบอย่างละเอียด
Retrieval-Augmented Generation (RAG) เกิดขึ้นในฐานะทางออกที่เป็นไปได้สำหรับความท้าทายโดยธรรมชาติบางประการที่เกี่ยวข้องกับแบบจำลองภาษาขนาดใหญ่ (LLMs) RAG ซึ่งเสนอโดย Patrick Lewis และเพื่อนร่วมงานของเขาในปี 2020 มีเป้าหมายเพื่อลดปัญหาต่างๆ เช่น การหลอน (การสร้างข้อมูลที่ไม่ถูกต้องตามข้อเท็จจริงหรือไม่สมเหตุสมผล) ความรู้ที่ล้าสมัย และการขาดความโปร่งใสในเหตุผลของแบบจำลอง ที่น่าสนใจคือ Patrick Lewis เองปัจจุบันเป็นนักวิจัยที่ Cohere โดยยังคงทำงานเกี่ยวกับเทคโนโลยี RAG อย่างต่อเนื่อง การนำ RAG ไปใช้อย่างแพร่หลาย โดยมีผู้เล่นรายใหญ่เช่น Microsoft, Google, Amazon และ NVIDIA บูรณาการเข้ากับระบบ AI ของตน
คดีที่สำนักข่าวฟ้องร้องมุ่งเน้นไปที่ข้อกล่าวหาหลักหลายประการเกี่ยวกับการละเมิดลิขสิทธิ์ต่อ Cohere การอ้างสิทธิ์เหล่านี้เน้นย้ำถึงคำถามทางกฎหมายที่ซับซ้อนเกี่ยวกับการใช้เนื้อหาที่มีลิขสิทธิ์ในการฝึกอบรมและการดำเนินงานของแบบจำลอง AI เชิงกำเนิด
ข้อกล่าวหาการละเมิดลิขสิทธิ์ต่อ Cohere
ข้อกล่าวหาของโจทก์ต่อ Cohere สามารถแบ่งออกเป็นสี่ประเภทหลัก ได้แก่:
1. การฝึกอบรมแบบจำลอง AI
หัวใจสำคัญของข้อโต้แย้งของโจทก์หมุนรอบวิธีการที่ Cohere ฝึกอบรมแบบจำลองภาษาขนาดใหญ่ ซึ่งรู้จักกันในชื่อ “Command Family” พวกเขาอ้างว่า Cohere มีส่วนร่วมในการ “ขูด” ข้อความอย่างกว้างขวางจากอินเทอร์เน็ต รวมถึงเนื้อหาที่มีลิขสิทธิ์จากสิ่งพิมพ์ของโจทก์ จากนั้นข้อมูลที่ขูดนี้ถูกใช้เพื่อสร้างชุดข้อมูลที่จำเป็นสำหรับการฝึกอบรมแบบจำลอง Command Family นอกจากนี้ โจทก์ยังกล่าวหาว่า Cohere ใช้ชุดข้อมูลของบุคคลที่สาม เช่น C4 ของ Common Crawl ซึ่งมีเนื้อหาที่มีลิขสิทธิ์ของพวกเขาในปริมาณมาก โดยไม่ได้รับอนุญาตที่จำเป็น
การใช้เนื้อหาที่มีลิขสิทธิ์ในการฝึกอบรมแบบจำลอง AI กลายเป็นประเด็นที่ขัดแย้งกัน นักพัฒนา AI มักโต้แย้งว่าการใช้งานดังกล่าวอยู่ภายใต้หลักคำสอนของ “การใช้งานที่เป็นธรรม” ซึ่งอนุญาตให้มีการใช้งานเนื้อหาที่มีลิขสิทธิ์อย่างจำกัดเพื่อวัตถุประสงค์ต่างๆ เช่น การวิพากษ์วิจารณ์ การแสดงความคิดเห็น การรายงานข่าว การสอน ทุนการศึกษา หรือการวิจัย อย่างไรก็ตาม ผู้ถือลิขสิทธิ์โต้แย้งว่าการขูดและการใช้เนื้อหาของตนในวงกว้างเพื่อวัตถุประสงค์เชิงพาณิชย์ เช่น การฝึกอบรมแบบจำลอง AI เกินขอบเขตของการใช้งานที่เป็นธรรม การต่อสู้ทางกฎหมายนี้น่าจะขึ้นอยู่กับว่าศาลเห็นด้วยกับการประเมินของโจทก์หรือไม่
2. การใช้งานแบบเรียลไทม์ / RAG
อีกแง่มุมที่สำคัญของคดีนี้มุ่งเน้นไปที่วิธีการที่บริการของ Cohere โดยเฉพาะอย่างยิ่งอินเทอร์เฟซ Chat ใช้เทคโนโลยี RAG ในแบบเรียลไทม์ โจทก์กล่าวหาว่าแบบจำลองของ Cohere ขูดเนื้อหาจากแหล่งภายนอก รวมถึงเว็บไซต์ของพวกเขา เพื่อสร้างการตอบสนองต่อคำถามของผู้ใช้ การขูดแบบเรียลไทม์นี้ตามที่โจทก์กล่าว ถือเป็นการละเมิดลิขสิทธิ์ โดยเฉพาะอย่างยิ่งเมื่อแบบจำลองของ Cohere เลี่ยงผ่าน paywalls หรือเพิกเฉยต่อคำสั่ง “robots.txt” ซึ่งเป็นคำสั่งที่สั่งให้ web crawlers (รวมถึงที่ใช้โดยแบบจำลอง AI) ไม่ให้ขูดเนื้อหาเฉพาะจากเว็บไซต์
การเลี่ยงผ่าน paywalls และ robots.txt directives ก่อให้เกิดคำถามทางจริยธรรมและกฎหมายที่ร้ายแรง Paywalls ได้รับการออกแบบมาเพื่อปกป้องเนื้อหาที่มีลิขสิทธิ์และรับประกันว่าผู้เผยแพร่จะได้รับค่าตอบแทนสำหรับงานของพวกเขา Robots.txt directives เป็นกลไกมาตรฐานสำหรับเจ้าของเว็บไซต์ในการควบคุมวิธีการเข้าถึงและใช้งานเนื้อหาของพวกเขาโดย web crawlers การเพิกเฉยต่อการป้องกันเหล่านี้ Cohere ถูกกล่าวหาว่าแสดงให้เห็นถึงการไม่เคารพกฎหมายลิขสิทธิ์และสิทธิของผู้สร้างเนื้อหา
3. ผลลัพธ์ที่ละเมิด
โจทก์อ้างว่าบริการของ Cohere ให้ผลลัพธ์ที่ละเมิดในรูปแบบของสำเนา ข้อความที่ตัดตอนมาที่สำคัญ หรือบทสรุปทดแทนของงานที่มีลิขสิทธิ์ของพวกเขาในการตอบสนองต่อคำถามของผู้ใช้ พวกเขายกตัวอย่างผลลัพธ์ของ Cohere Chat ที่แผง “Under the Hood” แสดงบทความฉบับเต็มหรือบางส่วนที่คัดลอกจากเว็บไซต์ของโจทก์โดยตรง
โจทก์โต้แย้งว่าผลลัพธ์เหล่านี้ ไม่ว่าจะเป็นสำเนาคำต่อคำหรือบทสรุป แทนที่ความจำเป็นของผู้ใช้ในการเยี่ยมชมบทความต้นฉบับโดยตรง ซึ่งส่งผลเสียต่อการสมัครสมาชิกดิจิทัลและรายได้จากการโฆษณาที่โจทก์พึ่งพาเพื่อให้ธุรกิจของตนอยู่รอด หัวใจสำคัญของข้อโต้แย้งนี้คือแบบจำลอง AI ของ Cohere โดยพื้นฐานแล้วทำหน้าที่เป็นผู้จัดจำหน่ายเนื้อหาที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาต ทำให้ผู้เผยแพร่ต้นฉบับขาดค่าตอบแทนที่ถูกต้องตามกฎหมาย
4. การดัดแปลงที่ไม่ได้รับอนุญาต
นอกเหนือจากการแสดงส่วนต่างๆ ของงานของโจทก์ในแผง “Under the Hood” แล้ว บริการของ Cohere ยังให้บทสรุปหรือสาระสังเขปของงานเหล่านี้ โจทก์โต้แย้งว่าระดับรายละเอียดในบทสรุปเหล่านี้มีมากมายจนกระทั่งแทนที่งานต้นฉบับ โดยเกินขอบเขตของการใช้งานที่เป็นธรรม
กฎหมายลิขสิทธิ์คุ้มครองไม่เฉพาะการทำซ้ำคำต่อคำของงานที่มีลิขสิทธิ์ แต่ยังรวมถึงการสร้างงานที่ดัดแปลง ซึ่งเป็นการดัดแปลงหรือการเปลี่ยนแปลงของต้นฉบับ โจทก์โต้แย้งว่าบทสรุปของ Cohere มีความครอบคลุมมากจนถือเป็นงานที่ดัดแปลงโดยไม่ได้รับอนุญาต ซึ่งละเมิดสิทธิ์แต่เพียงผู้เดียวของพวกเขาในการสร้างและแจกจ่ายการดัดแปลงเนื้อหาที่มีลิขสิทธิ์ของพวกเขา
ความรับผิดทางอ้อมสำหรับการกระทำของผู้ใช้
นอกเหนือจากการเรียกร้องการละเมิดลิขสิทธิ์โดยตรงแล้ว โจทก์ยังโต้แย้งว่า Cohere มีความรับผิดทางอ้อมสำหรับการกระทำที่ละเมิดลิขสิทธิ์ของผู้ใช้ พวกเขาโต้แย้งว่าบริการของ Cohere อำนวยความสะดวกในการทำซ้ำ การแสดง และการเผยแพร่งานของโจทก์โดยผู้ใช้ และ Cohere ไม่สามารถหลีกเลี่ยงความรับผิดชอบได้โดยการอ้างว่าการละเมิดลิขสิทธิ์เป็นผลมาจากการกระทำของผู้ใช้เพียงอย่างเดียว มูลฐานสำหรับการอ้างสิทธิ์นี้คือผลิตภัณฑ์ของ Cohere สร้างคำตอบหลังจากที่ผู้ใช้ป้อนข้อความแจ้งเท่านั้น ทำให้บริษัทเป็นผู้มีส่วนร่วมในกิจกรรมที่ละเมิดลิขสิทธิ์
ข้อโต้แย้งเรื่องความรับผิดทางอ้อมนี้มีความสำคัญ เพราะพยายามที่จะให้ผู้พัฒนา AI รับผิดชอบต่อการกระทำของผู้ใช้ แม้ว่าผู้ใช้เหล่านั้นจะเป็นผู้ที่ละเมิดลิขสิทธิ์โดยตรง หากสำเร็จ ข้อโต้แย้งนี้อาจมีผลกระทบอย่างกว้างขวางต่อการพัฒนาและการใช้งานเทคโนโลยี AI เนื่องจากจะต้องมีนักพัฒนาใช้มาตรการป้องกันเพื่อป้องกันไม่ให้ผู้ใช้ของตนละเมิดลิขสิทธิ์
การเรียกร้องการละเมิดเครื่องหมายการค้า
คดีนี้ขยายออกไปนอกเหนือจากการละเมิดลิขสิทธิ์เพื่อรวมถึงการเรียกร้องการละเมิดเครื่องหมายการค้า โจทก์กล่าวหาว่าการปฏิบัติของ Cohere ในการอ้างอิงแหล่งที่มาถือเป็นการละเมิดเครื่องหมายการค้า เพราะใช้เครื่องหมายการค้าที่รู้จักกันดีของโจทก์โดยไม่ได้รับอนุญาตหรือเชื่อมโยงกับเนื้อหาที่ผิดพลาดที่สร้างโดย AI พวกเขาโต้แย้งว่าสิ่งนี้จะนำไปสู่ความเสียหายต่อชื่อเสียงของแบรนด์ของโจทก์และการลดทอนความโดดเด่นของพวกเขา
เครื่องหมายการค้าคือสัญลักษณ์ การออกแบบ หรือวลีที่จดทะเบียนตามกฎหมายเพื่อเป็นตัวแทนของบริษัทหรือผลิตภัณฑ์ การใช้เครื่องหมายการค้าโดยไม่ได้รับอนุญาตอาจทำให้เกิดความสับสนในหมู่ผู้บริโภคและสร้างความเสียหายต่อชื่อเสียงของแบรนด์ โจทก์โต้แย้งว่าการใช้เครื่องหมายการค้าของพวกเขาโดย Cohere ร่วมกับเนื้อหาที่สร้างโดย AI อาจทำให้ผู้ใช้เข้าใจผิดว่าโจทก์รับรองหรือมีส่วนเกี่ยวข้องกับบริการของ Cohere ซึ่งไม่เป็นเช่นนั้น
บริบทที่กว้างขึ้น: RAG และอนาคตของกฎหมายลิขสิทธิ์ AI
คดีนี้ต่อ Cohere ไม่ใช่เหตุการณ์ที่เกิดขึ้นโดดๆ มันเป็นไปตามคดีละเมิดลิขสิทธิ์ก่อนหน้านี้ในสหรัฐอเมริกาในเดือนตุลาคม 2024 ซึ่งมุ่งเน้นไปที่แอปพลิเคชัน RAG ในบริการ AI จำนวนคดีที่เพิ่มขึ้นนี้เน้นย้ำถึงความตึงเครียดที่เพิ่มขึ้นระหว่างนักพัฒนา AI และผู้ถือลิขสิทธิ์ เนื่องจากสถาปัตยกรรม RAG แพร่หลายมากขึ้นในบริการ AI
การต่อสู้ทางกฎหมายรอบๆ เทคโนโลยี RAG มีแนวโน้มที่จะกลายเป็นประเด็นสำคัญในอนาคตของกฎหมายลิขสิทธิ์ AI RAG นำเสนอความท้าทายที่ไม่เหมือนใครเพราะเกี่ยวข้องกับการดึงข้อมูลและการใช้เนื้อหาที่มีลิขสิทธิ์แบบเรียลไทม์เพื่อสร้างผลลัพธ์ ซึ่งก่อให้เกิดคำถามที่ซับซ้อนเกี่ยวกับขอบเขตของการใช้งานที่เป็นธรรม ความรับผิดชอบของผู้พัฒนา AI สำหรับการกระทำของผู้ใช้ และการคุ้มครองทรัพย์สินทางปัญญาในยุคของปัญญาประดิษฐ์
ผลลัพธ์ของคดีเหล่านี้อาจมีผลกระทบอย่างลึกซึ้งต่อการพัฒนาและการใช้งานเทคโนโลยี AI หากศาลตัดสินเข้าข้างผู้ถือลิขสิทธิ์ นักพัฒนา AI อาจถูกบังคับให้ใช้มาตรการป้องกันที่เข้มงวดมากขึ้นเพื่อป้องกันการละเมิดลิขสิทธิ์ ซึ่งอาจเพิ่มต้นทุนและความซับซ้อนในการพัฒนาแบบจำลอง AI ในทางกลับกัน หากศาลตัดสินเข้าข้างนักพัฒนา AI ผู้ถือลิขสิทธิ์อาจต้องค้นหาวิธีใหม่ๆ ในการปกป้องทรัพย์สินทางปัญญาเผชิญหน้ากับเทคโนโลยี AI ที่ซับซ้อนมากขึ้น
การปะทะกันระหว่างสำนักข่าวและ Cohere ทำหน้าที่เป็นจุดเปลี่ยนที่สำคัญในการอภิปรายอย่างต่อเนื่องเกี่ยว