หลักฐานที่นำเสนอ
ข้อโต้แย้งเริ่มต้นเมื่อ Sam Paech นักพัฒนาในเมลเบิร์นที่เชี่ยวชาญในการสร้างการประเมิน "ความฉลาดทางอารมณ์" สำหรับระบบ AI ได้นำเสนอสิ่งที่เขาอ้างว่าเป็นหลักฐานว่าโมเดลล่าสุดของ DeepSeek ได้รับการฝึกฝนจากผลลัพธ์ที่สร้างโดย Gemini ตามที่ Paech กล่าว โมเดลของ DeepSeek ซึ่งระบุว่าเป็น R1-0528 แสดงความชอบสำหรับคำและสำนวนเฉพาะที่คล้ายคลึงกับที่ Gemini 2.5 Pro ของ Google ชื่นชอบอย่างน่าทึ่ง แม้ว่าข้อสังเกตนี้เพียงอย่างเดียวอาจไม่เป็นที่ยุติ แต่ก็ยกธงแดงและรับประกันการตรวจสอบเพิ่มเติม
สิ่งที่น่าสนใจเพิ่มเติมคือ นักพัฒนาอีกคนหนึ่งที่ดำเนินการภายใต้ชื่อแฝง SpeechMap และเป็นที่รู้จักจากการสร้าง "การประเมินการพูดอย่างอิสระ" สำหรับ AI ชี้ให้เห็นว่าร่องรอยของโมเดล DeepSeek – "ความคิด" ที่สร้างขึ้นขณะทำงานเพื่อหาข้อสรุป – "อ่านเหมือนร่องรอย Gemini" การบรรจบกันของรูปแบบทางภาษาและกระบวนการคิดนี้ยิ่งกระตุ้นความสงสัยว่า DeepSeek อาจใช้ผลลัพธ์ของ Gemini ในระหว่างกระบวนการฝึกอบรม
ข้อกล่าวหาในอดีตต่อ DeepSeek
นี่ไม่ใช่ครั้งแรกที่ DeepSeek เผชิญหน้ากับข้อกล่าวหาว่าฝึกฝนโมเดล AI ด้วยข้อมูลจากระบบ AI ของคู่แข่ง ในเดือนธันวาคม นักพัฒนาสังเกตเห็นว่าโมเดล V3 ของ DeepSeek มักระบุตัวเองว่าเป็น ChatGPT ซึ่งเป็นแพลตฟอร์มแชทบอทที่ขับเคลื่อนด้วย AI ของ OpenAI พฤติกรรมที่แปลกประหลาดนี้บ่งบอกว่าโมเดลอาจได้รับการฝึกฝนจากบันทึกการแชท ChatGPT ซึ่งก่อให้เกิดความกังวลเกี่ยวกับผลกระทบทางจริยธรรมของการปฏิบัติดังกล่าว
เมื่อต้นปีที่ผ่านมา OpenAI ได้แจ้ง Financial Times ว่าพวกเขาได้ค้นพบหลักฐานที่เชื่อมโยง DeepSeek กับการใช้ distillation ซึ่งเป็นเทคนิคที่เกี่ยวข้องกับการฝึกฝนโมเดล AI โดยการดึงข้อมูลจากโมเดลที่มีขนาดใหญ่กว่าและมีความสามารถมากกว่า นอกจากนี้ Microsoft ซึ่งเป็นผู้ทำงานร่วมกันและนักลงทุนหลักใน OpenAI ตรวจพบข้อมูลจำนวนมากที่ถูก exfiltrated ผ่านบัญชีนักพัฒนา OpenAI ในช่วงปลายปี 2024 OpenAI เชื่อว่าบัญชีเหล่านี้เกี่ยวข้องกับ DeepSeek ซึ่งยิ่งทำให้ความสงสัยในการดึงข้อมูลที่ไม่ได้รับอนุญาตแข็งแกร่งขึ้น
แม้ว่า distillation จะไม่ผิดจรรยาบรรณโดยเนื้อแท้ แต่ข้อกำหนดในการให้บริการของ OpenAI ห้ามลูกค้าอย่างชัดเจนจากการใช้ผลลัพธ์ของโมเดลของบริษัทในการสร้างระบบ AI ที่แข่งขันได้ ข้อจำกัดนี้มีจุดมุ่งหมายเพื่อปกป้องทรัพย์สินทางปัญญาของ OpenAI และรักษาสภาพแวดล้อมการแข่งขันที่เป็นธรรมในอุตสาหกรรม AI หาก DeepSeek ใช้ distillation เพื่อฝึกฝนโมเดล R1 ด้วยผลลัพธ์ Gemini จริง ๆ จะถือเป็นการละเมิดข้อกำหนดในการให้บริการของ OpenAI และก่อให้เกิดความกังวลด้านจริยธรรมอย่างร้ายแรง
ความท้าทายของการปนเปื้อนข้อมูล
เป็นสิ่งสำคัญที่ต้องยอมรับว่าโมเดล AI จำนวนมากแสดงแนวโน้มที่จะระบุตัวเองผิดและบรรจบกันในคำและวลีที่คล้ายกัน ปรากฏการณ์นี้อาจเป็นผลมาจากการมีอยู่ของเนื้อหาที่สร้างโดย AI เพิ่มมากขึ้นบนเว็บแบบเปิด ซึ่งเป็นแหล่งข้อมูลการฝึกอบรมหลักสำหรับบริษัท AI ฟาร์มเนื้อหาใช้ AI เพื่อสร้างบทความ clickbait และบอทกำลังแพลตฟอร์มท่วมท้นเช่น Reddit และ X ด้วยโพสต์ที่สร้างโดย AI
“การปนเปื้อน” ของเว็บด้วยเนื้อหาที่สร้างโดย AI นี้ก่อให้เกิดความท้าทายอย่างมีนัยสำคัญต่อบริษัท AI ทำให้เป็นเรื่องยากอย่างยิ่งที่จะกรองผลลัพธ์ AI ออกจากชุดข้อมูลการฝึกอบรมอย่างละเอียดถี่ถ้วน เป็นผลให้โมเดล AI อาจเรียนรู้จากกันโดยไม่ได้ตั้งใจ นำไปสู่ความคล้ายคลึงกันที่สังเกตได้ในภาษาและกระบวนการคิด
ความคิดเห็นและมุมมองของผู้เชี่ยวชาญ
แม้จะมีความท้าทายของการปนเปื้อนข้อมูล ผู้เชี่ยวชาญด้าน AI เช่น Nathan Lambert นักวิจัยที่สถาบันวิจัย AI ที่ไม่แสวงหาผลกำไร AI2 เชื่อว่าไม่น่าเป็นไปได้ที่ DeepSeek จะฝึกฝนข้อมูลจาก Gemini ของ Google Lambert แนะนำว่า DeepSeek เผชิญกับการขาดแคลน GPU แต่มีทรัพยากรทางการเงินมากมาย อาจเลือกที่จะสร้างข้อมูลสังเคราะห์จากโมเดล API ที่ดีที่สุด ในมุมมองของเขา วิธีการนี้อาจมีประสิทธิภาพในการคำนวณมากกว่าสำหรับ DeepSeek
มุมมองของ Lambert เน้นถึงข้อพิจารณาเชิงปฏิบัติที่อาจผลักดันให้บริษัท AI สำรวจกลยุทธ์การจัดหาข้อมูลทางเลือก แม้ว่าการใช้ข้อมูลสังเคราะห์จะเป็นเทคนิคที่ถูกต้องตามกฎหมายและมีประสิทธิภาพ เป็นสิ่งสำคัญเพื่อให้แน่ใจว่าข้อมูลถูกสร้างขึ้นอย่างมีจริยธรรมและไม่ละเมิดข้อกำหนดในการให้บริการหรือแนวทางปฏิบัติทางจริยธรรมใด ๆ
มาตรการรักษาความปลอดภัยและความพยายามในการป้องกัน
เพื่อตอบสนองต่อความกังวลเกี่ยวกับการกลั่นและการปนเปื้อนข้อมูล บริษัท AI ได้เพิ่มมาตรการรักษาความปลอดภัย OpenAI ตัวอย่างเช่น ได้ดำเนินการตามข้อกำหนดสำหรับองค์กรเพื่อให้กระบวนการตรวจสอบ ID เสร็จสมบูรณ์เพื่อเข้าถึงโมเดลขั้นสูงบางรุ่น กระบวนการนี้จำเป็นต้องมี ID ที่ออกโดยรัฐบาลจากประเทศใดประเทศหนึ่งที่ API ของ OpenAI รองรับ โดยยกเว้นจีนออกจากรายการ
Google ยังได้ดำเนินการเพื่อลดความเสี่ยงของการกลั่นโดยการ “สรุป” ร่องรอยที่สร้างโดยโมเดลที่พร้อมใช้งานผ่านแพลตฟอร์มนักพัฒนา AI Studio กระบวนการสรุปนี้ทำให้การฝึกฝนโมเดลคู่แข่งທີ່ມີประสิทธิภาพบนร่องรอย Gemini ยากขึ้น ในทำนองเดียวกัน Anthropic ประกาศในเดือนพฤษภาคมว่าจะเริ่มสรุป ร่องรอยของโมเดลของตัวเอง โดยอ้างถึงความจำเป็นในการปกป้อง "ข้อได้เปรียบทางการแข่งขัน"
มาตรการรักษาความปลอดภัยเหล่านี้แสดงถึงความพยายามร่วมกันของบริษัท AI เพื่อปกป้องทรัพย์สินทางปัญญาและป้องกันการดึงข้อมูลที่ไม่ได้รับอนุญาต ด้วยการใช้การควบคุมการเข้าถึงที่เข้มงวดมากขึ้นและบดบังร่องรอยของโมเดล พวกเขาตั้งเป้าที่จะยับยั้งแนวทางปฏิบัติที่ไม่เหมาะสมและรักษาสนามแข่งขันที่เท่าเทียมกันในอุตสาหกรรม AI
การตอบสนองของ Google
เมื่อติดต่อเพื่อแสดงความคิดเห็น Google ยังไม่ได้ตอบสนองต่อข้อกล่าวหา ความเงียบนี้เปิดช่องว่างสำหรับการคาดเดาและยิ่งทำให้ข้อโต้แย้งรุนแรงขึ้น ในขณะที่ชุมชน AI รอคอยแถลงการณ์อย่างเป็นทางการจาก Google คำถามเกี่ยวกับการปฏิบัติด้านการจัดหาข้อมูลของ DeepSeek ยังคงอยู่
ความหมายสำหรับอุตสาหกรรม AI
ข้อโต้แย้ง DeepSeek ยกคำถามพื้นฐานเกี่ยวกับขอบเขตทางจริยธรรมของการพัฒนา AI และความสำคัญของการจัดหาข้อมูลที่รับผิดชอบ ในขณะที่โมเดล AI มีความซับซ้อนและมีความสามารถมากขึ้น ความเย้ายวนใจในการลดมุมและใช้ข้อมูลที่ไม่ได้รับอนุญาตอาจแข็งแกร่งขึ้น อย่างไรก็ตาม แนวทางปฏิบัติดังกล่าวอาจมีผลเสีย ทำลายความสมบูรณ์ของอุตสาหกรรม AI และกัดกร่อนความไว้วางใจของสาธารณชน
เพื่อให้มั่นใจถึงความยั่งยืนในระยะยาวและการพัฒนา AI อย่างมีจริยธรรม บริษัท AI จำเป็นต้องปฏิบัติตามแนวทางปฏิบัติทางจริยธรรมที่เข้มงวดและจัดลำดับความสำคัญของการปฏิบัติด้านการจัดหาข้อมูลที่รับผิดชอบ ซึ่งรวมถึงการได้รับความยินยอมอย่างชัดแจ้งจากผู้ให้บริการข้อมูล การเคารพสิทธิในทรัพย์สินทางปัญญา และหลีกเลี่ยงการใช้ข้อมูลที่ไม่มีการอนุญาตหรือมีอคติ
นอกจากนี้ จำเป็นต้องมีความโปร่งใสและความรับผิดชอบมากขึ้นในอุตสาหกรรม AI บริษัท AI ควรเปิดเผยข้อมูลเกี่ยวกับการปฏิบัติด้านการจัดหาข้อมูลและวิธีการที่ใช้ในการฝึกฝนโมเดลของตนมากขึ้น ความโปร่งใสที่เพิ่มขึ้นนี้จะช่วยส่งเสริมความไว้วางใจและความมั่นใจในระบบ AI และส่งเสริมระบบนิเวศ AI ที่มีจริยธรรมและมีความรับผิดชอบมากขึ้น
ข้อโต้แย้ง DeepSeek เป็นเครื่องเตือนใจที่ทันท่วงทีถึงความท้าทายและข้อพิจารณาทางจริยธรรมที่ต้องได้รับการแก้ไขในขณะที่เทคโนโลยี AI ยังคงก้าวหน้าต่อไป ด้วยการยึดมั่นในหลักการทางจริยธรรม การส่งเสริมความโปร่งใส และส่งเสริมความร่วมมือ ชุมชน AI สามารถมั่นใจได้ว่า AI จะถูกนำไปใช้เพื่อประโยชน์ของสังคมและไม่ใช่เพื่อแลกกับคุณค่าทางจริยธรรม
เจาะลึกด้านเทคนิค
เพื่อให้เข้าใจถึงความแตกต่างของปัญหานี้มากขึ้น จึงเป็นสิ่งสำคัญที่จะต้องเจาะลึกด้านเทคนิคของวิธีการฝึกฝนโมเดล AI และเทคนิคเฉพาะที่เป็นปัญหา ได้แก่ distillation และการสร้างข้อมูลสังเคราะห์
Distillation: การโคลนสติปัญญา?
Distillation ในบริบทของ AI หมายถึงเทคนิคการบีบอัดโมเดลที่โมเดล "นักเรียน" ที่เล็กกว่าและมีประสิทธิภาพมากกว่าได้รับการฝึกฝนให้เลียนแบบพฤติกรรมของโมเดล "ครู" ที่ใหญ่กว่าและซับซ้อนกว่า โมเดลนักเรียนเรียนรู้โดยการสังเกตผลลัพธ์ของโมเดลครู ซึ่งเป็นการดึงความรู้และถ่ายโอนไปยังสถาปัตยกรรมที่เล็กลงอย่างมีประสิทธิภาพ แม้ว่า distillation จะเป็นประโยชน์สำหรับการปรับใช้โมเดล AI บนอุปกรณ์ที่มีข้อจำกัดด้านทรัพยากร แต่ก็ก่อให้เกิดความกังวลด้านจริยธรรมเมื่อข้อมูลหรือสถาปัตยกรรมของโมเดลครูเป็นกรรมสิทธิ์
หาก DeepSeek ใช้ผลลัพธ์ของ Gemini เพื่อฝึกฝนโมเดล R1 ผ่าน distillation โดยไม่ได้รับอนุญาต ก็จะเหมือนกับการโคลนสติปัญญาของ Gemini และอาจละเมิดสิทธิในทรัพย์สินทางปัญญาของ Google ประเด็นสำคัญที่นี่คือการใช้ผลลัพธ์ของ Gemini โดยไม่ได้รับอนุญาต ซึ่งได้รับการคุ้มครองโดยลิขสิทธิ์และกลไกทางกฎหมายอื่น ๆ
การสร้างข้อมูลสังเคราะห์: ดาบสองคม
การสร้างข้อมูลสังเคราะห์เกี่ยวข้องกับการสร้างจุดข้อมูลเทียมที่คล้ายกับข้อมูลในโลกแห่งความเป็นจริง เทคนิคนี้มักใช้เพื่อเพิ่มชุดข้อมูลการฝึกอบรม โดยเฉพาะอย่างยิ่งเมื่อข้อมูลจริงมีน้อยหรือมีราคาแพงในการรับ อย่างไรก็ตาม คุณภาพและผลกระทบทางจริยธรรมของข้อมูลสังเคราะห์ขึ้นอยู่กับวิธีการสร้าง
หาก DeepSeek ใช้ API ของ Gemini เพื่อสร้างข้อมูลสังเคราะห์ คำถามคือ: ข้อมูลนี้คล้ายกับผลลัพธ์ Gemini จริงมากน้อยเพียงใด และละเมิดสิทธิในทรัพย์สินทางปัญญาของ Google หรือไม่ หากข้อมูลสังเคราะห์ได้รับแรงบันดาลใจจาก Gemini แต่ไม่ได้จำลองผลลัพธ์โดยตรง อาจถือว่าเป็นการใช้งานโดยชอบธรรม อย่างไรก็ตาม หากข้อมูลสังเคราะห์แทบจะไม่สามารถแยกแยะได้จากผลลัพธ์ของ Gemini ก็อาจก่อให้เกิดความกังวลเช่นเดียวกับ distillation
ผลกระทบของการ Overfitting ของโมเดล
อีกข้อกังวลที่เกี่ยวข้องคือ model overfitting Overfitting เกิดขึ้นเมื่อโมเดลเรียนรู้ข้อมูลการฝึกอบรมได้ดีเกินไป จนถึงจุดที่ทำงานได้ไม่ดีกับข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน หาก DeepSeek ฝึกฝนโมเดล R1 มากเกินไปด้วยผลลัพธ์ของ Gemini ก็อาจส่งผลให้เกิด overfitting โดยที่โมเดลจะจดจำการตอบสนองของ Gemini แทนที่จะสรุปสถานการณ์ใหม่โดยทั่วไป
การ overfitting ชนิดนี้จะไม่เพียงจำกัดการใช้งานโมเดล R1 เท่านั้น แต่ยังทำให้การตรวจจับการพึ่งพาข้อมูลของ Gemini ได้ง่ายขึ้นอีกด้วย "ร่องรอย" ที่ SpeechMap สังเกตเห็นอาจเป็นหลักฐานของการ overfitting นี้ โดยที่โมเดล R1 กำลังถ่ายทอดรูปแบบที่เรียนรู้จากผลลัพธ์ของ Gemini
ข้อพิจารณาด้านจริยธรรมและแนวทางปฏิบัติที่ดีที่สุดในอุตสาหกรรม
นอกเหนือจากด้านเทคนิคแล้ว ข้อโต้แย้งนี้เน้นย้ำถึงความจำเป็นในการมีแนวทางปฏิบัติทางจริยธรรมและแนวทางปฏิบัติที่ดีที่สุดในอุตสาหกรรมที่ชัดเจนสำหรับการพัฒนา AI หลักการสำคัญบางประการ ได้แก่:
- ความโปร่งใส: บริษัท AI ควรมีความโปร่งใสเกี่ยวกับแหล่งข้อมูลและวิธีการฝึกอบรมของตน ซึ่งจะช่วยให้สามารถตรวจสอบและตรวจสอบได้อย่างอิสระ
- ความยินยอม: บริษัท AI ควรร้องขอความยินยอมอย่างชัดแจ้งจากผู้ให้บริการข้อมูลก่อนที่จะใช้ข้อมูลของตนสำหรับการฝึกอบรม ซึ่งรวมถึงการเคารพสิทธิในทรัพย์สินทางปัญญาและหลีกเลี่ยงการขูดข้อมูลที่ไม่ได้รับอนุญาต
- ความเป็นธรรม: โมเดล AI ควรมีความเป็นธรรมและไม่ลำเอียง ซึ่งต้องให้ความสนใจอย่างรอบคอบกับความหลากหลายของข้อมูลและการลดอคติของอัลกอริทึม
- ความรับผิดชอบ: บริษัท AI ควรร 책임สำหรับ การกระทำของโมเดล AI ของตน ซึ่งรวมถึงการสร้างกรอบความรับผิดชอบที่ชัดเจนและการแก้ไขอันตรายที่เกิดจากระบบ AI
- ความปลอดภัย: บริษัท AI ควรจัดลำดับความสำคัญของความปลอดภัยของโมเดล AI และข้อมูล ซึ่งรวมถึงการป้องกันการเข้าถึงที่ไม่ได้รับอนุญาตและการป้องกันการละเมิดข้อมูล
บทบาทของข้อบังคับ
นอกเหนือจากแนวทางปฏิบัติทางจริยธรรมและแนวทางปฏิบัติที่ดีที่สุดในอุตสาหกรรม อาจจำเป็นต้องมีข้อบังคับเพื่อแก้ไขความท้าทายที่เกิดจากการพัฒนา AI มาตรการกำกับดูแลที่อาจเกิดขึ้นบางประการ ได้แก่:
- กฎหมายคุ้มครองข้อมูลส่วนบุคคล: กฎหมายที่ปกป้องข้อมูลของบุคคลและจำกัดการใช้ข้อมูลส่วนบุคคลสำหรับการฝึก AI
- กฎหมายทรัพย์สินทางปัญญา: กฎหมายที่ปกป้องโมเดล AI และข้อมูลจากการคัดลอกและการเผยแพร่ที่ไม่ได้รับอนุญาต
- กฎหมายการแข่งขัน: กฎหมายที่ป้องกันพฤติกรรมการต่อต้านการแข่งขันในอุตสาหกรรม AI เช่น การกักตุนข้อมูลและการเข้าถึงทรัพยากรที่ไม่เป็นธรรม
- ข้อบังคับด้านความปลอดภัย: ข้อบังคับที่รับประกันความปลอดภัยและความน่าเชื่อถือของระบบ AI ที่ใช้ในการใช้งานที่สำคัญ
ด้วยการรวมแนวทางปฏิบัติทางจริยธรรม แนวทางปฏิบัติที่ดีที่สุดในอุตสาหกรรม และระเบียบข้อบังคับที่เหมาะสม เราสามารถสร้างระบบนิเวศ AI ที่มีความรับผิดชอบและยั่งยืนมากขึ้น ซึ่งเป็นประโยชน์ต่อสังคมโดยรวม ข้อโต้แย้ง DeepSeek เป็นการปลุกระดม กระตุ้นให้เราแก้ไขความท้าทายเหล่านี้อย่างเชิงรุก และรับประกันว่า AI ได้รับการพัฒนาในลักษณะที่สอดคล้องกับค่านิยมและหลักการของเรา