DeepSeek ลอกเลียนแบบ OpenAI: ถูกเปิดโปงแล้วหรือยัง?

การเปิดเผยต้นกำเนิดการฝึกอบรมของ DeepSeek-R1

งานวิจัยล่าสุดที่ดำเนินการโดย Copyleaks บริษัทที่เชี่ยวชาญด้านการตรวจจับและการกำกับดูแล AI ได้ชี้ให้เห็นถึงคำตอบที่ชัดเจนว่า DeepSeek-R1 ได้รับการฝึกฝนบนแบบจำลองของ OpenAI หรือไม่: คำตอบคือ ใช่ DeepSeek ซึ่งเป็นแชทบอทที่ขับเคลื่อนด้วย AI ซึ่งให้บริการโดยไม่มีค่าใช้จ่าย มีความคล้ายคลึงกับ ChatGPT อย่างมากในด้านรูปลักษณ์ ความรู้สึก และฟังก์ชันการทำงาน

เทคนิคการพิมพ์ลายนิ้วมือ: การระบุ AI ที่เป็นผู้เขียน

เพื่อที่จะให้ความกระจ่างเกี่ยวกับต้นกำเนิดของข้อความที่สร้างโดย AI นักวิจัยได้พัฒนาเครื่องมือพิมพ์ลายนิ้วมือข้อความที่เป็นนวัตกรรมใหม่ เครื่องมือนี้ได้รับการออกแบบมาเพื่อระบุแบบจำลอง AI ที่เฉพาะเจาะจงซึ่งรับผิดชอบในการสร้างข้อความที่กำหนด นักวิจัยได้ฝึกฝนเครื่องมืออย่างพิถีพิถันโดยใช้ชุดข้อมูลขนาดใหญ่ของตัวอย่างที่สร้างโดย AI หลายพันรายการ หลังจากนั้น พวกเขาก็ได้นำไปทดสอบโดยใช้แบบจำลอง AI ที่รู้จัก และผลลัพธ์ก็ชัดเจน

ความคล้ายคลึงที่น่าตกใจ: DeepSeek-R1 และ OpenAI

การทดสอบเปิดเผยสถิติที่น่าสนใจ: 74.2 เปอร์เซ็นต์ของข้อความที่ผลิตโดย DeepSeek-R1 มีรูปแบบที่ตรงกับผลลัพธ์ของ OpenAI ความสัมพันธ์ที่แข็งแกร่งนี้ชี้ให้เห็นอย่างชัดเจนว่า DeepSeek ได้รวมแบบจำลองของ OpenAI ไว้ในระหว่างขั้นตอนการฝึกอบรม

ความแตกต่างในแนวทาง: Phi-4 ของ Microsoft

เพื่อให้เห็นภาพที่แตกต่าง ลองพิจารณาแบบจำลอง Phi-4 ของ Microsoft ในการทดสอบเดียวกัน Phi-4 แสดงให้เห็นถึง ‘ความไม่เห็นด้วย’ 99.3 เปอร์เซ็นต์กับแบบจำลองใดๆ ที่รู้จัก ผลลัพธ์นี้เป็นหลักฐานที่น่าเชื่อถือของการฝึกอบรมอิสระ ซึ่งหมายความว่า Phi-4 ได้รับการพัฒนาโดยไม่ต้องพึ่งพาแบบจำลองที่มีอยู่ ความแตกต่างอย่างสิ้นเชิงระหว่างลักษณะที่เป็นอิสระของ Phi-4 และความคล้ายคลึงกันอย่างท่วมท้นของ DeepSeek กับ OpenAI เน้นย้ำถึงการจำลองแบบหรือการคัดลอกที่ชัดเจนของ DeepSeek

ข้อกังวลด้านจริยธรรมและทรัพย์สินทางปัญญา

การเปิดเผยนี้ทำให้เกิดข้อกังวลร้ายแรงเกี่ยวกับความคล้ายคลึงกันอย่างใกล้ชิดของ DeepSeek-R1 กับแบบจำลองของ OpenAI ข้อกังวลเหล่านี้ครอบคลุมประเด็นสำคัญหลายประการ ได้แก่:

  • การจัดหาข้อมูล: ที่มาของข้อมูลที่ใช้ในการฝึกอบรม DeepSeek-R1 กลายเป็นคำถามสำคัญ
  • สิทธิ์ในทรัพย์สินทางปัญญา: การละเมิดสิทธิ์ในทรัพย์สินทางปัญญาของ OpenAI ที่อาจเกิดขึ้นเป็นข้อกังวลที่สำคัญ
  • ความโปร่งใส: การขาดความโปร่งใสเกี่ยวกับวิธีการฝึกอบรมของ DeepSeek ทำให้เกิดคำถามด้านจริยธรรม

ทีมวิจัยและวิธีการ

ทีมวิทยาศาสตร์ข้อมูลของ Copyleaks นำโดย Yehonatan Bitton, Shai Nisan และ Elad Bitton ได้ดำเนินการวิจัยที่ก้าวล้ำนี้ วิธีการของพวกเขาเน้นที่แนวทาง ‘คณะลูกขุนที่เป็นเอกฉันท์’ แนวทางนี้เกี่ยวข้องกับระบบตรวจจับที่แตกต่างกันสามระบบ โดยแต่ละระบบมีหน้าที่ในการจำแนกข้อความที่สร้างโดย AI การตัดสินขั้นสุดท้ายจะเกิดขึ้นเมื่อทั้งสามระบบเห็นพ้องกันเท่านั้น

ผลกระทบด้านการดำเนินงานและการตลาด

นอกเหนือจากข้อกังวลด้านจริยธรรมและทรัพย์สินทางปัญญาแล้ว ยังมีผลกระทบด้านการปฏิบัติงานที่ต้องพิจารณา การพึ่งพาแบบจำลองที่มีอยู่โดยไม่เปิดเผยอาจนำไปสู่ปัญหาหลายประการ:

  • การตอกย้ำอคติ: อคติที่มีอยู่ภายในแบบจำลองดั้งเดิมสามารถคงอยู่ต่อไปได้
  • ความหลากหลายที่จำกัด: ความหลากหลายของผลลัพธ์อาจถูกจำกัด ซึ่งขัดขวางนวัตกรรม
  • ความเสี่ยงทางกฎหมายและจริยธรรม: อาจเกิดผลกระทบทางกฎหมายหรือจริยธรรมที่ไม่คาดฝัน

นอกจากนี้ การกล่าวอ้างของ DeepSeek เกี่ยวกับวิธีการฝึกอบรมที่ปฏิวัติวงการและคุ้มค่า หากพบว่ามีพื้นฐานมาจากการกลั่นเทคโนโลยีของ OpenAI โดยไม่ได้รับอนุญาต อาจส่งผลกระทบต่อตลาดอย่างมีนัยสำคัญ อาจมีส่วนทำให้ NVIDIA สูญเสียเงินจำนวนมากถึง 593 พันล้านดอลลาร์ในหนึ่งวัน และอาจทำให้ DeepSeek ได้เปรียบในการแข่งขันที่ไม่เป็นธรรม

แนวทางที่เข้มงวด: การรวมตัวจำแนกหลายตัว

วิธีการวิจัยใช้แนวทางที่เข้มงวดอย่างยิ่ง โดยผสานรวมตัวจำแนก AI ขั้นสูงสามตัว ตัวจำแนกแต่ละตัวเหล่านี้ได้รับการฝึกฝนอย่างพิถีพิถันกับตัวอย่างข้อความจากแบบจำลอง AI ที่โดดเด่นสี่แบบ:

  1. Claude
  2. Gemini
  3. Llama
  4. OpenAI

ตัวจำแนกเหล่านี้ได้รับการออกแบบมาเพื่อระบุความแตกต่างเล็กน้อยของรูปแบบ ซึ่งรวมถึง:

  • โครงสร้างประโยค: การจัดเรียงคำและวลีภายในประโยค
  • คำศัพท์: การเลือกคำและความถี่ของคำ
  • การใช้ถ้อยคำ: รูปแบบโดยรวมและน้ำเสียงของการแสดงออก

ระบบ ‘คณะลูกขุนที่เป็นเอกฉันท์’: การรับรองความถูกต้อง

ระบบ ‘คณะลูกขุนที่เป็นเอกฉันท์’ เป็นองค์ประกอบสำคัญของวิธีการ เพื่อให้มั่นใจว่ามีการตรวจสอบที่แข็งแกร่งต่อผลบวกปลอม ระบบนี้กำหนดให้ตัวจำแนกทั้งสามตัวต้องเห็นพ้องกันในการจำแนกประเภทอย่างอิสระก่อนที่จะถือว่าเป็นที่สิ้นสุด เกณฑ์ที่เข้มงวดนี้ส่งผลให้อัตราความแม่นยำสูงถึง 99.88 เปอร์เซ็นต์ และอัตราผลบวกปลอมต่ำอย่างน่าทึ่งเพียง 0.04 เปอร์เซ็นต์ ระบบแสดงให้เห็นถึงความสามารถในการระบุข้อความจากแบบจำลอง AI ทั้งที่รู้จักและไม่รู้จักได้อย่างถูกต้อง

นอกเหนือจากการตรวจจับ AI: การระบุแหล่งที่มาเฉพาะของแบบจำลอง

‘ด้วยการวิจัยนี้ เราได้ก้าวข้ามการตรวจจับ AI ทั่วไปอย่างที่เรารู้จัก และเข้าสู่การระบุแหล่งที่มาเฉพาะของแบบจำลอง ซึ่งเป็นความก้าวหน้าที่เปลี่ยนแปลงวิธีการที่เราเข้าถึงเนื้อหา AI โดยพื้นฐาน’ Shai Nisan หัวหน้านักวิทยาศาสตร์ข้อมูลของ Copyleaks กล่าว

ความสำคัญของการระบุแหล่งที่มาของแบบจำลอง

Nisan ยังเน้นย้ำถึงความสำคัญของความสามารถนี้: ‘ความสามารถนี้มีความสำคัญอย่างยิ่งด้วยเหตุผลหลายประการ รวมถึงการปรับปรุงความโปร่งใสโดยรวม การรับรองแนวทางการฝึกอบรม AI อย่างมีจริยธรรม และที่สำคัญที่สุดคือการปกป้องสิทธิ์ในทรัพย์สินทางปัญญาของเทคโนโลยี AI และหวังว่าจะป้องกันการใช้งานในทางที่ผิดที่อาจเกิดขึ้น’

เจาะลึก: ผลกระทบของแนวทางของ DeepSeek

ผลการวิจัยนี้มีผลกระทบในวงกว้างที่ขยายไปไกลกว่าคำถามทันทีว่า DeepSeek คัดลอกแบบจำลองของ OpenAI หรือไม่ ลองสำรวจผลกระทบเหล่านี้ในรายละเอียดเพิ่มเติม:

ภาพลวงตาของนวัตกรรม

หากการฝึกอบรมของ DeepSeek พึ่งพาแบบจำลองของ OpenAI อย่างมาก ก็ทำให้เกิดคำถามเกี่ยวกับขอบเขตที่แท้จริงของนวัตกรรม แม้ว่า DeepSeek อาจนำเสนอแชทบอทของตนว่าเป็นการสร้างสรรค์ใหม่ แต่เทคโนโลยีพื้นฐานอาจมีความก้าวหน้าน้อยกว่าที่อ้างในตอนแรก สิ่งนี้อาจทำให้ผู้ใช้และนักลงทุนเข้าใจผิดที่เชื่อว่าพวกเขากำลังโต้ตอบกับระบบ AI ที่ไม่เหมือนใครอย่างแท้จริง

ผลกระทบต่อภูมิทัศน์ AI

การนำแบบจำลอง AI ที่ได้รับการฝึกฝนบนแบบจำลองอื่น ๆ มาใช้อย่างแพร่หลายอาจส่งผลให้ภูมิทัศน์ AI มีความเหมือนกัน หากระบบ AI จำนวนมากมาจากแบบจำลองพื้นฐานเพียงไม่กี่แบบ ก็อาจจำกัดความหลากหลายของแนวทางและมุมมองในสาขานี้ได้ สิ่งนี้อาจขัดขวางนวัตกรรมและนำไปสู่ระบบนิเวศ AI ที่มีความคล่องตัวและการแข่งขันน้อยลง

ความจำเป็นในความโปร่งใสที่มากขึ้น

กรณีนี้เน้นย้ำถึงความจำเป็นเร่งด่วนสำหรับความโปร่งใสที่มากขึ้นในการพัฒนาและการปรับใช้แบบจำลอง AI ผู้ใช้และผู้มีส่วนได้ส่วนเสียสมควรที่จะทราบว่าระบบ AI ได้รับการฝึกฝนอย่างไรและใช้แหล่งข้อมูลใด ข้อมูลนี้มีความสำคัญอย่างยิ่งต่อการประเมินอคติ ข้อจำกัด และผลกระทบทางจริยธรรมที่อาจเกิดขึ้นของระบบเหล่านี้

บทบาทของกฎระเบียบ

กรณี DeepSeek อาจกระตุ้นให้เกิดการถกเถียงเกี่ยวกับความจำเป็นในการควบคุมอุตสาหกรรม AI ที่มากขึ้น รัฐบาลและหน่วยงานกำกับดูแลอาจต้องพิจารณามาตรการเพื่อให้แน่ใจว่าผู้พัฒนา AI ปฏิบัติตามหลักเกณฑ์ทางจริยธรรม ปกป้องสิทธิ์ในทรัพย์สินทางปัญญา และส่งเสริมความโปร่งใส

อนาคตของการพัฒนา AI

ข้อโต้แย้งเกี่ยวกับวิธีการฝึกอบรมของ DeepSeek อาจเป็นตัวเร่งให้เกิดการอภิปรายในวงกว้างเกี่ยวกับอนาคตของการพัฒนา AI อาจกระตุ้นให้เกิดการประเมินแนวทางปฏิบัติที่ดีที่สุด ข้อควรพิจารณาด้านจริยธรรม และความสำคัญของความคิดริเริ่มในการสร้างระบบ AI อีกครั้ง

การเรียกร้องให้มีการพัฒนา AI อย่างมีความรับผิดชอบ

กรณี DeepSeek เป็นเครื่องเตือนใจถึงความสำคัญของการพัฒนา AI อย่างมีความรับผิดชอบ โดยเน้นย้ำถึงความจำเป็นใน:

  • ความคิดริเริ่ม: ผู้พัฒนา AI ควรพยายามสร้างแบบจำลองใหม่ๆ อย่างแท้จริง แทนที่จะพึ่งพาแบบจำลองที่มีอยู่เป็นอย่างมาก
  • ความโปร่งใส: ข้อมูลการฝึกอบรมและวิธีการที่ใช้ในการพัฒนาระบบ AI ควรเปิดเผยต่อผู้ใช้และผู้มีส่วนได้ส่วนเสีย
  • ข้อควรพิจารณาด้านจริยธรรม: การพัฒนา AI ควรได้รับคำแนะนำจากหลักการทางจริยธรรม รวมถึงความยุติธรรม ความรับผิดชอบ และการเคารพสิทธิ์ในทรัพย์สินทางปัญญา
  • การทำงานร่วมกัน: การทำงานร่วมกันอย่างเปิดเผยและการแบ่งปันความรู้ภายในชุมชน AI สามารถช่วยส่งเสริมนวัตกรรมและป้องกันการจำลองแบบของอคติที่มีอยู่

เส้นทางข้างหน้า: การรับรองอนาคต AI ที่หลากหลายและมีจริยธรรม

เป้าหมายสูงสุดคือการสร้างระบบนิเวศ AI ที่หลากหลายและมีจริยธรรม ซึ่งนวัตกรรมจะเติบโตและผู้ใช้สามารถไว้วางใจระบบที่พวกเขาโต้ตอบด้วยได้ สิ่งนี้ต้องการความมุ่งมั่นต่อแนวทางการพัฒนา AI อย่างมีความรับผิดชอบ ความโปร่งใส และการสนทนาอย่างต่อเนื่องเกี่ยวกับผลกระทบทางจริยธรรมของเทคโนโลยีที่พัฒนาอย่างรวดเร็วนี้ กรณี DeepSeek เป็นบทเรียนที่มีค่า โดยเน้นให้เห็นถึงข้อผิดพลาดที่อาจเกิดขึ้นจากการพึ่งพาแบบจำลองที่มีอยู่มากเกินไป และเน้นย้ำถึงความสำคัญของความคิดริเริ่มและข้อควรพิจารณาด้านจริยธรรมในการแสวงหาความก้าวหน้าของ AI อนาคตของ AI ขึ้นอยู่กับทางเลือกที่เราทำในวันนี้ และเป็นสิ่งสำคัญที่เราต้องจัดลำดับความสำคัญของการพัฒนาอย่างมีความรับผิดชอบเพื่อให้แน่ใจว่าอนาคตจะเป็นประโยชน์และเท่าเทียมกันสำหรับทุกคน
ผลการสืบสวนของ Copyleaks ได้ให้ความกระจ่างเกี่ยวกับแง่มุมที่สำคัญของการพัฒนา AI และเป็นสิ่งจำเป็นที่อุตสาหกรรมโดยรวมจะต้องเรียนรู้จากประสบการณ์นี้เพื่อส่งเสริมอนาคตที่โปร่งใส มีจริยธรรม และสร้างสรรค์มากขึ้น