DeepSeek ใช้ Gemini เทรน AI จริงหรือ?

ข้อสงสัยเกี่ยวกับการฝึก AI ของ DeepSeek: Gemini มีส่วนร่วมด้วยหรือไม่?

มีข่าวลือว่า DeepSeek ซึ่งเป็นห้องปฏิบัติการ AI ของจีน อาจใช้ข้อมูลจากโมเดล Gemini AI ของ Google ในการฝึกฝนโมเดล R1 รุ่นล่าสุด ซึ่งเป็น AI ที่มีความสามารถในการให้เหตุผล โมเดลนี้แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในการวัดผลทางคณิตศาสตร์และการเขียนโค้ด แม้ว่า DeepSeek จะไม่ได้กล่าวถึงแหล่งข้อมูลที่ใช้ในการฝึกฝน R1 แต่ นักวิจัย AI หลายคนได้เสนอแนะว่า Gemini หรืออย่างน้อยก็บางส่วนของ Gemini มีส่วนร่วม

หลักฐานและข้อกล่าวหา

Sam Paech นักพัฒนาซอฟต์แวร์ในเมลเบิร์น ผู้เชี่ยวชาญในการสร้างการประเมิน "ความฉลาดทางอารมณ์" สำหรับ AI ได้นำเสนอสิ่งที่เขาเชื่อว่าเป็นหลักฐานว่าโมเดล DeepSeek ได้รับการฝึกฝนโดยใช้ผลลัพธ์ที่สร้างโดย Gemini Paech สังเกตในโพสต์บน X (เดิมคือ Twitter) ว่าโมเดลของ DeepSeek โดยเฉพาะรุ่น R1-0528 แสดงความชอบภาษาและสำนวนที่คล้ายกับที่ Gemini 2.5 Pro ของ Google ชื่นชอบ

นอกจากนี้ นักพัฒนาอีกคนภายใต้นามแฝงของผู้สร้าง SpeechMap ซึ่งเป็น "การประเมินการพูดอย่างอิสระ" สำหรับ AI ได้สังเกตว่า "ความคิด" ที่สร้างโดยโมเดลของ DeepSeek ในขณะที่มันทำงานไปสู่ข้อสรุปนั้นคล้ายคลึงกับร่องรอยของ Gemini อย่างใกล้ชิด ข้อสังเกตนี้เพิ่มความน่าสนใจให้กับข้อกล่าวหา

นี่ไม่ใช่ครั้งแรกที่ DeepSeek เผชิญข้อกล่าวหาว่าใช้ประโยชน์จากข้อมูลจากโมเดล AI ของคู่แข่ง ในเดือนธันวาคม นักพัฒนาสังเกตเห็นว่าโมเดล V3 ของ DeepSeek ระบุตัวเองว่าเป็น ChatGPT ซึ่งเป็นแพลตฟอร์มแชทบอทยอดนิยมของ OpenAI บ่อยครั้ง สิ่งนี้บ่งชี้ว่าโมเดลได้รับการฝึกฝนจากบันทึกการแชท ChatGPT ทำให้เกิดความกังวลเกี่ยวกับแนวทางการใช้ข้อมูล

ข้อกล่าวหาที่ลึกกว่า: การกลั่นและการรั่วไหลของข้อมูล

เมื่อต้นปีนี้ OpenAI ได้แบ่งปันข้อมูลกับ Financial Times ว่าพวกเขาค้นพบหลักฐานที่เชื่อมโยง DeepSeek กับการใช้เทคนิคที่เรียกว่า การกลั่น (Distillation) การกลั่นเกี่ยวข้องกับการฝึกฝนโมเดล AI โดยการดึงข้อมูลจากโมเดลมี่มีขนาดใหญ่กว่าและมีความซับซ้อนมากกว่า Bloomberg รายงานว่า Microsoft ซึ่งเป็นผู้ร่วมงานและนักลงทุนหลักของ OpenAI ได้ตรวจพบการรั่วไหลของข้อมูลจำนวนมากผ่านบัญชีนักพัฒนา OpenAI ในช่วงปลายปี 2024 OpenAI เชื่อว่าบัญชีเหล่านี้เชื่อมต่อกับ DeepSeek

การกลั่น ถึงแม้ว่าจะไม่ได้ผิดจริยธรรมโดยธรรมชาติ แต่จะกลายเป็นปัญหาเมื่อละเมิดเงื่อนไขการให้บริการ เงื่อนไขของ OpenAI ห้ามมิให้ลูกค้านำผลลัพธ์ของโมเดลของบริษัทไปใช้ในการพัฒนาระบบ AI ที่แข่งขันกันอย่างชัดเจน สิ่งนี้ก่อให้เกิดคำถามร้ายแรงเกี่ยวกับการปฏิบัติตามข้อกำหนดเหล่านี้ของ DeepSeek

ความขุ่นมัวของข้อมูลการฝึกอบรม AI

สิ่งสำคัญคือต้องรับทราบว่าโมเดล AI มักจะระบุตัวเองผิด และรวมคำและวลีที่คล้ายคลึงกัน นี่เป็นเพราะลักษณะของเว็บแบบเปิด ซึ่งทำหน้าที่เป็นแหล่งข้อมูลการฝึกอบรมหลักสำหรับบริษัท AI หลายแห่ง เว็บมีการปนเปื้อนด้วยเนื้อหาที่สร้างโดย AI มากขึ้น ฟาร์มเนื้อหากำลังใช้ AI เพื่อสร้าง clickbait และบอทกำลังท่วมแพลตฟอร์มเช่น Reddit และ X ด้วยโพสต์ที่สร้างโดย AI

"การปนเปื้อน" นี้ทำให้การกรองเอาต์พุต AI ออกจากชุดข้อมูลการฝึกอบรมเป็นเรื่องท้าทายอย่างเหลือเชื่อ ซึ่งยิ่งทำให้คำถามที่ว่า DeepSeek จงใจใช้ข้อมูล Gemini หรือไม่นั้นซับซ้อนยิ่งขึ้น

ความคิดเห็นและมุมมองของผู้เชี่ยวชาญ

แม้จะมีความท้าทายในการพิสูจน์ข้อกล่าวหาอย่างชัดเจน แต่ผู้เชี่ยวชาญด้าน AI บางคนเชื่อว่า เป็นไปได้ที่ DeepSeek จะได้รับการฝึกฝนจากข้อมูลของ Gemini ของ Google Nathan Lambert นักวิจัยที่สถาบันวิจัย AI ที่ไม่แสวงหาผลกำไร AI2 กล่าวบน X ว่า "ถ้าฉันเป็น DeepSeek ฉันจะสร้างข้อมูลสังเคราะห์จำนวนมากจากโมเดล API ที่ดีที่สุด DeepSeek ขาด GPUs และมีเงินสดจำนวนมาก อย่างแท้จริงแล้วมันมีประสิทธิภาพมากกว่าสำหรับพวกเขา"

มุมมองของ Lambert เน้นถึงแรงจูงใจทางเศรษฐกิจที่อาจเกิดขึ้นสำหรับ DeepSeek ในการใช้ประโยชน์จากโมเดล AI ที่มีอยู่ เพื่อเพิ่มขีดความสามารถของตนเอง โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงข้อจำกัดด้านทรัพยากร

มาตรการรักษาความปลอดภัยและตอบโต้

บริษัท AI ได้เพิ่มมาตรการรักษาความปลอดภัย ส่วนหนึ่งเพื่อป้องกันการปฏิบัติเช่นการกลั่น OpenAI เริ่มกำหนดให้องค์กรต่างๆ ดำเนินการตามขั้นตอนการยืนยัน ID เพื่อเข้าถึงโมเดลขั้นสูงบางอย่างในเดือนเมษายน กระบวนการนี้เกี่ยวข้องกับการส่ง ID ที่ออกโดยรัฐบาลจากประเทศที่ API ของ OpenAI สนับสนุน จีนไม่อยู่ในรายการนี้อย่างเด่นชัด

ในการเคลื่อนไหวอีกครั้ง Google เพิ่งเริ่ม "สรุป" ร่องรอยที่สร้างโดยโมเดลที่มีอยู่ในแพลตฟอร์มนักพัฒนา AI Studio การดำเนินการนี้ทำให้การฝึกฝนโมเดลคู่แข่งบนร่องรอยของ Gemini มีความยากลำบากมากขึ้น ในทำนองเดียวกัน Anthropic ประกาศในเดือนพฤษภาคมว่าจะเริ่มสรุป ร่องรอยของโมเดลของตนเอง โดยอ้างถึงความจำเป็นในการปกป้อง "ความได้เปรียบทางการแข่งขัน" มาตรการเหล่านี้บ่งชี้ถึงความตระหนักที่เพิ่มขึ้นเกี่ยวกับศักยภาพในการใช้เอาต์พุตของโมเดล AI ในทางที่ผิด และความพยายามเชิงรุกในการลดความเสี่ยงดังกล่าว

ผลกระทบและผลที่ตามมา

ข้อกล่าวหาที่มีต่อ DeepSeek ก่อให้เกิดคำถามสำคัญเกี่ยวกับจริยธรรมและความถูกต้องตามกฎหมายของแนวทางการฝึกอบรม AI หาก DeepSeek ใช้ข้อมูล Gemini ในการฝึกฝนโมเดล R1 จริงๆ ก็อาจเผชิญกับผลกระทบทางกฎหมายและความเสียหายต่อชื่อเสียง สถานการณ์นี้ยังเน้นย้ำถึงความจำเป็นในการเพิ่มความโปร่งใสและกฎระเบียบในอุตสาหกรรม AI โดยเฉพาะอย่างยิ่งเกี่ยวกับการจัดหาและการใช้ข้อมูล

ข้อกล่าวหาที่มีต่อ DeepSeek ตอกย้ำถึงภาวะที่กลืนไม่เข้าคายไม่ออกที่สำคัญ: วิธีสร้างสมดุลระหว่างความปรารถนาในการสร้างสรรค์สิ่งใหม่ๆ และความก้าวหน้าใน AI กับความจำเป็นในการปกป้องทรัพย์สินทางปัญญา และรับประกันการแข่งขันที่เป็นธรรม อุตสาหกรรม AI กำลังพัฒนาไปอย่างรวดเร็ว และแนวทางที่ชัดเจนและกรอบจริยธรรมเป็นสิ่งจำเป็นในการนำทางภูมิทัศน์ทางกฎหมายและจริยธรรมที่ซับซ้อน บริษัทต่างๆ ต้องโปร่งใสเกี่ยวกับแหล่งข้อมูลของตน และปฏิบัติตามข้อตกลงข้อกำหนดในการให้บริการเพื่อรักษาความไว้วางใจและหลีกเลี่ยงความรับผิดทางกฎหมายที่อาจเกิดขึ้น

นอกจากนี้ ปัญหาของเนื้อหาที่สร้างโดย AI ที่ปนเปื้อนชุดข้อมูลการฝึกอบรมยังก่อให้เกิดความท้าทายที่สำคัญสำหรับชุมชน AI ทั้งหมด ในขณะที่โมเดล AI มีความเชี่ยวชาญมากขึ้นในการสร้างข้อความ รูปภาพ และเนื้อหารูปแบบอื่นๆ ที่น่าเชื่อ ถือว่ายากขึ้นเรื่อยๆ ที่จะแยกแยะระหว่างข้อมูลที่มนุษย์สร้างขึ้นและข้อมูลที่ AI สร้างขึ้น "การปนเปื้อน" นี้อาจนำไปสู่ความเหมือนกันของโมเดล AI ซึ่งพวกเขาทั้งหมดเริ่มแสดงอคติและข้อจำกัดที่คล้ายคลึงกัน

เพื่อจัดการกับความท้าทายนี้ บริษัท AI จำเป็นต้องลงทุนในเทคนิคการกรองข้อมูลที่ซับซ้อนมากขึ้น และสำรวจแหล่งข้อมูลการฝึกอบรมทางเลือก พวกเขาจำเป็นต้องมีความโปร่งใสมากขึ้นเกี่ยวกับองค์ประกอบของชุดข้อมูลการฝึกอบรม และวิธีการที่ใช้ในการกรองเนื้อหาที่สร้างโดย AI ออก

นำทางการฝึกอบรม AI ในอนาคต

ข้อโต้แย้ง DeepSeek เน้นย้ำถึงความจำเป็นเร่งด่วนสำหรับการอภิปรายที่ละเอียดถี่ถ้วนมากขึ้นเกี่ยวกับอนาคตของการฝึกอบรม AI ในขณะที่โมเดล AI มีประสิทธิภาพมากขึ้น และข้อมูลเริ่มหายาก บริษัทต่างๆ อาจถูกล่อลวงให้ทำการลัดขั้นตอน และมีส่วนร่วมในแนวทางปฏิบัติที่ไม่เป็นไปตามจริยธรรมหรือไม่ถูกต้องตามกฎหมาย อย่างไรก็ตาม แนวทางปฏิบัติเหล่านั้นบ่อนทำลายความยั่งยืนและความน่าเชื่อถือในระยะยาวของอุตสาหกรรม AI ในท้ายที่สุด

ความพยายามร่วมกันที่เกี่ยวข้องกับนักวิจัย ผู้กำหนดนโยบาย และผู้นำในอุตสาหกรรมเป็นสิ่งจำเป็นในการพัฒนากฎเกณฑ์ทางจริยธรรมและกรอบทางกฎหมาย ที่ส่งเสริมการพัฒนา AI ที่มีความรับผิดชอบ แนวทางเหล่านี้ควรกำหนดประเด็นต่างๆ เช่น การจัดหาข้อมูล ความโปร่งใส และความรับผิดชอบ พวกเขาควรจูงใจให้บริษัทลงทุนในแนวทางการฝึกอบรม AI ที่มีจริยธรรมและยั่งยืน

ข้อควรพิจารณาหลักสำหรับอนาคตของการฝึกอบรม AI:

  • ความโปร่งใส: บริษัทต่างๆ ควรโปร่งใสเกี่ยวกับแหล่งข้อมูลที่ใช้ในการฝึกอบรมโมเดล AI ของตน และวิธีการที่ใช้ในการกรองเนื้อหาที่สร้างโดย AI ออก
  • จริยธรรม: การพัฒนา AI ควรยึดมั่นในหลักการทางจริยธรรมที่ส่งเสริมความเป็นธรรม ความรับผิดชอบ และความเคารพในทรัพย์สินทางปัญญา
  • กฎระเบียบ: ผู้กำหนดนโยบายควรกำหนดกรอบทางกฎหมายที่ชัดเจน ซึ่งจัดการกับความท้าทายที่ไม่เหมือนใครที่เกิดจากการฝึกอบรม AI
  • ความร่วมมือ: นักวิจัย ผู้กำหนดนโยบาย และผู้นำในอุตสาหกรรมควรทำงานร่วมกัน เพื่อพัฒนากฎเกณฑ์ทางจริยธรรมและแนวทางปฏิบัติที่ดีที่สุดสำหรับการพัฒนา AI
  • ความหลากหลายของข้อมูล: การฝึกอบรม AI ควรให้ความสำคัญกับความหลากหลายของข้อมูล เพื่อลดอคติและปรับปรุงประสิทธิภาพโดยรวมของโมเดล AI
  • ความยั่งยืน: การฝึกอบรม AI ควรดำเนินการอย่างยั่งยืน โดยลดผลกระทบต่อสิ่งแวดล้อมให้เหลือน้อยที่สุด
  • ความปลอดภัย: มาตรการรักษาความปลอดภัย ควรรักษาความปลอดภัยโมเดล AI และข้อมูลการฝึกอบรมจากการเข้าถึงและการใช้งานโดยไม่ได้รับอนุญาต

ด้วยการจัดการกับข้อควรพิจารณาหลักเหล่านี้ อุตสาหกรรม AI สามารถรับประกันได้ว่าการพัฒนา AI จะดำเนินการอย่างมีความรับผิดชอบและมีจริยธรรม ส่งเสริมการสร้างสรรค์สิ่งใหม่ๆ พร้อมทั้งลดความเสี่ยงที่อาจเกิดขึ้น

เส้นทางข้างหน้า

ข้อกล่าวหาที่มีต่อ DeepSeek ทำหน้าที่เป็นสัญญาณเตือนสำหรับชุมชน AI พวกเขาเน้นย้ำถึงความต้องการที่สำคัญสำหรับความโปร่งใสที่มากขึ้น การประพฤติตามหลักจริยธรรม และการป้องกันที่แข็งแกร่งในการพัฒนา AI ในขณะที่ AI ยังคงแพร่หลายในแง่มุมต่างๆ ของชีวิตเรา มันเป็นสิ่งจำเป็นที่เราจะต้องกำหนดขอบเขตที่ชัดเจนและแนวทางทางจริยธรรม เพื่อให้มั่นใจถึงการใช้งานที่มีความรับผิดชอบและเป็นประโยชน์

กรณี DeepSeek โดยไม่คำนึงถึงผลลัพธ์สุดท้าย จะหล่อหลอมวาทกรรมที่กำลังดำเนินอยู่เกี่ยวกับจริยธรรม AI และมีอิทธิพลต่อวิถีในอนาคตของการพัฒนา AI อย่างไม่ต้องสงสัย มันทำหน้าที่เป็นเครื่องเตือนใจว่าการแสวงหานวัตกรรมจะต้องมีอารมณ์ด้วยความมุ่งมั่นต่อหลักการทางจริยธรรม และการตระหนักถึงผลกระทบที่อาจเกิดขึ้นจากการกระทำของเรา อนาคตของ AI ขึ้นอยู่กับความสามารถของเราในการนำทางการผชิญหน้ากับความท้าทายที่ซับซ้อนเหล่านี้ด้วยสติปัญญาและวิสัยทัศน์