โลกของ AI กำลังครึกครื้นด้วยการคาดเดาหลังจากการเปิดตัวโมเดลการให้เหตุผล R1 ที่ได้รับการปรับปรุงของ DeepSeek เมื่อเร็ว ๆ นี้ ห้องปฏิบัติการ AI ของจีนแห่งนี้ได้เปิดตัวโมเดลที่แสดงให้เห็นถึงความสามารถที่น่าประทับใจในเกณฑ์มาตรฐานทางคณิตศาสตร์และการเขียนโค้ด อย่างไรก็ตาม แหล่งที่มาของข้อมูลที่ใช้ในการฝึกอบรมโมเดลนี้ได้กลายเป็นจุดสนใจของการอภิปราย โดยนักวิจัย AI บางคนแนะนำถึงความเชื่อมโยงที่เป็นไปได้กับตระกูล Gemini AI ของ Google
โมเดล R1 ของ DeepSeek: การพิจารณาอย่างใกล้ชิด
โมเดลการให้เหตุผล R1 ของ DeepSeek ได้รับความสนใจจากประสิทธิภาพในด้านต่างๆ เช่น การแก้ปัญหาทางคณิตศาสตร์และงานเขียนโค้ด ความไม่เต็มใจของบริษัทที่จะเปิดเผยแหล่งข้อมูลเฉพาะที่ใช้ในการฝึกอบรมโมเดลได้กระตุ้นให้เกิดการคาดเดาในชุมชนวิจัย AI
ข้อกล่าวหาเรื่องอิทธิพลของ Gemini
หัวใจสำคัญของการอภิปรายอยู่ที่ความเป็นไปได้ที่ DeepSeek ใช้ประโยชน์จากผลลัพธ์จาก Gemini ของ Google เพื่อปรับปรุงโมเดลของตนเอง Sam Paech นักพัฒนา AI ที่เชี่ยวชาญด้านการประเมิน "ปัญญาทางอารมณ์" นำเสนอหลักฐานที่บ่งชี้ว่าโมเดล R1-0528 ของ DeepSeek แสดงความชอบสำหรับภาษาและการแสดงออกที่คล้ายกับที่ Gemini 2.5 Pro ของ Google ชื่นชอบ แม้ว่าข้อสังเกตนี้เพียงอย่างเดียวจะไม่ถือเป็นหลักฐานที่ชัดเจน แต่ก็มีส่วนช่วยในการอภิปรายอย่างต่อเนื่อง
การเพิ่มอีกชั้นในการอภิปราย ผู้สร้างที่ไม่เปิดเผยตัวตนของ "SpeechMap" ซึ่งเป็นเครื่องมือประเมิน AI ที่เน้นเรื่องเสรีภาพในการพูด ตั้งข้อสังเกตว่า "ความคิด" ที่สร้างโดยโมเดล DeepSeek ซึ่งเป็นกระบวนการให้เหตุผลภายในที่ใช้ในการหาข้อสรุป – มีความคล้ายคลึงกับรูปแบบร่องรอยของ Gemini สิ่งนี้ยิ่งทำให้เกิดคำถามว่า DeepSeek ใช้ข้อมูลจากตระกูล Gemini ของ Google หรือไม่
ข้อกล่าวหาก่อนหน้าและความกังวลของ OpenAI
นี่ไม่ใช่ครั้งแรกที่ DeepSeek เผชิญข้อกล่าวหาว่าใช้ข้อมูลจากโมเดล AI ที่แข่งขันกัน ในเดือนธันวาคม มีการสังเกตว่าโมเดล V3 ของ DeepSeek มักจะระบุตัวเองว่าเป็น ChatGPT ซึ่งเป็นแชทบอท AI ที่ใช้กันอย่างแพร่หลายของ OpenAI สิ่งนี้นำไปสู่ความสงสัยว่าโมเดลอาจได้รับการฝึกฝนจากบันทึกการแชทของ ChatGPT
เพื่อเพิ่มความน่าสนใจให้กับเรื่องนี้ OpenAI มีรายงานว่าค้นพบหลักฐานเมื่อต้นปีนี้ที่เชื่อมโยง DeepSeek เข้ากับการใช้การกลั่น ซึ่งเป็นเทคนิคที่เกี่ยวข้องกับการดึงข้อมูลจากโมเดล AI ที่ใหญ่กว่าและทรงพลังกว่าเพื่อฝึกโมเดลที่มีขนาดเล็กกว่า ตามรายงาน Microsoft ซึ่งเป็นผู้ทำงานร่วมกันและนักลงทุนหลักใน OpenAI ตรวจพบการรั่วไหลของข้อมูลจำนวนมากผ่านบัญชีนักพัฒนา OpenAI ในช่วงปลายปี 2024 OpenAI เชื่อว่าบัญชีเหล่านี้เกี่ยวข้องกับ DeepSeek
แม้ว่าการกลั่นจะเป็นแนวทางปฏิบัติทั่วไปในโลกของ AI แต่ข้อกำหนดในการให้บริการของ OpenAI ห้ามไม่ให้ผู้ใช้ใช้ผลลัพธ์ของโมเดลของบริษัทเพื่อสร้างระบบ AI ที่แข่งขันกันอย่างชัดเจน สิ่งนี้ก่อให้เกิดความกังวลเกี่ยวกับการละเมิดนโยบายของ OpenAI ที่อาจเกิดขึ้น
ความท้าทายของการ "ปนเปื้อน" ของ AI
สิ่งสำคัญคือต้องพิจารณาว่าโมเดล AI ในระหว่างการฝึกอบรม อาจมารวมกันในคำศัพท์และการใช้คำที่คล้ายกัน นี่คือสาเหตุหลักมาจากการที่เว็บเปิด ซึ่งเป็นแหล่งข้อมูลการฝึกอบรมหลักสำหรับบริษัท AI มีเนื้อหาที่สร้างโดย AI อิ่มตัวมากขึ้น ฟาร์มเนื้อหาใช้ AI เพื่อสร้างบทความที่คลิกเบต และบอทต่างๆ ก็ท่วมแพลตฟอร์มอย่าง Reddit และ X ด้วยโพสต์ที่สร้างโดย AI
"การปนเปื้อน" ของภูมิทัศน์ข้อมูลนี้ทำให้การกรองเนื้อหาที่สร้างโดย AI ออกจากชุดข้อมูลการฝึกอบรมอย่างมีประสิทธิภาพเป็นสิ่งที่ท้าทาย ด้วยเหตุนี้ การพิจารณาว่าเอาต์พุตของโมเดลได้มาจากข้อมูลของโมเดลอื่นอย่างแท้จริง หรือเพียงแค่สะท้อนให้เห็นถึงการมีอยู่ทั่วไปของเนื้อหาที่สร้างโดย AI บนเว็บจึงเป็นเรื่องยาก
มุมมองของผู้เชี่ยวชาญเกี่ยวกับเรื่องนี้
แม้จะมีความท้าทายในการพิสูจน์ความเชื่อมโยงอย่างเด็ดขาด ผู้เชี่ยวชาญด้าน AI เช่น Nathan Lambert นักวิจัยที่สถาบันวิจัย AI AI2 เชื่อว่าความเป็นไปได้ที่ DeepSeek จะฝึกอบรมข้อมูลจาก Gemini ของ Google นั้นเป็นไปได้ Lambert แนะนำว่า DeepSeek ซึ่งเผชิญกับข้อจำกัดในการเข้าถึง GPU แต่มีทรัพยากรทางการเงินมากมาย อาจพบว่าการใช้ข้อมูลสังเคราะห์ที่สร้างจากโมเดล API ที่ดีที่สุดที่มีอยู่มีประสิทธิภาพมากกว่า
บริษัท AI เสริมมาตรการรักษาความปลอดภัย
ความกังวลเกี่ยวกับการกลั่นและการใช้ข้อมูลโดยไม่ได้รับอนุญาตกำลังผลักดันให้บริษัท AI เสริมสร้างมาตรการรักษาความปลอดภัยของตน ตัวอย่างเช่น OpenAI กำหนดให้องค์กรต่างๆ ดำเนินการตามขั้นตอนการตรวจสอบ ID เพื่อเข้าถึงโมเดลขั้นสูงบางรุ่น ขั้นตอนนี้จำเป็นต้องมี ID ที่ออกโดยรัฐบาลจากประเทศที่ API ของ OpenAI รองรับ โดยไม่รวมจีน
Google ยังได้ดำเนินการเพื่อลดศักยภาพในการกลั่น พวกเขาเพิ่งเริ่ม "สรุป" ร่องรอยที่สร้างโดยโมเดลที่มีอยู่ในแพลตฟอร์มนักพัฒนา AI Studio ซึ่งทำให้การฝึกอบรมโมเดลที่แข่งขันกันโดยการดึงข้อมูลโดยละเอียดจากร่องรอยของ Gemini เป็นเรื่องยากขึ้น ในทำนองเดียวกัน Anthropic ประกาศแผนการที่จะสรุปร่องรอยของโมเดลของตนเอง โดยอ้างถึงความจำเป็นในการปกป้อง "ข้อได้เปรียบทางการแข่งขัน"
ผลกระทบต่อภูมิทัศน์ของ AI
ข้อโต้แย้งเกี่ยวกับ DeepSeek และการใช้ข้อมูล Gemini ของ Google ที่อาจเกิดขึ้นเน้นถึงปัญหาสำคัญหลายประการในภูมิทัศน์ AI:
- จริยธรรมด้านข้อมูลและการพัฒนา AI ที่มีความรับผิดชอบ: เมื่อโมเดล AI มีความซับซ้อนมากขึ้นเรื่อยๆ ข้อพิจารณาด้านจริยธรรมเกี่ยวกับการจัดหาข้อมูลและการใช้งานจึงมีความสำคัญอย่างยิ่ง บริษัท AI จำเป็นต้องตรวจสอบให้แน่ใจว่าตนปฏิบัติตามหลักเกณฑ์ทางจริยธรรมและเคารพสิทธิ์ในทรัพย์สินทางปัญญาของผู้อื่น
- ผลกระทบของเนื้อหาที่สร้างโดย AI: การแพร่หลายของเนื้อหาที่สร้างโดย AI บนเว็บก่อให้เกิดความท้าทายต่อการฝึกอบรม AI เมื่อข้อมูล "ปนเปื้อน" มากขึ้น การตรวจสอบให้แน่ใจในคุณภาพและความสมบูรณ์ของโมเดล AI จะเป็นเรื่องยากมากขึ้น
- ความจำเป็นในการโปร่งใสและความรับผิดชอบ: บริษัท AI ควรโปร่งใสเกี่ยวกับแหล่งข้อมูลและวิธีการฝึกอบรมของตน สิ่งนี้จะช่วยสร้างความไว้วางใจและรับประกันว่า AI ได้รับการพัฒนาและใช้งานอย่างมีความรับผิดชอบ
- ความสำคัญของมาตรการรักษาความปลอดภัยที่แข็งแกร่ง: เมื่ออุตสาหกรรม AI มีการแข่งขันกันมากขึ้น บริษัท AI จำเป็นต้องใช้มาตรการรักษาความปลอดภัยที่แข็งแกร่งเพื่อป้องกันการเข้าถึงข้อมูลและโมเดลโดยไม่ได้รับอนุญาต
อนาคตของการพัฒนา AI
ข้อโต้แย้งของ DeepSeek ทำหน้าที่เป็นเครื่องเตือนใจถึงความท้าทายทางจริยธรรมและทางเทคนิคที่ซับซ้อนที่อุตสาหกรรม AI กำลังเผชิญอยู่ เมื่อ AI พัฒนาต่อไป สิ่งสำคัญคือบริษัท AI นักวิจัย และผู้กำหนดนโยบายต้องทำงานร่วมกันเพื่อให้แน่ใจว่า AI ได้รับการพัฒนาและใช้งานในลักษณะที่เป็นประโยชน์ต่อสังคม ซึ่งรวมถึงการส่งเสริมความโปร่งใส ความรับผิดชอบ และแนวทางปฏิบัติด้านข้อมูลที่มีจริยธรรม
การอภิปรายอย่างต่อเนื่อง: ข้อกล่าวหาต่อ DeepSeek ตอกย้ำความกังวลที่เพิ่มขึ้นเกี่ยวกับความเป็นส่วนตัวของข้อมูล ความปลอดภัย และการพัฒนา AI ที่มีจริยธรรม การขาดความโปร่งใสในการจัดหาข้อมูลและความพร่าเลือนที่เพิ่มขึ้นระหว่างการรวบรวมข้อมูลที่ถูกต้องตามกฎหมายและการขูดข้อมูลที่ไม่ได้รับอนุญาตเรียกร้องให้มีกฎระเบียบที่ชัดเจนและแนวปฏิบัติที่รับผิดชอบภายในชุมชน AI เมื่อเทคโนโลยีพัฒนาขึ้น อุตสาหกรรมจะต้องรับมือกับปัญหาต่างๆ เช่น สิทธิ์ในทรัพย์สินทางปัญญา ความเสี่ยงของ "การปนเปื้อน AI" และศักยภาพของผลกระทบที่ไม่ตั้งใจ
จริยธรรมของข้อมูลการฝึกอบรม AI: ข้อโต้แย้งเกี่ยวกับ DeepSeek ยังเน้นถึงข้อพิจารณาด้านจริยธรรมที่มีผลเมื่อรวบรวมข้อมูลการฝึกอบรมสำหรับโมเดล AI ด้วยการพึ่งพาชุดข้อมูลขนาดใหญ่ที่รวบรวมจากอินเทอร์เน็ตมากขึ้น คำถามต่างๆ เช่น ใครเป็นเจ้าของข้อมูล วิธีการขอความยินยอม (หรือละเลย) และข้อมูลถูกนำไปใช้อย่างเป็นธรรมและมีความรับผิดชอบหรือไม่ กำลังกลายเป็นเรื่องเร่งด่วนมากขึ้น ชุมชน AI ต้องกำหนดแนวทางที่ชัดเจนสำหรับการจัดหาข้อมูลที่เคารพกฎหมายลิขสิทธิ์ ปกป้องข้อมูลส่วนบุคคล และลดอคติ
การแข่งขันเพื่อความเป็นเจ้าแห่ง AI: ข้อกล่าวหาต่อ DeepSeek ยังสามารถตีความได้ว่าเป็นการสะท้อนถึงการแข่งขันที่รุนแรงเพื่อความเป็นเจ้าของ AI ระหว่างสหรัฐอเมริกาและจีน ทั้งสองประเทศกำลังทุ่มเงินหลายพันล้านดอลลาร์ในการวิจัยและพัฒนา AI และแรงกดดันเพื่อให้บรรลุความก้าวหน้ากำลังกระตุ้นการแข่งขันและอาจตัดทอนมุม หาก DeepSeek กำลังใช้ข้อมูล OpenAI หรือ Google โดยไม่ได้รับอนุญาตจริง ๆ ก็อาจถูกตีความว่าเป็นตัวอย่างของกลยุทธ์ที่ก้าวร้าวและการโจรกรรมทรัพย์สินทางปัญญาที่คร่าชีวิตความสัมพันธ์ด้านเทคโนโลยีระหว่างสหรัฐฯ-จีนมานาน
ผลกระทบที่กว้างขึ้นต่อระบบนิเวศ AI: ในขณะที่ความสนใจในปัจจุบันอยู่ที่ DeepSeek กรณีนี้อาจมีผลกระทบที่กว้างขึ้นต่อระบบนิเวศ AI ทั้งหมด หากพิสูจน์ได้ว่า DeepSeek ใช้ข้อมูลจาก ChatGPT หรือ Gemini อย่างผิดกฎหมาย อาจกระตุ้นให้บริษัทอื่น ๆ ตรวจสอบแนวทางการจัดหาข้อมูลของตนเองอย่างเข้มงวด ซึ่งอาจทำให้การพัฒนาช้าลงและเพิ่มต้นทุน นอกจากนี้ยังอาจนำไปสู่ข้อบังคับที่เข้มงวดขึ้นเกี่ยวกับการรวบรวมและการใช้ข้อมูล ไม่ใช่แค่ในสหรัฐฯ และจีนเท่านั้น แต่ทั่วโลก
ผลกระทบของข้อมูลที่สร้างขึ้นสังเคราะห์: การเกิดขึ้นของข้อมูลสังเคราะห์ ซึ่งเสนอโดย Lambert ว่าเป็นทางเลือกที่เป็นไปได้สำหรับการฝึกอบรมโมเดล ก่อให้เกิดคำถามพื้นฐานเกี่ยวกับอนาคตของการพัฒนา AI ในขณะที่ชุดข้อมูลสังเคราะห์หลีกเลี่ยงข้อกังวลด้านจริยธรรมและลิขสิทธิ์บางประการที่เกี่ยวข้องกับข้อมูลในโลกแห่งความเป็นจริง ประสิทธิภาพและความแข็งแกร่งของโมเดลที่ฝึกฝนจากข้อมูลสังเคราะห์มักจะไม่ตรงกับโมเดลที่ฝึกฝนจากข้อมูลต้นฉบับ ชุมชน AI จำเป็นต้องค้นหาวิธีการที่เป็นนวัตกรรมใหม่เพื่อสร้างชุดข้อมูลสังเคราะห์ที่ซับซ้อนที่ตอบสนองความต้องการของอุตสาหกรรมโดยไม่ลดทอนความถูกต้องและความน่าเชื่อถือ
การสรุปโมเดลเป็นรูปแบบของการกำกับดูแลข้อมูล: การตัดสินใจล่าสุดของ Google และ Anthropic ที่จะเริ่ม "สรุป" ร่องรอยที่สร้างโดยโมเดลของตนบ่งชี้ถึงความสำคัญที่เพิ่มขึ้นของการกำกับดูแลข้อมูลในอุตสาหกรรม AI ด้วยการบดบังข้อมูลโดยละเอียดในกระบวนการตัดสินใจของโมเดล บริษัทต่างๆ กำลังทำให้คนอื่น ๆ ยากขึ้นในการวิศวกรรมย้อนกลับเทคโนโลยีของตน แนวทางนี้สามารถช่วยปกป้องความลับทางการค้าและรักษาแนวทางการจัดหาข้อมูลที่มีจริยธรรม แต่ก็ก่อให้เกิดคำถามเกี่ยวกับความโปร่งใสและความสามารถในการอธิบายของระบบ AI
การสร้างสมดุลของนวัตกรรมกับข้อพิจารณาด้านจริยธรรมและกฎหมาย: ข้อโต้แย้งของ DeepSeek ตอกย้ำถึงความจำเป็นในการสร้างสมดุลอย่างระมัดระวังระหว่างการส่งเสริมนวัตกรรม AI และการปกป้องสิทธิ์ในทรัพย์สินทางปัญญาและการรับรองการปฏิบัติตามหลักการทางจริยธรรม เมื่อโมเดล AI เติบโตในความซับซ้อนและความซับซ้อน ความท้าทายทางจริยธรรมและกฎหมายที่อุตสาหกรรมเผชิญอยู่ก็จะยิ่งชัดเจนมากขึ้น การค้นหาสมดุลที่เหมาะสมระหว่างความกังวลเหล่านี้จะเป็นสิ่งสำคัญสำหรับการส่งเสริมการพัฒนา AI ที่มีความรับผิดชอบและยั่งยืน