หน้ากาก 'โอเพนซอร์ส' AI: อุดมคติที่ถูกปล้น

คำว่า ‘โอเพนซอร์ส’ ครั้งหนึ่งเคยสะท้อนความหมายที่ชัดเจน เป็นคำมั่นสัญญาของการแบ่งปันความรู้และความก้าวหน้าร่วมกัน ซึ่งขับเคลื่อนความก้าวหน้าทางวิทยาศาสตร์และเทคโนโลยีมานับไม่ถ้วน มันทำให้เห็นภาพของชุมชนที่สร้างสรรค์ร่วมกัน ตรวจสอบงานของกันและกัน และยืนอยู่บนบ่าของยักษ์ใหญ่ เพราะพิมพ์เขียวมีให้ใช้อย่างอิสระ แต่เมื่อสำรวจภูมิทัศน์ของปัญญาประดิษฐ์ (Artificial Intelligence) ในปัจจุบัน คำนี้กลับรู้สึก… ลื่นไหลมากขึ้นเรื่อยๆ ดังที่เน้นย้ำในหน้าของวารสาร Nature และกระซิบกันในห้องปฏิบัติการและห้องประชุมคณะกรรมการ ผู้เล่นจำนวนมากที่น่ากังวลในยุคตื่นทอง AI กำลังปกปิดการสร้างสรรค์ของตนภายใต้เสื้อคลุมของ ‘โอเพนซอร์ส’ ขณะที่เก็บส่วนประกอบที่สำคัญอย่างแท้จริงไว้ภายใต้กุญแจล็อค นี่ไม่ใช่แค่การโต้เถียงเรื่องความหมาย แต่เป็นแนวปฏิบัติที่กัดกร่อนรากฐานของความซื่อสัตย์ทางวิทยาศาสตร์ และคุกคามที่จะบดบังเส้นทางของนวัตกรรมในอนาคต ชุมชนวิจัย ซึ่งเป็นกลุ่มที่จะได้หรือเสียมากที่สุด จำเป็นต้องตระหนักถึงการเสแสร้งนี้ว่าเป็นอะไร และสนับสนุนอย่างแข็งขันให้ระบบ AI ที่รวบรวมหลักการความโปร่งใสและการทำซ้ำที่เราพึ่งพามานานอย่างแท้จริง

ยุคทองของความเปิดกว้าง: มรดกที่ถูกคุกคาม

เป็นเวลาหลายทศวรรษที่ขบวนการโอเพนซอร์สเป็นวีรบุรุษที่ไม่มีใครยกย่องในการพัฒนาทางวิทยาศาสตร์ ลองนึกภาพนอกเหนือจากเครื่องมือที่คุ้นเคย เช่น R Studio สำหรับการวิเคราะห์ทางสถิติ หรือ OpenFOAM สำหรับการสร้างแบบจำลองพลศาสตร์ของไหล พิจารณาระบบพื้นฐานอย่าง Linux ที่ขับเคลื่อนส่วนใหญ่ของอินเทอร์เน็ตและคลัสเตอร์คอมพิวเตอร์ทางวิทยาศาสตร์ หรือ Apache web server ซึ่งเป็นเครื่องพิสูจน์ถึงการพัฒนาร่วมกันของซอฟต์แวร์ ปรัชญานั้นตรงไปตรงมา: ให้การเข้าถึงซอร์สโค้ด อนุญาตให้แก้ไขและแจกจ่ายต่อภายใต้ใบอนุญาตที่ผ่อนปรน และส่งเสริมระบบนิเวศทั่วโลกที่การปรับปรุงเป็นประโยชน์ต่อทุกคน

นี่ไม่ใช่แค่การเห็นแก่ประโยชน์ส่วนรวมเท่านั้น แต่เป็นอัจฉริยภาพเชิงปฏิบัติ ความเปิดกว้างเร่งการค้นพบ นักวิจัยสามารถทำการทดลองซ้ำ ตรวจสอบความถูกต้องของผลการวิจัย และต่อยอดจากงานที่มีอยู่โดยไม่ต้องสร้างวงล้อใหม่หรือนำทางระบบที่เป็นกรรมสิทธิ์ที่ไม่โปร่งใส มันส่งเสริมความไว้วางใจ เนื่องจากการทำงานภายในพร้อมให้ตรวจสอบ ทำให้สามารถค้นหาและแก้ไขข้อบกพร่องร่วมกันได้ มันทำให้การเข้าถึงเป็นประชาธิปไตย ทำให้นักวิทยาศาสตร์และนักพัฒนาทั่วโลก โดยไม่คำนึงถึงสังกัดสถาบันหรืองบประมาณ สามารถมีส่วนร่วมในงานที่ล้ำสมัยได้ จิตวิญญาณแห่งความร่วมมือนี้ ซึ่งสร้างขึ้นจากการเข้าถึงร่วมกันและการตรวจสอบซึ่งกันและกัน ได้ฝังลึกอยู่ในวิธีการทางวิทยาศาสตร์ ทำให้มั่นใจในความแข็งแกร่งและส่งเสริมความก้าวหน้าอย่างรวดเร็วในสาขาต่างๆ ความสามารถในการแยกส่วน ทำความเข้าใจ และแก้ไขเครื่องมือที่ใช้นั้นมีความสำคัญยิ่ง ไม่ใช่แค่การใช้ซอฟต์แวร์เท่านั้น แต่ยังเกี่ยวกับการทำความเข้าใจว่า มันทำงานอย่างไร การรับรองความเหมาะสมสำหรับงานทางวิทยาศาสตร์เฉพาะ และการมีส่วนร่วมกลับคืนสู่แหล่งความรู้ส่วนรวม วงจรคุณธรรมนี้ขับเคลื่อนนวัตกรรมด้วยความเร็วที่ไม่เคยมีมาก่อน

การพึ่งพาข้อมูลของ AI: ทำไม ‘โค้ดคือราชา’ จึงไม่เพียงพอ

เข้าสู่ยุคของปัญญาประดิษฐ์ขนาดใหญ่ โดยเฉพาะอย่างยิ่งแบบจำลองพื้นฐาน (foundational models) ที่ดึงดูดความสนใจและการลงทุนอย่างมาก ที่นี่ กระบวนทัศน์โอเพนซอร์สแบบดั้งเดิม ซึ่งเน้นที่ซอร์สโค้ดเป็นหลัก พบกับความไม่เข้ากันพื้นฐาน แม้ว่าอัลกอริทึมและโค้ดที่ใช้ในการ สร้าง แบบจำลอง AI จะเป็นส่วนหนึ่งของภาพรวมอย่างแน่นอน แต่ก็ยังห่างไกลจากเรื่องราวทั้งหมด AI สมัยใหม่ โดยเฉพาะแบบจำลองการเรียนรู้เชิงลึก (deep learning models) เป็นผู้บริโภคข้อมูลอย่างตะกละตะกลาม ข้อมูลการฝึก (training data) ไม่ใช่แค่ข้อมูลนำเข้า แต่เป็นตัวกำหนดหลักของความสามารถ อคติ และข้อจำกัดของแบบจำลอง

การเปิดเผยโค้ดของแบบจำลอง หรือแม้แต่พารามิเตอร์ที่ฝึกแล้วขั้นสุดท้าย (‘weights’) โดยไม่ให้การเข้าถึงที่มีความหมายหรือข้อมูลโดยละเอียดเกี่ยวกับชุดข้อมูลขนาดมหึมาที่ใช้ในการฝึก ก็เหมือนกับการมอบกุญแจรถให้ใครบางคน แต่ปฏิเสธที่จะบอกว่ารถใช้น้ำมันประเภทใด ขับไปที่ไหนมาบ้าง หรือเครื่องยนต์ประกอบขึ้นมาอย่างไร คุณอาจจะขับมันได้ แต่คุณมีความสามารถจำกัดในการทำความเข้าใจลักษณะการทำงานที่แปลกประหลาด วินิจฉัยปัญหาที่อาจเกิดขึ้น หรือแก้ไขมันได้อย่างน่าเชื่อถือสำหรับการเดินทางครั้งใหม่

นอกจากนี้ ทรัพยากรการคำนวณที่จำเป็นในการฝึกแบบจำลองเหล่านี้ตั้งแต่ต้นนั้นมีมหาศาล ซึ่งมักจะมีค่าใช้จ่ายหลายล้านดอลลาร์สำหรับการฝึกเพียงครั้งเดียว สิ่งนี้สร้างอุปสรรคอีกประการหนึ่ง แม้ว่าโค้ดและข้อมูล จะ มีให้ใช้งานอย่างสมบูรณ์ แต่มีเพียงไม่กี่องค์กรเท่านั้นที่มีโครงสร้างพื้นฐานในการทำซ้ำกระบวนการฝึกอบรม ความเป็นจริงนี้เปลี่ยนแปลงพลวัตโดยพื้นฐานเมื่อเทียบกับซอฟต์แวร์แบบดั้งเดิม ซึ่งการคอมไพล์โค้ดมักจะอยู่ในขอบเขตของนักพัฒนาหรือนักวิจัยส่วนใหญ่ สำหรับ AI การทำซ้ำที่แท้จริงและความสามารถในการทดลองโดยการฝึกใหม่มักจะยังคงเป็นเรื่องยาก แม้ว่าส่วนประกอบต่างๆ จะถูกระบุว่าเป็น ‘โอเพน’ ก็ตาม ดังนั้น การนำคำจำกัดความโอเพนซอร์สแบบเก่าที่คิดค้นขึ้นสำหรับโค้ดมาใช้เพียงอย่างเดียวจึงไม่ครอบคลุมความจำเป็นของโดเมนใหม่ที่เน้นข้อมูลและใช้การคำนวณสูงนี้

‘Openwashing’: หมาป่าในหนังแกะ

ช่องว่างระหว่างแนวคิดโอเพนซอร์สแบบดั้งเดิมและความเป็นจริงของการพัฒนา AI ได้สร้างพื้นที่ที่อุดมสมบูรณ์สำหรับปรากฏการณ์ที่เรียกว่า ‘openwashing’ บริษัทต่างๆ รีบติดป้าย ‘โอเพนซอร์ส’ ให้กับแบบจำลอง AI ของตน เก็บเกี่ยวผลประโยชน์ด้านประชาสัมพันธ์และความปรารถนาดีที่เกี่ยวข้องกับคำนี้ ขณะที่ใช้ใบอนุญาตหรือข้อจำกัดการเข้าถึงที่ทรยศต่อจิตวิญญาณ หากไม่ใช่ตัวอักษรที่เข้มงวด (และอาจล้าสมัย) ของความเปิดกว้างอย่างแท้จริง

สิ่งนี้มีลักษณะอย่างไรในทางปฏิบัติ?

  • การเปิดเผยโค้ดโดยไม่มีข้อมูล: บริษัทอาจเปิดเผยโค้ดสถาปัตยกรรมของแบบจำลอง และอาจรวมถึง weights ที่ฝึกไว้ล่วงหน้า ทำให้ผู้อื่นสามารถใช้แบบจำลอง ‘ตามที่เป็น’ หรือปรับแต่ง (fine-tune) บนชุดข้อมูลขนาดเล็กได้ อย่างไรก็ตาม ชุดข้อมูลการฝึกพื้นฐานขนาดใหญ่ – ซอสลับที่กำหนดความสามารถหลักของแบบจำลอง – ยังคงเป็นกรรมสิทธิ์และถูกซ่อนไว้
  • ใบอนุญาตที่จำกัด: แบบจำลองอาจถูกปล่อยออกมาภายใต้ใบอนุญาตที่ดูเหมือนเปิดในแวบแรก แต่มีข้อกำหนดที่จำกัดการใช้งานเชิงพาณิชย์ จำกัดการปรับใช้ในบางสถานการณ์ หรือห้ามการแก้ไขหรือการวิเคราะห์บางประเภท ข้อจำกัดเหล่านี้ขัดต่อเสรีภาพที่มักเกี่ยวข้องกับซอฟต์แวร์โอเพนซอร์ส
  • การเปิดเผยข้อมูลที่ไม่ชัดเจน: แทนที่จะให้ข้อมูลโดยละเอียดเกี่ยวกับแหล่งข้อมูล วิธีการรวบรวม กระบวนการทำความสะอาด และอคติที่อาจเกิดขึ้น บริษัทอาจให้คำอธิบายที่คลุมเครือหรือละเว้นรายละเอียดที่สำคัญทั้งหมด การขาด ‘ความโปร่งใสของข้อมูล’ นี้ทำให้ไม่สามารถประเมินความน่าเชื่อถือหรือผลกระทบทางจริยธรรมของแบบจำลองได้อย่างเต็มที่

ทำไมถึงมีส่วนร่วมในแนวทางปฏิบัติดังกล่าว? แรงจูงใจน่าจะหลากหลาย ความหมายเชิงบวกของ ‘โอเพนซอร์ส’ มีค่าอย่างปฏิเสธไม่ได้สำหรับการดึงดูดผู้มีความสามารถ การสร้างชุมชนนักพัฒนา (แม้ว่าจะถูกจำกัด) และการสร้างข่าวประชาสัมพันธ์ที่ดี ในแง่ร้ายมากขึ้น ดังที่ Nature ชี้ให้เห็น อาจมีแรงจูงใจด้านกฎระเบียบ ตัวอย่างเช่น EU AI Act ฉบับสมบูรณ์ปี 2024 ของสหภาพยุโรป รวมถึงข้อยกเว้นที่เป็นไปได้หรือข้อกำหนดที่เบากว่าสำหรับระบบที่จัดประเภทเป็นโอเพนซอร์ส โดยการใช้ป้ายกำกับอย่างมีกลยุทธ์ บางบริษัทอาจหวังที่จะนำทางภูมิทัศน์ด้านกฎระเบียบที่ซับซ้อนโดยมีแรงเสียดทานน้อยลง ซึ่งอาจหลีกเลี่ยงการตรวจสอบที่มุ่งเป้าไปที่ระบบ AI ที่ทรงพลังและใช้งานทั่วไป การสร้างแบรนด์เชิงกลยุทธ์นี้ใช้ประโยชน์จากความปรารถนาดีในอดีตของขบวนการโอเพนซอร์ส ในขณะที่อาจบ่อนทำลายความพยายามในการรับรองการปรับใช้ AI อย่างมีความรับผิดชอบ

สเปกตรัมของความเปิดกว้าง: การตรวจสอบตัวอย่าง

สิ่งสำคัญคือต้องตระหนักว่าความเปิดกว้างใน AI ไม่จำเป็นต้องเป็นสถานะแบบไบนารี มันมีอยู่บนสเปกตรัม อย่างไรก็ตาม แนวทางการติดฉลากในปัจจุบันมักจะบดบังว่าแบบจำลองใดอยู่บนสเปกตรัมนั้นจริงๆ

พิจารณาตัวอย่างที่โดดเด่นบางส่วนที่มักกล่าวถึงในบริบทนี้:

  • ซีรีส์ Llama ของ Meta: ในขณะที่ Meta เปิดเผย weights และโค้ดสำหรับแบบจำลอง Llama การเข้าถึงในตอนแรกต้องมีการสมัคร และใบอนุญาตมีข้อจำกัด โดยเฉพาะอย่างยิ่งเกี่ยวกับการใช้งานโดยบริษัทขนาดใหญ่มากและแอปพลิเคชันเฉพาะ ที่สำคัญ ข้อมูลการฝึกพื้นฐานไม่ได้ถูกเปิดเผย ทำให้จำกัดการทำซ้ำอย่างสมบูรณ์และการวิเคราะห์ลักษณะเฉพาะอย่างลึกซึ้ง แม้ว่าเวอร์ชันต่อมาจะมีการปรับเปลี่ยนข้อกำหนด แต่ปัญหาหลักเรื่องความทึบของข้อมูลมักจะยังคงอยู่
  • Phi-2 ของ Microsoft: Microsoft นำเสนอ Phi-2 เป็นแบบจำลองภาษาขนาดเล็ก ‘โอเพนซอร์ส’ ในขณะที่ model weights มีให้ใช้งาน ใบอนุญาตมีข้อจำกัดการใช้งานเฉพาะ และข้อมูลโดยละเอียดเกี่ยวกับชุดข้อมูลการฝึก ซึ่งมีความสำคัญต่อการทำความเข้าใจความสามารถและอคติที่อาจเกิดขึ้น (โดยเฉพาะอย่างยิ่งเมื่อพิจารณาจากการฝึกบนข้อมูล ‘สังเคราะห์’) ยังไม่โปร่งใสอย่างสมบูรณ์
  • Mixtral ของ Mistral AI: แบบจำลองนี้ ซึ่งเปิดตัวโดยสตาร์ทอัพ AI ชั้นนำของยุโรป ได้รับความสนใจจากประสิทธิภาพของมัน ในขณะที่ส่วนประกอบต่างๆ ถูกปล่อยออกมาภายใต้ใบอนุญาต Apache 2.0 ที่ผ่อนปรน (ใบอนุญาตที่เปิดกว้างอย่างแท้จริงสำหรับโค้ด/weights)ความโปร่งใสอย่างเต็มที่เกี่ยวกับองค์ประกอบของข้อมูลการฝึกและกระบวนการดูแลจัดการยังคงมีจำกัด ซึ่งขัดขวางการตรวจสอบทางวิทยาศาสตร์อย่างลึกซึ้ง

เปรียบเทียบสิ่งเหล่านี้กับโครงการริเริ่มที่มุ่งมั่นเพื่อความสอดคล้องกับหลักการโอเพนซอร์สแบบดั้งเดิมมากขึ้น:

  • OLMo ของ Allen Institute for AI: โครงการนี้มีเป้าหมายอย่างชัดเจนในการสร้างแบบจำลองภาษาที่เปิดกว้าง อย่างแท้จริง โดยให้ความสำคัญกับการเปิดเผยไม่เพียงแต่ model weights และโค้ดเท่านั้น แต่ยังรวมถึงข้อมูลการฝึก (ชุดข้อมูล Dolma) และบันทึกการฝึกโดยละเอียด ความมุ่งมั่นนี้ช่วยให้เกิดการทำซ้ำและการวิเคราะห์ในระดับที่ไม่เคยมีมาก่อนโดยชุมชนวิจัยในวงกว้าง
  • CrystalCoder ของ LLM360: ความพยายามที่ขับเคลื่อนโดยชุมชนนี้เน้นย้ำในทำนองเดียวกันในการเปิดเผยส่วนประกอบทั้งหมดของวงจรการพัฒนาแบบจำลอง รวมถึงจุดตรวจสอบระหว่างกลาง (intermediate checkpoints) และเอกสารโดยละเอียดเกี่ยวกับข้อมูลและกระบวนการฝึกอบรม ส่งเสริมระดับความโปร่งใสที่มักขาดหายไปในการเปิดตัวขององค์กร

ตัวอย่างที่ตัดกันเหล่านี้เน้นย้ำว่า ความเปิดกว้างอย่างแท้จริงใน AI นั้นเป็นไปได้ แต่ต้องอาศัยความมุ่งมั่นอย่างตั้งใจนอกเหนือจากการเปิดเผยโค้ดหรือ weights เพียงอย่างเดียว มันเรียกร้องความโปร่งใสเกี่ยวกับข้อมูลและกระบวนการ ยอมรับการตรวจสอบที่มาพร้อมกับมัน ความคลุมเครือในปัจจุบันที่เกิดจาก ‘openwashing’ ทำให้ยากขึ้นสำหรับนักวิจัยในการแยกแยะว่าเครื่องมือใดสนับสนุนการสอบสวนทางวิทยาศาสตร์แบบเปิดอย่างแท้จริง

การกัดกร่อนของความไว้วางใจ: ความซื่อสัตย์ทางวิทยาศาสตร์เป็นเดิมพัน

ผลกระทบของ ‘openwashing’ ที่แพร่หลายนี้ขยายไปไกลกว่าแค่การสร้างแบรนด์ เมื่อนักวิจัยพึ่งพาแบบจำลอง AI ที่การทำงานภายใน โดยเฉพาะอย่างยิ่งข้อมูลที่ใช้ฝึก ไม่โปร่งใส มันกระทบถึงหัวใจของระเบียบวิธีทางวิทยาศาสตร์

  • การทำซ้ำถูกบ่อนทำลาย: รากฐานที่สำคัญของความถูกต้องทางวิทยาศาสตร์คือความสามารถของนักวิจัยอิสระในการทำซ้ำผลลัพธ์ หากข้อมูลการฝึกและวิธีการฝึกที่แน่นอนไม่เป็นที่รู้จัก การจำลองแบบที่แท้จริงจะกลายเป็นไปไม่ได้ นักวิจัยอาจใช้แบบจำลองที่ฝึกไว้ล่วงหน้า แต่พวกเขาไม่สามารถตรวจสอบการสร้างหรือตรวจสอบคุณสมบัติพื้นฐานที่ได้มาจากข้อมูลที่ซ่อนอยู่ได้
  • การตรวจสอบถูกขัดขวาง: นักวิทยาศาสตร์จะเชื่อถือผลลัพธ์ของแบบจำลองได้อย่างไรหากพวกเขาไม่สามารถตรวจสอบข้อมูลที่เรียนรู้มาได้? อคติที่ซ่อนอยู่ ความไม่ถูกต้อง หรือข้อกังวลด้านจริยธรรมที่ฝังอยู่ในข้อมูลการฝึกจะปรากฏในพฤติกรรมของแบบจำลองอย่างหลีกเลี่ยงไม่ได้ แต่หากไม่มีความโปร่งใส ข้อบกพร่องเหล่านี้ก็ยากที่จะตรวจจับ วินิจฉัย หรือบรรเทา การใช้กล่องดำดังกล่าวสำหรับการค้นพบทางวิทยาศาสตร์ทำให้เกิดระดับความไม่แน่นอนที่ยอมรับไม่ได้
  • นวัตกรรมถูกขัดขวาง: วิทยาศาสตร์ก้าวหน้าโดยการต่อยอดจากงานก่อนหน้า หากแบบจำลองพื้นฐานถูกปล่อยออกมาพร้อมข้อจำกัดหรือไม่มีความโปร่งใสที่จำเป็น (โดยเฉพาะอย่างยิ่งเกี่ยวกับข้อมูล) มันจะขัดขวางความสามารถของผู้อื่นในการสร้างสรรค์ ทดลองกับระบอบการฝึกทางเลือก หรือปรับแบบจำลองสำหรับการใช้งานทางวิทยาศาสตร์ใหม่ๆ ในแบบที่ผู้สร้างดั้งเดิมอาจไม่ได้คาดการณ์ไว้ ความก้าวหน้าจะถูกจำกัดโดยผู้ให้บริการระบบกึ่งทึบเหล่านี้

การพึ่งพาระบบขององค์กรที่ปิดหรือปิดบางส่วนบังคับให้นักวิจัยกลายเป็นผู้บริโภคแบบพาสซีฟ แทนที่จะเป็นผู้เข้าร่วมและนักสร้างสรรค์ที่กระตือรือร้น มันเสี่ยงต่อการสร้างอนาคตที่โครงสร้างพื้นฐานทางวิทยาศาสตร์ที่สำคัญถูกควบคุมโดยองค์กรขนาดใหญ่เพียงไม่กี่แห่ง ซึ่งอาจให้ความสำคัญกับผลประโยชน์ทางการค้ามากกว่าความต้องการของการสอบสวนทางวิทยาศาสตร์แบบเปิด การกัดกร่อนของความโปร่งใสนี้แปลโดยตรงไปสู่การกัดกร่อนของความไว้วางใจในเครื่องมือที่สนับสนุนการวิจัยสมัยใหม่

การกระจุกตัวของตลาดและผลกระทบที่น่าสะพรึงกลัวต่อนวัตกรรม

นอกเหนือจากผลกระทบโดยตรงต่อการปฏิบัติทางวิทยาศาสตร์แล้ว การแพร่หลายของโอเพนซอร์สปลอมใน AI ยังส่งผลกระทบทางเศรษฐกิจและตลาดอย่างมีนัยสำคัญ การพัฒนาแบบจำลองพื้นฐานขนาดใหญ่ไม่เพียงแต่ต้องการความเชี่ยวชาญอย่างมากเท่านั้น แต่ยังต้องการการเข้าถึงชุดข้อมูลขนาดใหญ่และพลังการประมวลผลมหาศาล ซึ่งเป็นทรัพยากรที่บริษัทเทคโนโลยีขนาดใหญ่ถือครองอย่างไม่สมส่วน

เมื่อบริษัทเหล่านี้เปิดตัวแบบจำลองภายใต้ร่มธง ‘โอเพนซอร์ส’ แต่ยังคงควบคุมข้อมูลการฝึกที่สำคัญหรือกำหนดใบอนุญาตที่จำกัด มันสร้างสนามแข่งขันที่ไม่เท่าเทียมกัน

  • อุปสรรคในการเข้าสู่ตลาด: สตาร์ทอัพและห้องปฏิบัติการวิจัยขนาดเล็กขาดทรัพยากรในการสร้างแบบจำลองพื้นฐานที่เทียบเท่าได้ตั้งแต่ต้น หากแบบจำลอง ‘เปิด’ ที่คาดคะเนว่าเปิดตัวโดยผู้ดำรงตำแหน่งมาพร้อมกับเงื่อนไขผูกมัด (เช่น ข้อจำกัดการใช้งานเชิงพาณิชย์ หรือความทึบของข้อมูลที่ขัดขวางการแก้ไขอย่างลึกซึ้ง) มันจะจำกัดความสามารถของผู้เล่นรายย่อยเหล่านี้ในการแข่งขันอย่างมีประสิทธิภาพหรือสร้างแอปพลิเคชันที่เป็นนวัตกรรมอย่างแท้จริงบนพื้นฐานนั้น
  • การยึดที่มั่นของผู้ดำรงตำแหน่ง: ‘Openwashing’ สามารถทำหน้าที่เป็นคูเมืองเชิงกลยุทธ์ได้ โดยการเปิดตัวแบบจำลองที่มีประโยชน์แต่ไม่เปิดกว้างอย่างแท้จริง บริษัทขนาดใหญ่สามารถส่งเสริมระบบนิเวศที่พึ่งพาเทคโนโลยีของตน ในขณะที่ป้องกันไม่ให้คู่แข่งจำลองแบบได้อย่างสมบูรณ์หรือปรับปรุงสินทรัพย์หลักของตน (ข้อมูลและกระบวนการฝึกที่ปรับปรุงแล้ว) อย่างมีนัยสำคัญ มันดูเหมือนความเปิดกว้าง แต่ทำงานใกล้เคียงกับกลยุทธ์แพลตฟอร์มที่ควบคุมได้มากกว่า
  • ลดความหลากหลายของแนวทาง: หากนวัตกรรมต้องพึ่งพาแบบจำลองพื้นฐานกึ่งทึบที่โดดเด่นเพียงไม่กี่แบบมากเกินไป อาจนำไปสู่การทำให้การพัฒนา AI เป็นเนื้อเดียวกัน ซึ่งอาจมองข้ามสถาปัตยกรรมทางเลือก กระบวนทัศน์การฝึก หรือกลยุทธ์ข้อมูลที่กลุ่มอิสระขนาดเล็กอาจสำรวจได้หากสาขานี้เปิดกว้างอย่างแท้จริง

ในอดีต โอเพนซอร์สที่แท้จริงเป็นเครื่องมืออันทรงพลังสำหรับการแข่งขันและนวัตกรรมแบบกระจายศูนย์ แนวโน้มปัจจุบันใน AI เสี่ยงต่อการกระจุกตัวของอำนาจและขัดขวางพลวัตที่ความร่วมมือแบบเปิดควรจะส่งเสริม ซึ่งอาจนำไปสู่ภูมิทัศน์ AI ที่มีชีวิตชีวาน้อยลงและถูกควบคุมจากส่วนกลางมากขึ้น

จุดบอดด้านกฎระเบียบและเส้นแบ่งทางจริยธรรม

ศักยภาพของ ‘openwashing’ ในการใช้ประโยชน์จากช่องโหว่ด้านกฎระเบียบ โดยเฉพาะอย่างยิ่งเกี่ยวกับกรอบการทำงานเช่น EU AI Act สมควรได้รับการตรวจสอบอย่างใกล้ชิดยิ่งขึ้น กฎหมายนี้มีเป้าหมายเพื่อสร้างกฎระเบียบตามความเสี่ยงสำหรับระบบ AI โดยกำหนดข้อกำหนดที่เข้มงวดมากขึ้นสำหรับการใช้งานที่มีความเสี่ยงสูง ข้อยกเว้นหรือภาระผูกพันที่เบากว่าสำหรับ AI โอเพนซอร์สมีวัตถุประสงค์เพื่อส่งเสริมนวัตกรรมและหลีกเลี่ยงการสร้างภาระให้กับชุมชนโอเพนซอร์สมากเกินไป

อย่างไรก็ตาม หากบริษัทต่างๆ สามารถอ้างสิทธิ์ในเสื้อคลุม ‘โอเพนซอร์ส’ สำหรับแบบจำลองที่ขาดความโปร่งใสอย่างแท้จริง (โดยเฉพาะอย่างยิ่งเกี่ยวกับข้อมูลและการฝึก) ได้สำเร็จ พวกเขาอาจหลีกเลี่ยงมาตรการป้องกันที่สำคัญได้ สิ่งนี้ทำให้เกิดคำถามที่สำคัญ:

  • การตรวจสอบที่มีความหมาย: หน่วยงานกำกับดูแลสามารถประเมินความเสี่ยงของแบบจำลอง AI ที่ทรงพลังได้อย่างเพียงพอหรือไม่ หากข้อมูลการฝึก – ตัวกำหนดสำคัญของพฤติกรรมและอคติที่อาจเกิดขึ้น – ถูกซ่อนไว้จากการมองเห็น? การติดฉลากที่ไม่ถูกต้องอาจทำให้ระบบที่อาจมีความเสี่ยงสูงทำงานโดยมีการกำกับดูแลน้อยกว่าที่ตั้งใจไว้
  • ช่องว่างความรับผิดชอบ: เมื่อเกิดข้อผิดพลาด – หากแบบจำลองแสดงอคติที่เป็นอันตรายหรือสร้างผลลัพธ์ที่เป็นอันตราย – ใครคือผู้รับผิดชอบหากข้อมูลพื้นฐานและกระบวนการฝึกอบรมไม่โปร่งใส? ความเปิดกว้างที่แท้จริงอำนวยความสะดวกในการสืบสวนและความรับผิดชอบ ‘openwashing’ บดบังมัน
  • ธรรมาภิบาลทางจริยธรรม: การปรับใช้ AI อย่างมีความรับผิดชอบจำเป็นต้องเข้าใจข้อจำกัดและผลกระทบทางสังคมที่อาจเกิดขึ้น ความเข้าใจนี้ถูกบั่นทอนโดยพื้นฐานเมื่อส่วนประกอบหลักเช่นข้อมูลการฝึกถูกเก็บเป็นความลับ มันทำให้การตรวจสอบอิสระ การประเมินอคติ และการทบทวนทางจริยธรรมมีความท้าทายมากขึ้นอย่างมีนัยสำคัญ หากไม่สามารถทำได้เลย

การใช้ป้ายกำกับ ‘โอเพนซอร์ส’ เชิงกลยุทธ์เพื่อนำทางกฎระเบียบไม่ใช่แค่กลยุทธ์ทางกฎหมายเท่านั้น แต่ยังมีผลกระทบทางจริยธรรมอย่างลึกซึ้ง มันเสี่ยงต่อการบ่อนทำลายความไว้วางใจของสาธารณชนและขัดขวางความพยายามในการรับรองว่าการพัฒนา AI ดำเนินไปในลักษณะที่ปลอดภัย ยุติธรรม และมีความรับผิดชอบ การทำให้แน่ใจว่าคำจำกัดความด้านกฎระเบียบของ ‘โอเพนซอร์ส AI’ สอดคล้องกับหลักการของความโปร่งใสอย่างแท้จริงจึงมีความสำคัญยิ่ง

การกำหนดเส้นทางสู่ความเปิดกว้างของ AI ที่แท้จริง

โชคดีที่สัญญาณเตือนภัยดังขึ้น และมีความพยายามดำเนินการเพื่อทวงคืนความหมายของ ‘โอเพนซอร์ส’ ในยุคของ AI Open Source Initiative (OSI) ซึ่งเป็นผู้ดูแลคำจำกัดความโอเพนซอร์สมายาวนาน ได้เป็นหัวหอกในกระบวนการปรึกษาหารือระดับโลกเพื่อสร้างมาตรฐานที่ชัดเจนสำหรับ Open Source AI (ส่งผลให้เกิดคำจำกัดความ OSAID 1.0)

นวัตกรรมที่สำคัญในความพยายามนี้คือแนวคิดของ ‘ข้อมูลสารสนเทศ’ (data information) โดยตระหนักว่าการเปิดเผยชุดข้อมูลดิบขนาดใหญ่อาจไม่สามารถทำได้ในทางกฎหมายหรือโลจิสติกส์ในบางกรณี (เนื่องจากความเป็นส่วนตัว ลิขสิทธิ์ หรือขนาดที่แท้จริง) กรอบการทำงาน OSAID เน้นย้ำถึงความจำเป็นในการเปิดเผยข้อมูล เกี่ยวกับ ข้อมูลอย่างครอบคลุม ซึ่งรวมถึงรายละเอียดเกี่ยวกับ:

  • แหล่งที่มา: ข้อมูลมาจากไหน?
  • ลักษณะเฉพาะ: เป็นข้อมูลประเภทใด (ข้อความ รูปภาพ โค้ด)? คุณสมบัติทางสถิติคืออะไร?
  • การเตรียมการ: ข้อมูลถูกรวบรวม กรอง ทำความสะอาด และประมวลผลล่วงหน้าอย่างไร? มีขั้นตอนใดบ้างที่ดำเนินการเพื่อลดอคติ?

ระดับความโปร่งใสนี้ แม้จะไม่มีข้อมูลดิบเอง ก็ให้บริบทที่สำคัญสำหรับนักวิจัยในการทำความเข้าใจความสามารถ ข้อจำกัด และอคติที่อาจเกิดขึ้นของแบบจำลอง มันแสดงถึงการประนีประนอมในทางปฏิบัติ ผลักดันให้เกิดความโปร่งใสสูงสุดภายใต้ข้อจำกัดที่มีอยู่ ควบคู่ไปกับ OSI องค์กรต่างๆ เช่น Open Future กำลังสนับสนุนการเปลี่ยนแปลงในวงกว้างไปสู่แบบจำลอง ‘data-commons’ สำรวจวิธีการสร้างชุดข้อมูลที่ใช้ร่วมกัน จัดหาอย่างมีจริยธรรม และเข้าถึงได้อย่างเปิดเผยสำหรับการฝึก AI ซึ่งช่วยลดอุปสรรคในการเข้าสู่ตลาดและส่งเสริมการพัฒนาร่วมกัน การสร้างและปฏิบัติตามมาตรฐานที่ชัดเจนและผ่านการตรวจสอบจากชุมชนดังกล่าวเป็นขั้นตอนแรกที่จำเป็นในการขจัดหมอกของ ‘openwashing’

ความจำเป็นสำหรับชุมชนวิจัย

นักวิทยาศาสตร์และนักวิจัยไม่ใช่แค่ผู้บริโภคเครื่องมือ AI เท่านั้น พวกเขาเป็นผู้มีส่วนได้ส่วนเสียที่สำคัญในการรับรองว่าเครื่องมือเหล่านี้สอดคล้องกับคุณค่าทางวิทยาศาสตร์ การมีส่วนร่วมอย่างแข็งขันกับคำจำกัดความและมาตรฐานที่กำลังพัฒนา เช่น OSAID 1.0 เป็นสิ่งสำคัญ แต่การดำเนินการต้องไปไกลกว่าแค่การรับรู้:

  • เรียกร้องความโปร่งใส: ในสิ่งพิมพ์ ข้อเสนอโครงการวิจัย และการเลือกเครื่องมือ นักวิจัยควรจัดลำดับความสำคัญและเรียกร้องความโปร่งใสมากขึ้นเกี่ยวกับแบบจำลอง AI ที่พวกเขาใช้ ซึ่งรวมถึงการผลักดันให้มี ‘data information’ cards หรือ datasheets โดยละเอียดประกอบการเปิดตัวแบบจำลอง
  • สนับสนุนความเปิดกว้างอย่างแท้จริง: มีส่วนร่วมอย่างแข็งขัน ใช้ และอ้างอิงโครงการเช่น OLMo หรือโครงการริเริ่มอื่นๆ ที่แสดงให้เห็นถึงความมุ่งมั่นอย่างแท้จริงในการเปิดเผยโค้ด ข้อมูล และระเบียบวิธี การลงคะแนนด้วยการดาวน์โหลดและการอ้างอิงเป็นการส่งสัญญาณตลาดที่ทรงพลัง
  • พัฒนามาตรฐานการประเมิน: ชุมชนต้องการวิธีการและรายการตรวจสอบที่แข็งแกร่งสำหรับการประเมิน ระดับ ความเปิดกว้างของแบบจำลอง AI ก้าวข้ามป้ายกำกับที่เรียบง่าย กระบวนการตรวจสอบโดยผู้ทรงคุณวุฒิ (peer review) ควรสอดแทรกการตรวจสอบข้ออ้างด้านความโปร่งใสที่เกี่ยวข้องกับเครื่องมือ AI ที่ใช้ในการวิจัย
  • สนับสนุนภายในสถาบัน: ส่งเสริมให้มหาวิทยาลัย สถาบันวิจัย และสมาคมวิชาชีพนำนโยบายที่สนับสนุนหรือกำหนดให้ใช้เครื่องมือและแพลตฟอร์ม AI ที่เปิดกว้างและโปร่งใสอย่างแท้จริง

ชุมชนวิทยาศาสตร์มีอิทธิพลอย่างมาก โดยการยืนหยัดร่วมกันในมาตรฐานที่รักษาความสามารถในการทำซ้ำ ความโปร่งใส และการเข้าถึงร่วมกัน นักวิจัยสามารถผลักดันข้อกล่าวอ้างที่ทำให้เข้าใจผิดและช่วยกำหนดระบบนิเวศ AI ที่เอื้อต่อการค้นพบทางวิทยาศาสตร์ที่เข้มงวด

นโยบาย การระดมทุน และเส้นทางข้างหน้า

รัฐบาลและหน่วยงานให้ทุนสาธารณะยังมีอำนาจอย่างมากในการกำหนดภูมิทัศน์ AI นโยบายของพวกเขาสามารถรับรอง ‘openwashing’ โดยปริยาย หรือส่งเสริมความเปิดกว้างอย่างแท้จริงอย่างแข็งขัน

  • ข้อบังคับสำหรับความเปิดกว้าง: สถาบันต่างๆ เช่น สถาบันสุขภาพแห่งชาติของสหรัฐอเมริกา (NIH) มีข้อบังคับที่กำหนดให้มีการอนุญาตแบบเปิดและการแบ่งปันข้อมูลสำหรับการวิจัยที่พวกเขาสนับสนุนอยู่แล้ว การขยายหลักการที่คล้ายกันไปยังแบบจำลอง AI และชุดข้อมูลที่พัฒนาด้วยเงินสาธารณะเป็นขั้นตอนที่สมเหตุสมผลและจำเป็น หากกองทุนสาธารณะสนับสนุนการพัฒนา AI ผลลัพธ์ควรเข้าถึงได้แบบสาธารณะและตรวจสอบได้ในระดับสูงสุดเท่าที่จะเป็นไปได้
  • อำนาจการจัดซื้อจัดจ้าง: หน่วยงานภาครัฐเป็นผู้บริโภคเทคโนโลยีรายใหญ่ โดยการระบุข้อกำหนดสำหรับ AI โอเพนซอร์สอย่างแท้จริง (ปฏิบัติตามมาตรฐานเช่น OSAID) ในสัญญาจัดซื้อจัดจ้างภาครัฐ รัฐบาลสามารถสร้างแรงจูงใจทางการตลาดที่สำคัญสำหรับบริษัทต่างๆ ในการนำแนวทางปฏิบัติที่โปร่งใสมากขึ้นมาใช้ ข้อกำหนดของอิตาลีสำหรับซอฟต์แวร์โอเพนซอร์สในการบริหารราชการแผ่นดินเสนอแม่แบบที่เป็นไปได้
  • การลงทุนในโครงสร้างพื้นฐานแบบเปิด: นอกเหนือจากกฎระเบียบแล้ว การลงทุนสาธารณะในโครงการริเริ่ม ‘data commons’ ทรัพยากรการคำนวณแบบเปิดสำหรับนักวิจัย และแพลตฟอร์มที่อุทิศให้กับการโฮสต์และประเมินแบบจำลอง AI ที่เปิดกว้างอย่างแท้จริงอาจเป็นการเปลี่ยนแปลง สิ่งนี้สามารถช่วยปรับระดับสนามแข่งขันและให้ทางเลือกที่เป็นไปได้แก่ระบบที่เป็นกรรมสิทธิ์หรือกึ่งเปิด
  • ความร่วมมือระดับโลก: เนื่องจากลักษณะระดับโลกของการพัฒนา AI ความร่วมมือระหว่างประเทศในการกำหนดและส่งเสริมมาตรฐาน AI โอเพนซอร์สจึงเป็นสิ่งจำเป็นเพื่อหลีกเลี่ยงการแตกแยกด้านกฎระเบียบและรับรองพื้นฐานที่สอดคล้องกันของความโปร่งใสและความรับผิดชอบทั่วโลก

คันโยกนโยบาย เมื่อนำมาใช้อย่างรอบคอบ สามารถเปลี่ยนแรงจูงใจจากการติดฉลากที่หลอกลวงไปสู่แนวทางปฏิบัติที่สนับสนุนความซื่อสัตย์ทางวิทยาศาสตร์และนวัตกรรมในวงกว้างอย่างแท้จริง การต่อสู้กับภาพลวงตา ‘โอเพนซอร์ส’ ใน AI ต้องอาศัยความพยายามร่วมกัน นักวิจัยต้องเป็นนักวิจารณ์ที่ระมัดระวัง เรียกร้องความโปร่งใสที่จำเป็นสำหรับความเข้มงวดทางวิทยาศาสตร์ หน่วยงานกำหนดมาตรฐานเช่น OSI ต้องดำเนินการปรับปรุงคำจำกัดความที่สะท้อนถึงลักษณะเฉพาะของ AI ต่อไป และผู้กำหนดนโยบายต้องใช้อิทธิพลของตนเพื่อจูงใจและบังคับใช้แนวทางปฏิบัติที่สอดคล้องกับประโยชน์สาธารณะในปัญญาประดิษฐ์ที่ตรวจสอบได้ น่าเชื่อถือ และเข้าถึงได้ วิถีในอนาคตของ AI ในวิทยาศาสตร์—ไม่ว่าจะเป็นพรมแดนที่เปิดกว้างอย่างแท้จริงสำหรับการค้นพบ หรือภูมิทัศน์ที่ครอบงำโดยระบบองค์กรที่ไม่โปร่งใส—แขวนอยู่บนความสมดุล