ภารกิจที่ยากลำบากของการจัดหาข้อมูลทางจริยธรรม
การเดินทางสู่โอเอซิสแห่ง AI ที่มีจริยธรรมนี้ไม่ใช่เรื่องง่ายเลย นักวิจัยยอมรับว่าคอขวดที่แท้จริงไม่ใช่พลังการประมวลผล แต่เป็นความพยายามของมนุษย์อย่างแท้จริง กระบวนการประกอบ Common Pile v0.1 ซึ่งเป็นชุดข้อมูลขนาดใหญ่ที่เกินแปดเทราไบต์ ต้องการการทำความสะอาดด้วยตนเองอย่างพิถีพิถันและการจัดรูปแบบใหม่เพื่อให้เหมาะสำหรับการฝึก AI ลองนึกภาพการร่อนผ่านกองข้อมูลดิจิทัลที่ไม่มีที่สิ้นสุด ค้นหาข้อผิดพลาดใดๆ ที่อาจทำให้ชุดข้อมูลเสียหาย
แต่ความท้าทายที่แท้จริงอยู่ที่การตรวจสอบสถานะลิขสิทธิ์อย่างพิถีพิถัน ในขอบเขตที่วุ่นวายของอินเทอร์เน็ต การให้ใบอนุญาตที่ไม่ถูกต้องเป็นเรื่องปกติ ทำให้การตรวจสอบลิขสิทธิ์กลายเป็นงานที่ไม่มีวันสิ้นสุด
"นี่ไม่ใช่สิ่งที่คุณสามารถเพิ่มทรัพยากรที่คุณมีได้" Stella Biderman ผู้ร่วมเขียนงานวิจัยกล่าวกับ WaPo "เราใช้เครื่องมืออัตโนมัติ แต่ทุกอย่างของเราได้รับการอธิบายประกอบด้วยตนเองในตอนท้ายของวันและตรวจสอบโดยผู้คน และนั่นเป็นเรื่องยากจริงๆ"
กระบวนการร่อนข้อมูลหลายเทราไบต์เพื่อค้นหาปัญหาลิขสิทธิ์ไม่ใช่เรื่องง่าย นักวิจัยไม่สามารถเพิ่มชิปคอมพิวเตอร์ให้กับกระบวนการนี้ได้ และหวังว่าจะได้วิธีแก้ปัญหา แต่พวกเขาจำเป็นต้องตรวจสอบและใส่คำอธิบายประกอบข้อมูลทั้งหมดด้วยตนเอง
ชัยชนะเหนือความทุกข์ยาก: การกำเนิดของ AI ที่มีจริยธรรม
แม้จะมีอุปสรรคที่น่าเกรงขาม Biderman และทีมงานที่ทุ่มเทของเธอได้ persevered เมื่อภารกิจที่ยากลำบากในการสร้าง Common Pile เสร็จสมบูรณ์ พวกเขาได้ปลดปล่อยศักยภาพเพื่อฝึก Large Language Model (LLM) ที่มีพารามิเตอร์เจ็ดพันล้านรายการ AI ที่ได้ไม่เพียงแต่ยึดมั่นในเกณฑ์มาตรฐานของอุตสาหกรรมเช่น Meta’s Llama 1 และ Llama 2 7B เท่านั้น แต่ยังทำเช่นนั้นด้วยจิตสำนึกทางจริยธรรมที่สะอาด
แต่ภูมิทัศน์การวิจัย AI พัฒนาไปอย่างรวดเร็วราวกับกระสุนปืน สิ่งสำคัญคือต้องจำไว้ว่า Meta ได้เปิดตัว Llama 1 และ Llama 2 เมื่อสองสามปีก่อนซึ่งเป็นนิรันดรในโลกของ AI
ความจริงที่ว่าทีมงานที่คล่องตัวและมุ่งมั่นสามารถบรรลุผลลัพธ์ที่เทียบเคียงได้ด้วยทรัพยากรที่จำกัดเป็นเครื่องพิสูจน์ถึงความเฉลียวฉลาดของพวกเขา สิ่งที่ได้รับแรงบันดาลใจเป็นพิเศษคือขุมทรัพย์หนังสือภาษาอังกฤษกว่า 130,000 เล่มใน Library of Congress ที่ถูกมองข้ามไปก่อนหน้านี้
น้ำขุ่นของ AI และลิขสิทธิ์
ลิขสิทธิ์ยังคงเป็นปัญหาทางจริยธรรมและกฎหมายที่ยุ่งยากในยุคของ AI ยักษ์ใหญ่ในอุตสาหกรรมเช่น OpenAI และ Google ได้สะสมชุดข้อมูลจำนวนมากโดยการกลืนทุกสิ่งในสายตาตั้งแต่บทความข่าวไปจนถึงโพสต์โซเชียลมีเดียส่วนตัว การปฏิบัตินี้ได้รับการวิพากษ์วิจารณ์จากทุกฝ่าย ผู้เขียนยังได้ยื่นฟ้องร้อง โดยกล่าวหาว่ามีการใช้หนังสือที่มีลิขสิทธิ์อย่างผิดกฎหมายเพื่อฝึกอบรมโมเดล AI
อุตสาหกรรมเทคโนโลยีอ้างว่าการปฏิบัติดังกล่าวถือเป็นการใช้งานโดยชอบธรรม โดยอ้างว่าการพัฒนา AI จะ "เป็นไปไม่ได้" หากไม่สามารถเข้าถึงข้อมูลได้อย่างอิสระ การวิจัยล่าสุดนี้เป็นการตำหนิการเล่าเรื่องของ Silicon Valley อย่างเจ็บแสบ
แม้ว่าความสำเร็จนี้จะเป็นก้าวสำคัญไปข้างหน้า แต่ก็ไม่ได้ขจัดข้อควรพิจารณาด้านจริยธรรมทั้งหมด โมเดลภาษาขนาดใหญ่ที่มีศักยภาพในการแทนที่คนงานที่เป็นมนุษย์ยังคงก่อให้เกิดคำถามพื้นฐานเกี่ยวกับอนาคตของแรงงาน นอกจากนี้ การใช้งานผลงานในรูปแบบสาธารณสมบัติอาจไม่เป็นที่พอใจสำหรับทุกคน โดยเฉพาะอย่างยิ่งผู้ที่มีส่วนร่วมในการสร้างสรรค์ที่กำลังถูก AI ถ่ายทอดซ้ำ
แม้แต่ในอนาคตสมมุติที่บริษัท AI ถูกบังคับให้ขออนุญาตหรือให้ค่าตอบแทนสำหรับการใช้ข้อมูล ผู้ถือลิขสิทธิ์ก็ยังอาจเผชิญกับแรงกดดันที่ไม่สมควรที่จะอนุญาตให้ฝึก AI ทรัพยากรจำนวนมหาศาลที่สามารถนำมาใช้เมื่อฝึกอบรมโมเดล AI หมายความว่าผู้ถือลิขสิทธิ์ส่วนใหญ่จะไม่สามารถต้านทานแรงกดดันจาก บริษัท AI ขนาดใหญ่เพื่อให้พวกเขาใช้ข้อมูลได้
สู่ความโปร่งใสและความรับผิดชอบใน AI
Biderman ยังคงมองโลกในแง่ดี เธอไม่มีภาพลวงตาว่า บริษัท อย่าง OpenAI จะยอมรับการจัดหาข้อมูลทางจริยธรรมอย่างกะทันหัน แต่เธอหวังว่างานของเธอจะส่งเสริมความโปร่งใสในการใช้ข้อมูลมากขึ้น ชุดข้อมูลใดที่ใช้ในการฝึกอบรมผลิตภัณฑ์ AI ใด การรู้คำตอบสำหรับคำถามนั้นอาจมีนัยสำคัญสำหรับอนาคตของ AI
"แม้แต่ความโปร่งใสบางส่วนก็มีมูลค่าทางสังคมอย่างมากและมีมูลค่าทางวิทยาศาสตร์ปานกลาง" เธอกล่าวกับ WaPo
ปัจจุบัน ชุดข้อมูลที่แน่นอนที่ใช้ในการฝึกอบรม AI ที่กำหนดไว้นั้นเป็นความลับที่ได้รับการคุ้มครองอย่างใกล้ชิด วิธีเดียวที่จะจำลองโมเดล AI คือการบอกอย่างชัดเจนว่าโมเดล AI ปัจจุบันถูกสร้างขึ้นอย่างไรหรือเพื่อวิศวกรรมย้อนกลับโมเดล AI ซึ่งอาจต้องใช้เวลาและความพยายามอย่างมาก
การเปลี่ยนแปลงกระบวนทัศน์ในการพัฒนา AI
ผลกระทบของการวิจัยนี้ขยายออกไปไกลกว่าขอบเขตของจริยธรรม AI มันแสดงให้เห็นถึงการเปลี่ยนแปลงพื้นฐานในวิธีที่ AI สามารถพัฒนาได้ โดยแสดงให้เห็นว่าข้อควรพิจารณาด้านจริยธรรมและความก้าวหน้าทางเทคโนโลยีไม่จำเป็นต้องเป็นเอกสิทธิ์ซึ่งกันและกัน โดยการให้ความสำคัญกับความโปร่งใส การจัดหาข้อมูลที่รับผิดชอบ และการกำกับดูแลของมนุษย์ เราสามารถสร้างอนาคตที่ AI ให้บริการมนุษยชาติ แทนที่จะเป็นวิธีอื่น
การจัดการกับข้อกังวลด้านจริยธรรมและผลกระทบต่อสังคม
ข้อโต้แย้งของอุตสาหกรรมเทคโนโลยีที่ว่าการใช้ข้อมูลทางจริยธรรมเป็นอุปสรรคที่ผ่านไม่ได้นั้นได้รับการท้าทายอย่างเด็ดขาดแล้ว ความสำเร็จของโครงการนี้เน้นย้ำถึงความเป็นไปได้ในการสร้างโมเดล AI บนพื้นฐานทางจริยธรรมที่มั่นคง อย่างไรก็ตาม มิติทางจริยธรรมของการพัฒนา AI ขยายออกไปไกลกว่าปัญหาลิขสิทธิ์ ผลกระทบทางเศรษฐกิจและสังคมของ AI รวมถึงการแทนที่งานและอคติเชิงอัลกอริทึมเรียกร้องให้มีการพิจารณาอย่างรอบคอบ
ข้อควรพิจารณาด้านจริยธรรมที่ส่งผลกระทบต่อโมเดล AI นั้นนอกเหนือไปจากการจัดหาเท่านั้น เราต้องตรวจสอบด้วยว่าข้อมูลนั้นไม่ได้ทำให้โมเดล AI มีอคติต่อหรือต่อต้านกลุ่มประชากรใด ๆ
การส่งเสริมความโปร่งใสและความรับผิดชอบ
เพื่อส่งเสริมความไว้วางใจและรับรองนวัตกรรมที่รับผิดชอบ อุตสาหกรรม AI จะต้องยอมรับความโปร่งใสและความรับผิดชอบ บริษัท ควรเปิดเผยเกี่ยวกับแหล่งข้อมูลที่ใช้ในการฝึกอบรมโมเดลของตนและวิธีการที่ใช้ในการลดอคติ การตรวจสอบอิสระและการกำกับดูแลภายนอกสามารถเพิ่มความรับผิดชอบและป้องกันการล่มสลายทางจริยธรรมได้
ความโปร่งใสของ AI สามารถนำไปใช้เพื่อตรวจสอบว่าชุดข้อมูลมีการแจกจ่ายที่กว้างเพียงพอเพื่อหลีกเลี่ยงอคติในโมเดล AI หรือไม่ ความรับผิดชอบของ AI สามารถนำไปใช้โดยการตรวจสอบภายนอกเพื่อตรวจสอบการล่มสลายทางจริยธรรมที่อาจเกิดขึ้น
การทำงานร่วมกันและโซลูชันโอเพนซอร์ส
การพัฒนา AI ที่มาจากแหล่งที่มีจริยธรรมต้องอาศัยการทำงานร่วมกันและโซลูชันโอเพนซอร์ส โดยการแบ่งปันชุดข้อมูล วิธีการปฏิบัติ และแนวทางปฏิบัติที่ดีที่สุด นักวิจัยและนักพัฒนาสามารถเร่งความคืบหน้าและจัดการกับความท้าทายของการพัฒนา AI ที่มีจริยธรรมได้ โครงการริเริ่มโอเพนซอร์สยังสามารถเพิ่มศักยภาพให้แก่องค์กรและบุคคลที่มีขนาดเล็กลงเพื่อเข้าร่วมในการปฏิวัติ AI เพื่อให้มั่นใจว่าผลประโยชน์ของเทคโนโลยีนี้จะได้รับการแบ่งปันอย่างเท่าเทียมกันมากขึ้น
สัญญาแห่งอนาคตที่สดใส
การสร้างโมเดล AI ที่ได้รับการฝึกอบรมโดยใช้ข้อมูลที่มาจากแหล่งที่มีจริยธรรมทั้งหมดเป็นตัวแทนของเหตุการณ์สำคัญในการแสวงหา AI ที่มีความรับผิดชอบและเป็นประโยชน์ ความสำเร็จที่ก้าวล้ำนี้ไม่เพียง แต่พิสูจน์ว่าการพัฒนา AI ที่มีจริยธรรมเป็นไปได้ แต่ยังให้แผนงานเพื่อให้ผู้อื่นปฏิบัติตาม ด้วยการยอมรับความโปร่งใส การทำงานร่วมกัน และความมุ่งมั่นต่อหลักการทางจริยธรรม เราสามารถปลดล็อกศักยภาพสูงสุดของ AI ในขณะที่ปกป้องค่านิยมของมนุษย์และส่งเสริมอนาคตที่ยุติธรรมและเท่าเทียมกันมากขึ้น