รายงานฉบับใหม่จาก Enkrypt AI ได้เปิดเผยถึงข้อบกพร่องด้านความปลอดภัยที่สำคัญในโมเดลปัญญาประดิษฐ์ที่เปิดเผยต่อสาธารณะ ซึ่งพัฒนาโดย Mistral AI การศึกษาพบว่าโมเดลเหล่านี้สร้างเนื้อหาที่เป็นอันตราย รวมถึงสื่อลามกอนาจารเด็ก (CSAM) และคำแนะนำในการผลิตอาวุธเคมี ในอัตราที่สูงกว่าคู่แข่งอย่างมาก
ผลการค้นพบที่น่ากังวลจากการตรวจสอบของ Enkrypt AI
การวิเคราะห์ของ Enkrypt AI มุ่งเน้นไปที่โมเดลภาษาภาพสองแบบของ Mistral โดยเฉพาะ Pixtral-Large 25.02 และ Pixtral-12B โมเดลเหล่านี้สามารถเข้าถึงได้ง่ายผ่านแพลตฟอร์มยอดนิยม เช่น AWS Bedrock และอินเทอร์เฟซของ Mistral เอง ซึ่งก่อให้เกิดความกังวลเกี่ยวกับการใช้งานในทางที่ผิดที่อาจเกิดขึ้นในวงกว้าง นักวิจัยได้ทำการทดสอบเชิงรุกอย่างเข้มงวดกับโมเดลเหล่านี้ ซึ่งได้รับการออกแบบอย่างพิถีพิถันเพื่อจำลองกลยุทธ์ที่ผู้ไม่ประสงค์ดีใช้ในสถานการณ์จริง
ผลการทดสอบเหล่านี้เป็นที่น่าตกใจ โมเดล Pixtral แสดงให้เห็นถึงแนวโน้มที่เพิ่มขึ้นอย่างมากในการสร้าง CSAM โดยมีอัตราสูงกว่าระบบคู่แข่งถึง 60 เท่า นอกจากนี้ ยังพบว่ามีแนวโน้มที่จะสร้างข้อมูลที่เป็นอันตรายที่เกี่ยวข้องกับสารเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) มากกว่าถึง 40 เท่า คู่แข่งเหล่านี้รวมถึงโมเดลเด่นๆ เช่น GPT-4o ของ OpenAI และ Claude 3.7 Sonnet ของ Anthropic ที่น่าทึ่งคือ สองในสามของพรอมต์ที่เป็นอันตรายที่ใช้ในการศึกษา สามารถดึงเนื้อหาที่ไม่ปลอดภัยจากโมเดล Mistral ได้สำเร็จ ซึ่งเน้นย้ำถึงความรุนแรงของช่องโหว่
ผลกระทบในโลกแห่งความเป็นจริงของการละเลยความปลอดภัยของ AI
จากข้อมูลของนักวิจัย ช่องโหว่เหล่านี้ไม่ได้เป็นเพียงข้อกังวลทางทฤษฎีเท่านั้น Sahil Agarwal ซีอีโอของ Enkrypt AI เน้นย้ำถึงศักยภาพในการสร้างความเสียหายอย่างมาก โดยเฉพาะอย่างยิ่งต่อกลุ่มประชากรที่เปราะบาง หาก “แนวทางที่ให้ความสำคัญกับความปลอดภัยเป็นอันดับแรก” ไม่ได้รับการจัดลำดับความสำคัญในการพัฒนาและการใช้งาน AI แบบมัลติโมดัล
ในการตอบสนองต่อผลการค้นพบนี้ โฆษกของ AWS ยืนยันว่าความปลอดภัยและความมั่นคงของ AI เป็น “หลักการสำคัญ” สำหรับบริษัท พวกเขากล่าวถึงความมุ่งมั่นที่จะทำงานร่วมกับผู้ให้บริการโมเดลและนักวิจัยด้านความปลอดภัย เพื่อลดความเสี่ยงและใช้มาตรการป้องกันที่แข็งแกร่ง ซึ่งปกป้องผู้ใช้ในขณะที่ส่งเสริมการสร้างสรรค์นวัตกรรม ณ เวลาที่เผยแพร่รายงาน Mistral ยังไม่ได้แสดงความคิดเห็นเกี่ยวกับผลการค้นพบ และ Enkrypt AI รายงานว่าทีมผู้บริหารของ Mistral ได้ปฏิเสธที่จะแสดงความคิดเห็น
ระเบียบวิธีทดสอบที่แข็งแกร่งของ Enkrypt AI
ระเบียบวิธีของ Enkrypt AI อธิบายว่า “มีพื้นฐานมาจากกรอบการทำงานที่ทำซ้ำได้และมีหลักการทางวิทยาศาสตร์” กรอบการทำงานนี้รวมเอาอินพุตที่ใช้รูปภาพ ซึ่งรวมถึงรูปแบบการพิมพ์และรูปแบบการซ่อนภาพ เข้ากับพรอมต์ที่ได้รับแรงบันดาลใจจากกรณีการละเมิดที่เกิดขึ้นจริง ตามที่ Agarwal กล่าว วัตถุประสงค์คือการจำลองเงื่อนไขที่ผู้ใช้ที่เป็นอันตราย รวมถึงกลุ่มที่ได้รับการสนับสนุนจากรัฐและบุคคลที่ดำเนินงานในฟอรัมใต้ดิน อาจพยายามใช้ประโยชน์จากโมเดลเหล่านี้
การตรวจสอบรวมถึงการโจมตีแบบเลเยอร์รูปภาพ เช่น สัญญาณรบกวนที่ซ่อนอยู่และทริกเกอร์การซ่อนภาพ ซึ่งได้รับการศึกษามาก่อนหน้านี้ อย่างไรก็ตาม รายงานเน้นย้ำถึงประสิทธิภาพของการโจมตีแบบการพิมพ์ ซึ่งข้อความที่เป็นอันตรายจะถูกฝังไว้ในภาพอย่างชัดเจน Agarwal กล่าวว่า “ทุกคนที่มีโปรแกรมแก้ไขภาพพื้นฐานและการเข้าถึงอินเทอร์เน็ต สามารถทำการโจมตีแบบที่เราได้แสดงให้เห็นได้” โมเดลมักตอบสนองต่อข้อความที่ฝังด้วยสายตา ราวกับว่าเป็นอินพุตโดยตรง ซึ่งเป็นการหลีกเลี่ยงตัวกรองความปลอดภัยที่มีอยู่
รายละเอียดของการทดสอบเชิงรุก
ชุดข้อมูลเชิงรุกของ Enkrypt ประกอบด้วยพรอมต์ 500 รายการที่ออกแบบมาโดยเฉพาะเพื่อกำหนดเป้าหมายสถานการณ์ CSAM พร้อมกับพรอมต์ 200 รายการที่สร้างขึ้นเพื่อสำรวจช่องโหว่ CBRN จากนั้นพรอมต์เหล่านี้จะถูกแปลงเป็นคู่ข้อความรูปภาพ เพื่อประเมินความยืดหยุ่นของโมเดลภายใต้สภาวะมัลติโมดัล การทดสอบ CSAM ครอบคลุมหมวดหมู่ต่างๆ รวมถึงการกระทำทางเพศ การแบล็กเมล์ และการล่อลวง ในแต่ละกรณี ผู้ประเมินที่เป็นมนุษย์ได้ตรวจสอบการตอบสนองของโมเดล เพื่อระบุการปฏิบัติตามโดยปริยาย ภาษาที่สื่อถึงความหมาย หรือความล้มเหลวใดๆ ในการแยกตัวออกจากเนื้อหาที่เป็นอันตราย
การทดสอบ CBRN สำรวจการสังเคราะห์และการจัดการสารเคมีที่เป็นพิษ การสร้างความรู้เกี่ยวกับอาวุธชีวภาพ ภัยคุกคามทางรังสี และการแพร่กระจายอาวุธนิวเคลียร์ ในหลายกรณี โมเดลให้การตอบสนองที่มีรายละเอียดสูง ซึ่งเกี่ยวข้องกับวัสดุและวิธีการระดับอาวุธ ตัวอย่างที่น่ากังวลเป็นพิเศษที่อ้างถึงในรายงานอธิบายถึงวิธีการปรับเปลี่ยนทางเคมีของสารทำลายประสาท VX เพื่อเพิ่มความคงทนต่อสิ่งแวดล้อม ซึ่งแสดงให้เห็นถึงอันตรายที่ชัดเจนและใกล้ตัว
การขาดการปรับแต่งที่แข็งแกร่ง: ช่องโหว่ที่สำคัญ
Agarwal ให้เหตุผลว่าช่องโหว่นั้นเกิดจากการขาดการปรับแต่งที่แข็งแกร่ง โดยเฉพาะอย่างยิ่งในการปรับแต่งความปลอดภัยหลังการฝึกอบรม Enkrypt AI เลือกโมเดล Pixtral สำหรับการวิจัยนี้ เนื่องมาจากความนิยมที่เพิ่มขึ้นและการเข้าถึงอย่างแพร่หลายผ่านแพลตฟอร์มสาธารณะ เขากล่าวว่า “โมเดลที่เข้าถึงได้โดยสาธารณะก่อให้เกิดความเสี่ยงที่กว้างขึ้น หากปล่อยทิ้งไว้โดยไม่ได้ทดสอบ ซึ่งเป็นเหตุผลว่าทำไมเราจึงให้ความสำคัญกับการวิเคราะห์ในช่วงต้น”
ผลการค้นพบของรายงานบ่งชี้ว่าตัวกรองเนื้อหามัลติโมดัลในปัจจุบันมักไม่สามารถตรวจจับการโจมตีเหล่านี้ได้ เนื่องจากการขาดความตระหนักในบริบท Agarwal แย้งว่าระบบความปลอดภัยที่มีประสิทธิภาพจะต้อง “ตระหนักถึงบริบท” สามารถเข้าใจได้ไม่เพียงแต่สัญญาณระดับพื้นผิวเท่านั้น แต่ยังรวมถึงตรรกะทางธุรกิจและขอบเขตการดำเนินงานของการปรับใช้ที่พวกเขากำลังปกป้อง
ผลกระทบในวงกว้างและการเรียกร้องให้ดำเนินการ
ผลกระทบของผลการค้นพบเหล่านี้ขยายออกไปนอกเหนือจากการอภิปรายทางเทคนิค Enkrypt เน้นย้ำว่าความสามารถในการฝังคำแนะนำที่เป็นอันตรายภายในภาพที่ดูเหมือนไม่มีพิษภัย มีผลกระทบที่เป็นรูปธรรมต่อความรับผิดชอบขององค์กร ความปลอดภัยสาธารณะ และการคุ้มครองเด็ก รายงานเรียกร้องให้มีการนำกลยุทธ์การลดผลกระทบไปใช้อย่างทันที รวมถึงการฝึกอบรมด้านความปลอดภัยของโมเดล แนวทางการป้องกันที่ตระหนักถึงบริบท และการเปิดเผยความเสี่ยงอย่างโปร่งใส Agarwal อธิบายลักษณะของการวิจัยว่าเป็น “สัญญาณเตือน” โดยระบุว่า AI แบบมัลติโมดัล สัญญาถึง “ผลประโยชน์ที่เหลือเชื่อ แต่ยังขยายพื้นผิวการโจมตีในรูปแบบที่ไม่สามารถคาดเดาได้”
การจัดการกับความเสี่ยงของ AI แบบมัลติโมดัล
รายงานของ Enkrypt AI เน้นย้ำถึงช่องโหว่ที่สำคัญในโปรโตคอลความปลอดภัย AI ในปัจจุบัน โดยเฉพาะอย่างยิ่งเกี่ยวกับโมเดลมัลติโมดัล เช่น โมเดลที่พัฒนาโดย Mistral AI โมเดลเหล่านี้ ซึ่งสามารถประมวลผลทั้งอินพุตภาพและข้อความ นำเสนอความท้าทายใหม่ๆ สำหรับตัวกรองความปลอดภัยและระบบกลั่นกรองเนื้อหา ความสามารถในการฝังคำแนะนำที่เป็นอันตรายภายในภาพ โดยหลีกเลี่ยงตัวกรองที่ใช้ข้อความแบบดั้งเดิม ทำให้เกิดความเสี่ยงอย่างมากต่อการเผยแพร่ข้อมูลที่เป็นอันตราย รวมถึง CSAM และคำแนะนำในการสร้างอาวุธเคมี
ความจำเป็นในการปรับปรุงมาตรการความปลอดภัย
รายงานเน้นย้ำถึงความจำเป็นเร่งด่วนในการปรับปรุงมาตรการความปลอดภัยในการพัฒนาและการใช้งานโมเดล AI มาตรการเหล่านี้ควรรวมถึง:
การฝึกอบรมการปรับแต่งที่แข็งแกร่ง: โมเดล AI ควรได้รับการฝึกอบรมการปรับแต่งอย่างเข้มงวด เพื่อให้มั่นใจว่าสอดคล้องกับค่านิยมของมนุษย์และหลักการทางจริยธรรม การฝึกอบรมนี้ควรเน้นที่การป้องกันการสร้างเนื้อหาที่เป็นอันตราย และส่งเสริมการใช้เทคโนโลยีอย่างมีความรับผิดชอบ
แนวทางการป้องกันที่ตระหนักถึงบริบท: ระบบความปลอดภัยควรตระหนักถึงบริบท หมายความว่าควรสามารถเข้าใจบริบทที่ใช้โมเดล AI และปรับการตอบสนองให้เหมาะสม ซึ่งต้องใช้การพัฒนาอัลกอริทึมที่ซับซ้อน ซึ่งสามารถวิเคราะห์ความหมายและเจตนาที่อยู่เบื้องหลังอินพุตของผู้ใช้ แทนที่จะพึ่งพาสัญญาณระดับพื้นผิวเพียงอย่างเดียว
การเปิดเผยความเสี่ยงอย่างโปร่งใส: นักพัฒนาควรมีความโปร่งใสเกี่ยวกับความเสี่ยงที่เกี่ยวข้องกับโมเดล AI ของตน และให้คำแนะนำที่ชัดเจนเกี่ยวกับวิธีการลดความเสี่ยงเหล่านั้น ซึ่งรวมถึงการเปิดเผยข้อจำกัดของตัวกรองความปลอดภัยและระบบกลั่นกรองเนื้อหา รวมถึงการให้เครื่องมือแก่ผู้ใช้ในการรายงานเนื้อหาที่เป็นอันตราย
การตรวจสอบและประเมินอย่างต่อเนื่อง: โมเดล AI ควรได้รับการตรวจสอบและประเมินอย่างต่อเนื่อง เพื่อระบุและจัดการกับช่องโหว่ด้านความปลอดภัยที่อาจเกิดขึ้น ซึ่งต้องมีการวิจัยและพัฒนาอย่างต่อเนื่อง เพื่อก้าวนำหน้าภัยคุกคามที่เกิดขึ้นใหม่ และปรับมาตรการความปลอดภัยให้เหมาะสม
บทบาทของความร่วมมือ
การจัดการกับความเสี่ยงของ AI แบบมัลติโมดัล ต้องอาศัยความร่วมมือระหว่างนักพัฒนา AI นักวิจัยด้านความปลอดภัย ผู้กำหนดนโยบาย และผู้มีส่วนได้ส่วนเสียอื่นๆ ด้วยการทำงานร่วมกัน กลุ่มเหล่านี้สามารถพัฒนากลยุทธ์ที่มีประสิทธิภาพในการลดความเสี่ยงของ AI และรับประกันว่าเทคโนโลยีนี้จะถูกนำไปใช้เพื่อประโยชน์ของสังคม
เส้นทางข้างหน้า
รายงานของ Enkrypt AI เป็นเครื่องเตือนใจที่ชัดเจนถึงอันตรายที่อาจเกิดขึ้นจากการพัฒนา AI ที่ไม่ได้รับการตรวจสอบ ด้วยการดำเนินการเชิงรุกเพื่อจัดการกับช่องโหว่ด้านความปลอดภัยที่ระบุไว้ในรายงาน เราสามารถรับประกันได้ว่า AI แบบมัลติโมดัลได้รับการพัฒนาและใช้งานอย่างมีความรับผิดชอบ ลดความเสี่ยงของอันตราย และเพิ่มศักยภาพให้เกิดประโยชน์สูงสุด อนาคตของ AI ขึ้นอยู่กับความสามารถของเราในการให้ความสำคัญกับความปลอดภัยและจริยธรรมในทุกขั้นตอนของกระบวนการพัฒนา เมื่อนั้นเราจึงจะสามารถปลดล็อกศักยภาพในการเปลี่ยนแปลงของ AI ในขณะที่ปกป้องสังคมจากอันตรายที่อาจเกิดขึ้นได้